网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径,网站针对搜索引擎爬虫的优化曾风靡一时。

网络爬虫的基本工作流程如下:
1.首先选取一部分精心挑选的种子URL;
2.将这些URL放入待抓取URL队列;
3.从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。此外,将这些URL放进已抓取URL队列。
4.分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环。
当然,上面说的那些我都不懂,以我现在的理解,我们请求一个网址,服务器返回给我们一个超级大文本,而我们的浏览器可以将这个超级大文本解析成我们说看到的华丽的页面
那么,我们只需要把这个超级大文本看成一个足够大的String 字符串就OK了。
下面是我的代码
package main.spider;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
/**
* Created by 1755790963 on 2017/3/10.
*/
public class Second {
public static void main(String[] args) throws IOException {
System.out.println("begin");
Document document = Jsoup.connect("http://tieba.baidu.com/p/2356694991").get();
String selector="div[class=d_post_content j_d_post_content clearfix]";
Elements elements = document.select(selector);
for (Element element:elements){
String word= element.text();
if(word.indexOf("@")>0){
word=word.substring(0,word.lastIndexOf("@")+7);
System.out.println(word);
}
System.out.println(word);
}
}
}
我在这里使用了apache公司所提供的jsoup jar包,jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
在代码里,我们可以直接使用Jsoup类,并.出Jsoup的connect()方法,这个方法返回一个org.jsoup.Connection对象,参数则是网站的url地址,Connection对象有一个get()方法返回Document对象
document对象的select方法可以返回一个Elements对象,而Elements对象正式Element对象的集合,但select()方法需要我们传入一个String参数,这个参数就是我们的选择器
String selector="div[class=d_post_content j_d_post_content clearfix]";
我们的选择器语法类似于jquery的选择器语法,可以选取html页面中的元素,选择好后,就可以便利Elements集合,通过Element的text()方法获取html中的代码
这样,一个最简单的网络爬虫就写完了。
我选择的网址是 豆瓣网,留下你的邮箱,我会给你发邮件 这样一个百度贴吧,我扒的是所有人的邮箱地址
附上结果:
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持!
# 网络爬虫案例
# 爬虫案例解析
# 教你如何编写简单的网络爬虫
# 使用Python编写简单网络爬虫抓取视频下载资源
# 使用scrapy实现爬网站例子和实现网络爬虫(蜘蛛)的步骤
# 以Python的Pyspider为例剖析搜索引擎的网络爬虫实现方法
# Java实现爬虫给App提供数据(Jsoup 网络爬虫)
# 基于Java HttpClient和Htmlparser实现网络爬虫代码
# python3使用urllib模块制作网络爬虫
# python使用rabbitmq实现网络爬虫示例
# Python网络爬虫实例讲解
# Android编写简单的网络爬虫
# 被称为
# 选择器
# 类似于
# 的是
# 互联网
# 是一种
# 给你
# 我会
# 我都
# 我现在
# 则是
# 已被
# 只需
# 不懂
# 给我们
# 要把
# 我们可以
# 并将
# 这样一个
# 应用于
相关文章:
音响网站制作视频教程,隆霸音响官方网站?
如何高效搭建专业期货交易平台网站?
单页制作网站有哪些,朋友给我发了一个单页网站,我应该怎么修改才能把他变成自己的呢,请求高手指点迷津?
建站之星代理费用多少?最新价格详情介绍
c++怎么实现高并发下的无锁队列_c++ std::atomic原子变量与CAS操作【详解】
浙江网站制作公司有哪些,浙江栢塑信息技术有限公司定制网站做的怎么样?
大连 网站制作,大连天途有线官网?
建站主机是什么?如何选择适合的建站主机?
建站主机选哪种环境更利于SEO优化?
公司门户网站制作公司有哪些,怎样使用wordpress制作一个企业网站?
电商网站制作价格怎么算,网上拍卖流程以及规则?
如何通过FTP服务器快速搭建网站?
教程网站设计制作软件,怎么创建自己的一个网站?
宁波自助建站系统如何快速打造专业企业网站?
如何获取免费开源的自助建站系统源码?
如何快速生成高效建站系统源代码?
如何通过老薛主机一键快速建站?
常州自助建站:操作简便模板丰富,企业个人快速搭建网站
实现虚拟支付需哪些建站技术支撑?
岳西云建站教程与模板下载_一站式快速建站系统操作指南
香港代理服务器配置指南:高匿IP选择、跨境加速与SEO优化技巧
外汇网站制作流程,如何在工商银行网站上做外汇买卖?
视频网站制作教程,怎么样制作优酷网的小视频?
如何登录建站主机?访问步骤全解析
平台云上自主建站:模板化设计与智能工具打造高效网站
C++如何将C风格字符串(char*)转换为std::string?(代码示例)
建站IDE高效指南:快速搭建+SEO优化+自适应模板全解析
最好的网站制作公司,网购哪个网站口碑最好,推荐几个?谢谢?
如何通过服务器快速搭建网站?完整步骤解析
简历在线制作网站免费,免费下载个人简历的网站是哪些?
购物网站制作费用多少,开办网上购物网站,需要办理哪些手续?
哪家制作企业网站好,开办像阿里巴巴那样的网络公司和网站要怎么做?
建站之星上传入口如何快速找到?
网站制作说明怎么写,简述网页设计的流程并说明原因?
如何在西部数码注册域名并快速搭建网站?
如何快速搭建支持数据库操作的智能建站平台?
历史网站制作软件,华为如何找回被删除的网站?
建站之星如何防范黑客攻击与数据泄露?
做企业网站制作流程,企业网站制作基本流程有哪些?
如何用已有域名快速搭建网站?
如何在七牛云存储上搭建网站并设置自定义域名?
如何通过VPS建站实现广告与增值服务盈利?
如何设置并定期更换建站之星安全管理员密码?
英语简历制作免费网站推荐,如何将简历翻译成英文?
网站制作新手教程,新手建设一个网站需要注意些什么?
Android自定义控件实现温度旋转按钮效果
如何用搬瓦工VPS快速搭建个人网站?
如何选择高效响应式自助建站源码系统?
阿里云网站制作公司,阿里云快速搭建网站好用吗?
上海网站制作网站建设公司,建筑电工证网上查询系统入口?
*请认真填写需求信息,我们会在24小时内与您取得联系。