预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共43页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

搜索引擎基本原理及实现技术搜索引擎的工作原理通用的网络爬虫的框架爬虫技术总体介绍: (一)网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。 网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。 网络爬虫还要完成信息提取任务,对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对于MP3、图片、Flash等各种不同内容,要实现自动识别、自动分类及相关属性测试(例如:MP3文件要包含的文件大小,下载速度等属性)。(二)抓取对象: 1.静态网页:爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 2.动态网页:分析动态网页参数,按照一定规章,“拼”出所有要被抓取内容URL,只抓取这些特定范围内动态网页。 3.特殊内容:比如RSS、XML数据,情况特殊需特殊处理。如新闻的滚动新闻页面,需要爬虫不停地监控扫描,发现新内容马上就进行抓取。 4.文件对象:图片,MP3、Flash、视频等文件的抓取,都要特殊处理。比如说:图片抓取出来后,要知道图片文件类型、图片文件的大小、图片的像素大小,还要转换出来缩略图。爬虫分类优秀爬虫的特性禁止爬虫的几种情况Content标签对应的具体含义网页抓取策略宽(广)度优先策略深度优先策略PageRank简介非完全PageRank策略OPIC策略大站优先策略网页更新策略历史参考策略用户体验策略聚类抽样策略聚类抽样策略分布式抓取系统结构主从式基本结构对等式工作结构暗网抓取网络爬虫的实现链接的存储网页抓取getElementById(Stringid)用id获得元素 getElementsByTag(Stringtag)用标签获得元素 getElementsByClass(StringclassName)用class获得元素 getElementsByAttribute(Stringkey)用属性获得元素 用下面方法获得元素的数据: attr(Stringkey)获得元素的数据 attr(Stringkey,Stringvalue)t设置元素数据 attributes()获得所以属性 id(),className()classNames()获得idclass得值 text()获得文本值 text(Stringvalue)设置文本值 html()获取html html(Stringvalue)设置html outerHtml()获得内部html try{ doc=Jsoup .connect(urlStr) .userAgent( "Mozilla/5.0(Windows;U;WindowsNT5.1;zh-CN;rv:1.9.2.15)")//设置User-Agent .timeout(5000)//设置连接超时时间 .get(); }catch(MalformedURLExceptione){ log.error(e); return; }catch(IOExceptione){ if(einstanceofSocketTimeoutException){ log.error(e); return; } if(einstanceofUnknownHostException){ log.error(e); return; } log.error(e); return; }system.out.println(doc.title()); Elementhead=doc.head(); Elementsmetas=head.select("meta"); for(Elementmeta:metas){ Stringcontent=meta.attr("content"); Elementbody=doc.body(); Elementses=body.select("a"); for(Iterator<Element>it=es.iterator();it.hasNext();){ Elemente=(Element)it.next(); href=e.attr("href"); } 链接提取<iframeid="ifNews"scrolling="no"allowtransparency="true"frameborder="0"src="http://news.cqut.edu.cn/service/CqutXw" height="135"></iframe>提高爬虫效率实例说明主要步骤break; }catch(Exceptionex){ counts++; continue; } } 2)种子页面要获取的内容包含标题、正文文本、超链接