预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第一章绪论1.1背景与意义随着Internet的飞速发展互联网信息呈指数增长。根据中国互联网络信息中心(CNNIC)于2017年8月4日在京发布第40次《中国互联网络发展状况统计报告》[1]数据显示:“截至2017年6月中国网民规模达到7.51亿占全球网民总数的五分之一。互联网普及率为54.3%;截至2017年6月我国IPv4地址数量达到3.38亿个、IPv6地址数量达到21283块/32地址二者总量均居世界第二;中国网站数量为506万个半年增长4.8%。”如此大量的网站中包含着不计其数的网页网页是信息的载体人们一般通过百度、谷歌等通用搜索引擎去从互联网上获取想要的信息。然而利用通用搜索引擎搜索出的信息往往比较宽泛。为了解决这种问题满足特定用户的需求垂直搜索引擎应运而生。垂直搜索引擎针对的是一个特定的行业是通用搜索引擎的细分其将某一领域的网页信息进行整合处理后再以某种形式返回给用户。垂直搜索针引擎对某一领域为特定用户或特定需求提供相关的信息和服务相对于通用搜索引擎其查询更加准确。垂直搜索引擎相较于通用搜索引擎来说专注于某一领域或专业所以显得更加专注、具体及深入。主题网络爬虫又称聚焦爬虫是垂直搜索引擎的重要组成部分所以对主题网络爬虫的研究具有重要的意义。主题网络爬虫是一个自动从互联网上抓取网页的程序它根据预设的主题去访问互联网上与主题相关的链接获取网页信息。通用网络爬虫从若干种子链接开始先抓取种子链接的网页然后从这些网页中抽取新的链接放入待抓取队列中直到满足系统设定的抓取结束条件或者待抓取队列为空。相比之下主题网络爬虫的抓取流程较为复杂抓取的过程中需要根据主题相似度算法预测链接与主题的相关度来决定是否将链接放入待抓取队列中。另外爬虫抓取到的网页会被系统存储然后进行分析、过滤最后建立索引。对于主题网络爬虫来说这一过程的分析结果还能对后续的抓取给出反馈。1.2主题网络爬虫的国内外研究现状ni[2]在WorldWideWeb大会上第一次提出了聚焦爬虫(Focusedcrawler)这一概念并设计并实现了FocusProiect系统[3]。主题爬虫技术一经提出很快获得了国内外专家学者的广泛关注。国内外学者对其进行了深入的研究不仅创新并设计了很多高效的主题识别算法及主题搜索策略并且设计并实现了一些实用的主题爬虫系统。接下来从理论与实现的系统两个方面介绍主题网络爬虫的国内外研究现状。1.2.1主题识别算法及主题搜索策略[4]等人提出利用鱼群算法(Fish-Search算法)来指导爬虫爬行该算法假设主题相关页面逻辑上想接近来搜索主题相关的网页。Shark-Search爬虫[5]该算法是对Fish-Search算法的改进相对于Fish-Search算法利用二值模型来计算主题相关性其根据链接锚文本和网页主题相关内容计算出的相关性值为[0-1]内的值。该算法能提高主题爬虫的召回率。Best-First爬虫[6]由CHOJ等人在1998年提出其主要思想是构建一个待抓取队列按照评价策略对队列中的链接进行评价挑选最好的链接进行抓取。LarryPage和SergeyBrin[7]在20世纪90年代后期发明了PageRank算法其在Google搜索引擎中使用用于衡量特定网页相对于搜索引擎索引中的其他网页的重要程度。Kleinberg博士于1997年首先提出HITS算法通过迭代计算获取到某个最优价值网页。目前这两种算法也是典型的基于链接结构的搜索方法。Diligenti[8]利用“语境图”(ContexGraphs)构造分类器来指导爬虫爬行方向。将会优先访问离主题页面较近的页面认为此部分页面的主题相关度较高。Johnson等人提出基于SVM分类模型引导主题网络爬虫爬行[9]。Rennie等人提出了面向机器学习的自适应算法引导主题网络爬虫爬行[10]核心思想是利用Q(λ)学习算法引导爬虫以最小的代价穿越隧道到达相关页面。Gao等人提出了聚焦协作爬行方法完成地理位置上的主题爬行[11]。Shokouhi等人提出了一种名为Gcrawler[12]的智能爬虫该爬虫利用遗传算法估算最优路径并扩展初始关键词。彭涛等人提出了基于隧道穿越技术的主题爬行方法该方法将爬虫隧道分为黑色隧道和灰色隧道采用用探索方式穿越黑色隧道采用局部分析和网页分块的方法穿越灰色隧道。陈军[13]在2007年提出了一种基于网页分块的的Shark-Search算法该算法以块为基本单位计算链接的相关价值。这种算法能较好的识别噪音链接块。熊忠阳[14]等人在2012年提出一种基于信息自增益的主题爬虫搜索策略。该策略的主要特点是在爬行过程中主题向量能自动学习和更新。主题向量基于维基百科的分类树和主题描述文档构建。1.