预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Nutch的主题爬虫分块技术研究提纲课题研究背景及意义显然,主题相关信息的搜集是主题爬行器的核心。 因此,如何快速爬取出准确的主题相关的信息成为数据挖掘领域研究人员面临的更现实的问题。提纲研究的内容及目标网页分块技术目前许多网页并不表示单一的语义单元,单个网页往往也表达多个主题内容,如下图所示,是新浪bbs的一部分: 在这个页面中,网页作者把四个不相关的主题:房产、家居、汽车、旅游同时放在单个网页上,在视觉上四个主题突出,且相互独立,而各个主题块内部的内容却与本主题相关,并且点开其中任何一个超链接均会链入与本主题相关的网页。 因此,把网页进行分块,判断分块与预定主题(假设是求职信息)是否相关,提取出相关块中的链接,不断的执行抓取循环,就能使爬虫程序收集到与主题相关的网页,而不去采集与主题不相关的网页,进而减少爬虫的计算量,提高爬虫的效率。常用的分块算法将其转化为DOM树如下图所示: 假如有如图页面: 我们的目的是让主题爬虫也能把网页分块成相应的六块。 DOM树的分块算法:网页被下载并保存在本地后,经过预处理,并被解析成一棵DOM树。算法先统计该网页用来布局的容器标签的数量,找到数量最多的容器标签,指定这个标签是用来分块的特征标签,假定这个标签是<table>标签。遍历这棵DOM树,记录所有的<table>标签的信息,找到这棵DOM树的没有子<table>结点的所有table结点的集合,从这个集合的第一个元素开始遍历,如果此table结点无兄弟table结点,则此table结点的父亲table结点成为一个分块,如果此table结点有兄弟结点,则此table结点成为一个分块。基于视觉特征的网页分块算法VIPS(Vision-basedpagesegmentation) VIPS也是将网页解析成一个树状结构,但是它强调网页的视觉效果,也就是说一个内容的位置,比如是在网页的正中还是两边,对VIPS来说,是不一样的,然而对于DOM结构他们是相同的。通过使用一些视觉暗示,比如,文字的颜色,大小,字体等等,VIPS可以有效的保证相关联的内容会在一个块中,而不相关的内容会被有效的分开。 缺点:该方法知识运用的较为模糊,需要人工不断的总结规则,一条规则的加入往往会对已经成功分析的网页产生影响。我的想法---基于VIPS和DOM树分块算法的改进所有子结点并形成一个块,统计此块的大小并记录其位置、颜色、字体等外观信息,如果此块的大小大于某一个预先设定的阈值,则对此TABLE进一步分块。同时,我们还记录每个不是最底层TABLE结点的每个TR结点的信息量,如果此信息量大于某一个阈值,则以此TR结点为单位划分块。提取内容块中的文本信息及链接,进行相关度计算得到优先权值,具有高优先权值的URL要优先安排下载。提纲课题进度安排谢谢!