预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105824880A(43)申请公布日2016.08.03(21)申请号201610133041.7(22)申请日2016.03.09(71)申请人乐视网信息技术(北京)股份有限公司地址100081北京市海淀区学院南路68号19号楼六层6184房间(72)发明人屈武(74)专利代理机构北京三聚阳光知识产权代理有限公司11250代理人马永芬(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书8页附图5页(54)发明名称一种网页抓取方法及装置(57)摘要本发明涉及网络信息处理技术领域,提供了一种网页抓取方法及装置,其中,该方法包括:获取网页的抓取周期,计算得出再次抓取该网页的时间;确定再次抓取该网页的时间早于当前时间的网页,将该网页重新加入待抓取的网页队列;从待抓取的网页队列中再次进行网页抓取。通过本发明解决了现有技术中开源网络爬虫只能对网页进行单次抓取的情况下,需要定时重新抓取网页进行网页更新导致的无法自动适应网页更新频率的问题,从而可以不断调整各个网页的抓取周期,实现了网页的及时更新,降低了重抓大量未更新网页而带来的成本,提高了搜索引擎的及时性。CN105824880ACN105824880A权利要求书1/2页1.一种网页抓取方法,其特征在于,包括:获取网页的抓取周期,计算得出再次抓取所述网页的时间;确定所述再次抓取所述网页的时间早于当前时间的网页,将所述网页重新加入待抓取的网页队列;从所述待抓取的网页队列中再次进行网页抓取。2.根据权利要求1所述的方法,其特征在于,获取网页的抓取周期包括:获取第一次抓取到所述网页距离当前时间的累积时间;获取所述网页在所述累积时间内发生内容变更的次数;通过计算所述累积时间与所述次数的比值得到所述抓取周期。3.根据权利要求1所述的方法,其特征在于,计算得出再次抓取所述网页的时间包括:获取上一次抓取所述网页的抓取时间;将所述抓取时间与所述抓取周期进行求和运算,得到所述再次抓取所述网页的时间。4.根据权利要求1所述的方法,其特征在于,从所述待抓取的网页队列中再次进行网页抓取之后包括;判断所述再次抓取所述网页的时间是否早于当前时间,在判断结果为是的情况下,将所述再次抓取所述网页的时间更新为一个超大值,并将所述网页重新加入所述待抓取的网页队列。5.根据权利要求2所述的方法,其特征在于,获取所述网页在所述累积时间内发生内容变更的次数包括:获取此次抓取到所述网页的第一SimHash值和上次抓取到所述网页的第二SimHash值;将所述第一SimHash值和所述第二SimHash值使用海明距离算法进行对比,得到对比结果;判断所述对比结果是否大于预定阈值,在判断结果为是的情况下,确定所述网页的内容发生了变更。6.根据权利要求5所述的方法,其特征在于,获取所述网页的SimHash值包括:对所述网页进行分词处理,得到一个n维向量的词数组;对所述词数组进行SimHash运算得到所述网页的SimHash值。7.一种网页抓取装置,其特征在于,包括:获取模块,用于获取网页的抓取周期,计算得出再次抓取所述网页的时间;第一加入模块,用于确定所述再次抓取所述网页的时间早于当前时间的网页,将所述网页重新加入待抓取的网页队列;抓取模块,用于从所述待抓取的网页队列中再次进行网页抓取。8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:第一获取单元,用于获取第一次抓取到所述网页距离当前时间的累积时间;第二获取单元,用于获取所述网页在所述累积时间内发生内容变更的次数;第一计算单元,用于通过计算所述累积时间与所述次数的比值得到所述抓取周期。9.根据权利要求7所述的装置,其特征在于,所述获取模块还包括:第三获取单元,用于获取上一次抓取所述网页的抓取时间;第二计算单元,用于将所述抓取时间与所述抓取周期进行求和运算,得到所述再次抓2CN105824880A权利要求书2/2页取所述网页的时间。10.根据权利要求7所述的装置,其特征在于,所述装置还包括:第二加入模块,用于判断所述再次抓取所述网页的时间是否早于当前时间,在判断结果为是的情况下,将所述再次抓取所述网页的时间更新为一个超大值,并将所述网页重新加入所述待抓取的网页队列。11.根据权利要求8所述的装置,其特征在于,所述第二获取单元包括:获取子单元,用于获取此次抓取到所述网页的第一SimHash值和上次抓取到所述网页的第二SimHash值;对比子单元,用于将所述第一SimHash值和所述第二SimHash值使用海明距离算法进行对比,得到对比结果;确定子单元,用于判断所述对比结果是否大于预定阈值,在判断结果为是的情况下,确定所述网页的内容发生了变更。12.根据权利要求10所述的装置,其特征