预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103279492A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103279492103279492A(43)申请公布日2013.09.04(21)申请号201310154941.6(22)申请日2013.04.28(71)申请人乐视网信息技术(北京)股份有限公司地址100026北京市海淀区学院南路68号19号楼六层6184号房间(72)发明人孙炜亮(74)专利代理机构北京驰纳智财知识产权代理事务所(普通合伙)11367代理人谢亮唐与芬(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书4页说明书4页附图4页附图4页(54)发明名称一种抓取网页的方法和装置(57)摘要一种抓取网页的方法和装置,包括如下步骤:(1)根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;(2)将关键词按照权重值生成关键词列表;(3)从关键词列表中提取关键词放置到指定页面里;(4)根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性,提高了搜索引擎的网页抓取率。CN103279492ACN1032794ACN103279492A权利要求书1/1页1.一种抓取网页的方法,其特征在于,包括如下步骤:(1)根据新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;(2)将关键词按照权重值生成关键词列表;(3)从关键词列表中提取关键词放置到指定页面里;(4)根据关键词抓取页面。2.如权利要求1所述的方法,其中所述步骤(1)中计算所述权重值的公式如下:其中,表示关键词指数;表示关键词竞争度,表示以自然数e为底的关键词竞争度的对数取整;rank表示检索关键词所对应的网站排名。3.如权利要求1所述的方法,还包括步骤:为所有页面建立唯一ID与URL地址的对应表,所述ID为页面的序列号。4.如权利要求3所述的方法,其中所述步骤(3)为取M个关键词放置到指定页面里,M为URL地址列表中的关键承载数量,具体包括:a)首先通过内部建立所有要推送的关键词和URL地址列表;b)通过所述计算权重值公式得到关键词对应的权重值;c)将所有关键词按照权重值倍数生成一个列表,称为关键词总列表,并将所有关键词随机打撒重新排列,再将所有关键词混杂;d)在所述ID与URL地址的对应表中按顺序从所述关键词总列表中按ID顺序抽取M个关键词展示到页面中。5.如权利要求4所述的方法,其中所述步骤d)中,如果超出所述关键词总列表则进行循环处理。6.如权利要求2所述的方法,其中所述的关键词指数为在index.baidu.com中检索关键词得到的一段时期内的日平均检索量值。7.如权利要求2所述的方法,其中所述的关键词竞争度为在指定搜索网站中检索关键词得到的收录数。8.如权利要求4所述的方法,其中还包括步骤:按照权重值定期更新所述关键词列表。9.一种抓取网页的装置,包括:权重计算模块,用于根据得到的全部新链接的关键词和URL地址,计算所述新链接URL地址的关键词的权重值;关键词列表生成模块,用于将关键词按照权重值生成关键词列表;关键词提取模块,从关键词列表中提取关键词放置到指定页面里;页面抓取模块,用于根据关键词抓取页面。10.如权利要求9所述的装置,其中所述权重计算模块计算所述权重值的公式如下:其中,表示关键词指数;表示关键词竞争度,表示以自然数e为底的关键词竞争度的对数取整;rank表示检索关键词所对应的网站排名。2CN103279492A说明书1/4页一种抓取网页的方法和装置技术领域[0001]本发明涉及互联网搜索引擎领域,特别涉及一种抓取网页的方法和装置。背景技术[0002]随着网络的迅速发展,万维网成为大量信息的载体,为有效地提取并利用这些信息,搜索引擎(SearchEngine)作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南。[0003]搜索引擎抓取网页是通过自己的网页抓取程序(spider)实现的。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍。理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。搜索引擎抓取网页的方法分为深度优先、宽度优先、权重优先。[0004]深度优先:深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中,当一个超链被选择后,被链接的HTML文件将执行深度优先搜索,即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止,然后返回到某一个HTML文件,再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时