一种抓取网页的方法和装置-豆柴文库

一种抓取网页的方法和装置.pdf

2024-01-03

10金币

1.3MB

10页

王秋****哥哥

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN103279492A*(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103279492103279492A(43)申请公布日2013.09.04(21)申请号201310154941.6(22)申请日2013.04.28(71)申请人乐视网信息技术（北京）股份有限公司地址100026北京市海淀区学院南路68号19号楼六层6184号房间(72)发明人孙炜亮(74)专利代理机构北京驰纳智财知识产权代理事务所(普通合伙)11367代理人谢亮唐与芬(51)Int.Cl.G06F17/30(2006.01)权权利要求书1页利要求书1页说明书4页说明书4页附图4页附图4页(54)发明名称一种抓取网页的方法和装置(57)摘要一种抓取网页的方法和装置，包括如下步骤：（1）根据新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；（2）将关键词按照权重值生成关键词列表；（3）从关键词列表中提取关键词放置到指定页面里；（4）根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性，提高了搜索引擎的网页抓取率。CN103279492ACN1032794ACN103279492A权利要求书1/1页1.一种抓取网页的方法，其特征在于，包括如下步骤：（1）根据新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；（2）将关键词按照权重值生成关键词列表；（3）从关键词列表中提取关键词放置到指定页面里；（4）根据关键词抓取页面。2.如权利要求1所述的方法，其中所述步骤（1）中计算所述权重值的公式如下：其中，表示关键词指数；表示关键词竞争度，表示以自然数e为底的关键词竞争度的对数取整；rank表示检索关键词所对应的网站排名。3.如权利要求1所述的方法，还包括步骤：为所有页面建立唯一ID与URL地址的对应表，所述ID为页面的序列号。4.如权利要求3所述的方法，其中所述步骤（3）为取M个关键词放置到指定页面里，M为URL地址列表中的关键承载数量，具体包括：a)首先通过内部建立所有要推送的关键词和URL地址列表；b)通过所述计算权重值公式得到关键词对应的权重值；c)将所有关键词按照权重值倍数生成一个列表，称为关键词总列表，并将所有关键词随机打撒重新排列，再将所有关键词混杂；d)在所述ID与URL地址的对应表中按顺序从所述关键词总列表中按ID顺序抽取M个关键词展示到页面中。5.如权利要求4所述的方法，其中所述步骤d）中，如果超出所述关键词总列表则进行循环处理。6.如权利要求2所述的方法，其中所述的关键词指数为在index.baidu.com中检索关键词得到的一段时期内的日平均检索量值。7.如权利要求2所述的方法，其中所述的关键词竞争度为在指定搜索网站中检索关键词得到的收录数。8.如权利要求4所述的方法，其中还包括步骤：按照权重值定期更新所述关键词列表。9.一种抓取网页的装置，包括：权重计算模块，用于根据得到的全部新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；关键词列表生成模块，用于将关键词按照权重值生成关键词列表；关键词提取模块，从关键词列表中提取关键词放置到指定页面里；页面抓取模块，用于根据关键词抓取页面。10.如权利要求9所述的装置，其中所述权重计算模块计算所述权重值的公式如下：其中，表示关键词指数；表示关键词竞争度，表示以自然数e为底的关键词竞争度的对数取整；rank表示检索关键词所对应的网站排名。2CN103279492A说明书1/4页一种抓取网页的方法和装置技术领域[0001]本发明涉及互联网搜索引擎领域，特别涉及一种抓取网页的方法和装置。背景技术[0002]随着网络的迅速发展，万维网成为大量信息的载体，为有效地提取并利用这些信息，搜索引擎(SearchEngine)作为一个辅助人们检索信息的工具，成为用户访问万维网的入口和指南。[0003]搜索引擎抓取网页是通过自己的网页抓取程序（spider）实现的。Spider顺着网页中的超链接，连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍。理论上，从一定范围的网页出发，就能搜集到绝大多数的网页。搜索引擎抓取网页的方法分为深度优先、宽度优先、权重优先。[0004]深度优先：深度优先搜索是一种在开发爬虫早期使用较多的方法。它的目的是要达到被搜索结构的叶结点(即那些不包含任何超链的HTML文件)。在一个HTML文件中，当一个超链被选择后，被链接的HTML文件将执行深度优先搜索，即在搜索其余的超链结果之前必须先完整地搜索单独的一条链。深度优先搜索沿着HTML文件上的超链走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链。当不再有其他超链可选择时

相关资料

一种抓取网页的方法和装置.pdf

一种抓取网页的方法和装置，包括如下步骤：（1）根据新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；（2）将关键词按照权重值生成关键词列表；（3）从关键词列表中提取关键词放置到指定页面里；（4）根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性，提高了搜索引擎的网页抓取率。

2024-01-03

1.3MB

一种网页抓取方法及装置.pdf

本发明涉及网络信息处理技术领域，提供了一种网页抓取方法及装置，其中，该方法包括：获取网页的抓取周期，计算得出再次抓取该网页的时间；确定再次抓取该网页的时间早于当前时间的网页，将该网页重新加入待抓取的网页队列；从待抓取的网页队列中再次进行网页抓取。通过本发明解决了现有技术中开源网络爬虫只能对网页进行单次抓取的情况下，需要定时重新抓取网页进行网页更新导致的无法自动适应网页更新频率的问题，从而可以不断调整各个网页的抓取周期，实现了网页的及时更新，降低了重抓大量未更新网页而带来的成本，提高了搜索引擎的及时性。

2023-12-07

806KB

网页抓取方法及装置.pdf

本发明公开了一种网页抓取方法及装置，属于计算机网络领域。所述方法包括：抓取游戏网站上的目标网页页面；根据目标网页页面的网页源代码，识别H5游戏对应的网页页面；对H5游戏对应的网页页面进行动态渲染，得到渲染后的网页页面；渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明通过网页源代码识别出H5游戏对应的网页页面，使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息，避免了抓取结果需要大量人工来筛选和信息提取的问题，达到了根据网页的源代码准确识别H5游戏对应的网页页面，进行从网页页面中提

2024-01-06

1MB

一种用于网络爬虫系统的网页内容抓取方法及装置.pdf

本申请的实施例公开了一种用于网络爬虫系统的网页内容抓取方法及装置，所述方法首先构建一IP地址数据库，记录有预设网站的域名及与该域名对应的多个IP地址；然后通过查询所述IP地址数据库，将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。本申请的实施例充分利用了大网站的布局特点，通过域名系统DNS查询工具，获取到各个大网站分布在全国各地的CDN结点的IP地址，或者其提供轮询服务的多个IP地址，然后把这些IP地址对应的服务器作为独立的服务器进行抓取，从而提高了对大

2023-10-15

1.8MB

一种基于双目视觉的快递包裹抓取装置和抓取方法.pdf

本发明公开了一种基于双目视觉的快递包裹抓取方法和装置，方法包括建立坐标系、图像预处理、角点检测、轮廓提取、确定机器人抓取位姿；快递包裹抓取装置，装置支架的顶端安装有双目摄像机，在双目摄像机的下方设置有笼车，笼车的一侧设置有六轴机械臂，六轴机械臂上安装有机械抓手。本发明的有益技术效果是：操作对象为快递包裹，形状基本近似于长方体，装置的主要功能包括图像中的关键点识别、包裹轮廓识别、抓取机器人末端抓取位姿计算、抓取轨迹控制等，实现了功能一体化，节省工作空间，保证操作精度，提升工作的智能化水平，后续可与更大范围的

2023-08-29

1.4MB