网页抓取方法及装置-豆柴文库

网页抓取方法及装置.pdf

2024-01-06

10金币

1MB

28页

子安****吖吖

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共28页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108197125A(43)申请公布日2018.06.22(21)申请号201611121344.3(22)申请日2016.12.08(71)申请人腾讯科技（深圳）有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人程志峰邱柏宇(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人朱雅男(51)Int.Cl.G06F17/30(2006.01)A63F13/35(2014.01)A63F13/60(2014.01)A63F13/77(2014.01)权利要求书5页说明书15页附图7页(54)发明名称网页抓取方法及装置(57)摘要本发明公开了一种网页抓取方法及装置，属于计算机网络领域。所述方法包括：抓取游戏网站上的目标网页页面；根据目标网页页面的网页源代码，识别H5游戏对应的网页页面；对H5游戏对应的网页页面进行动态渲染，得到渲染后的网页页面；渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明通过网页源代码识别出H5游戏对应的网页页面，使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息，避免了抓取结果需要大量人工来筛选和信息提取的问题，达到了根据网页的源代码准确识别H5游戏对应的网页页面，进行从网页页面中提取游戏详情信息，从而提高提取过程的效率和准确率的效果。CN108197125ACN108197125A权利要求书1/5页1.一种网页抓取方法，其特征在于，所述方法包括：抓取游戏网站上的目标网页页面；根据所述目标网页页面的网页源代码，识别H5游戏对应的网页页面；对所述H5游戏对应的网页页面进行动态渲染，得到渲染后的网页页面；从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息；其中，所述游戏详情信息包括游戏名、游戏图标、游戏运行图片、游戏详情、游戏运行地址、游戏类型中的至少一种。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标网页页面的网页源代码，识别H5游戏对应的网页页面，包括：检测所述目标网页页面的网页源代码是否符合预定条件；若所述网页源代码符合所述预定条件，则将所述网页页面识别为所述H5游戏对应的网页页面；其中，所述预定条件中的至少一种条件：所述网页页面的主题名称与预设游戏关键字匹配；和/或，携带有采用预定渲染技术的代码，所述预定渲染技术包括canvas和WebGL中的至少一种；和/或，携带有预定游戏引擎对应的代码，所述预定游戏引擎包括Egret白鹭引擎，cocos2dx-js引擎，GameMakerStudio引擎，Construct2引擎中的至少一个。3.根据权利要求2所述的方法，其特征在于，所述预定条件包括至少两种条件；检测所述目标网页页面的网页源代码是否符合预定条件，包括：检测所述目标网页页面的网页源代码是否符合第i种条件；根据检测结果和如下公式计算所述网页源代码是所述H5游戏对应的网页页面的概率值：检测所述概率值是否大于预设阈值；若所述概率值大于所述预设阈值，则确定所述网页源代码符合所述预定条件；其中，y表示所述概率值，ai表示第i种所述条件对应的权值，当所述网页源代码符合所述第i种条件时，bi的取值为大于0的预定值，当所述网页源代码不符合所述第i种条件时，bi的取值为0，1≤n≤N，N为所述预定条件的个数。4.根据权利要求1所述的方法，其特征在于，所述抓取游戏网站上的目标网页页面，包括：通过网络爬虫抓取所述游戏网站的第一层URL对应的第一网页页面；从所述第一网页页面中获取第二层URL，所述第二层URL是与游戏分类对应的URL；通过所述网络爬虫抓取所述第二层URL对应的第二网页页面；从所述第二网页页面中获取第三层URL，所述第三层URL包括与所述H5游戏对应的URL；通过所述网络爬虫抓取所述第三层URL对应的第三网页页面，将所述第三网页页面确定为所述目标网页页面。2CN108197125A权利要求书2/5页5.根据权利要求4所述的方法，其特征在于，所述通过所述网络爬虫抓取所述第二层URL对应的第二网页页面之后，还包括：从所述第二网页页面中提取所述游戏名和游戏简介信息；将所述游戏简介信息添加至与所述游戏名对应的所述游戏详情信息中。6.根据权利要求1所述的方法，其特征在于，所述从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息，包括：根据预先设置的数据采集规则，采集所述渲染后的网页页面中与所述数据采集规则匹配的网页数据；对所述网页数据进行数据挖掘，获取所述H5游戏对应的游戏详情信息；和/或，根据预先训练出的机器学习模型，从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息；和/或，对所述渲染后的网页页面进行视觉分析，检测所述渲染后的网页

相关资料

网页抓取方法及装置.pdf

本发明公开了一种网页抓取方法及装置，属于计算机网络领域。所述方法包括：抓取游戏网站上的目标网页页面；根据目标网页页面的网页源代码，识别H5游戏对应的网页页面；对H5游戏对应的网页页面进行动态渲染，得到渲染后的网页页面；渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明通过网页源代码识别出H5游戏对应的网页页面，使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息，避免了抓取结果需要大量人工来筛选和信息提取的问题，达到了根据网页的源代码准确识别H5游戏对应的网页页面，进行从网页页面中提

2024-01-06

1MB

一种网页抓取方法及装置.pdf

本发明涉及网络信息处理技术领域，提供了一种网页抓取方法及装置，其中，该方法包括：获取网页的抓取周期，计算得出再次抓取该网页的时间；确定再次抓取该网页的时间早于当前时间的网页，将该网页重新加入待抓取的网页队列；从待抓取的网页队列中再次进行网页抓取。通过本发明解决了现有技术中开源网络爬虫只能对网页进行单次抓取的情况下，需要定时重新抓取网页进行网页更新导致的无法自动适应网页更新频率的问题，从而可以不断调整各个网页的抓取周期，实现了网页的及时更新，降低了重抓大量未更新网页而带来的成本，提高了搜索引擎的及时性。

2023-12-07

806KB

一种抓取网页的方法和装置.pdf

一种抓取网页的方法和装置，包括如下步骤：（1）根据新链接的关键词和URL地址，计算所述新链接URL地址的关键词的权重值；（2）将关键词按照权重值生成关键词列表；（3）从关键词列表中提取关键词放置到指定页面里；（4）根据关键词抓取页面。本发明所提出的方案通过内链接的平衡性，提高了搜索引擎的网页抓取率。

2024-01-03

1.3MB

抓取装置及抓取方法.pdf

本申请涉及一种抓取装置及抓取方法。抓取装置包括基准夹爪、辅助夹爪和驱动机构，所述基准夹爪沿第一方向设置有第一支撑部和第二支撑部，所述第一支撑部和所述第二支撑部分别用于与产品所述第二方向一端的外壁抵接，所述第二方向与第一方向相互垂直；所述辅助夹爪靠近所述基准夹爪的一侧设置有第三支撑部，所述第三支撑部用于与所述产品所述第二方向另一端的外壁抵接，所述第三支撑部位于所述第一支撑部和所述第二支撑部连接线的中垂线上；所述驱动机构驱动所述基准夹爪和所述辅助夹爪沿第二方向相互靠近或远离。该抓取装置和抓取方法能够缓解产品夹

2023-06-03

813KB

网页视频抓取的方法及网页视频抓取的终端设备.pdf

本发明实施例提供一种网页视频抓取的方法及终端设备设备。所述方法所述方法包括：收集各个频道的相关信息，根据所述收集的各个频道的相关信息计算各个频道的热度；收集各个频道的视频的发布时间，建立视频更新的时间表；根据所述各个频道的热度和所述视频更新的时间表计算各个频道的视频下次更新时间；根据所述各个频道的视频下次更新时间确定所述各个频道的视频的抓取时间；按照所述确定的各个频道的视频的抓取时间抓取所述各个频道的视频。本发明实施例提供的方案根据所述各个视频的抓取时间来抓取所述各个频道的视频，视频抓取的时效性高，而且在

2023-12-06

504KB