预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108197125A(43)申请公布日2018.06.22(21)申请号201611121344.3(22)申请日2016.12.08(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人程志峰邱柏宇(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人朱雅男(51)Int.Cl.G06F17/30(2006.01)A63F13/35(2014.01)A63F13/60(2014.01)A63F13/77(2014.01)权利要求书5页说明书15页附图7页(54)发明名称网页抓取方法及装置(57)摘要本发明公开了一种网页抓取方法及装置,属于计算机网络领域。所述方法包括:抓取游戏网站上的目标网页页面;根据目标网页页面的网页源代码,识别H5游戏对应的网页页面;对H5游戏对应的网页页面进行动态渲染,得到渲染后的网页页面;渲染后的网页页面中提取H5游戏对应的游戏详情信息。本发明通过网页源代码识别出H5游戏对应的网页页面,使得服务器能够从渲染后的该网页页面中提取出H5游戏对应的游戏详情信息,避免了抓取结果需要大量人工来筛选和信息提取的问题,达到了根据网页的源代码准确识别H5游戏对应的网页页面,进行从网页页面中提取游戏详情信息,从而提高提取过程的效率和准确率的效果。CN108197125ACN108197125A权利要求书1/5页1.一种网页抓取方法,其特征在于,所述方法包括:抓取游戏网站上的目标网页页面;根据所述目标网页页面的网页源代码,识别H5游戏对应的网页页面;对所述H5游戏对应的网页页面进行动态渲染,得到渲染后的网页页面;从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息;其中,所述游戏详情信息包括游戏名、游戏图标、游戏运行图片、游戏详情、游戏运行地址、游戏类型中的至少一种。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标网页页面的网页源代码,识别H5游戏对应的网页页面,包括:检测所述目标网页页面的网页源代码是否符合预定条件;若所述网页源代码符合所述预定条件,则将所述网页页面识别为所述H5游戏对应的网页页面;其中,所述预定条件中的至少一种条件:所述网页页面的主题名称与预设游戏关键字匹配;和/或,携带有采用预定渲染技术的代码,所述预定渲染技术包括canvas和WebGL中的至少一种;和/或,携带有预定游戏引擎对应的代码,所述预定游戏引擎包括Egret白鹭引擎,cocos2dx-js引擎,GameMakerStudio引擎,Construct2引擎中的至少一个。3.根据权利要求2所述的方法,其特征在于,所述预定条件包括至少两种条件;检测所述目标网页页面的网页源代码是否符合预定条件,包括:检测所述目标网页页面的网页源代码是否符合第i种条件;根据检测结果和如下公式计算所述网页源代码是所述H5游戏对应的网页页面的概率值:检测所述概率值是否大于预设阈值;若所述概率值大于所述预设阈值,则确定所述网页源代码符合所述预定条件;其中,y表示所述概率值,ai表示第i种所述条件对应的权值,当所述网页源代码符合所述第i种条件时,bi的取值为大于0的预定值,当所述网页源代码不符合所述第i种条件时,bi的取值为0,1≤n≤N,N为所述预定条件的个数。4.根据权利要求1所述的方法,其特征在于,所述抓取游戏网站上的目标网页页面,包括:通过网络爬虫抓取所述游戏网站的第一层URL对应的第一网页页面;从所述第一网页页面中获取第二层URL,所述第二层URL是与游戏分类对应的URL;通过所述网络爬虫抓取所述第二层URL对应的第二网页页面;从所述第二网页页面中获取第三层URL,所述第三层URL包括与所述H5游戏对应的URL;通过所述网络爬虫抓取所述第三层URL对应的第三网页页面,将所述第三网页页面确定为所述目标网页页面。2CN108197125A权利要求书2/5页5.根据权利要求4所述的方法,其特征在于,所述通过所述网络爬虫抓取所述第二层URL对应的第二网页页面之后,还包括:从所述第二网页页面中提取所述游戏名和游戏简介信息;将所述游戏简介信息添加至与所述游戏名对应的所述游戏详情信息中。6.根据权利要求1所述的方法,其特征在于,所述从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息,包括:根据预先设置的数据采集规则,采集所述渲染后的网页页面中与所述数据采集规则匹配的网页数据;对所述网页数据进行数据挖掘,获取所述H5游戏对应的游戏详情信息;和/或,根据预先训练出的机器学习模型,从所述渲染后的网页页面中提取所述H5游戏对应的游戏详情信息;和/或,对所述渲染后的网页页面进行视觉分析,检测所述渲染后的网页