预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109902220A(43)申请公布日2019.06.18(21)申请号201910145450.2(22)申请日2019.02.27(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人高寻阳(74)专利代理机构深圳市隆天联鼎知识产权代理有限公司44232代理人刘抗美叶虹(51)Int.Cl.G06F16/953(2019.01)G06F9/54(2006.01)权利要求书3页说明书18页附图12页(54)发明名称网页信息获取方法、装置和计算机可读存储介质(57)摘要本公开揭示了一种网页信息获取方法、装置和计算机可读存储介质,包括:轮询所配置的不同监控类型,以进行网页信息的获取;获取为监控类型所配置的站点监控信息;根据地址信息进行网页爬取,获得所对应的页面数据;根据所获得的页面数据确定所对应网页页面的类型,网页页面的类型包括列表页和详情页;在页面数据所对应的网页页面为列表页时,根据页面数据中携带的链接信息获得继续进行网页爬取的地址信息以及进行万个亿爬取,以获得所对应的页面数据;在页面数据所对应的网页页面为详情页时,对页面数据进行关键字匹配处理,以获得在监控站点下与所关注关键字相匹配的网页信息,使网页信息的获取具有高效性。CN109902220ACN109902220A权利要求书1/3页1.一种网页信息获取方法,其特征在于,所述方法包括:轮询所配置的不同监控类型,以进行网页信息的获取;获取为所述监控类型所配置的站点监控信息,所述站点监控信息用于指示所述监控类型下各监控站点的地址信息以及在所述各监控站点关注的关键字;根据所述地址信息进行网页爬取,获得所对应的页面数据;根据所获得的页面数据确定所对应网页页面的类型,所述网页页面的类型包括列表页和详情页;在所述页面数据所对应的网页页面为列表页时,根据所述页面数据中携带的链接信息获取继续进行网页爬取的地址信息,以及进行网页爬取,以获得所对应的页面数据;在所述页面数据所对应的网页页面为详情页时,对所述页面数据进行关键字匹配处理,以获得在所述监控站点下与所关注关键字相匹配的网页信息。2.根据权利要求1所述的方法,其特征在于,所述获取为所述监控类型所配置的站点监控信息之前,所述方法还包括:根据对所述监控类型触发进行的监控站点配置,将为所述监控类型所配置的站点监控信息配置到所述网页信息获取的执行中。3.根据权利要求1所述的方法,其特征在于,所述根据所述地址信息进行网页爬取,获得所对应的页面数据,包括:根据所获取所述站点监控信息中的地址信息和/或根据从列表页中所获得继续进行网页爬取的地址信息生成网络请求任务;将所述网络请求任务添加至请求消息队列中;在所述请求消息队列,对所述网络请求任务执行网页爬取,获得对应于所述网络请求任务的页面数据。4.根据权利要求3所述的方法,其特征在于,所述在所述请求消息队列,对所述网络请求任务执行网页爬取,获得对应于所述网络请求任务的页面数据,包括:对所述请求消息队列中的所述网络请求任务,根据所述网络请求任务中携带的地址信息识别请求爬取的网页页面是否为动态页面;如果请求爬取的网页页面是动态页面,则调用无头浏览器进行网页加载,获得所述动态页面所对应的页面数据。5.根据权利要求4所述的方法,其特征在于,所述动态页面所对应的页面数据包括页面代码信息和动态数据,所述调用无头浏览器进行网页加载,获得所述动态页面所对应的页面数据,包括:根据所述网络请求任务发起网页请求,获得所述动态页面的页面代码信息;调用所述无头浏览器根据所述页面代码信息进行页面加载;在所述无头浏览器所加载的页面上,根据预设的触发信息触发对应的点击事件,所述触发信息用于模拟所述动态页面上可操作页面元素对应的操作;根据所触发的点击事件进行资源请求获得所对应的动态数据。6.根据权利要求3所述的方法,其特征在于,所述在所述请求消息队列,对所述网络请求任务执行网页爬取,获得对应于所述网络请求任务的页面数据,包括:在触发根据所述请求消息队列中的网络请求任务进行网页爬取获得页面数据时,根据2CN109902220A权利要求书2/3页所述站点监控信息的指示调用所预设的代理服务器;通过所述代理服务器根据所述网络请求任务进行网页爬取,获得对应于所述网络请求任务的页面数据。7.根据权利要求1所述的方法,其特征在于,所述在所述页面数据所对应的网页页面为列表页时,根据所述页面数据中携带的链接信息获取继续进行网页爬取的地址信息,包括:在所述页面数据所对应的网页页面为列表页时,识别所述页面数据中携带的链接信息,获得对应于所述监控类型的网页信息链接;将所获得的所述网页信息链接作为继续进行网页爬取的地址信息。