预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108874810A(43)申请公布日2018.11.23(21)申请号201710325105.8(22)申请日2017.05.10(71)申请人北京京东尚科信息技术有限公司地址100195北京市海淀区杏石口路65号西杉创意园四区11号楼东段1-4层西段1-4层申请人北京京东世纪贸易有限公司(72)发明人李杰安伟佳许斌(74)专利代理机构中原信达知识产权代理有限责任公司11219代理人张一军姜劲(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书9页附图4页(54)发明名称信息采集的方法和装置(57)摘要本发明提供一种信息采集的方法和装置。一种信息采集的方法,包括:接收从处理中心分发的信息采集任务;根据信息采集任务启动一个或多个浏览器进程,并且在启动一个或多个浏览器进程的过程中加载模拟行为模板;从处理中心接收待采集信息的目标网页的统一资源定位符URL;根据所接收的URL,对目标网页进行渲染,并且获得目标网页的页面渲染状态;根据URL的类型,确定是否需要在目标网页上配置所加载的模拟行为模板;响应于确定需要配置模拟行为模板,在目标网页上触发模拟行为模板中所定义的功能;以及对目标网页进行解析并且将解析结果回传到处理中心的云存储。CN108874810ACN108874810A权利要求书1/2页1.一种信息采集的方法,其特征在于,包括:接收从处理中心分发的信息采集任务;根据所述信息采集任务启动一个或多个浏览器进程,并且在启动所述一个或多个浏览器进程的过程中加载模拟行为模板;从所述处理中心接收待采集信息的目标网页的统一资源定位符URL;根据所接收的URL,对所述目标网页进行渲染,并且获得所述目标网页的页面渲染状态;根据所述URL的类型,确定是否需要在所述目标网页上配置所加载的模拟行为模板;响应于确定需要配置所述模拟行为模板,在所述目标网页上触发所述模拟行为模板中所定义的功能;以及对所述目标网页进行解析并且将解析结果回传到所述处理中心。2.根据权利要求1所述的方法,其特征在于,所述模拟行为模板包括下述中的一个或多个:页面下拉、滚动效果模板;点击、登录效果模板、以及选择效果模板。3.根据权利要求1所述的方法,其特征在于,所述模拟行为模板是由信息采集装置预定义的模板。4.根据权利要求1所述的方法,其特征在于,所述模拟行为模板是用户自定义的模板。5.根据权利要求1所述的方法,其特征在于,通过采用插件可插拔式方式将所述模拟行为模板以插件的形式注入到所述一个或多个浏览器进程,来加载所述模拟行为模板。6.根据权利要求1所述的方法,其特征在于,对所述目标网页进行解析并且将解析结果回传到所述处理中心包括:对所述目标网页进行模板适配,以与使得所述目标网页与信息采集装置定义的模板相匹配;根据所述目标网页的不同URL类型,选择对所述目标网页进行解析所使用的规则,并使用所选择的规则对所述目标网页进行解析;以及,基于所述规则生成解析结果,并且将所述解析结果回传到所述处理中心。7.一种信息采集装置,其特征在于,包括:统一资源定位符URL下载模块,用于下载待采集信息的目标网页的URL并且获得所述目标网页的渲染状态,所述URL下载模块包括:浏览器池管理模块,用于接收从处理中心分发到所述URL下载模块的信息采集任务,根据所述信息采集任务启动一个或多个浏览器进程,并且在启动所述一个或多个浏览器进程的过程中加载模拟行为模板;URL输入模块,用于从所述处理中心接收所述目标网页的所述URL;以及页面渲染状态获取模块,用于根据所接收的所述URL,对所述目标网页进行渲染,并且获取所述目标网页的页面渲染状态;模拟行为模板配置模块,用于根据所接收的URL的类型,确定是否需要在所述目标网页上配置所述模拟行为模板,以及响应于确定需要配置所述模拟行为模板,在所述目标网页上触发所述模拟行为模板中所定义的功能;以及解析模板模块,用于对所述目标网页进行解析并且将解析结果回传到所述处理中心。8.根据权利要求7所述的信息采集装置,其特征在于,所述模拟行为模板包括下述中的一个或多个:页面下拉、滚动效果模板;点击、登录效果模板、以及选择效果模板。9.根据权利要求7所述的信息采集装置,其特征在于,所述模拟行为模板是所述信息采2CN108874810A权利要求书2/2页集装置预定义的模板。10.根据权利要求7所述的信息采集装置,其特征在于,所述模拟行为模板是用户自定义的模板。11.根据权利要求7所述的信息采集装置,其特征在于,所述浏览器池管理模块通过采用插件可插拔式方式将所述模拟行为模板以插件的形式注入到所述一个或多个浏览器进程,来加载所述模拟行为模板。12.根据权利要求1所述的信息采集装置,其特征在于,所