预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113704590A(43)申请公布日2021.11.26(21)申请号202111038706.3(22)申请日2021.09.06(71)申请人挂号网(杭州)科技有限公司地址311200浙江省杭州市萧山区萧山经济技术开发区明星路371号3幢23层2303室(72)发明人翁佳瑞(74)专利代理机构北京品源专利代理有限公司11332代理人李礼(51)Int.Cl.G06F16/951(2019.01)权利要求书2页说明书11页附图4页(54)发明名称网页数据获取方法、装置、电子设备及存储介质(57)摘要本发明实施例公开了一种网页数据获取方法、装置、电子设备及存储介质,该方法包括:当接收到服务端发送的数据获取请求时,确定与所述数据获取请求相对应的待编辑配置项;为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合;其中,所述请求参数为所述数据获取请求中所携带的参数;基于所述插件运行所述目标操作指令集合中的各个操作指令,跳转至至少一个目标访问页面;基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,并将所述待反馈数据发送至所述服务端。本发明实施例的技术方案,使用户可以控制浏览器行为,并为爬虫脚本的运行创造了真实用户的浏览器环境,保证了数据爬取的成功率。CN113704590ACN113704590A权利要求书1/2页1.一种网页数据获取方法,其特征在于,应用于浏览器中的插件,包括:当接收到服务端发送的数据获取请求时,确定与所述数据获取请求相对应的待编辑配置项;为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合;其中,所述请求参数为所述数据获取请求中所携带的参数;基于所述插件运行所述目标操作指令集合中的各个操作指令,跳转至至少一个目标访问页面;基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,并将所述待反馈数据发送至所述服务端。2.根据权利要求1所述的方法,其特征在于,还包括:向所述服务端发送通信连接请求;当接收到所述服务端反馈的响应信息时,与所述服务端建立基于WebSocket协议的通信通道。3.根据权利要求1所述的方法,其特征在于,所述当接收到服务端发送的数据获取请求时,确定与所述数据获取请求相对应的待编辑配置项,包括:当接收到所述服务端发送的数据获取请求时,提取所述数据获取请求中所携带的数据获取参数,其中,所述数据获取参数包括所述目标访问网页的地址;根据所述数据获取参数与所述浏览器插件中配置项的对应关系,确定与所述数据获取参数相对应的待编辑配置项。4.根据权利要求1所述的方法,其特征在于,所述为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合,包括:基于所述数据获取参数的字段对各待编辑配置项的字段进行赋值,得到目标操作指令集合中与各待编辑配置项相对应的目标操作指令。5.根据权利要求1所述的方法,其特征在于,所述基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,包括:调用预先编写的基于JavaScript的目标脚本,对所述目标访问页面进行解析,得到全体数据;基于所述目标脚本中的数据提取方法,从所述全体数据中提取出所述待反馈数据。6.根据权利要求5所述的方法,其特征在于,所述基于所述目标脚本中的数据提取方法,从所述全体数据中提取出所述待反馈数据,包括:根据所述数据获取脚本中的数据获取方法,确定与所述数据获取方法相对应的数据返回值,并将所述数据返回值作为所述待反馈数据;其中,所述待反馈数据包括结构化数据和/或非结构化数据。7.根据权利要求1‑6任一所述的方法,其特征在于,所述将所述待反馈数据发送至所述服务端,包括:通过所述目标访问页面与浏览器之间的通信管道回传所获取的数据;基于WebSocket协议将回传的数据发送至所述服务端,并将数据存储于目标存储库中。8.一种网页数据获取装置,其特征在于,包括:待编辑配置项确定模块,用于当接收到服务端发送的数据获取请求时,确定与所述数2CN113704590A权利要求书2/2页据获取请求相对应的待编辑配置项;目标操作指令集合确定模块,用于为所述待编辑配置项配置请求参数,得到与所述数据获取请求相对应的目标操作指令集合;其中,所述请求参数为所述数据获取请求中所携带的参数;目标访问页面跳转模块,用于基于浏览器插件运行所述目标操作指令集合中的各个操作指令,跳转至至少一个目标访问页面;待反馈数据爬取模块,用于基于目标脚本爬取与所述目标访问页面相对应的待反馈数据,并将所述待反馈数据发送至所述服务端。9.一种电子设备,其特征在于,所述电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行