预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113987315A(43)申请公布日2022.01.28(21)申请号202111202924.6(22)申请日2021.10.15(71)申请人深圳TCL新技术有限公司地址518052广东省深圳市南山区西丽街道中山园路1001号国际E城D4栋9楼(72)发明人张超炯(74)专利代理机构深圳紫藤知识产权代理有限公司44570代理人魏学昊(51)Int.Cl.G06F16/951(2019.01)G06F16/9535(2019.01)G06F11/30(2006.01)权利要求书2页说明书8页附图2页(54)发明名称数据采集方法、装置、存储介质及电子设备(57)摘要本申请公开了一种数据采集方法、装置、存储介质及电子设备,涉及互联网技术领域,该方法包括:当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码;接收所述云端返回的字符串形式的所述爬虫代码;将所述爬虫代码转换为匹配目标网页的脚本代码块;将所述脚本代码块注入所述目标网页中进行数据采集。本申请有效避免网页规则变动时导致的数据采集失效问题,提升数据采集可靠性。CN113987315ACN113987315A权利要求书1/2页1.一种数据采集方法,其特征在于,应用于目标应用,包括:当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码;接收所述云端返回的字符串形式的所述爬虫代码;将所述爬虫代码转换为匹配目标网页的脚本代码块;将所述脚本代码块注入所述目标网页中进行数据采集。2.根据权利要求1所述的方法,其特征在于,所述向云端发送代码获取请求之前,所述方法还包括:获取所述目标网页中的网页规则变动信息;根据所述网页规则变动信息确定是否需要获取更新的爬虫代码;当确定需要获取更新的爬虫代码时,生成所述代码获取请求。3.根据权利要求1所述的方法,其特征在于,所述脚本代码块标定有特定标记;所述将所述脚本代码块注入所述目标网页中进行数据采集,包括:检测所述目标网页中是否存在所述特定标记对应的预设脚本代码块;当所述目标网页中不存在所述特定标记对应的预设脚本代码块时,将所述脚本代码块注入所述目标网页中进行数据采集。4.根据权利要求2所述的方法,其特征在于,所述生成所述代码获取请求,包括:获取所述目标应用对应的应用信息;生成携带所述应用信息的所述代码获取请求,所述应用信息用于所述云端确定所述目标应用匹配的所述爬虫代码。5.根据权利要求4所述的方法,其特征在于,所述获取所述目标应用对应的应用信息,包括:将所述目标网页中的网页规则变动信息发送至特定授权终端,以使得所述特定授权终端基于所述网页规则变动信息进行爬取规则解析,生成所述网页规则变动信息匹配的代码授权信息;接收所述代码授权信息,作为所述目标应用对应的应用信息。6.根据权利要求4所述的方法,其特征在于,所述获取所述目标应用匹配的应用信息,包括:获取所述目标应用的应用描述信息,作为所述目标应用匹配的应用信息。7.根据权利要求4至6任一项所述的方法,其特征在于,所述向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码,包括:向所述云端发送携带所述应用信息的所述获取请求,以触发所述云端确定所述应用信息对应的爬虫代码,作为所述目标应用匹配的所述爬虫代码。8.一种数据采集装置,其特征在于,应用于目标应用,所述装置包括:发送模块,用于当接收到数据采集指令,向云端发送代码获取请求,以触发所述云端确定所述目标应用匹配的爬虫代码;接收模块,用于接收所述云端返回的字符串形式的所述爬虫代码;转换模块,用于将所述爬虫代码转换为匹配目标网页的脚本代码块;注入模块,用于将所述脚本代码块注入所述目标网页中进行数据采集。2CN113987315A权利要求书2/2页9.一种存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序被计算机的处理器执行时,使计算机执行权利要求1至7任一项所述的方法。10.一种电子设备,其特征在于,包括:存储器,存储有计算机程序;处理器,读取存储器存储的计算机程序,以执行权利要求1至7任一项所述的方法。3CN113987315A说明书1/8页数据采集方法、装置、存储介质及电子设备技术领域[0001]本申请涉及互联网技术领域,具体涉及一种数据采集方法、装置、存储介质及电子设备。背景技术[0002]在以Android移动端为例的设备端中通常具有通过合法的爬虫代码抓取采集网页中数据的需求,通常通过制定对应网页的爬取规则的爬虫代码进行注入而采集数据,如果相应网页做了更新等,则需要更新相应的爬虫代码。[0003]常规处理方案中,在设备端将爬虫代码内置于应用(app)内,如果应用对应的网页的网页