预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113918338A(43)申请公布日2022.01.11(21)申请号202111201691.8(22)申请日2021.10.15(71)申请人深圳市和讯华谷信息技术有限公司地址518000广东省深圳市南山区粤海街道高新区社区科技南十二路006号中检大厦14层(72)发明人罗伟东曾祥嵩(74)专利代理机构广东普罗米修律师事务所44615代理人齐则琳(51)Int.Cl.G06F9/50(2006.01)G06F16/951(2019.01)权利要求书2页说明书10页附图3页(54)发明名称分布式数据获取方法以及相关装置(57)摘要本申请适用于数据获取技术领域,提供了一种分布式数据获取方法以及相关装置,旨在实现较低成本情况下帮助用户实现提高对目标网址进行数据获取的速度。分布式数据获取方法应用于分布式主机时,主要包括:确定数据获取任务,所述数据获取任务包括目标关键词、目标网址;将所述数据获取任务拆分为X个数据获取子任务,所述X为大于0的正整数;将所述数据获取子任务分发至所述分布式系统中的从机,以使得所述从机在所述目标网址中完成所述目标关键词的数据获取后返回对应的数据获取子结果;接收所述数据获取子结果;将所述数据获取子结果进行汇总,得到数据获取结果。CN113918338ACN113918338A权利要求书1/2页1.一种分布式数据获取方法,其特征在于,应用于分布式系统中的主机,包括:确定数据获取任务,所述数据获取任务包括目标关键词、目标网址;将所述数据获取任务拆分为X个数据获取子任务,所述X为大于0的正整数;将所述数据获取子任务分发至所述分布式系统中的从机,以使得所述从机在所述目标网址中完成所述目标关键词的数据获取后返回对应的数据获取子结果;接收所述数据获取子结果;将所述数据获取子结果进行汇总,得到数据获取结果。2.根据权利要求1所述的分布式数据获取方法,其特征在于,在将所述数据获取任务拆分为X个数据获取子任务之后,将所述数据获取子任务分发至所述分布式中的从机之前,所述方法还包括:确定所述分布式系统中处于空闲状态的所述从机的空闲从机数量Y,所述Y为大于0的正整数;判断所述Y是否大于或等于X;若所述Y大于或等于所述X,则触发执行将所述数据获取子任务分发至所述分布式中的从机的步骤;若所述Y小于所述X,则创建(X‑Y)台虚拟从机,触发执行将所述数据获取子任务分发至所述分布式中的从机的步骤,所述从机包括所述虚拟从机。3.根据权利要求2所述的分布式数据获取方法,其特征在于,在得到数据获取结果之后,所述方法还包括:将所述数据获取结果存储至数据库,所述数据获取结果与所述目标关键词、所述目标网址、以及当前时间相关联。4.根据权利要求1所述的分布式数据获取方法,其特征在于,在确定数据获取任务之前,所述方法还包括:接收数据获取任务计划,所述数据获取任务计划包括执行时间、以及与所述执行时间对应的一个或多个数据获取任务,所述执行时间为单次时间或周期性时间。5.一种分布式数据获取方法,其特征在于,应用于分布式系统中的从机,包括:接收所述分布式系统中的主机分发的数据获取子任务,所述数据获取子任务包括目标关键词、目标网址;访问所述目标网址;在所述目标网址中获取与所述目标关键词相关的若干目标数据;将若干所述目标数据进行汇总,得到数据获取子结果;向所述主机反馈所述数据获取子结果。6.根据权利要求5所述的分布式数据获取方法,其特征在于,在所述目标网址中获取与所述目标关键词相关的若干目标数据包括:调用预设与所述目标网址对应的数据爬取模板,所述数据爬取模板为针对所述目标网址的内容布局进行配置脚本程序;使用数据爬取模板从所述目标网址中获取与所述目标关键词相关的若干目标数据。7.根据权利要求5所述的分布式数据获取方法,其特征在于,在访问所述目标网址之后,在向所述主机反馈所述数据获取子结果之前,所述方法包括:2CN113918338A权利要求书2/2页向所述主机反馈当前任务状态。8.一种分布式数据获取装置,其特征在于,应用于分布式系统中的主机,包括:确定单元,用于确定数据获取任务,所述数据获取任务包括目标关键词、目标网址;拆分单元,用于将所述数据获取任务拆分为X个数据获取子任务,所述X为大于0的正整数;分发单元,用于将所述数据获取子任务分发至所述分布式系统中的从机,以使得所述从机在所述目标网址中完成所述目标关键词的数据获取后返回对应的数据获取子结果;接收单元,用于接收所述数据获取子结果;汇总单元,用于将所述数据获取子结果进行汇总,得到数据获取结果。9.一种分布式数据获取方法,其特征在于,应用于分布式系统中的从机,包括:接收单元,用于接收所述分布式系统中的主机分发的数据获取子任务,所述数据获取子任