预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110457559A(43)申请公布日2019.11.15(21)申请号201910717426.1(22)申请日2019.08.05(71)申请人深圳乐信软件技术有限公司地址518000广东省深圳市南山区粤海街道科苑南路3099号中国储能大厦第24层(72)发明人肖淋峰吴志坚(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F16/951(2019.01)权利要求书1页说明书6页附图3页(54)发明名称分布式数据爬取系统、方法和存储介质(57)摘要本发明公开了一种分布式数据爬取系统、方法和存储介质。本发明提供的系统包括:主节点和至少一个从节点;所述主节点用于管理各所述从节点,并将接收到的爬取任务发送给各所述从节点;各所述从节点中包括爬虫框架,所述从节点用于在所述爬虫框架下根据接收的爬取任务爬取数据。本发明实施例的技术方案,通过主节点获取爬取任务并将爬取任务分配至从节点,从节点根据爬取任务进行数据爬取,实现了数据爬取请求的及时响应,减少了由于系统唤醒的时间延迟,避免了分布式爬取系统因为空转导致的性能浪费,降低了能源消耗。CN110457559ACN110457559A权利要求书1/1页1.一种分布式数据爬取系统,其特征在于,所述系统包括:主节点和至少一个从节点;所述主节点用于管理各所述从节点,并将接收到的爬取任务发送给各所述从节点;各所述从节点中包括爬虫框架,所述从节点用于在所述爬虫框架下根据接收的爬取任务爬取数据。2.根据权利要求1所述的方法,其特征在于,所述分布式数据爬取系统还包括有中间件,所述第一中间件位于主节点,用于发送主节点接收的爬取任务,所述第二中间件位于从节点,用于接收主节点发送的爬取任务。3.根据权利要求1所述的方法,其特征在于,所述主节点存储有路由信息表,主机点还用于根据所述路由信息表管理各所述从节点。4.一种分布式数据爬取方法,其特征在于,所述方法包括:主节点检测到爬取任务时,获取存储的路由信息表;主节点根据所述路由信息表将所述爬取任务分配至从节点;所述从节点根据接收的所述爬取任务爬取数据。5.根据权利要求4所述的方法,其特征在于,所述主节点检测到爬取任务,包括:主节点对数据接口进行检测;若检测所述数据接口内存在爬取地址,则确定主节点检测到爬取任务,将所述爬取地址作为爬取任务,否则,确定主节点未检测到爬取任务。6.根据权利要求4所述的方法,其特征在于,所述路由信息表包括各所述从节点的地址信息。7.根据权利要求4所述的方法,其特征在于,所述主节点根据所述路由信息表将所述爬取任务分配至从节点,包括:主节点获取所述爬取任务的目标爬取地址,并生成所述目标爬取地址的哈希值;主节点确定所述哈希值与所述路由信息表中从节点的数量取模运算结果;主节点将所述路由信息表中具有与所述取模运算结果相同数值序号对应的从节点作为目标从节点,将所述爬取任务分配至目标从节点。8.根据权利要求4所述的方法,其特征在于,所述从节点根据所述爬取任务爬取数据,包括:从节点基于中间件接收主节点发送的爬取任务;从节点中的爬虫框架根据爬取任务访问目标网页,并在所述目标网页中爬取数据。9.根据权利要求4的方法,其特征在于,所述方法还包括:从节点在接收爬取任务后,控制爬虫框架启动。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求4-9中任一所述的分布式数据爬取方法。2CN110457559A说明书1/6页分布式数据爬取系统、方法和存储介质技术领域[0001]本发明实施例涉及计算机应用技术领域,尤其涉及一种分布式数据爬取系统、方法和存储介质。背景技术[0002]随着大数据时代的到来,数据变得越加宝贵。如何获取数据成为业界研究的重点,现有在网络中获取数据的方法包括固定任务的批量爬取和未知任务的实时爬取。[0003]在未知任务的实时爬取中,需要大批量的获取爬取任务,单节点爬取无法承受这种情况下的任务量,常需要采用scrapy爬虫框架和redis存储的方式实现分布式数据爬取系统,但是这种架构的分布式爬取系统由于任务未知,爬虫系统常处于空转状态,造成了性能和资源浪费,如果任务请求突然到达,分布式爬虫系统的唤醒存在延迟,不能实时响应任务请求,导致实时性降低。发明内容[0004]本发明提供一种分布式数据爬取系统、方法和存储介质,以实现任务请求的及时响应,节约系统资源,降低额外能源消耗。[0005]第一方面,本发明实施例提供了一种分布式数据爬取系统,该系统包括:[0006]主节点和至少一个从节点;[0007]所述主节点用于管理各所述从节点,并将接收到的爬取任务发送给各所述从节点;[0008]各所述从节点中