预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105593818A(43)申请公布日2016.05.18(21)申请号201580001459.6(51)Int.Cl.(2006.01)(22)申请日2015.09.22G06F9/46(30)优先权数据14/506,5002014.10.03US(85)PCT国际申请进入国家阶段日2016.01.26(86)PCT国际申请的申请数据PCT/US2015/0515572015.09.22(87)PCT国际申请的公布数据WO2016/053695EN2016.04.07(71)申请人数据梅尔公司地址美国加利福尼亚州(72)发明人P·沃斯K·瑙罗克M·麦克马努斯(74)专利代理机构北京市金杜律师事务所11256代理人王茂华权利要求书1页说明书9页附图4页(54)发明名称用于调度分布式工作流程任务的装置和方法(57)摘要一种服务器具有处理器和存储器,该存储器存储由处理器运行以访问调度工具的指令,该调度工具包括具有工作流程任务调度和工作流程任务依赖性的实体工作负载简档。与实体工作负载简档内的工作流程任务相关联的经处理的数据被识别。工作流程任务依赖性被分析,以更改工作流程任务调度来对依赖于经处理的数据的工作流程任务指定优先级。CN105593818ACN105593818A权利要求书1/1页1.一种服务器,包括:处理器;以及存储器,所述存储器存储由所述处理器运行以执行以下操作的指令:访问调度工具,所述调度工具包括具有工作流程任务调度和工作流程任务依赖性的实体工作负载简档,识别与所述实体工作负载简档内的工作流程任务相关联的经处理的数据,以及分析所述工作流程任务依赖性,以更改所述工作流程任务调度来对依赖于所述经处理的数据的工作流程任务指定优先级。2.根据权利要求1所述的服务器,其中所述存储器存储由所述处理器运行以选择性地将工作流程任务指派给处理资源和MapReduce处理资源的指令。3.根据权利要求1所述的服务器,其中所述存储器存储由所述处理器运行以选择性地将运行在MapReduce处理资源上的工作流程任务转变为运行在存储器中处理资源上的工作流程任务的指令。4.根据权利要求1所述的服务器,其中所述调度工具包括具有针对个体数据源的个体数据简档的数据简档存储库。5.根据权利要求4所述的服务器,其中所述个体数据简档包括列级和数据集范围的统计。6.根据权利要求4所述的服务器,其中所述个体数据简档包括针对数字和日期列的总记录计数、最小值、最大值和平均值以及指示列中的唯一值的数目的基数估计。7.根据权利要求4所述的服务器,其中所述个体数据简档包括针对最频繁值的频率估计。8.根据权利要求4所述的服务器,其中所述个体数据简档包括数据集占用空间估计。9.根据权利要求4所述的服务器,还包括由所述处理器运行以估计针对工作流程任务的数据增长和衰减模式的指令。10.根据权利要求1所述的服务器,其中所述调度工具包括用于处理与工作任务相关联的数据的子集的预览引擎。11.根据权利要求1所述的服务器,其中所述调度工具包括关于集群资源可用性的信息。12.根据权利要求1所述的服务器,其中所述调度工具包括操作符组成分析器。13.根据权利要求1所述的服务器,其中所述调度工具包括历史任务运行简档。2CN105593818A说明书1/9页用于调度分布式工作流程任务的装置和方法[0001]相关申请的交叉引用[0002]本申请要求于2014年10月3日提交的美国专利申请No.14/506,500的优先权,其内容通过引用并入本文中。技术领域[0003]本发明大体涉及计算机网络中的分布式数据处理。更具体地,本发明涉及在计算机网络中调度分布式工作流程任务。背景技术[0004]MapReduce是用于利用运行在计算机的集群上的并行的、分布式算法来处理并生成大数据集的编程模型和相关联的实施方式。MapReduce利用分布式服务器来并行地运行各种任务,同时管理系统的各个部分之间的所有通信和数据传输。这提供冗余和容错。ApacheHadoop平台是实施MapReduce的开源软件框架。假设存储在分布式文件系统中的数据为Hadoop分布式文件系统(HDFS)或其衍生系统。[0005]存储器中数据处理是快速的。ApacheSpark提供针对存储器中集群计算的基元,存储器中集群计算允许用户程序将数据加载到集群的存储器中并重复地对其查询。ApacheSpark没有依赖MapReduce范式并且在某些情况下具有快得多的性能。[0006]将令人期望的是,在运行复杂的分析工作流程的同时利用存储器中数据处理和MapReduce的强度。发明内容[0007]一种服务器具有处理器和存储器,该存储器存储由处理器运行以访问调度工具的指令,该调度工具