预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于HadoopMapReduce的作业调度方法研究的中期报告 中期报告: 1.研究背景 随着互联网的发展以及社会数据的不断增长,大数据的应用越来越广泛,而Hadoop作为大数据处理的基础架构,具有其天然的分布式优势,已经被广泛使用。而MapReduce作为Hadoop分布式计算的核心,其作业调度对整个集群的性能和效率都有着巨大的影响。因此,本篇报告旨在研究基于HadoopMapReduce的作业调度方法,以期能够提高MapReduce作业的性能和效率。 2.研究目的 本研究的主要目的有两个方面: (1)通过对HadoopMapReduce作业调度方法的研究,提出优化方案,以提高整个集群的性能和效率; (2)探索HadoopMapReduce作业调度方法的优化方向,为进一步的研究提供参考和支持。 3.研究方法 本研究主要采用文献综述的方法,通过对相关文献的查阅和分析,总结归纳HadoopMapReduce作业调度的现有方法和存在的问题,结合实验数据对各种方法的优缺点进行评估和比较,进而提出优化方案和方向。 4.研究内容 本研究的主要内容包括: (1)HadoopMapReduce作业调度的概述和发展历程; (2)基于HadoopMapReduce作业调度的现有方法,如FIFO(先进先出)、FairScheduler、CapacityScheduler、DeadlineScheduling等,对各种方法进行比较和分析; (3)通过实验数据对各种方法的优缺点进行评估,发现其中存在的问题,并提出优化方案和方向。 5.预期成果 本研究预期得到的成果包括: (1)论文,概述HadoopMapReduce作业调度的现有方法和存在的问题,提出优化方案和方向; (2)实验数据,通过实验数据对各种方法的优缺点进行评估,发现其中存在的问题,并提出解决方案; (3)总结体会,通过研究和实验,得出基于HadoopMapReduce的作业调度方法研究的总结性思考和经验。 6.研究进展 目前研究进展如下: (1)对HadoopMapReduce作业调度方法进行了相关文献的查阅和分析,总结归纳了现有方法和存在的问题; (2)通过实验数据对各种方法的优缺点进行了评估和比较; (3)正在进一步的思考和探讨,为研究提出优化方案和方向做准备。 7.存在问题 目前存在的问题主要有: (1)研究深度和广度不够,需要进一步深入探索各种方法的优缺点和存在的问题; (2)实验过程中,数据集的规模较小,还需要进一步扩大实验规模,提高实验数据的可靠性; (3)HadoopMapReduce作业调度有很多变量,还需要探索和分析不同参数对作业调度的影响。 8.参考文献 [1]ZahariaM,KonwinskiA,JosephAD,etal.ImprovingMapReduceperformanceinheterogeneousenvironments[C]//Proceedingsofthe8thUSENIXSymposiumonOperatingSystemsDesignandImplementation.USENIXAssociation,2008:29-42. [2]MateiZaharia.HadoopMapReduce:ACriticalExamination[J].ACMQueue,2010,8(6):12. [3]YuHJ,LuG.AnovelheuristicschedulingalgorithmforMapReducecomputationincloudcomputingenvironment[J].ComputerNetworks,2013,57(18):3970-3984. [4]ZhangZ,ShaoZY,MeiH,etal.AnImprovedFairSchedulerforMapReduceWorkloads[J].JournalofComputerScienceandTechnology,2015,30(6):1146-1157. [5]VathsalaM,HemalathaVT.AnalysisonjobschedulingalgorithmsinHadoopforimprovingperformance[J].InternationalJournalofComputerScience&CommunicationNetworks,2015,5(2):65-70.