预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106599184A(43)申请公布日2017.04.26(21)申请号201611148198.3(22)申请日2016.12.13(71)申请人西北师范大学地址730070甘肃省兰州市安宁区967号(72)发明人陈旺虎马生俊俞茂义李金溶郏文博(74)专利代理机构济南鼎信专利商标代理事务所(普通合伙)37245代理人曹玉琳(51)Int.Cl.G06F17/30(2006.01)G06F3/06(2006.01)G06F11/14(2006.01)权利要求书2页说明书6页附图1页(54)发明名称一种Hadoop系统优化方法(57)摘要本发明涉及大数据与云计算领域,尤其涉及一种Hadoop系统优化方法。其中,对HDFS数据分布存储阶段的优化包括:选择DataNode;对选出的DataNode排序;采用同向增量的轮循方法放置数据。对MapReduce数据并行计算阶段的优化包括:生成执行队列Q;执行R0备份;更新执行队列Q;执行R1备份;更新执行队列Q;执行R2备份;更新执行队列Q;针对性执行。本发明采用自适应的轮循放置策略,可以将数据基本均匀地放置在DataNode,防止出现节点负载不平衡等问题。同时将所有的map任务都在本机执行,很大程度上减少了数据的网络传输,减少了map任务对网络传输的依赖,极大地避免了网络延迟带给应用的瓶颈。CN106599184ACN106599184A权利要求书1/2页1.一种Hadoop系统优化方法,其特征在于:包括对HDFS数据分布存储阶段的优化和对MapReduce数据并行计算阶段的优化;其中,对HDFS数据分布存储阶段的优化包括以下步骤:步骤1.1、选择DataNode:根据Hadoop集群内每个DataNode的磁盘使用率选择具有存储能力的DataNode用于存储数据;步骤1.2、对选出的DataNode排序:将已选择的DataNode根据其计算能力的大小降序排序;步骤1.3、放置数据:按照步骤1.2产生的顺序采用同向增量的轮循方法,将所有Block的备份存储到选出的DataNode;对MapReduce数据并行计算阶段的优化包括以下步骤:步骤2.1、生成执行队列Q:各TaskTracker将存储在本地的Block的备份按Block编号和备份编号的增序进行排序生成各自的执行队列q,优先考虑备份编号;HDFS默认备份数是3,012第i个Block的备份为Ri、Ri、Ri,所有TaskTracker的执行队列q统称为执行队列Q;步骤2.2、执行R0备份:各TaskTracker顺序地执行自己队列q中备份编号为0的备份R0,当有一个TaskTracker执行完自己队列q中R0的备份时停止执行任务;同时,JobTracker通知其他TaskTracker执行完当前任务后停止执行任务;步骤2.3、更新执行队列Q:在JobTracker的协调下,各TaskTracker从自己的执行队列q中删除所有已经被处理的Block的相同备份;步骤2.4、检查执行队列Q是否为空,若空则停止执行任务;步骤2.5、执行R1备份:各TaskTracker顺序地执行自己队列q中备份编号为1的备份R1,当有一个TaskTracker执行完自己队列q中R1的备份时停止执行任务;同时,JobTracker通知其他TaskTracker执行完当前任务后停止执行任务;步骤2.6、更新执行队列Q:在JobTracker的协调下,各TaskTracker从自己的执行队列q中删除所有已经被处理的Block的相同备份;步骤2.7、检查执行队列Q是否为空,若空则停止执行任务;步骤2.8、执行R2备份:各TaskTracker顺序地执行自己队列q中备份编号为2的备份R2,当有一个TaskTracker执行完自己队列q中R2的备份时停止执行任务;同时,JobTracker通知其他TaskTracker执行完当前任务后停止执行任务;步骤2.9、更新执行队列Q:在JobTracker的协调下,各TaskTracker从自己的执行队列q中删除所有已经被处理的Block的相同备份;步骤2.10、检查执行队列Q是否为空,若空则停止执行任务;步骤2.11、针对性执行:检查是否还存在个别Block的备份未进行处理,在JobTracker的协调下将没有处理的Block的备份进行最后一次针对性处理。2.根据权利要求1所述的Hadoop系统优化方法,其特征在于:步骤1.1中选择DataNode的标准是磁盘使用率在80%以下的视为有存储能力。3.根据权利要求1所述的Hadoop系统优化方法,其特征在于:步骤1.2中,通过CPU和内存的类型判断计算能力大小。4.根据权利要求1所述的Hadoop系