预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于纠删码的HDFS的优化方法的设计与实现Hadoop分布式文件系统,即HDFS,通过三备份存储方式保障了数据的可靠性,存储空间的利用率却比较低。随着数据规模的飞速增长,尤其对于冷数据而言,HDFS传统存储方式造成的额外开销也会越来越大。因此,HDFS亟需一种新的优化存储机制,在保障数据可靠性的同时,又能节省存储空间。HDFSErasureCoding项目应用而生,它使用纠删码技术来存储HDFS文件并恢复丢失的数据。基于HDFS传统存储方式及HDFSRAID技术现有的问题,在HDFSEC中引入了纠删码、条状布局和分层命名协议等技术。结合对现有问题的分析,提出了HDFSEC的优化指标。通过对比HDFSEC编码时条状布局和连续布局的特点,选择了条状布局,并针对条状布局设计了新的文件存储单位。在此基础上,采用分层命名协议来定位内部块,减轻NameNode端的内存压力。针对HDFSEC设计了专门的读写类和辅助类,既能够复用HDFS中部分已有的读写逻辑,又能实现HDFSEC基本的读写流程。为了保障HDFSEC中编解码技术的丰富性和将来的扩展性,设计了耦合性低、可插拔和模块化的编解码框架ErasureCodec和其他的相关类,并给出了ReedSolomon编解码算法的Java实现。另外,介绍了IntelISA-L编解码库的调用实现。在上述编解码框架和算法的基础上,阐述了HDFSEC中数据恢复技术的实现。最后,结合HDFSEC的优化指标,给出了使用HDFSEC前后各项测试结果,测试结果均符合预期指标。HDFSEC既保证了数据的可靠性又降低了存储开销,使用户在存储冷热数据时有了更加灵活方便的选择。同时,HDFSEC也有效地解决了小文件存储问题,其中可插拔的编解码框架可以使用户很方便地引入自定义编解码技术。HDFSEC对于推进HDFS在工业界的应用具有重要的意义。