分布式文件系统架构设计-豆柴文库

分布式文件系统架构设计.pdf

2024-03-26

10金币

1.2MB

15页

文库****品店

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

分布式文件系统架构设计1目录1.前言......................................................................................................32.HDFS1.................................................................................................33.HDFS2.................................................................................................54.HDFS3...............................................................................................115.结语....................................................................................................1521.前言Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS，解决了海量数据存储的问题；实现了一个分布式计算引擎MapReduce，解决了海量数据如何计算的问题；实现了一个分布式资源调度框架YARN，解决了资源调度，任务管理的问题。而我们今天重点给大家介绍的是Hadoop里享誉世界的优秀的分布式文件系统-HDFS。Hadoop重要的比较大的版本有:Hadoop1，Hadoop2，hadoop3。同时也相对应的有HDFS1，HDFS2，HDFS3三个大版本。后面的HDFS的版本，都是对前一个版本的架构进行了调整优化，而在这个调整优化的过程当中都是解决上一个版本的架构缺陷，然而这些低版本的架构缺陷也是我们在平时工作当中会经常遇到的问题，所以这篇文章一个重要的目的就是通过给大家介绍HDFS不同版本的架构演进，通过学习高版本是如何解决低版本的架构问题从而来提升我们的系统架构能力。2.HDFS13最早出来投入商业使用的的Hadoop的版本，我们称为Hadoop1，里面的HDFS就是HDFS1，当时刚出来HDFS1，大家都很兴奋，因为它解决了一个海量数据如何存储的问题。HDFS1用的是主从式架构，主节点只有一个叫：Namenode，从节点有多个叫：DataNode。我们往HDFS上上传一个大文件，HDFS会自动把文件划分成为大小固定的数据块（HDFS1的时候，默认块的大小是64M，可以配置），然后这些数据块会分散到存储的不同的服务器上面，为了保证数据安全，HDFS1里默认每个数据块都有3个副本。Namenode是HDFS的主节点，里面维护了文件系统的目录树，存储了文件系统的元数据信息，用户上传文件，下载文件等操作都必须跟NameNode进行交互，因为它存储了元数据信息，Namenode为了能快速响应用户的操作，启动的时候就把元数据信息加载到了内存里面。DataNode是HDFS的从节点，干的活就很简单，就是存储block文件块。401/HDFS1架构缺陷缺陷一：单点故障问题（高可用）我们很清楚的看到，HDFS1里面只有一个NameNode，那么也就是说如果这个Namenode出问题以后，整个分布式文件系统就不能用了。缺陷二：内存受限问题NameNode为了能快速响应用户的操作，把文件系统的元数据信息加载到了内存里面，那么如果一个集群里面存储的文件较多，产生的元数据量也很大，大到namenode所在的服务器撑不下去了，那么文件系统的寿命也就到尽头了，所以从这个角度说，之前的HDFS1的架构里Namenode有内存受限的问题。我们大体能看得出来，在HDFS1架构设计中，DataNode是没有明显的问题的，主要的问题是在NameNode这儿。3.HDFS2HDFS1明显感觉架构不太成熟，所以HDFS2就是对HDFS1的问题进行解决。501/单点故障问题解决（高可用）大家先跟着我的思路走，现在我们要解决的是一个单点的问题，其实解决的思路很简单，因为之前是只有一个NameNode，所以有单点故障问题，那我们把设计成两个Namenode就可以了，如果其中一个namenode有问题，就切换到另外一个NameNode上。所以现在我们想要实现的是：其中一个Namenode有问题，然

相关资料

分布式文件系统架构设计.pdf

2024-03-26

1.2MB

Hadoop分布式文件系统-架构和设计要点(翻译).doc

Hadoop分布式文件系统：架构和设计要点(翻译)一、前提和设计目标1、硬件错误是常态，而非异常情况，HDFS可能是有成百上千的server组成，任何一个组件都有可能一直失效，因此错误检测和快速、自动的恢复是HDFS的核心架构目标。2、跑在HDFS上的应用与一般的应用不同，它们主要是以流式读为主，做批量处理；比之关注数据访问的低延迟问题，更关键的在于数据访问的高吞吐量。3、HDFS以支持大数据集合为目标，一个存储在上面的典型文件大小一般都在千兆至T字节，一个单一HDFS实例应该能支撑数以千万计的文件。4、

2024-08-16

220KB

Hadoop分布式文件系统-架构和设计要点(翻译).doc

2024-09-17

306KB

HADOOP分布式文件系统架构和源码分析报告.pdf

2024-09-04

6.3MB

分布式文件系统概要设计.docx

分布式文件系统概要设计（初稿）三人行研发组2011-9-10修订历史日期版本描述作者2011-9-100.1概要设计初稿张琨2011-10-100.2概要设计完善熊书宜需求分析与目标设定业务需求：提供整站的UGC文件存储与读取为后期在线网络存储打下基础技术目标：方便读写海量规模的大文件易于掌握，对外接口统一而简单易于运维和扩展服务稳定同时数据安全系统架构设计主流选型1、MogileFSKey-Value型元文件系统，不支持FUSE，应用程序访问它时需要API，主要用在web领域处理海量小图片，效率相比mo

2024-07-04

165KB