预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

•标准的x86的服务器 •以太网络 •多机架数据中心 •软件环境 •硬件的选择(处理器,硬盘,网络) HDFSMapReduceHBaseHive …… 客户端客户端客户端客户端 Hadoop集群 管理节点 HDFSMapReduceHBaseHive …… 节点节点……节点N 节点123 角色描述节点数目 HDFSNameNode分布式文件系统用以1个独立节点 存储文件系统以及数 据块的元数据 HDFSSecondaryNameNode的影子节小规模集群可以和 NameNode点NameNode共享节点,大规 模集群用独立节点 HDFSDataNodeHDFS数据存储多个独立节点 MapReduceJobTrackerMapReduce调度程序1个独立节点,小规模集群 可以与NameNode共享,大 规模集群使用独立节点 MapReduceTaskTrackerMapReduce实际计算与DataNode运行在相同的 节点节点之上 HiveHive元数据以及驱动独立配置的话可以与 程序NameNode共享节点,或者 将元数据存放在客户端 角色描述节点数目 ZooKeeper用以提供集群高可用性的3个或3个以上的奇数的独 锁服务立节点(小规模可以和其 它角色共享节点) HBaseHMasterHBase用以调度与其它角色共享节点的多 RegionServer的主模块个节点 HBaseRegionServerHBase中用以管理数据的一般与DataNode运行与相 模块同的节点之上 ManagementNode可能的集群监控管理节点一般为一个独立的节点, 如果小规模集群的话可以 与其它角色共享 •Hadoop Hadoop • – • • –IO • • • •4 •16GB 服务器角色及服务类型内存要求 MapReduceJobTracker2GB MapReduceTaskTracker2GB MapReduceSlotsonTaskTracker512MB*slot数量 HDFSNameNode16GB HDFSSecondaryNameNode16GB HDFSDataNode2GB ZooKeeper4GB HBaseMasterServer2GB HBaseRegionServer16GB HiveServer2GB 客户端8GB • –HDFS DataNode,MapReduceTaskTrackerHBase RegionServerslotmap slotsreduceslots16 2GB+2GB+512MB*16+ 16GB=28GB •HBase •JBODvs.RAID – RAID –RAID RAID0 • • • •++MapReduce •典型使用以太网络,为了使得系统能够正常运 行,最低使用千兆以太网连接,由于需要有数 据交换的需求,建议配置大容量的网络交换机 •当一台机器上有多个网络适配器时,推荐使用 网络适配器绑定Linux的方法配置链路聚合,并 把工作模式设为6。在工作模式为6时,负载平 衡可以通过循环取得,并且这些网络适配器可 以在没有配置交换器的情况下正常工作 •千兆以太网接口是最基本的要求,更重要的是交换机的背板带宽,是 决定数据传输的关键因素 •一个以太网交换机的接口是以太网交换机到主机的速度,这个速度决 定主机到交换机的速度级别,在Hadoop环境中,这个速度最少应该是 千兆以太网 •接口速度即使达到了千兆以太网,实际的运行速度可能并不能真正达 到千兆以太网的速度,因为可能有数十个设备同时共享这个交换机 •决定交换机的性能的关键因素是交换机的背板带宽,具有良好背板交 换能力的交换机能够使得任意两个接口之间的速度以及上行的速度都 能够达到千兆的速度,而通过总线进行共享的带宽往往不能达到理想 的速度 •为了能够使得Hadoop的处理能力能够得到充分的释放,交换机对于系 统运行的性能起到了决定性的左右,建议在可能的情况下尽量选择高 端的交换机,使得每一个接口都能够达到线速(网线能够达到什么速 度,交换机就能够提供什么速度,没有性能损失) •最常见的是使用服务器本身的万兆以太网络, 每一个机架使用一个交换机,在多个机架之间 进行带宽聚合。这种方式在总的节点数目较少 (少于40个)集群比较合适 •如果应用(例如ETL的应用)的IO高负载,这 样的话,网络会成为性能瓶颈 –12块以上的硬盘,每块以100MB/s速度运行,会很 快吃掉所有网络带宽 –低端的交换器不能够支持线速,产生阻塞 •提高网络速度最直接的办法是通过端口绑定, 将服务器的多个端口绑定为一个 •IP • ip –