预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共50页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Hadoop的内部海量数据服务平台⽆谓(吴威)阿⾥巴巴集团-海量数据关于我• 吴威(淘宝花名⽆谓)• ⾼级技术专家• 2008年加⼊阿⾥:中国雅虎、B2B、阿⾥云• 参与Hadoop官⽅中⽂⽂档翻译• 阿⾥集团内部Hadoop技术推⼲者• 阿⾥云梯Hadoop服务负责⼈演讲提纲• ⼤数据…• HadoopasaService• 问题和挑战• 我们的对策• 案例介绍–淘宝数据平台• 未来展望⼤数据…• 数据的价值– 阿⾥的三个发展阶段:平台、⾦融、数据淘宝交易额(亿)• 数据增⻓趋势40002000– ⽤户、商品、交易1000• 数据的复杂度200820092010– ⼦公司众多⽀付宝– 业务逻辑复杂并相互依赖⼀淘天猫淘宝阿⾥B2B⾦融阿⾥⼤数据发展历程• 单机– 容量,性能• 分布式数据库– OracleRAC/Greenplum/…– 商业软件(价格),容量,稳定性• 分散的Hadoop集群– 数据互操作,稳定性,成本和效率阿⾥⼤数据发展历程• 云梯– ⼀个项⺫– ⼀个集群– ⼀项服务• 为阿⾥集团提供海量数据的存储和计算服务• Hadoop集群合并• GP和Oracle的迁移HadoopasaServiceHadoopasaService• HDFS-海量数据存储服务– 分组,通过quota(空间/⽂件数)限制:/group/taobao– 数据共享:淘宝/天猫/⼀淘/B2B/⽀付宝• MapReduce-⼤规模分布式计算服务– 分组,slot限制,按需申请,集中分配和调度– ⽣产/开发/测试共享集群,⽩天开发,晚上⽣产• 服务特⾊– 单⼀⼤集群– 多⽤户共享– 计算分时– 按需申请,按使⽤量计费其他相关服务Hive基于MapReduce的SQL引擎Streaming可以⽤任意可执⾏程序或脚本运⾏MapReduceMahout机器学习算法库Pig类似于Hive的⼤规模数据分析平台HBase离线和在线存储服务服务基本架构业务调度系统HiveMeta淘宝淘宝对外机房云梯云梯云梯HBaseGatewaGatewaGatewa(CDH3)yyyDFSClientMRClientHiveClient⽀付宝集群(0.20.2)云梯HBase集群HDFSMapReduceB2BGateways云梯云梯GatewaGatewa集团机房yy集群发展历程3000300025002000200015001000集群规模(台)100070050020002009.42010.32010.72012.12012.10上线集群迁OracleRAC基服务扩展现在:准备移机房本迁移完成⾄全集团迎战11.11集群现状3000台服务36000核100TB内存器物理CPU60PB存储容36000块磁盘量(利⽤率10家⼦公司80%)150多⽤户组3000多⽤户云梯服务vs.⾃建集群• 从⽤户⾓度出发⾃建Hadoop集群使⽤云梯Hadoop服务集群搭建机器采购,机房布局不⽤考虑集群运维节点宕机后需要⽴即介⼊不⽤考虑计算资源不⾜,存储空间不⾜,集群扩容⺴⻚上申请,即⽇⽣效需要扩容,采购新的机器Hadoop代码维护,专业的代码维护不⽤考虑Hadoop开发⼈员使⽤其他团队数据,需要从另阿⾥集团⼤部分数据能在数据复制外集群复制过来云梯上找到平台服务的成本优势资源组⾼峰时段slot申请量⾃建集群需要机器数cug-groupA310001550cug-groupB7500375cug-groupC5500275cug-groupD4500225cug-groupE4000200cug-groupF4000200其他100多个组1768608843总计23336011668116681000050002861机器数⺫0云梯集群⾃建集群问题和挑战问题和挑战• 稳定性和安全性– ⼤作业占⽤集群的所有slot(计算资源)– 某些机器⺴卡打满– NameNode被某个⽤户的作业拖慢• 共享– 计算资源共享:A组在⽩天⽤,B组晚上⽤– 数据共享:⽀付宝读取淘宝的某张表数据,怎么开放?问题和挑战• 兼容性– 上千个客户端/Gateway,上百个部⻔– 客户端全量升级代价⼤– 服务器端升级要尽量保持向下兼容– 有些客户端是Hadoop0.19.0,有些是Hadoop0.20.2或者CDH3版问题和挑战• 性能和扩展性– HadoopMaster节点是单点– NameNodeRPC请求压⼒:2亿⽂件+2.6亿block,⽇请求量超过15亿次– JobTracker调度压⼒:⽇调度运⾏超过15万个Job,7500万个Task,⾼并发(1000+jobs,55000tasks),多⽤户(3000+)– JVM的极限,超过100G的JVMHeap– 单点故障问题和挑战• 可观测和可测试– 上千台