基于Hadoop的海量数据平台-豆柴文库

基于Hadoop的海量数据平台.pdf

2024-01-31

12金币

3.4MB

50页

胜利****实阿

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共50页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

基于Hadoop的内部海量数据服务平台⽆谓(吴威)阿⾥巴巴集团-海量数据关于我• 吴威(淘宝花名⽆谓)• ⾼级技术专家• 2008年加⼊阿⾥：中国雅虎、B2B、阿⾥云• 参与Hadoop官⽅中⽂⽂档翻译• 阿⾥集团内部Hadoop技术推⼲者• 阿⾥云梯Hadoop服务负责⼈演讲提纲• ⼤数据…• HadoopasaService• 问题和挑战• 我们的对策• 案例介绍–淘宝数据平台• 未来展望⼤数据…• 数据的价值– 阿⾥的三个发展阶段:平台、⾦融、数据淘宝交易额(亿)• 数据增⻓趋势40002000– ⽤户、商品、交易1000• 数据的复杂度200820092010– ⼦公司众多⽀付宝– 业务逻辑复杂并相互依赖⼀淘天猫淘宝阿⾥B2B⾦融阿⾥⼤数据发展历程• 单机– 容量，性能• 分布式数据库– OracleRAC/Greenplum/…– 商业软件(价格)，容量，稳定性• 分散的Hadoop集群– 数据互操作，稳定性，成本和效率阿⾥⼤数据发展历程• 云梯– ⼀个项⺫– ⼀个集群– ⼀项服务• 为阿⾥集团提供海量数据的存储和计算服务• Hadoop集群合并• GP和Oracle的迁移HadoopasaServiceHadoopasaService• HDFS-海量数据存储服务– 分组，通过quota(空间/⽂件数)限制：/group/taobao– 数据共享：淘宝/天猫/⼀淘/B2B/⽀付宝• MapReduce-⼤规模分布式计算服务– 分组，slot限制，按需申请，集中分配和调度– ⽣产/开发/测试共享集群，⽩天开发，晚上⽣产• 服务特⾊– 单⼀⼤集群– 多⽤户共享– 计算分时– 按需申请，按使⽤量计费其他相关服务Hive基于MapReduce的SQL引擎Streaming可以⽤任意可执⾏程序或脚本运⾏MapReduceMahout机器学习算法库Pig类似于Hive的⼤规模数据分析平台HBase离线和在线存储服务服务基本架构业务调度系统HiveMeta淘宝淘宝对外机房云梯云梯云梯HBaseGatewaGatewaGatewa(CDH3)yyyDFSClientMRClientHiveClient⽀付宝集群(0.20.2)云梯HBase集群HDFSMapReduceB2BGateways云梯云梯GatewaGatewa集团机房yy集群发展历程3000300025002000200015001000集群规模(台)100070050020002009.42010.32010.72012.12012.10上线集群迁OracleRAC基服务扩展现在：准备移机房本迁移完成⾄全集团迎战11.11集群现状3000台服务36000核100TB内存器物理CPU60PB存储容36000块磁盘量(利⽤率10家⼦公司80%)150多⽤户组3000多⽤户云梯服务vs.⾃建集群• 从⽤户⾓度出发⾃建Hadoop集群使⽤云梯Hadoop服务集群搭建机器采购，机房布局不⽤考虑集群运维节点宕机后需要⽴即介⼊不⽤考虑计算资源不⾜，存储空间不⾜，集群扩容⺴⻚上申请，即⽇⽣效需要扩容，采购新的机器Hadoop代码维护，专业的代码维护不⽤考虑Hadoop开发⼈员使⽤其他团队数据，需要从另阿⾥集团⼤部分数据能在数据复制外集群复制过来云梯上找到平台服务的成本优势资源组⾼峰时段slot申请量⾃建集群需要机器数cug-groupA310001550cug-groupB7500375cug-groupC5500275cug-groupD4500225cug-groupE4000200cug-groupF4000200其他100多个组1768608843总计23336011668116681000050002861机器数⺫0云梯集群⾃建集群问题和挑战问题和挑战• 稳定性和安全性– ⼤作业占⽤集群的所有slot(计算资源)– 某些机器⺴卡打满– NameNode被某个⽤户的作业拖慢• 共享– 计算资源共享:A组在⽩天⽤,B组晚上⽤– 数据共享:⽀付宝读取淘宝的某张表数据,怎么开放?问题和挑战• 兼容性– 上千个客户端/Gateway,上百个部⻔– 客户端全量升级代价⼤– 服务器端升级要尽量保持向下兼容– 有些客户端是Hadoop0.19.0,有些是Hadoop0.20.2或者CDH3版问题和挑战• 性能和扩展性– HadoopMaster节点是单点– NameNodeRPC请求压⼒：2亿⽂件+2.6亿block，⽇请求量超过15亿次– JobTracker调度压⼒：⽇调度运⾏超过15万个Job，7500万个Task，⾼并发(1000+jobs,55000tasks)，多⽤户(3000+)– JVM的极限,超过100G的JVMHeap– 单点故障问题和挑战• 可观测和可测试– 上千台

相关资料

基于Hadoop的海量数据平台.pdf

基于Hadoop的海量数据平台.pdf

基于Hadoop的海量数据处理平台的架构与研究.docx

基于Hadoop的海量数据处理平台的架构与研究关金金未培庄彦【摘要】大數据时代的来临，成就了海量数据的衍生，但如何快速聚类高价值数据，深度挖掘电商行业客户和服务数据，搭建海量数据服务着陆平台，监测行业数据舆情，提升公共服务水平，拓宽数据资源应用市场是“互联网+”行业转型的关键。借助Hadoop分布式存储与计算平台，以高效、可靠、可伸缩的方式维护数据精确度、缓解数据冷启动问题，增强数据多样化推荐。【关键词】Hadoop平台;海量数据;服务处理平台;HDFS架构：TP391：A：2095-2457（2019）

2024-04-29

41KB

基于Hadoop的网络海量数据采集及处理平台开发.docx

基于Hadoop的网络海量数据采集及处理平台开发随着互联网的高速发展，网络上数据量快速增长。处理这些海量数据成为了互联网时代的必要技能之一。采集与处理网络海量数据是互联网公司的重要工作，特别是搜索引擎公司需要大量地获取互联网信息及其相关的内容，这就要求我们需要一种高效、可靠的技术来实现数据的采集和处理。本文就是基于Hadoop的网络海量数据采集及处理平台开发的论文。一、Hadoop技术简介Hadoop是一个开源的分布式计算环境，主要用于处理海量数据和数据分析。它包括两个主要的部分：HDFS和MapRedu

2024-10-15

11KB

基于Hadoop的海量数据处理平台的架构与研究.docx

基于Hadoop的海量数据处理平台的架构与研究基于Hadoop的海量数据处理平台的架构与研究摘要：随着互联网的快速发展，海量数据的产生和存储成为一项重要任务。为了高效地处理这些大数据，人们开始寻找可行的解决方案。Hadoop作为一种开源的分布式计算平台，在大数据处理中起到了关键作用。本文将从Hadoop架构、分布式文件系统、计算模型、任务调度等方面对基于Hadoop的海量数据处理平台进行研究与分析。1.引言随着互联网的迅猛发展，各种应用系统中产生的海量数据呈现爆发式增长的趋势。这些数据往往存在着多种结构和

2024-11-01

11KB