预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

.实用文档.H3C大数据产品技术白皮书杭州华三通信技术TIME\@"yyyy年M月"2024年4月目录TOC\o"1-3"\h\z1H3C大数据产品介绍PAGEREF_Toc435880693\h1产品简介PAGEREF_Toc435880694\h1产品架构PAGEREF_Toc435880695\h1数据处理PAGEREF_Toc435880696\h2数据分层PAGEREF_Toc435880697\h3产品技术特点PAGEREF_Toc435880698\h4先进的混合计算架构PAGEREF_Toc435880699\h4高性价比的分布式集群PAGEREF_Toc435880700\h4云化ETLPAGEREF_Toc435880701\h4数据分层和分级存储PAGEREF_Toc435880702\h5数据分析挖掘PAGEREF_Toc435880703\h5数据效劳接口PAGEREF_Toc435880704\h5可视化运维管理PAGEREF_Toc435880705\h5产品功能简介PAGEREF_Toc435880706\h6管理平面功能:PAGEREF_Toc435880707\h6业务平面功能:PAGEREF_Toc435880708\h62DataEngineHDP核心技术PAGEREF_Toc435880709\h83DataEngineMPPCluster核心技术PAGEREF_Toc435880710\h8MPP+SharedNothing架构PAGEREF_Toc435880711\h8核心组件PAGEREF_Toc435880712\h9高可用PAGEREF_Toc435880713\h10高性能扩展能力PAGEREF_Toc435880714\h10高性能数据加载PAGEREF_Toc435880715\h11OLAP函数PAGEREF_Toc435880716\h12行列混合存储PAGEREF_Toc435880717\h12.实用文档.H3C大数据产品介绍产品简介H3C大数据平台采用开源社区ApacheHadoop2.0和MPP分布式数据库混合计算框架为用户提供一套完整的大数据平台解决方案,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算存储能力。H3C大数据平台提供数据采集转换、计算存储、分析挖掘、共享交换以及可视化等全系列功能,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统帮助用户构建海量数据处理系统,发现数据的内在价值。产品架构H3C大数据平台包含4个局部:第一局部是运维管理,包括:安装部署、配置管理、主机管理、用户管理、效劳管理、监控告警和平安管理等。第二局部是数据ETL,即获取、转换、加载,包括:关系数据库连接Sqoop、日志采集Flume、ETL工具Kettle。第三局部是数据计算。MPP采用分析型分布式数据库,存储高价值密度的结构化数据;Hadoop存储非结构化/半结构化数据和低价值密度结构化数据。计算结果都存到数据仓库,数据仓库中的数据可直接用于分析和展示。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。第四局部数据效劳,包括:机器学习、数据挖掘、数据检索、数据可视化、即席分析、SQL和API,为应用层提供效劳和中间件调用。数据处理对于大数据管理平台,应该建立一套标准化、标准化的数据处理流程,例如:如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的根底上进行商业建模和数据挖掘等等。大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线。这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力。数据分层ODS层:数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作。未来也可用于准实时数据查询。轻度汇总层:主题域内部基于明细层数据,进行多维度的、用户级的汇总明细数据层:主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规那么进行的拆分及合并。信息子层:报表数据、多维数据、指标库等数据来源于汇总层。汇总层:主题域之间进行关联、汇总计算。汇总数据效劳于信息子层,目的是为了节约信息子层数据计算本钱和计算时间。应用层:应用系统的私有数据,应用的业务数据。精细化营销做为大数据平台的一个上层应用