预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共45页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

8天的课程安排第一天:Hadoop基础、企业数据部的相关知识、Hadoop集群搭建第二天:Hadoop分布式文件存储框架HDFS(shell,java)、HDFS原理(权威指南)第三天:Hadoop分布式计算框架MapReduce,原理,案例第四天:hive,Flume大数据收集框架、Sqoop数据导入导出收获:对Hadoop整个生态环境有足够了解对Hadoop在企业数据部的位置和作用有足够了解对数据的一般工作流程职能划分有足够了解Hadoop的集群安装部署、HDFS原理、MapReduce原理Hive的理解,类似sql。第五天:流式计算(三驾马车:Storm、Kafka、Redis),案例。第六天:Storm技术增强(原理、调优)、Kafka负载均衡、文件存储原理、Redis回顾第七天:案例:点击流日志的日志分析系统第八天:案例:基于系统日志监控告警系统收获:流式计算整体架构有足够了解,能够独立的开发Storm程序。对Storm、Kafka有足够的了解,具备实时计算系统架构的能力。大数据的实际应用、需要的技能、未来的发展方向。第一天的大纲数据部的职能划分、工作流程数据部的技术架构Hadoop基础和搭建HadoopHDFS的操作(shell)第二天的大纲HadoopJavaapi的操作(主要了解元数据信息)HadoopHDFS上传下载的详细流程HadoopsecondaryNameNode机制扩展:脚本,定时上传文件。第三天大纲回顾并总结HDFS的内容MapReduce的编程模型及原理初探MapReduce的WordCount分析(任务设置、数据流程)MapReduce数据分析案列第四天大纲MapReduce数据分析案例之Combiner设置MapReduce数据分析案例之Partitioner设置MapReduce总结Hadoop总结Hive安装及基础背景知识1.1、企业数据部的一般组织结构企业数据部的一般组织结构,适用于大中型企业。1.2、企业数据部的业务流程分析业务流程:电商业务人员:针对活动专题页(活动的效果)有业务需求活动页的用户访问数、用户下单数、用户支付数、用户退单数数据部部门:数据分析人员(写sql),结果对外提供数据展示:报表平台组、发邮件excel1.3、企业数据部的一般技术架构(重要)数据分析的两个流程:实时分析流程:业务数据、消息队列、Storm实时编程、Redis、数据展示(秒级计算)离线分析流程:不同数据源获取数据、Hadoop集群、数据计算(Hive、Spark、MapReduce)、数据展示(T+1计算)2、Hadoop基础知识Hadoop包括两个部分:对海量数据进行存储和操作大数据分布式文件存储框架(HDFS)大数据分布式数据计算框架(MapReduce)独立网站渐变到分布式网站的过程数据库的读写分离、页面静态化、服务端的缓存、网络端的CDN、网络层面的负载均衡、软件层面的负载均衡。业务逻辑的服务化及模块的集群服务大数据的概念产生数据的设备和系统越来越多丰富数据来源及种类,从单一的业务数据库、企业数据到海量的外部数据采集数据的手段变多数据量变多了数据处理方式和能力变多问题:企业里面的数据是否是真的多了?2.1、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。Hadoop实现了一个分布式计算系统,MapReduce。Hadoop实现了一个资源管理系统,yarn。2.2、Hadoop的特点高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。(HDFS的文件存储及可用性计算)2.3、HadoopHDFS核心组件分布式的文件存储系统HDFS有两个核心角色:NameNode、DataNode对外部客户机而言,HDFS就