预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共77页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

目录 目录I 初识Hadoop1 1.1数据!数据1 1.2数据的存储和分析3 1.3相较于其他系统4 1.4Hadoop发展简史9 1.5ApacheHadoop项目12 MapReduce简介15 2.1一个气象数据集15 2.2使用UnixTools来分析数据17 2.3使用Hadoop进行数据分析19 2.4分布化30 2.5Hadoop流35 2.6Hadoop管道40 Hadoop分布式文件系统44 3.1HDFS的设计44 3.2HDFS的概念45 3.3命令行接口48 3.4Hadoop文件系统50 3.5Java接口54 3.6数据流68 3.7通过distcp进行并行复制75 3.8Hadoop归档文件77 Hadoop的I/O80 4.1数据完整性80 4.2压缩83 4.3序列化92 4.4基于文件的数据结构111 MapReduce应用开发125 5.1API的配置126 5.2配置开发环境128 5.3编写单元测试134 5.4本地运行测试数据138 5.5在集群上运行144 5.6作业调优159 5.7MapReduce的工作流162 MapReduce的工作原理166 6.1运行MapReduce作业166 6.2失败172 6.3作业的调度174 6.4shuffle和排序175 6.6任务的执行181 MapReduce的类型与格式188 7.1MapReduce类型188 7.3输出格式217 MapReduce特性227 8.1计数器227 8.2排序235 8.3联接252 8.4次要数据的分布258 8.5MapReduce的类库263 Hadoop集群的安装264 9.1集群说明264 9.2集群的建立和安装268 9.3SSH配置270 9.4Hadoop配置271 9.5安装之后286 9.6Hadoop集群基准测试286 9.7云计算中的Hadoop290 Hadoop的管理293 10.1HDFS293 10.2监控306 10.3维护313 Pig简介321 11.1安装和运行Pig322 11.2实例325 11.3与数据库比较329 11.4PigLatin330 11.5用户定义函数343 11.6数据处理操作符353 11.7Pig实践提示与技巧363 Hbase简介366 12.1HBase基础366 12.2概念367 12.3安装371 12.4客户端374 12.5示例377 12.6HBase与RDBMS的比较385 12.7实践390 ZooKeeper简介394 13.1ZooKeeper的安装和运行395 13.2范例396 13.3ZooKeeper服务405 13.4使用ZooKeeper建立应用程序417 13.5工业界中的ZooKeeper428 案例研究431 14.1Hadoop在Last.fm的应用431 14.2Hadoop和Hive在Facebook的应用441 14.3Hadoop在Nutch搜索引擎451 14.4Hadoop用于Rackspace的日志处理466 14.5Cascading项目474 14.6ApacheHadoop的1TB排序488 ApacheHadoop的安装491 Cloudera的Hadoop分发包497 预备NCDC气象资料502 第1章初识Hadoop 古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个 头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。 --格蕾斯·霍珀 1.1数据!数据 我们生活在数据时代!很难估计全球存储的电子数据总量是多少,但是据IDC估计 2006年"数字全球"项目(digitaluniverse)的数据总量为0.18ZB,并且预测到2011年 这个数字将达到1.8ZB,为2006年的10 。1ZB相当于10的21次方字节的数据,或者相当于1000EB,1000000PB, 或者大家更熟悉的10亿TB的数据!这相当于世界上每个人一个磁盘驱动器的数量级。 这一数据洪流有许多来源。考虑下文: 纽约证券交易所每天产生1TB的交易数据。 著名社交网站Facebook的主机存储着约100亿张照片,占据PB级存储空间。 Ancestry.com,一个家谱网站,存储着2.5PB数据。 互联网档案馆(TheInternetArchive)存储着约2PB数据,并以每月至少20TB的 速度增长。 瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。 此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据被锁定在最大的 网页内容里面(如搜索引擎)或者是金融和科学机构,对不对?是不是所谓的"大数据"的出