预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

1,hadoop是一个平台,是一个适合大数据的分布式存储和计算的平台。2,适合海量非结构化数据历史数据存储分析,及数据挖掘(文本,XML,图片等)OverView当我们数据集大小超过一台物理计算机的存储能力时,就必要对他进行分区,并存储到若干台计算机上,跨多台计算机的存储文件系统叫分布式文件系统,它是构建在Linux之上的存储系统,在Linux上是看不到具体文件数据。是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率HADOOP>HDFS分布式文件系统(HadoopDistributionSystem)HDFS如何读取文件机制HDFS如何创建文件机制ClientMap/Reduce函数处理Inputformat/Outformat描述TextInputFormat:用于读取存文本文件,Key是每行的偏移量,是Longwritable类型,Value是每行的内容,为Text类型。KeyValueTextInputFormat:同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,第一部分为key,剩下的部分为value;如果没有分隔符,整行作为key,value为空。SequenceFileInputFormat:sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类:SequenceFileAsBinaryInputFormat,将key和value以BytesWritable的类型读出;SequenceFileAsTextInputFormat,将key和value以Text类型读出。NLineInputFormat:可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行的位置偏移量(LongWritable类型),value是每一行的内容,Text类型。TextOutputFormat:输出到纯文本文件,格式为key+""+value。SequenceFileOutputFormat,输出到sequencefile格式文件。DBInputFormat和DBOutputFormat,从DB读取,输出到DB。1.OutputFormatMapReduce>Map函数<Hello,1><word,1><Bye,1><World,1>Hadoop>安装步骤欢迎,感兴趣的同事加入项目组