MapReduce 学习日志之我的MapReduce程序学习-豆柴文库

MapReduce 学习日志之我的MapReduce程序学习.docx

2024-10-28

16金币

32KB

5页

xf****65

实名认证

内容提供者

1/5

2/5

3/5

4/5

5/5

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

MapReduce学习日志之我的MapReduce程序学习将一批电话通信清单，记录了用户A拨打用户B的记录，需要做一个倒排索引，记录拨打给用户B的所有用户A。如原有的txt为：首先，我们应该把源文件传到Hdfs上，然后将原始数据进行分割，将被叫作为KEY，主叫作为Value,将拨打相同被叫的主叫号码汇总起来输出到HDFS。程序如下： packagecom.xxs; importjava.io.IOException; importorg.apache.hadoop.conf.Configuration; importorg.apache.hadoop.conf.Configured; importorg.apache.hadoop.fs.Path; importorg.apache.hadoop.io.*; importorg.apache.hadoop.mapreduce.*; importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat; importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat; importorg.apache.hadoop.mapreduce.lib.output.TextOutputFormat; importorg.apache.hadoop.util.Tool; importorg.apache.hadoop.util.ToolRunner;//此处为导入的包，一般为固定的。 publicclassMapTest_2extendsConfiguredimplementsTool{ enumCounter { LINESKIP, }//出错的行，出错计数器 publicstaticclassMapextendsMapper<LongWritable,Text,Text,Text> { publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException { Stringline=value.toString(); try { String[]lineSplit=line.split(""); Stringanum=lineSplit[0]; Stringbnum=lineSplit[1]; context.write(newText(bnum),newText(anum)); } catch(java.lang.ArrayIndexOutOfBoundsExceptione) { context.getCounter(Counter.LINESKIP).increment(1); return; } } } publicstaticclassReduceextendsReducer<Text,Text,Text,Text> { publicvoidreduce(Textkey,Iterable<Text>values,Contextcontext)throwsIOException,InterruptedException { StringvalueString; Stringout=""; for(Textvalue:values) { valueString=value.toString(); out+=valueString+"|"; } context.write(key,newText(out)); } } publicintrun(String[]args)throwsException { Configurationconf=getConf(); Jobjob=newJob(conf,"MapTest_2");//任务名 job.setJarByClass(MapTest_2.class);//指定class FileInputFormat.addInputPath(job,newPath(args[0]));//输入路径 FileOutputFormat.setOutputPath(job,newPath(args[1]));//输出路径 job.setMapperClass(Map.class); job.setReducerClass(Reduce.class);

相关资料

MapReduce 学习日志之我的MapReduce程序学习.docx

2024-10-28

32KB

MapReduce详解及Eclipse远程连接Hadoop开发MapReduce程序.ppt

Hadoop命令Hadoop命令分布式概念Eclipse远程连接HadoopEclipse远程连接HadoopEclipse远程连接HadoopMapReduce详解MapReduce详解MapReduce详解MapReduce详解HadoopAPI主要包HadoopJobMap相关配置Reduce相关配置Map和Reduce方法作业输入格式hadoopjar执行：hadoopjar/home/hadoop/test.jarCom.test.MaininpathoutpathHDFS负载均衡器——Bal

2024-08-28

1KB

MapReduce工作流程 - 学习笔记.pdf

（1）MapReduce工作流程2013-09-18一．Map->ReduceMapReduce其实是分治算法的一种实现，所谓分治算法就是“就是分而治之”，将大的问题分解为相同类型的子问题（最好具有相同的规模），对子问题进行求解，然后合并成大问题的解。MapReduce就是分治法的一种，将输入进行分片，然后交给不同的task进行处理，然后合并成最终的解。具体流程图如下：MapReduce实际的处理过程可以理解为Input->Map->Sort->Combine->Partition->Reduce->Ou

2024-06-18

397KB

基于MapReduce的大数据主动学习.docx

基于MapReduce的大数据主动学习随着大数据时代的到来，人们对数据处理的需求逐渐增加。然而，由于数据量过于庞大，一般的机器学习模型在处理这样的大规模数据时会遇到很多瓶颈，譬如模型收敛过慢、运算时间过长等。另一方面，人工标注大规模数据的成本也相对较高且耗时，因此，如何在大数据背景下降低标注成本和提高模型性能变得愈发重要，而大数据主动学习技术应运而生。大数据主动学习能高效的利用有限的人类标注和计算资源，通过在模型中自动选择与效果提高更匹配的数据子集，将标注更加精细地进行到更多样本，从而在相对较少的人工标注

2024-11-01

10KB

Hadoop 上编写 MapReduce 程序.docx

MapReduce是包含两个过程：Map过程和Reduce过程。每一个过程都包含键值对作为输入，程序员可以选择键和值的类型。Map和Reduce的数据流是这样的：Input==>Map==>MapperOutput==>Sortandshuffle==>Reduce==>FinalOutput使用Java编写HadoopMapReduce代码MapReduce程序需要三个元素：Map，Reduce和运行任务的代码（在这里，我们把它叫做Invoker）。1）创建Map（可以是任何名字）类和map函数map函

2024-10-25

21KB