预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Hadoop云计算实验报告Hadoop云计算实验报告Hadoop云计算实验报告Hadoop云计算实验报告Hadoop云计算实验报告实验目的在虚拟机Ubuntu上安装Hadoop单机模式和集群;编写一个用Hadoop处理数据的程序,在单机和集群上运行程序。实验环境虚拟机:VMware9操作系统:ubuntu—12.04—server—x64(服务器版),ubuntu—14.10—desktop—amd64(桌面版)Hadoop版本:hadoop1。2.1Jdk版本:jdk—7u80—linux-x64Eclipse版本:eclipse—jee—luna-SR2—linux-gtk—x86_64Hadoop集群:一台namenode主机master,一台datanode主机salve,master主机IP为10.5。110.223,slave主机IP为10.5。110.207。实验设计说明主要设计思路在ubuntu操作系统下,安装必要软件和环境搭建,使用eclipse编写程序代码.实现大数据的统计。本次实验是统计软件代理系统操作人员处理的信息量,即每个操作人员出现的次数。程序设计完成后,在集成环境下运行该程序并查看结果。算法设计该算法首先将输入文件都包含进来,然后交由map程序处理,map程序将输入读入后切出其中的用户名,并标记它的数目为1,形成〈word,1>的形式,然后交由reduce处理,reduce将相同key值(也就是word)的value值收集起来,形成<word,listof1>的形式,之后再将这些1值加起来,即为用户名出现的个数,最后将这个〈key,value〉对以TextOutputFormat的形式输出到HDFS中。程序说明UserNameCountMap类继承了org。apache.hadoop.mapreduce.Mapper,4个泛型类型分别是map函数输入key的类型,输入value的类型,输出key的类型,输出value的类型。UserNameCountReduce类继承了org。apache.hadoop.mapreduce。Reducer,4个泛型类型含义与map类相同。main函数通过addInputPath将数据文件引入该类,在通过setOutputPath将生成结果转为一个文件,实现生成结果,即统计结果的查看.FileInputFormat。addInputPath(job,newPath(args[0]));FileOutputFormat.setOutputPath(job,newPath(args[1]));程序具体代码如附件中源程序。实验过程安装实验环境安装ubuntu操作系统打开VMware,在Hometab中单击“CreateaNewVirtualMachine”,选择custom,选择虚拟硬件版本Workstation9.0,选择ios文件,next,录入目标操作系统信息,包括Fullname、Uername和Password,next,选择默认的选项,一般不做更改,最后确认信息,Finish,安装成功后,会看到如下画面,安装配置Samba安装samba主要为了实现与windows操作系统的通讯,由于server版本的ubuntu没有自带图形操作界面,所以下载资料等操作不太方便,这也是安装samba的目的之一。安装samba,输入如下命令:安装vim创建共享目录,并修改权限配置samba。修改samba的配置文件/etc/samba/smb.conf,将security=share,并在文件的末尾追加如下内容,测试。在windows实机中,通过ip访问ubuntu虚拟机,可以见到share文件夹安装配置JDK首先,下载java开发工具包JDK.在本次试验中,我们下载的版本是jdk-7u80-linux-x64。gz.解压安装到/usr/lib/jvm/目录下,更名为java-7—sun。配置环境变量/etc/environment,使配置生效测试安装配置结果在单节点(伪分布式)环境下运行HADOOP添加Hadoop用户并赋予sudo权限安装配置SSH切换至hadoop用户,配置密钥,使得hadoop用户能够无须输入密码,通过SSH访问localhost,测试结果:安装配置Hadoop首先下载Hadoop,解压缩到/opt/hadoop目录下,本次试验中我们下载的版本是hadoop-1.2.1-bin.tar。gz,更改目录名称为hadoop.修改与hadoop相关的配置文件(在/opt/hadoop/conf目录下),分别是core—site。xml,hadoop-env.sh,hdsf-site.xml,mapred—site.xml.在此不一一列举。运行Hadoop首先格式