预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Hadoop就业面试宝典简要描述如何安装配置apache的一个开源hadoop,只描述即可,无需列出具体步骤,列出具体步骤更好。答:第一题:1使用root账户登录2修改IP3修改host主机名4配置SSH免密码登录5关闭防火墙6安装JDK6解压hadoop安装包7配置hadoop的核心文件hadoop-env.sh,core-site.xml,mapred-site.xml,hdfs-site.xml8配置hadoop环境变量9格式化hadoopnamenode-format10启动节点start-all.sh2.0请列出正常的hadoop集群中hadoop都分别需要启动哪些进程,他们的作用分别都是什么,请尽量列的详细一些。答:namenode:负责管理hdfs中文件块的元数据,响应客户端请求,管理datanode上文件block的均衡,维持副本数量Secondname:主要负责做checkpoint操作;也可以做冷备,对一定范围内数据做快照性备份。Datanode:存储数据块,负责客户端对数据块的io请求Jobtracker:管理任务,并将任务分配给tasktracker。Tasktracker:执行JobTracker分配的任务。ResourcemanagerNodemanagerJournalnodeZookeeperZkfc3.0请写出以下的shell命令(1)杀死一个job(2)删除hdfs上的/tmp/aaa目录(3)加入一个新的存储节点和删除一个节点需要执行的命令答:(1)hadoopjob–list得到job的id,然后执行hadoopjob-killjobId就可以杀死一个指定jobId的job工作了。(2)hadoopfs-rmr/tmp/aaa(3)增加一个新的节点在新的几点上执行Hadoopdaemon.shstartdatanodeHadooopdaemon.shstarttasktracker/nodemanager下线时,要在conf目录下的excludes文件中列出要下线的datanode机器主机名然后在主节点中执行hadoopdfsadmin-refreshnodes下线一个datanode删除一个节点的时候,只需要在主节点执行hadoopmradmin-refreshnodes---下线一个tasktracker/nodemanager请列出你所知道的hadoop调度器,并简要说明其工作方法答:Fifoschedular:默认,先进先出的原则Capacityschedular:计算能力调度器,选择占用最小、优先级高的先执行,依此类推。Fairschedular:公平调度,所有的job具有相同的资源。请列出你在工作中使用过的开发mapreduce的语言答:java,hive,(python,c++)hadoopstreaming当前日志采样格式为a,b,c,db,b,f,ea,a,c,f请你用最熟悉的语言编写mapreduce,计算第四列每个元素出现的个数答:publicclassWordCount1{publicstaticfinalStringINPUT_PATH="hdfs://hadoop0:9000/in";publicstaticfinalStringOUT_PATH="hdfs://hadoop0:9000/out";publicstaticvoidmain(String[]args)throwsException{Configurationconf=newConfiguration();FileSystemfileSystem=FileSystem.get(conf);if(fileSystem.exists(newPath(OUT_PATH))){}fileSystem.delete(newPath(OUT_PATH),true);Jobjob=newJob(conf,WordCount1.class.getSimpleName());//1.0读取文件,解析成key,value对FileInputFormat.setInputP