预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

Hadoop就业面试宝典面试题TCL公司Hadoop:mapReduce的编程VK解决方案:搭好框架,写出map和reduce的参数数据切分和写一个javabean填充代码。请简述一下yarn的工作流程?一个完整的YARNApplication需要包括那些组件?请简述一下Hadoop/MapReduce,Spark,Strom,Hive的特点及适用场景?Hadoop:是一种分布式系统基础架构当处理海量数据的程序,开始要求高可靠、高扩展、高效、低容错、低成本的场景MapReduce:MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。MapReduce的典型应用场景中,目前日志分析用的比较多,还有做搜素的索引,机器学习算法包mahout也是之一,当然它能做的东西还有很多,比如数据挖掘、信息提取。Spark:拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。数据过于繁杂,并且需要让计算通过迭代,并在内存中,极大地提高效率的场景Strom:一个分布式实时计算系统,Storm是一个任务并行连续计算引擎。Storm本身并不典型在Hadoop集群上运行,它使用ApacheZooKeeper的和自己的主/从工作进程,协调拓扑,主机和工作者状态,保证信息的语义。无论如何,Storm必定还是可以从HDFS文件消费或者从文件写入到HDFS。Hive:基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。应用场景:十分适合数据仓库的统计分析。Hbase:应用场景:数据量太大,以至于传统RDBMS无法胜任、联机业务功能开发、离线数据分析(数据仓库),Hive的条件判断有几种?hive的条件判断(if、coalesce、case)请适用hive写出查询某网站日志中方位多页面a和页面b的用户数量的语句:Selectcount(user)fromurlaa,urlbbwherea.url=b.url;曾经有没有down机过,如果集群down了,怎么恢复,会不会有数据丢失。上线之前测试经常会down,磁盘也坏,网络不稳定。我们配的ha集群,主从切换数据基本没有丢失,我们之前用的hadoop1,元数据secondnamenode上面,NameNode恢复。你曾经在Hadoop遇到的问题,怎么解决的。问题1:数据倾斜:解决办法:在mapreduce聚合key中所有values的时候,如果一个key对应了很多values,就会产生数据倾斜的问题。数据倾斜主要就是某个key下面对应的value太多,导致某个reduce节点执行的数据过多,然后产生某个或者某几个reduce节点的执行效率过低,导致整个集群中的任务执行效率较慢,可以使用partion对数据过多的节点进行再划分,划分成多个小的数据块,输入到reduce进行处理。问题2:某些任务执行时间过长,且失败率过高,检查日志后发现没有执行完就失败,原因出在hadoop的job的timeout过短(相对于集群的能力来说)。解决办法:设置长一点即可对数据挖掘的了解。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。mySql和Orcal中用建立什么检索没用Log项目有多少数据量,爬取那些数据,hive使用处理多少数据。1T-2T几十个T如果一个job占用了所有资源,第二个能跑吗?默认情况不能跑,hadoop中的yarn的机制默认是fifo,可以配置公平调度job有没优先级,hadoop用户权限,hadoop中的yarn的机制默认是fifo,可以配置公平调度,可以配参数如果一个写数据统计,在本地跑没有问题但是放到hadoop上面跑在