预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

关于海量数据处理的面试题海量数据处理的面试题在处理海量数据问题时,首先要仔细分析问题,明白问题需要解决那些关键问题,明白需要达到怎样的存储、性能要求,在这之前,应充分理解业务数据的分布、数据粒度、数据服务的质量要求、数据的动态性、数据的关联性等真实数据、业务熟悉。通常,处理海量数据问题时,心中要有一些基本概念:1.现有的开源的优秀工具那些是处理海量数据的;2.海量数据就因为数据大吗,可以考虑对海量数据进行分区操作;3.加快海量数据的访问,数据索引必不可是;4.内存总是有限的,内存的速度是最好的,建立缓存机制是十分必要的;5.海量数据来源多样,数据格式也不相同,最好是统一为字符串处理,逻辑处理交给上层应用;6.海量数据离不开集群、分布式,分布式的出错处理、负载均衡就必然要有一套可行的机制;7.所有底层的问题或者说存储的问题解决了,未来方便上层应用或者夸大底层支持的业务,对外应该有一个明朗的逻辑视图;8.系统设计和结构,会因为不同的语言、操作性在实现难以上不同,这也需要考虑;9.海量数据的一个应用就是数据挖掘服务,多域数据来源统一管理下,数据仓库和相关计算也应该了解一二;10.尽管说存储不是问题,如果能对数据进行压缩处理,又可以接受的性能,这何乐而不为呢。在参考前人博客、文摘加上个人一点理解,汇总以下一些基础概念已帮助和我一样面临就业的学生,应对未来公司的面试考核。当然,有实际工作经验的大牛门来说,下面的问题早已不是问题,他们都在某个问题上是专家了。欢迎大牛指导!具有通用性的数据结构和算法思路汇总有:1.Bloomfilter2.Hashing3.bit-map4.堆5.双层桶划分,可以理解为多级索引6.数据库索引7.倒排索引(Invertedindex)8.外排序9.trie树10.分布式处理看过“关于海量数据处理的面试题”的人还看了:1.面试数据分析师常见的面试问题2.如何面试数据分析师3.关于搜索引擎营销的面试题及答案4.中兴公司常见面试题及答案