十道海量数据处理面试题与十个方法大总结-豆柴文库

十道海量数据处理面试题与十个方法大总结.doc

2024-09-16

16金币

54KB

11页

sy****28

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

十道海量数据处理面试题与十个方法大总结来源:blog.csdn.net发布时间:2011-03-3013:23阅读:2223次HYPERLINK"http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx"\t"_blank"原文链接HYPERLINK"http://archive.cnblogs.com/kb/95701/"全屏阅读HYPERLINK"javascript:add_to_wz()"[收藏] 摘要：本文将向您讲述诸多数据处理面试题以及方法的总结。第一部分、十道海量数据处理面试题 1、海量日志数据，提取出某日访问百度次数最多的那个IP。此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。典型的TopK算法，还是在这篇文章里头有所阐述。文中，给出的最终算法是：第一步、先对这批海量数据预处理，在O（N）的时间内用Hash表完成排序；然后，第二步、借助堆这个数据结构，找出TopK，时间复杂度为N‘logK。即，借助堆结构，我们可以在log量级的时间内查找和调整/移动。因此，维护一个K(该题目中是10)大小的小根堆，然后遍历300万的Query，分别和根元素进行对比所以，我们最终的时间复杂度是：O（N）+N'*O（logK），（N为1000万，N’为300万）。ok，更多，详情，请参考原文。或者：采用trie树，关键字域存该查询串出现的次数，没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。方案：顺序读文件中，对于每个词x，取hash(x)%5000，然后按照该值存到5000个小文件（记为x0,x1,...x4999）中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小，还可以按照类似的方法继续往下分，直到分解得到的小文件的大小都不超过1M。对每个小文件，统计每个文件中出现的词以及相应的频率（可以采用trie树/hash_map等），并取出出现频率最大的100个词（可以用含100个结点的最小堆），并把100个词及相应的频率存入文件，这样又得到了5000个文件。下一步就是把这5000个文件进行归并（类似与归并排序）的过程了。 4、有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。还是典型的TOPK算法，解决方案如下：方案1：顺序读取10个文件，按照hash(query)%10的结果将query写入到另外10个文件（记为）中。这样新生成的文件每个的大小大约也1G（假设hash函数是随机的）。找一台内存在2G左右的机器，依次对用hash_map(query,query_count)来统计每个query出现的次数。利用快速/堆/归并排序按照出现次数进行排序。将排序好的query和对应的query_cout输出到文件中。这样得到了10个排好序的文件（记为）。对这10个文件进行归并排序（内排序与外排序相结合）。方案2：一般query的总量是有限的，只是重复的次数比较多而已，可能对于所有的query，一次性就可以加入到内存了。这样，我们就可以采用trie树/hash_map等直接来统计每个query出现的次数，然后按出现次数做快速/堆/归并排序就可以了。方案3：与方案1类似，但在做完hash，分成多个文件后，可以交给多个文件来处理，采用分布式的架构来处理（比如MapReduce），最后再进行合并。 5、给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限

相关资料

十道海量数据处理面试题与十个方法大总结.doc

十道海量数据处理面试题与十个方法大总结来源:blog.csdn.net发布时间:2011-03-3013:23阅读:2223次HYPERLINK"http://blog.csdn.net/v_JULY_v/archive/2011/03/26/6279498.aspx"\t"_blank"原文链接HYPERLINK"http://archive.cnblogs.com/kb/95701/"全屏阅读HYPERLINK"javascript:add_to_wz()"[收藏]摘要：本文将向您讲

海量数据处理的面试题.docx

海量数据处理的面试题关于海量数据处理的面试题YJBYS小编认为，当你为面试做了足够的准备是时候，你的面试已经成功了一半，下面来看看以下的面试题吧。在处理海量数据问题时，首先要仔细分析问题，明白问题需要解决那些关键问题，明白需要达到怎样的存储、性能要求，在这之前，应充分理解业务数据的分布、数据粒度、数据服务的质量要求、数据的动态性、数据的关联性等真实数据、业务熟悉。通常我认为，处理海量数据问题时，心中要有一些基本概念：1.现有的开源的优秀工具那些是处理海量数据的;2.海量数据就因为数据大吗，可以考虑对海量数

关于海量数据处理的面试题.docx

关于海量数据处理的面试题海量数据处理的面试题在处理海量数据问题时，首先要仔细分析问题，明白问题需要解决那些关键问题，明白需要达到怎样的存储、性能要求，在这之前，应充分理解业务数据的分布、数据粒度、数据服务的质量要求、数据的动态性、数据的关联性等真实数据、业务熟悉。通常，处理海量数据问题时，心中要有一些基本概念：1.现有的开源的优秀工具那些是处理海量数据的;2.海量数据就因为数据大吗，可以考虑对海量数据进行分区操作;3.加快海量数据的访问，数据索引必不可是;4.内存总是有限的，内存的速度是最好的，建立缓存机

海量数据处理笔试面试题4.doc

海量数据处理专题（一）——开篇2010-10-0813:03转载自HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京最终编辑HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一

海量数据处理笔试面试题4.doc

海量数据处理专题（一）——开篇2010-10-0813:03转载自08到北京最终编辑08到北京大数据量的问题是很多面试笔试中经常出现的问题，比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。本贴从解决这类问题的方法入手，开辟一系列专题

收藏立即下载