预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

海量数据处理专题(一)——开篇 2010-10-0813:03 转载自HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京 最终编辑HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京 大数据量的问题是很多面试笔试中经常出现的问题,比如baidugoogle腾讯这样的一些涉及到海量数据的公司经常会问到。 下面的方法是我对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖所有的问题,但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目,方法不一定最优,如果你有更好的处理方法,欢迎与我讨论。 本贴从解决这类问题的方法入手,开辟一系列专题来解决海量数据问题。拟包含以下几个方面。 HYPERLINK"http://blog.redfox66.com/post/mass-data-topic-2-bloom-filter.aspx"\t"_blank"BloomFilter HYPERLINK"http://blog.redfox66.com/post/mass-data-topic-3-hash.aspx"\t"_blank"Hash HYPERLINK"http://blog.redfox66.com/post/mass-data-4-bitmap.aspx"\t"_blank"Bit-Map HYPERLINK"http://blog.redfox66.com/post/mass-data-topic-5-heap.aspx"\t"_blank"堆(Heap) 双层桶划分 数据库索引 倒排索引(InvertedIndex) 外排序 Trie树 MapReduce海量数据处理专题(二)——BloomFilter 2010-10-0813:04 转载自HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京 最终编辑HYPERLINK"http://hi.baidu.com/08%B5%BD%B1%B1%BE%A9"\t"blank"08到北京 【什么是BloomFilter】 BloomFilter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。BloomFilter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)。因此,BloomFilter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,BloomFilter通过极少的错误换取了存储空间的极大节省。这里有一篇关于HYPERLINK"http://blog.csdn.net/jiaomeng/archive/2007/01/27/1495500.aspx"BloomFilter的详细介绍,不太懂的博友可以看看。 【适用范围】 可以用来实现数据字典,进行数据的判重,或者集合求交集 【基本原理及要点】 HYPERLINK"http://blog.redfox66.com/post/mass-data-topic-2-bloom-filter.aspx"\t"_blank"对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是countingBloomfilter,用一个counter数组代替位数组,就可以支持删除了。 HYPERLINK"http://blog.redfox66.com/post/mass-data-topic-2-bloom-filter.aspx"\t"_blank"还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函数个数。当hash函数个数k=(ln2)*(m/n)时错误率最小。在错误率不大于E的情况下,m至少要等于n*lg(1/E)才能表示任意n个元素的集合。但m还应该更大些,因为还要保证bit数组里至少一半为0,则m应该>=nlg(1/E)*lge大概就是nlg(1/E)1.44倍(lg表示以2为底的对数)。 HYPERLINK"http://blog.redfox6