Hadoop之BloomFilter

系统 2188 0

BloomFilter概述:

目的是检索元素是否在某个集合中,基于hash,速度比较快,不需要存储所有的元素,只需要按照某种方式存储hash值即可,因此比较节约内存,因此可以常驻内存加快查找速度。同时利用多个hash来解决hash冲突问题

我们假定集合元素为一个列表,我们可以用一个bit列表来存储此元素是否存在,如下所示:


 存在为1不存在为0,不过由于hash很容易冲突,那么可以基于多hash函数进行冲突的避免,每次设置对于的hash值为1,如下所示:



 也就是说x1经过三次hash那么设置对应的下标为1,x2同理,当查找判断的时候我们只需要同样获取三次hash值进行定位,当都为1的时候证明存在,反之则不存在,如下所示:



也就是说y1为不存在,因为有0,而y2,原则上存在,为什么是原则上呢?因为多次对位集合进行设置为1,而不清楚为0,那么很容易形成一个覆盖,也就是说不存在的判断是准确的,而存在的判断是不准确的。

转发请注明出处: http://snv.iteye.com/

总之:

1. BloomFilter能很快的判断某元素是否存在

2.BloomFilter能准确判断不存在的,概率性判断存在的

3.常驻内存对大数据操作很快

Hadoop中的实现:

      BloomFilter
CountingBloomFilter
DynamicBloomFilter
RetouchedBloomFilter
    

使用场景:

1.操作的文件很多,那么当一个请求过来之后首先在内存做判断,如果有那么操作,如果没有那么直接返回,如nosql系列等

2.大数据处理时,如爬虫采集时对url做判断,如果没有采集过那么采集等

3.对否要求高,对是要求低的操作 

 

 

Hadoop之BloomFilter


更多文章、技术交流、商务合作、联系博主

微信扫码或搜索:z360901061

微信扫一扫加我为好友

QQ号联系: 360901061

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描下面二维码支持博主2元、5元、10元、20元等您想捐的金额吧,狠狠点击下面给点支持吧,站长非常感激您!手机微信长按不能支付解决办法:请将微信支付二维码保存到相册,切换到微信,然后点击微信右上角扫一扫功能,选择支付二维码完成支付。

【本文对您有帮助就好】

您的支持是博主写作最大的动力,如果您喜欢我的文章,感觉我的文章对您有帮助,请用微信扫描上面二维码支持博主2元、5元、10元、自定义金额等您想捐的金额吧,站长会非常 感谢您的哦!!!

发表我的评论
最新评论 总共0条评论