预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105975516A(43)申请公布日2016.09.28(21)申请号201610277707.6(22)申请日2016.04.27(71)申请人湖南蚁坊软件有限公司地址410013湖南省长沙市高新区文轩路27号麓谷企业广场A4栋603室(72)发明人陈海文黄三伟(51)Int.Cl.G06F17/30(2006.01)权利要求书1页说明书2页附图1页(54)发明名称一种流式大数据去重的方法(57)摘要本发明涉及大数据处理技术领域,特别是一种流式大数据去重的方法,使用多个BloomFilter轮换的方式来进行不间断实时消息处理。采用上述方法后,本发明具有以下优点:1、在实时消息处理中,不需要停顿,保证消息处理的连续性和实时性;2、由于消息重复率一般符合正态分布,本方法总是保留最近一段时间的数据作为去重的依据,可以去除绝大部分重复数据达到满意的去重效果。CN105975516ACN105975516A权利要求书1/1页1.一种流式大数据去重的方法,其特征在于:使用多个BloomFilter轮换的方式来进行不间断实时消息处理。2.按照权利要求1所述的一种流式大数据去重的方法,其特征在于,所述多个BloomFilter轮换的方式为预写方式,往当前使用的BloomFilter中写入数据时,也往下一个将要使用的BloomFilter预写数据,下一个BloomFilter容量达到一半时,将当前使用的BloomFilter更换为下一个将要使用的BloomFilter。3.按照权利要求1所述的一种流式大数据去重的方法,其特征在于,所述多个BloomFilter轮换的方式为先判断方式,往当前使用的BloomFilter中写入数据之前先判断数据是否在其他BloomFilter中存在,当当前BloomFilter假阳性概率达到设定的值时,将当前使用的BloomFilter更换为下一个将要使用的BloomFilter。2CN105975516A说明书1/2页一种流式大数据去重的方法技术领域[0001]本发明涉及大数据处理技术领域,特别是一种流式大数据去重的方法。背景技术[0002]在实时消息处理的系统中,过滤掉海量数据中的重复记录有着非同寻常的意义。传统的大数据去重算法有BloomFilter等,但是BloomFilter算法需要预先设定需要去重的数据量和假阳性概率,这种约束可以满足已知容量的大数据去重的要求,却不能满足实时消息处理的场景。[0003]中国发明专利CN104778193A公开了一种数据去重方法,包括:向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据为网络数据包或通信指令;接收所述采集设备发送的第一数据;检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓存。此发明只需要存储一份数据就可以完成去重,不仅能够达到数据去重的目的,而且节约了系统资源。发明内容[0004]本发明需要解决的技术问题提供一种实时消息系统中流式大数据去重的方法。[0005]为解决上述的技术问题,本发明的一种流式大数据去重的方法,使用多个BloomFilter轮换的方式来进行不间断实时消息处理。[0006]进一步的,所述多个BloomFilter轮换的方式为预写方式,往当前使用的BloomFilter中写入数据时,也往下一个将要使用的BloomFilter预写数据,下一个BloomFilter容量达到一半时,将当前使用的BloomFilter更换为下一个将要使用的BloomFilter。[0007]进一步的,所述多个BloomFilter轮换的方式为先判断方式,往当前使用的BloomFilter中写入数据之前先判断数据是否在其他BloomFilter中存在,当当前BloomFilter假阳性概率达到设定的值时,将当前使用的BloomFilter更换为下一个将要使用的BloomFilter。[0008]采用上述方法后,本发明具有以下优点:[0009]1、在实时消息处理中,不需要停顿,保证消息处理的连续性和实时性。[0010]2、由于消息重复率一般符合正态分布,本方法总是保留最近一段时间的数据作为去重的依据,可以去除绝大部分重复数据达到满意的去重效果。附图说明[0011]下面将结合附图和具体实施方式对本发明作进一步详细的说明。[0012]图1为本发明第一方案的流程示意图。[0013]图2为本发明第二方案的流程示意图。3CN105975516A说明书2/2页具体实施方式[0014]本发明的一种流式大数据去重的方法,使用多个BloomFilter轮换的方式来进行不间断实时消息处理。其中多个BloomFilter