预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113704240A(43)申请公布日2021.11.26(21)申请号202111115705.4(22)申请日2021.09.23(71)申请人世纪龙信息网络有限责任公司地址510000广东省广州市天河区龙口中路211号华天国际广场东苑1、2层(72)发明人唐微微王刚马幸晖丁嘉嘉黄开发王家宾(74)专利代理机构北京集佳知识产权代理有限公司11227代理人刘思言(51)Int.Cl.G06F16/215(2019.01)G06F16/2455(2019.01)权利要求书2页说明书14页附图8页(54)发明名称一种数据去重的方法(57)摘要本申请公开了一种数据去重的方法。本申请可按顺序逐行读取待检测数据;计算当前读取的目标行数据的MD5值并利用hash算法计算目标行数据的索引文件块的目标块号。判断是否存在目标块号的索引文件块;若是,则判断是否存在与目标块号的索引文件块对应的二级跳表索引文件块;若不存在,则检索目标块号的索引文件块是否存在目标行数据的MD5值;若目标块号的索引文件块存在目标行数据的MD5值,则删除目标行数据。因每行数据的MD5值的存储空间小于每行数据的存储空间,去重时,仅读取每行数据的MD5值来进行数据比对便可判断目标数据是否存在,不用读取每行数据,减轻服务器运行压力,节约服务器资源,提升了数据去重的速度。CN113704240ACN113704240A权利要求书1/2页1.一种数据去重的方法,其特征在于,包括:按顺序逐行读取待检测数据;计算当前读取的目标行数据的MD5值;根据所述目标行数据的MD5值利用hash算法进行计算,得到所述目标行数据的索引文件块的目标块号;判断是否存在所述目标块号的索引文件块,所述索引文件块用来存储各行数据的MD5值,其中,各个索引文件块中的MD5值按照升序或降序方式排序;若是,则判断是否存在与所述目标块号的索引文件块对应的二级跳表索引文件块,所述二级跳表索引文件块中包含至少一条二级跳表索引,所述二级跳表索引记录有对应索引文件块中部分MD5值所在的行号;若不存在,则检索所述目标块号的索引文件块是否存在所述目标行数据的MD5值;若所述目标行数据的索引文件块存在所述目标行数据的MD5值,则删除所述目标行数据。2.根据权利要求1所述的方法,其特征在于,该方法还包括:若存在与所述目标块号的索引文件块对应的二级跳表索引文件块,则判断所述二级跳表索引文件块中是否存在所述目标行数据的MD5值对应的二级跳表索引;若存在所述目标行数据的MD5值对应的二级跳表索引,则删除所述目标行数据;若不存在与所述目标行数据的MD5值对应的二级跳表索引,则基于所述二级跳表索引文件块中的二级跳表索引,检索所述目标块号的索引文件块中是否存在所述目标行数据的MD5值;若所述目标块号的索引文件块中存在所述目标行数据的MD5值,则删除所述目标行数据。3.根据权利要求1所述的方法,其特征在于,该方法还包括:若不存在与所述目标块号对应的索引文件块,则创建与所述目标块号对应的索引文件块;将所述目标行数据的MD5值存入创建的目标块号的索引文件块。4.根据权利要求1所述的方法,其特征在于,该方法还包括:若所述目标块号的索引文件块不存在所述目标行数据的MD5值,则将所述目标行数据的MD5值插入所述目标块号的索引文件块中;更新所述目标块号的索引文件块中各MD5值的排序。5.根据权利要求4所述的方法,其特征在于,在将所述目标行数据的MD5值插入所述目标块号的索引文件块中之后,还包括:判断所述目标块号的索引文件块的大小是否超过预设的第一阈值;若超过,则针对所述目标块号的索引文件块创建一个二级跳表索引文件块;在所述目标块号的索引文件块的二级跳表文件块中,创建关于所述目标块号的索引文件块存储的部分MD5值的二级跳表索引。6.根据权利要求5所述的方法,其特征在于,所述创建关于所述目标块号的索引文件块存储的部分MD5值的二级跳表索引,包括:针对所述目标块号的索引文件块中的各个MD5值,参考预设的抽取规则,抽取MD5值及2CN113704240A权利要求书2/2页所抽取的MD5值在所述目标块号的索引文件块中对应的行号;基于所抽取的MD5值及其对应的行号,创建关于所抽取的MD5值的二级跳表索引。7.根据权利要求2所述的方法,其特征在于,所述基于所述二级跳表索引文件块中的二级跳表索引,检索与所述目标块号的索引文件块中是否存在所述目标行数据的MD5值,包括:在所述二级跳表索引文件块的二级跳表索引中,确定与所述目标行数据的MD5值最接近且比所述目标行数据的MD5值小的MD5值对应的二级跳表索引作为第一目标二级跳表索引,与所述目标行数据的MD5值最接近且比所述目标行数据的MD5值大的MD5