一种衍生数据的去重方法.pdf
Ch****49
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
一种衍生数据的去重方法.pdf
本发明提供了一种衍生数据的去重方法,应用于计算机安全领域,所述方法包括:对目标资源包进行处理,获取目标资源包对应的初始文件列表和任一初始文件对应的衍生文件列表,并基于衍生文件对应的标识向量与任一关键标识向量,获取初始文件对应的相似度列表;根据衍生文件对应的标识向量与任一关键标识向量之间的相似度,确定出衍生文件为初始文件对应的第一类衍生文件还是初始文件对应的第二类衍生文件且对初始文件对应的第一类衍生文件和初始文件对应的第二类衍生文件分别处理;重复上述步骤获取初始文件对应的目标结构树。本发明提供的一种衍生数据
一种数据去重的方法.pdf
本申请公开了一种数据去重的方法。本申请可按顺序逐行读取待检测数据;计算当前读取的目标行数据的MD5值并利用hash算法计算目标行数据的索引文件块的目标块号。判断是否存在目标块号的索引文件块;若是,则判断是否存在与目标块号的索引文件块对应的二级跳表索引文件块;若不存在,则检索目标块号的索引文件块是否存在目标行数据的MD5值;若目标块号的索引文件块存在目标行数据的MD5值,则删除目标行数据。因每行数据的MD5值的存储空间小于每行数据的存储空间,去重时,仅读取每行数据的MD5值来进行数据比对便可判断目标数据是否
一种数据去重方法及装置.pdf
本申请公开一种数据去重方法及装置,该数据去重方法包括:获取待存储到目标存储空间中的第一数据;确定该第一数据与目标特征值是否相同,该目标特征值为标号对应关系中记录的一个或多个特征值中的任意一个特征值;该一个或多个特征值已存储到数据块中;标号对应关系中包括特征值与特征标号之间的关联关系;在确定第一数据与目标特征值相同的情况下,不将该第一数据存储到目标存储空间的数据块中,在第一地址项中记录目标特征标号;该目标特征标号为标号对应关系中与目标特征值对应的特征标号;第一地址项中包括第一标记位,第一标记位取值为第一数值
一种数据去重方法及装置.pdf
本申请公开一种数据去重方法及装置,该数据去重方法包括:获取待存储到目标存储空间中的第一数据,目标存储空间中已存储M个数据块,M为正整数;计算第一数据的数据内容的总和校验码;在确定第一数据的数据内容的总和校验码与M个数据块的数据内容的总和校验码都不相同的情况下,为第一数据分配第一数据块,将第一数据存储到第一数据块中;在确定第一数据的数据内容的总和校验码与M个数据块中的第二数据块的数据内容的总和校验码相同,且第二数据块的数据内容与第一数据的数据内容相同的情况下,将第二数据块的地址信息作为存储第一数据的数据块的
一种流式大数据去重的方法.pdf
本发明涉及大数据处理技术领域,特别是一种流式大数据去重的方法,使用多个BloomFilter轮换的方式来进行不间断实时消息处理。采用上述方法后,本发明具有以下优点:1、在实时消息处理中,不需要停顿,保证消息处理的连续性和实时性;2、由于消息重复率一般符合正态分布,本方法总是保留最近一段时间的数据作为去重的依据,可以去除绝大部分重复数据达到满意的去重效果。