预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114297653A(43)申请公布日2022.04.08(21)申请号202111657638.9(22)申请日2021.12.31(71)申请人安天科技集团股份有限公司地址150028黑龙江省哈尔滨市高新技术产业开发区科技创新城创新创业广场7号楼(世坤路838号)(72)发明人李建平李石磊(74)专利代理机构北京锺维联合知识产权代理有限公司11579代理人安娜(51)Int.Cl.G06F21/56(2013.01)权利要求书2页说明书4页附图2页(54)发明名称一种衍生数据的去重方法(57)摘要本发明提供了一种衍生数据的去重方法,应用于计算机安全领域,所述方法包括:对目标资源包进行处理,获取目标资源包对应的初始文件列表和任一初始文件对应的衍生文件列表,并基于衍生文件对应的标识向量与任一关键标识向量,获取初始文件对应的相似度列表;根据衍生文件对应的标识向量与任一关键标识向量之间的相似度,确定出衍生文件为初始文件对应的第一类衍生文件还是初始文件对应的第二类衍生文件且对初始文件对应的第一类衍生文件和初始文件对应的第二类衍生文件分别处理;重复上述步骤获取初始文件对应的目标结构树。本发明提供的一种衍生数据的去重方法,能够减少重复文件占用的内存空间,在对文件进行处理时节省大量时间,提高了效率。CN114297653ACN114297653A权利要求书1/2页1.一种衍生数据的去重方法,其特征在于,包括如下步骤:S100、对目标资源包进行处理,获取目标资源包对应的初始文件列表A={A1,A2,……,Am},Ai是指第i个初始文件,i=1……m,m为初始文件数量;S200、获取Ai对应的格式且根据Ai对应的格式,获取Ai对应的衍生文件列表Ai'={Ai1,Ai2,……,Ain},其中,Aij是指第j个衍生文件,j=1……n,n为衍生文件数量;12srS300、获取Aij对应的标识向量(Aij,Aij,……,Aij),其中,Aij是指Aij对应的标识向量中第r个bit值,r=1……s,s为标识向量的bit位数量;S400、基于Aij对应的标识向量与关键标识集中任一关键标识向量,获取Aij对应的相似12zx度列表Fij=(Fij,Fij,……,Fij),Fij是指Aij对应的标识向量与第x个关键标识向量对应的相似度,x=1……z,z=n‑1;xS500、根据Fij,获取Ai对应的第一类衍生文件和Ai对应的第二类衍生文件且对Aij对应的第一类衍生文件和Aij对应的第二类衍生文件分别处理;S600、重复S200‑S500步骤,直到Ai对应的数据结构中任一层级的所有衍生文件均为第二类衍生文件,获取Ai对应的目标结构树。2.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,在S100步骤中的目标资源包的处理方式为拆分处理。3.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,在S300步骤中所述标识向量是通过对Aij对应的标识进行hash编码化处理获取的。4.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,所述关键标识向量是指Ai'中除Aij之外的其他任一衍生文件对应标识向量。5.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,在S400步骤中还包括如下步骤:获取关键标识集Bi={B1,B2,……,Bz},第x个关键标识向量Bx=(Bx1,Bx2,……,Bxz),Bxr是指第x个关键标识向量中第r个bit值;x根据Aij对应的标识向量和Bx,获取Fij。x6.根据权利要求5所述的一种衍生数据的去重方法,其特征在于,Fij符合如下条件:7.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,Ai对应的结构树包括:Ai为根节点和Ai对应的衍生文件作为叶子节点。8.根据权利要求1所述的一种衍生数据的去重方法,其特征在于,所述方法还包括如下步骤:xxS1、遍历Fij且当任一Fij=0时,将Fij=0的衍生文件的总数量作为Aij对应的计数值Cij;S2、基于所有Cij,获取A对应的总计数值C0,C0符合如下条件:S3、当C0大于预设的计数阈值时,反馈提示指令至管理员。2CN114297653A权利要求书2/2页9.一种非瞬时性计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~8中任意一项的所述方法。10.一种电子设备,其特征在于,包括处理器和权利要求9中的非瞬时性计算机可读存储介质。3CN114297653A说明书1/4页一种衍生数据的去重方法技术领域[0001]本发明涉及计算机安全技术领域,具体涉及一种衍生数据的去重方法。背景技术[0002]随着计