预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114238976A(43)申请公布日2022.03.25(21)申请号202111572751.7(22)申请日2021.12.21(71)申请人北京火山引擎科技有限公司地址100190北京市海淀区紫金数码园4号楼13层1309(72)发明人张晨郭建新罗辉(74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙)11447代理人魏云鹿(51)Int.Cl.G06F21/56(2013.01)G06K9/62(2022.01)权利要求书3页说明书17页附图14页(54)发明名称文件的检测方法、装置、可读介质和电子设备(57)摘要本公开涉及一种文件的检测方法、装置、可读介质和电子设备,涉及电子信息处理技术领域,该方法包括:获取目标应用中待检测文件,调用业务关键词模型确定待检测文件与目标应用的源码文件的关键词相似度,业务关键词模型根据源码文件动态更新。调用编码风格模型确定待检测文件与源码文件的编码风格相似度,编码风格模型根据源码文件动态更新。根据关键词相似度和编码风格相似度确定待检测文件与源码文件的综合相似度,根据综合相似度和相似度阈值,确定待检测文件是否为恶意脚本。本公开能够从关键词和编码风格两个维度确定待检测文件与源码文件的综合相似度,并根据综合相似度确定待检测文件是否为恶意脚本,能够提高文件检测的准确度。CN114238976ACN114238976A权利要求书1/3页1.一种文件的检测方法,其特征在于,所述方法包括:获取目标应用中待检测文件;调用业务关键词模型确定所述待检测文件与所述目标应用的源码文件的关键词相似度;所述业务关键词模型基于所述源码文件训练生成,用于维护所述源码文件中的业务关键词,所述业务关键词模型根据所述源码文件动态更新;调用编码风格模型确定所述待检测文件与所述源码文件的编码风格相似度,所述编码风格模型基于所述源码文件训练生成,用于维护所述源码文件的编码风格,所述编码风格模型根据所述源码文件动态更新;根据所述关键词相似度和所述编码风格相似度确定所述待检测文件与所述源码文件的综合相似度;根据所述综合相似度和相似度阈值,确定所述待检测文件是否为恶意脚本。2.根据权利要求1所述的方法,其特征在于,所述调用业务关键词模型确定所述待检测文件与所述目标应用的源码文件的关键词相似度,包括:对所述待检测文件包括的文本进行关键词提取,得到至少一个待检测关键词;将每个所述待检测关键词与所述业务关键词模型维护的至少一个所述业务关键词进行匹配;根据该待检测关键词与每个所述业务关键词对应的匹配结果,以及每个业务关键词对应的权重,确定该待检测关键词的评分;根据每个所述待检测关键词的评分,确定所述关键词相似度。3.根据权利要求1所述的方法,其特征在于,所述调用编码风格模型确定所述待检测文件与所述源码文件的编码风格相似度,包括:根据所述待检测文件包括的文本,确定所述待检测文件对应每种所述编码风格的待检测特征值;将每种所述编码风格的待检测特征值,与所述编码风格模型维护的至少一种编码风格的编码特征值进行匹配;根据该种编码风格对应的匹配结果,以及该种编码风格对应的权重,确定该种编码风格的评分;根据每种所述编码风格的评分,确定所述编码风格相似度。4.根据权利要求3所述的方法,其特征在于,所述将每种所述编码风格的待检测特征值,与所述编码风格模型维护的至少一种编码风格的编码特征值进行匹配,包括:将每种所述编码风格的待检测特征值,与编码风格特征矩阵进行匹配,所述编码风格特征矩阵包括至少一种编码风格中,每种编码风格对应的至少一个编码特征值;每种所述编码风格对应的权重根据该种编码风格对应的至少一个编码特征值确定;针对每种所述编码风格,将该种编码风格的待检测特征值,与该种编码风格的至少一个编码特征值的匹配概率作为该种编码风格对应的匹配结果。5.根据权利要求1所述的方法,其特征在于,在所述根据所述综合相似度和相似度阈值,确定所述待检测文件是否为恶意脚本之前,所述方法还包括:调用所述业务关键词模型确定测试样本集中,每个测试样本与所述源码文件的测试关键词相似度,并调用所述编码风格模型确定该测试样本与所述源码文件的测试编码风格相2CN114238976A权利要求书2/3页似度,所述测试样本集包括多个所述测试样本,所述测试样本为所述源码文件或者恶意脚本;根据所述测试关键词相似度和所述测试编码风格相似度,确定该测试样本与所述源码文件的测试综合相似度;在预设的多个阈值中,根据每个所述测试样本的测试综合相似度和每个所述阈值,确定每个测试样本是否为恶意脚本,以得到该阈值对应的精准率和召回率;根据每个所述阈值对应的精准率和召回率,确定所述相似度阈值。6.根据权利要求2所述的方法,其特征在于,所述业