预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114186229A(43)申请公布日2022.03.15(21)申请号202010969205.6(22)申请日2020.09.15(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人虞珍妮闻剑峰陆广铖(74)专利代理机构中国贸促会专利商标事务所有限公司11038代理人刘剑波(51)Int.Cl.G06F21/56(2013.01)G06K9/62(2022.01)权利要求书3页说明书7页附图4页(54)发明名称分类检测模型训练方法和装置、分类检测方法和装置(57)摘要本公开提供一种分类检测模型训练方法和装置、分类检测方法和装置。分类检测模型训练装置对恶意样本APK进行反编译,以得到目标文件,并从目标文件中提取出静态特征;利用沙箱工具从恶意样本APK中提取出动态特征;利用静态特征和动态特征生成训练数据集;利用预设的特征选取模型从训练数据集中提取出第一特征样本集合;利用第一特征样本集合对预设分类器进行训练,以得到经过训练的分类检测模型。从而利用所得到的分类检测模型对待检测APK进行分类检测。本公开在无需人工干预的情况下有效克服分类检测效率低、准确度低的问题。CN114186229ACN114186229A权利要求书1/3页1.一种分类检测模型训练方法,包括:对恶意样本APK进行反编译,以得到目标文件,并从所述目标文件中提取出静态特征;利用沙箱工具从所述恶意样本APK中提取出动态特征;利用所述静态特征和所述动态特征生成训练数据集;利用预设的特征选取模型从所述训练数据集中选取出第一特征样本集合;利用所述第一特征样本集合对预设分类器进行训练,以得到经过训练的分类检测模型。2.根据权利要求1所述的方法,其中:所述特征选取模型为随机森林模型;所述分类器为朴素贝叶斯分类器。3.根据权利要求2所述的方法,还包括:利用十折交叉验证算法对随机森林模型中的决策树个数进行优化。4.根据权利要求1所述的方法,其中,所述目标文件包括androidmanifest.xml文件和smali文件,所述从所述目标文件中提取出静态特征包括:从所述androidmanifest.xml文件中提取出权限特征;从所述smali文件中提取API调用特征;根据所述权限特征和所述API调用特征生成静态特征。5.根据权利要求1-4中任一项所述的方法,其中,利用所述第一特征样本集合对预设分类器进行训练包括:利用递归特征消除算法,按照分类权重从大到小的顺序从所述第一特征样本集合中提取出预定数量个特征样本,以生成第二特征样本集合;利用所述第二特征样本集合对预设分类器进行训练。6.一种分类检测模型训练装置,包括:第一静态特征提取模块,被配置为对恶意样本APK进行反编译,以得到目标文件,并从所述目标文件中提取出静态特征;第一动态特征提取模块,被配置为利用沙箱工具从所述恶意样本APK中提取出动态特征;训练数据生成模块,被配置为利用所述静态特征和所述动态特征生成训练数据集;训练模块,被配置为利用预设的特征选取模型从所述训练数据集中选取出第一特征样本集合,利用所述第一特征样本集合对预设分类器进行训练,以得到经过训练的分类检测模型。7.根据权利要求6所述的装置,其中:所述特征选取模型为随机森林模型;所述分类器为朴素贝叶斯分类器。8.根据权利要求7所述的装置,其中:训练模块被配置为利用十折交叉验证算法对随机森林模型中的决策树个数进行优化。9.根据权利要求6所述的装置,其中:所述目标文件包括androidmanifest.xml文件和smali文件;第一静态特征提取模块被配置为从所述androidmanifest.xml文件中提取出权限特2CN114186229A权利要求书2/3页征,从所述smali文件中提取API调用特征,根据所述权限特征和所述API调用特征生成静态特征。10.根据权利要求6-9中任一项所述的装置,其中:训练模块被配置为利用递归特征消除算法,按照分类权重从大到小的顺序从所述第一特征样本集合中提取出预定数量个特征样本,以生成第二特征样本集合,利用所述第二特征样本集合对预设分类器进行训练。11.一种分类检测模型训练装置,包括:存储器,被配置为存储指令;处理器,耦合到存储器,处理器被配置为基于存储器存储的指令执行实现如权利要求1-5中任一项所述的方法。12.一种分类检测方法,包括:对待检测APK进行反编译,以得到目标文件,并从所述目标文件中提取出静态特征;利用沙箱工具从所述待检测APK中提取出动态特征;利用所述静态特征和所述动态特征生成样本数据集;利用预设的特征选取模型从所述样本数据集中选取出第三特征样本集合;利用权利要求1-5中任一项所述的分类检测模型训练方法所得到的