预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254171A(43)申请公布日2022.03.29(21)申请号202111566209.0G06F21/60(2013.01)(22)申请日2021.12.20H04L47/2441(2022.01)H04L9/06(2006.01)(71)申请人湖北天融信网络安全技术有限公司地址430040湖北省武汉市临空港经济技术开发区五环大道666号(21)申请人北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司(72)发明人谢鹏程李渊(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463代理人杨奇松(51)Int.Cl.G06F16/906(2019.01)G06F16/908(2019.01)权利要求书3页说明书10页附图3页(54)发明名称数据分类方法、模型训练方法、装置、终端及存储介质(57)摘要本申请提供一种数据分类方法、模型训练方法、装置、终端及存储介质,可以针对单字节每一预设可能取值,根据对待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次信息,根据各预设可能取值对应的出现频次信息确定目标数据特征向量,并基于该目标数据特征向量与预设的明文‑密文数据分类模型,确定该待测样本数据是明文数据还是密文数据,实现对网络流量加密数据与明文数据的识别分类,并且,基于出现频次信息构造目标数据特征向量,构造方式简单、运算量较小。CN114254171ACN114254171A权利要求书1/3页1.一种数据分类方法,其特征在于,包括:获取待测样本数据;按预设字节选取规则,从所述待测样本数据中依次进行两个字节的组合选取;针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次信息;根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量;将所述目标数据特征向量输入预设的明文‑密文数据分类模型,得到对所述待测样本数据的分类结果。2.如权利要求1所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次信息,包括:针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和,和/或该预设可能取值对应的所有第二预设字节组合的第二出现频次和;所述第一预设字节组合为该预设可能取值位于字节组合中第一位的组合,所述第二预设字节组合为该预设可能取值位于字节组合中第二位的组合;所述根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量,包括:根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和,确定与所述待测样本数据对应的目标数据特征向量。3.如权利要求2所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和,和/或该可能取值对应的所有第二预设字节组合的第二出现频次和,包括:针对第k次从所述待测样本数据中组合选取的两个对应的值,计算对应的字节转移矩阵Hk;Hk为将字节转移矩阵Hk‑1的(mk+1,nk+1)处的元素值加1得到的矩阵,H0表示256*256的0矩阵,mk表示第k次组合选取的两个字节中第一个字节对应的值,nk表示第k次组合选取的两个字节中第二个字节对应的值,在按所述预设字节选取规则,完成对所述待测样本数据的组合选取,并计算得到最终的目标字节转移矩阵后,将所述目标字节转移矩阵的元素按行相加,得到每一所述预设可能取值对应的所述第一出现频次和,并将所述目标字节转移矩阵的元素按列相加,得到每一所述预设可能取值对应的所述第二出现频次和;所述根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和,确定与所述待测样本数据对应的目标数据特征向量,包括:将各所述预设可能取值对应的所述第一出现频次和、与所述第二出现频次和拼接得到中间数据特征向量;根据所述中间数据特征向量得到所述目标数据特征向量。4.如权利要求1所述的数据分类方法,其特征在于,所述针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的出现频次2CN114254171A权利要求书2/3页信息,包括:针对单字节对应的每一预设可能取值,根据对所述待测样本数据的组合选取结果,确定该预设可能取值对应的各第一预设字节组合的第一出现频次,和该预设可能取值对应的各第二预设字节组合的第二出现频次;所述第一预设字节组合为该预设可能取值位于字节组合中第一位的组合,所述第二预设字节