数据分类方法、模型训练方法、装置、终端及存储介质-豆柴文库

数据分类方法、模型训练方法、装置、终端及存储介质.pdf

2023-07-24

10金币

642KB

17页

努力****晓骞

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114254171A(43)申请公布日2022.03.29(21)申请号202111566209.0G06F21/60(2013.01)(22)申请日2021.12.20H04L47/2441(2022.01)H04L9/06(2006.01)(71)申请人湖北天融信网络安全技术有限公司地址430040湖北省武汉市临空港经济技术开发区五环大道666号(21)申请人北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司(72)发明人谢鹏程李渊(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463代理人杨奇松(51)Int.Cl.G06F16/906(2019.01)G06F16/908(2019.01)权利要求书3页说明书10页附图3页(54)发明名称数据分类方法、模型训练方法、装置、终端及存储介质(57)摘要本申请提供一种数据分类方法、模型训练方法、装置、终端及存储介质，可以针对单字节每一预设可能取值，根据对待测样本数据的组合选取结果，确定该预设可能取值对应的出现频次信息，根据各预设可能取值对应的出现频次信息确定目标数据特征向量，并基于该目标数据特征向量与预设的明文‑密文数据分类模型，确定该待测样本数据是明文数据还是密文数据，实现对网络流量加密数据与明文数据的识别分类，并且，基于出现频次信息构造目标数据特征向量，构造方式简单、运算量较小。CN114254171ACN114254171A权利要求书1/3页1.一种数据分类方法，其特征在于，包括：获取待测样本数据；按预设字节选取规则，从所述待测样本数据中依次进行两个字节的组合选取；针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的出现频次信息；根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量；将所述目标数据特征向量输入预设的明文‑密文数据分类模型，得到对所述待测样本数据的分类结果。2.如权利要求1所述的数据分类方法，其特征在于，所述针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的出现频次信息，包括：针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和，和/或该预设可能取值对应的所有第二预设字节组合的第二出现频次和；所述第一预设字节组合为该预设可能取值位于字节组合中第一位的组合，所述第二预设字节组合为该预设可能取值位于字节组合中第二位的组合；所述根据各所述出现频次信息确定与所述待测样本数据对应的目标数据特征向量，包括：根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和，确定与所述待测样本数据对应的目标数据特征向量。3.如权利要求2所述的数据分类方法，其特征在于，所述针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的所有第一预设字节组合的第一出现频次和，和/或该可能取值对应的所有第二预设字节组合的第二出现频次和，包括：针对第k次从所述待测样本数据中组合选取的两个对应的值，计算对应的字节转移矩阵Hk；Hk为将字节转移矩阵Hk‑1的(mk+1，nk+1)处的元素值加1得到的矩阵，H0表示256*256的0矩阵，mk表示第k次组合选取的两个字节中第一个字节对应的值，nk表示第k次组合选取的两个字节中第二个字节对应的值，在按所述预设字节选取规则，完成对所述待测样本数据的组合选取，并计算得到最终的目标字节转移矩阵后，将所述目标字节转移矩阵的元素按行相加，得到每一所述预设可能取值对应的所述第一出现频次和，并将所述目标字节转移矩阵的元素按列相加，得到每一所述预设可能取值对应的所述第二出现频次和；所述根据各所述预设可能取值对应的所述第一出现频次和、和/或所述第二出现频次和，确定与所述待测样本数据对应的目标数据特征向量，包括：将各所述预设可能取值对应的所述第一出现频次和、与所述第二出现频次和拼接得到中间数据特征向量；根据所述中间数据特征向量得到所述目标数据特征向量。4.如权利要求1所述的数据分类方法，其特征在于，所述针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的出现频次2CN114254171A权利要求书2/3页信息，包括：针对单字节对应的每一预设可能取值，根据对所述待测样本数据的组合选取结果，确定该预设可能取值对应的各第一预设字节组合的第一出现频次，和该预设可能取值对应的各第二预设字节组合的第二出现频次；所述第一预设字节组合为该预设可能取值位于字节组合中第一位的组合，所述第二预设字节

相关资料

数据分类方法、模型训练方法、装置、终端及存储介质.pdf

本申请提供一种数据分类方法、模型训练方法、装置、终端及存储介质，可以针对单字节每一预设可能取值，根据对待测样本数据的组合选取结果，确定该预设可能取值对应的出现频次信息，根据各预设可能取值对应的出现频次信息确定目标数据特征向量，并基于该目标数据特征向量与预设的明文‑密文数据分类模型，确定该待测样本数据是明文数据还是密文数据，实现对网络流量加密数据与明文数据的识别分类，并且，基于出现频次信息构造目标数据特征向量，构造方式简单、运算量较小。

2023-07-24

642KB

翻译方法、模型训练方法、装置、终端和存储介质.pdf

本公开提供了一种翻译方法、模型训练方法、装置、终端和存储介质,包括将第m个前缀源句和第m?1个前缀源句对应的第m?1个目标译句输入至所述翻译模型中,得到所述第m个前缀源句对应的第m个目标译句;其中,所述第m个前缀源句为所述完整源句中所述首个待译词至第k个待译词连接成的句子,所述k为大于或等于2正整数,且所述第m个前缀源句包含的所述待译词数量大于所述第m?1个所述前缀源句包含的所述待译词数量,并小于第m+1个前缀源句包含的所述待译词数量;所述m为不小于2的正整数。本公开实施例的翻译方法能够提高翻译稳定性。

2023-05-24

629KB

数据分类模型训练方法、数据处理方法及存储介质.pdf

本申请公开了一种数据分类模型训练方法、数据处理方法、装置、电子设备及存储介质，其中，数据分类模型训练方法包括：将第一特征张量输入数据分类模型，输出第二特征张量；所述第一特征张量中的每一行第一向量对应表征数据对象的一个第一属性名；所述第二特征张量中的每一行元素对应表征任两行第一向量的距离；基于输出的第二特征张量，对各第一向量进行聚类，得到至少一簇；对每一簇下的设定数量的第一向量对应的第一属性名进行标注，得到第一样本集；基于所述第一样本集确定损失值，根据确定出的损失值更新数据分类模型的权重参数，直到确定出的所

2023-06-14

1.1MB

语义分类模型的训练方法、装置、设备及存储介质.pdf

本申请涉及数据处理技术领域，揭示了一种语义分类模型的训练方法、装置、设备及存储介质，其中方法包括：将训练样本输入第一分类训练模型中，得到第一语义分类结果，并通过损失函数计算第一语义分类结果的第一损失值；将扰动元素项与稀疏矩阵进行叠加，得到扰动矩阵；将不同的扰动矩阵添加至第一分类训练模型的词嵌入向量中，得到若干个第二分类训练模型；采用每一个第二分类训练模型分别对训练样本进行语义分类，得到若干组不同的第二语义分类结果，通过损失函数计算每一组第二语义分类结果的第二损失值，并根据第二损失值在第二分类训练模型中选取

2023-07-25

758KB

决策模型训练方法、装置、终端设备及存储介质.pdf

本申请实施例适用于人工智能技术领域，提供了一种决策模型训练方法、装置、终端设备及存储介质，该方法包括：获取仿真系统处于任一故障下的第一状态信息；仿真系统为基于真实系统的运行产线环境预先搭建的虚拟系统；将第一状态信息输入至初始决策模型中，得到初始决策模型预测的目标恢复动作；获取仿真系统执行目标恢复动作后的第二状态信息，以及仿真系统的系统健康度；将第一状态信息、目标恢复动作、第二状态信息以及系统健康度作为一组仿真经验数据；根据仿真经验数据，对初始决策模型进行强化学习训练，得到目标决策模型。采用上述方法训练决策

2023-07-25

1.1MB