预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110442722A(43)申请公布日2019.11.12(21)申请号201910746175.X(22)申请日2019.08.13(71)申请人北京金山数字娱乐科技有限公司地址100085北京市海淀区小营西路33号金山软件大厦2层西区申请人成都金山数字娱乐科技有限公司(72)发明人王献唐剑波李长亮(74)专利代理机构北京智信禾专利代理有限公司11637代理人王治东(51)Int.Cl.G06F16/35(2019.01)G06K9/62(2006.01)权利要求书3页说明书11页附图5页(54)发明名称分类模型训练的方法及装置、数据分类的方法及装置(57)摘要本申请提供一种分类模型训练的方法及装置、数据分类的方法及装置,所述分类模型训练的方法包括:获取样本数据集,所述样本数据集包括至少三种类别标签以及类别标签对应的特征数据,统计每个类别标签的数量在所述样本数据集中的占比;根据每个类别标签的数量在所述样本数据集中的占比,将所述样本数据集中的类别标签划分为至少两个样本组;将所述样本组输入至对应的分类模型中进行训练直至达到训练条件。样本数据集中的类别标签比例不均衡,上述处理后的样本数据集的质量大幅提高,进而能够确保分类模型的训练效果,训练好的分类模型在实际的分类预测时,大幅提高训练好的分类模型的分类准确率。CN110442722ACN110442722A权利要求书1/3页1.一种分类模型训练的方法,其特征在于,包括:获取样本数据集,所述样本数据集包括至少三种类别标签以及类别标签对应的特征数据,统计每个类别标签的数量在所述样本数据集中的占比;根据每个类别标签的数量在所述样本数据集中的占比,将所述样本数据集中的类别标签及其对应的特征数据划分为至少两个样本组;将所述样本组输入至对应的分类模型中进行训练直至达到训练条件。2.根据权利要求1所述的方法,其特征在于,根据每个类别标签的数量在所述样本数据集中的占比,将所述样本数据集中的类别标签及其对应的特征数据划分为至少两个样本组,包括:将所述类别标签中占比最高的第一类别标签及其对应的特征数据划分为第一样本组,将所述样本数据集中除第一类别标签外的其余类别标签及其对应的特征数据划分为第二样本组;将所述样本组输入至对应的分类模型中进行训练直至达到训练条件,包括:在确定所述第二样本组中类别标签占比均衡的情况下,将所述第一样本组和第二样本组输入至第一分类模型进行训练直至达到训练条件,将划分为第二样本组的特征数据及对应的类别标签输入至第二分类模型中进行训练直至达到训练条件。3.根据权利要求1所述的方法,其特征在于,根据每个类别标签的数量在所述样本数据集中的占比,将所述样本数据集中的类别标签及其对应的特征数据划分为至少两个样本组,包括:将所述类别标签中占比最高的第一类别标签及其对应的特征数据划分为第一样本组,将所述样本数据集中除第一类别标签外的其余类别标签及其对应的特征数据划分为第二样本组;在确定所述第二样本组中类别标签占比失衡的情况下,将所述第二样本组对应的类别标签中占比最高的第二类别标签及其对应的特征数据划分为第三样本分组,将所述第二样本组对应的类别标签中除去第二类别标签外的其余类别标签及其对应的特征数据划分为第四样本分组;将所述样本组输入至对应的分类模型中进行训练直至达到训练条件,包括:在确定所述第四样本组中类别标签占比均衡的情况下,将所述第一样本组和第二样本组输入至二分类模型进行训练直至达到训练条件;将所述第三样本组和第四样本组输入至二分类模型进行训练直至达到训练条件;将所述第四样本组输入至多分类模型中进行训练直至达到训练条件。4.根据权利要求1所述的方法,其特征在于,统计每个类别标签的数量在所述样本数据集中的占比之后,还包括:设置第一阈值;删除所述样本数据集中占比低于第一阈值的类别标签及其对应的特征数据。5.根据权利要求2所述的方法,其特征在于,将所述样本数据集中除第一类别标签外的其余类别标签及其对应的特征数据划分为第二样本组之前,还包括:设置第二阈值,所述第二阈值大于第一阈值;将占比位于所述第一阈值与第二阈值之间的类别标签合并为组合类别标签。2CN110442722A权利要求书2/3页6.根据权利要求2所述的方法,其特征在于,将所述第一样本组和第二样本组输入至第一分类模型进行训练直至达到训练条件,包括:将所述第一样本组和第二样本组输入至二分类模型进行训练直至达到训练条件。7.根据权利要求2或6所述的方法,其特征在于,将划分为第二样本组的特征数据及对应的类别标签输入至第二分类模型中进行训练直至达到训练条件,包括:将划分为第二样本组的特征数据及对应的类别标签输入至多分类模型中进行训练直至达到训练条件。8.一种数据分类的方