预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116127007A(43)申请公布日2023.05.16(21)申请号202211347425.0(22)申请日2022.10.31(71)申请人腾讯音乐娱乐科技(深圳)有限公司地址518052广东省深圳市前海深港合作区前湾一路1号A栋201室(入驻深圳市前海商务秘书有限公司)(72)发明人杜嘉晨周蓝珺潘树燊(74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙)44285专利代理师万欣慰(51)Int.Cl.G06F16/33(2019.01)G06F16/35(2019.01)G06F18/214(2023.01)权利要求书2页说明书9页附图5页(54)发明名称模型训练方法、数据处理方法及相关装置(57)摘要本申请实施例公开了模型训练方法、数据处理方法及相关装置,该训练方法包括:训练得预分类模型;根据预分类模型输出的每一已标注数据属于不同类别的类别预测概率,判断已标注数据是否为被错误标注的错误样本数据;修正初始训练集中至少部分错误样本数据的所属类别标注,得到目标训练集;使用目标训练集中的数据对预分类模型进行迭代训练,直至得到目标分类模型。可见,通过模型输出的类别预测概率,从已标注数据中查找出错误样本数据并对其所属类别标注做修正,有助于在人工成本最小化的情况下,最大程度地提升样本数据本身的标注质量和可靠性,缩减人工投入成本和结果响应时长,同时增强模型对数据的类别预测精度和普适性。CN116127007ACN116127007A权利要求书1/2页1.一种模型训练方法,其特征在于,包括:获取包含已标注数据的初始训练集,并使用所述初始训练集中的数据训练初始模型,以得到预分类模型;根据所述预分类模型输出的每一所述已标注数据属于不同类别的类别预测概率,判断所述已标注数据是否为被错误标注的错误样本数据;修正所述初始训练集中至少部分所述错误样本数据的所属类别标注,得到目标训练集;使用所述目标训练集中的数据对所述预分类模型进行迭代训练,直至满足收敛条件时停止训练,得到目标分类模型。2.根据权利要求1所述的模型训练方法,其特征在于,所述判断所述已标注数据是否为被错误标注的错误样本数据,包括:判断每一所述已标注数据的真实类别概率和最大预测概率分别对应的类别索引号是否相同,所述最大预测概率为预分类模型对所述已标注数据输出的各类别预测概率中的最大概率;选取所述索引号不同且所述最大预测概率超过概率阈值的已标注数据,作为所述错误样本数据。3.根据权利要求1所述的模型训练方法,其特征在于,使用所述目标训练集中的数据对所述预分类模型进行迭代训练之前,所述方法还包括:将多个未标注数据输入所述预分类模型;根据所述预分类模型输出的每一未标注数据的类别预测概率,从多个未标注数据中确定出满足评选条件的待标注数据;对所述待标注数据进行所属类别标注,以作为已标注数据加入所述初始训练集或所述目标训练集。4.根据权利要求3所述的模型训练方法,其特征在于,所述预分类模型为经过K折交叉验证训练得到的K个预分类模型,所述K大于等于2;所述从多个未标注数据中确定出满足评选条件的待标注数据,包括:对于每个所述未标注数据,计算每一所述预分类模型预测所述未标注数据为目标类别时得到的平均概率;根据各预分类模型输出的所述未标注数据的类别预测概率和所述平均概率,计算各预分类模型对所述未标注数据所属类别的预测分歧度;选取所述预测分歧度满足预设分歧范围的未标注数据作为所述待标注数据。5.根据权利要求1所述的模型训练方法,其特征在于,所述修正所述初始训练集中至少部分所述错误样本数据的所属类别标注,包括:判断多个所述错误样本数据中是否存在符合第一筛选条件的错误样本数据,所述第一筛选条件包括所述错误样本数据的各类别预测概率中,至少一对所述类别预测概率之间的差值不超过概率差距阈值;滤除符合所述第一筛选条件的错误样本数据,并修正余留下的所述错误样本数据的所属类别标注。6.根据权利要求1所述的模型训练方法,其特征在于,使用所述初始训练集中的数据训2CN116127007A权利要求书2/2页练初始模型的过程包括:将所述初始训练集中的数据进行K折拆分,得到K份样本集,所述K大于等于2;每次选择K‑1份所述样本集作为训练用集输入初始模型进行训练,剩余一份所述样本集作为测试用集用以检验被训练的初始模型,以得到K个预分类模型。7.根据权利要求1所述的模型训练方法,其特征在于,所述初始训练集还包含各无标注数据,使用所述目标训练集中的数据对所述预分类模型进行迭代训练之前,所述方法还包括:滤除所述初始训练集中符合第二筛选条件的所述无标注数据,以余留得用于训练所述预分类模型的无标注数据;所述第二筛选条件包括所述预分类模型输出的所述无标注数据的各类别预测概率中