预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114819145A(43)申请公布日2022.07.29(21)申请号202210504149.8(22)申请日2022.05.10(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人白俊杨(74)专利代理机构中国贸促会专利商标事务所有限公司11038专利代理师曹蓓方亮(51)Int.Cl.G06N3/08(2006.01)G06N20/00(2019.01)权利要求书2页说明书9页附图5页(54)发明名称模型训练方法和装置、服务装置和存储介质(57)摘要本公开提出一种模型训练方法和装置、服务装置和存储介质,涉及机器学习技术领域。本公开的一种模型训练方法包括:针对每条用户行为样本数据,通过教师模型处理用户行为样本数据,获得第一打分值,并根据第一打分值和用户行为样本数据的标签确定第一损失值,其中,第一损失值在教师模型中反向传播;通过学生模型处理用户行为样本数据,获得第二打分值,并根据第二打分值和用户行为样本数据的标签确定第二损失值,其中,第二损失值在学生模型中反向传播;根据第一打分值和第二打分值获取第三损失值,第二损失值和第三损失值在学生模型中反向传播。通过这样的方法,能够缩短训练时间,提高了迭代速度和训练效率。CN114819145ACN114819145A权利要求书1/2页1.一种模型训练方法,包括:针对每条用户行为样本数据,通过教师模型处理所述用户行为样本数据,获得第一打分值,并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值,其中,所述第一损失值在所述教师模型中反向传播;通过学生模型处理所述用户行为样本数据,获得第二打分值,并根据所述第二打分值和所述用户行为样本数据的标签确定第二损失值,其中,所述第二损失值在所述学生模型中反向传播;根据所述第一打分值和所述第二打分值获取第三损失值,所述第三损失值在所述学生模型中反向传播。2.根据权利要求1所述的方法,还包括:在前序训练过程中,针对每条用户行为样本数据,通过待前序训练的教师模型处理用户行为样本数据,获取教师模型损失值;将所述教师模型损失值在所述待前序训练的教师模型中反向传播;完成所述前序训练,获取所述教师模型。3.根据权利要求1所述的方法,其中,所述教师模型中包括网络结构或初始化方式中至少一项不同的多个模型。4.根据权利要求3所述的方法,其中,所述通过教师模型处理所述用户行为样本数据,获得第一打分值,并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值包括:获取所述教师模型中的每个模型分别处理所述用户行为样本数据获得的单模型打分值;结合所述教师模型中的每个模型的所述单模型打分值,获取所述第一打分值;根据所述第一打分值和对应的用户行为样本数据,获取所述第一损失值。5.根据权利要求4所述的方法,其中,所述结合每个模型的所述单模型打分值,获取所述第一打分值包括:根据每个模型的预设权重和所述单模型打分值,获取所述单模型打分值的加权和,作为所述第一打分值。6.根据权利要求2所述的方法,其中,所述通过待前序训练的教师模型处理所述用户行为样本数据,获取教师模型损失值包括:通过每个所述待前序训练的教师模型分别处理所述用户行为样本数据,获取每个模型确定的单模型损失值,其中,所述教师模型中包括网络结构或初始化方式中至少一项不同的多个模型;结合每个模型的确定的所述单模型损失值,获取所述教师模型损失值;所述将所述教师模型损失值在所述待前序训练的教师模型中反向传播包括:将所述教师模型损失值在所述待前序训练的教师模型的每个模型中反向传播。7.根据权利要求1所述的方法,还包括:根据所述第一损失值、所述第二损失值和所述第三损失值获取模型训练损失值,其中,所述第三损失值的权重小于所述第一损失值和所述第二损失值。8.根据权利要求1所述的方法,还包括:2CN114819145A权利要求书2/2页在完成模型训练后,裁剪出训练完成的所述学生模型;通过所述学生模型提供服务。9.根据权利要求1~8任意一项所述的方法,其中,所述教师模型和所述学生模型为基于用户行为数据进行用户排序的机器学习模型。10.一种模型训练装置,包括:第一损失值确定单元,被配置为在模型训练过程中,针对每条用户行为样本数据,通过教师模型处理所述用户行为样本数据,获得第一打分值,并根据所述第一打分值和所述用户行为样本数据的标签确定第一损失值,其中,所述第一损失值在所述教师模型中反向传播;第二损失值确定单元,被配置为在模型训练过程中,针对每条用户行为样本数据,通过学生模型处理所述用户行为样本数据,获得第二打分值,并根据所述第二打分值和所述用户行为样本数