预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115048577A(43)申请公布日2022.09.13(21)申请号202210672652.4(22)申请日2022.06.14(71)申请人北京三快在线科技有限公司地址100080北京市海淀区北四环西路9号2106-030(72)发明人王泽廖国钢石晓文吴晓旭王永康王兴星(74)专利代理机构北京曼威知识产权代理有限公司11709专利代理师王宏财(51)Int.Cl.G06F16/9535(2019.01)G06K9/62(2022.01)权利要求书2页说明书14页附图5页(54)发明名称一种模型训练方法、装置、设备及存储介质(57)摘要本说明书公开了一种模型训练方法、装置、设备及存储介质,基于第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度,从第一训练样本中选择目标训练样本,根据目标训练样本以及目标训练样本对应的实际推荐效果表征值,训练待训练的目标业务类型对应的信息推荐模型。可见,基于适配度将从指定业务类型的历史页面中获取的第一训练样本作为训练目标业务类型对应的信息推荐模型的训练样本,实现了从指定业务类型到目标业务类型的样本迁移,即使从目标业务类型的历史页面中获取的用户历史行为较少,也可以基于指定业务类型的历史页面中获取的用户历史行为训练目标业务类型对应的信息推荐模型,进而提高指定业务类型的页面的推荐效果。CN115048577ACN115048577A权利要求书1/2页1.一种模型训练方法,其特征在于,包括:获取指定业务类型的历史页面包含的历史推荐信息作为第一训练样本;根据所述第一训练样本,确定所述第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度;根据所述适配度以及所述第一训练样本,确定目标训练样本;根据用户针对所述指定业务类型的历史页面包含的所述目标训练样本的操作结果,确定所述目标训练样本的实际推荐效果表征值;将所述目标训练样本输入到待训练的目标业务类型对应的信息推荐模型中,得到所述待训练的目标业务类型对应的信息推荐模型输出的所述目标训练样本的第一预测推荐效果表征值,以所述目标训练样本的第一预测推荐效果表征值与实际推荐效果表征值之间差异的最小化为训练目标,训练所述待训练的目标业务类型对应的信息推荐模型。2.如权利要求1所述的方法,其特征在于,根据所述第一训练样本,确定所述第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度,具体包括:针对每个第一训练样本,分别确定该第一训练样本的指定奖励分布以及该第一训练样本的目标奖励分布;所述指定奖励分布用于表征所述用户针对所述指定业务类型的若干历史页面中包含的第一训练样本的操作结果;所述目标奖励分布用于表征所述用户针对所述目标业务类型的若干历史页面中包含的第一训练样本的操作结果;根据该第一训练样本的目标奖励分布以及该第一训练样本的指定奖励分布,确定该第一训练样本用于训练目标业务类型对应的信息推荐模型的适配度。3.如权利要求2所述的方法,其特征在于,针对每个第一训练样本,确定该第一训练样本的指定奖励分布,具体包括:将该第一训练样本作为输入,输入所述指定业务类型对应的若干预先训练的奖励确定模型,得到所述指定业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的指定奖励;根据所述指定业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的指定奖励,确定该第一训练样本的指定奖励分布。4.如权利要求2所述的方法,其特征在于,针对每个第一训练样本,确定该第一训练样本的目标奖励分布,具体包括:将该第一训练样本作为输入,输入所述目标业务类型对应的若干预先训练的奖励确定模型,得到所述目标业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的目标奖励;根据所述目标业务类型对应的各预先训练的奖励确定模型输出的该第一训练样本的目标奖励,确定该第一训练样本的目标奖励分布。5.如权利要求1所述的方法,其特征在于,根据所述适配度以及所述第一训练样本,确定目标训练样本,具体包括:获取目标业务类型的历史页面包含的历史推荐信息作为第二训练样本;将所述第二训练样本以及所述适配度高于预设适配度阈值的各第一训练样本作为目标训练样本。6.如权利要求1所述的方法,其特征在于,以所述目标训练样本的第一预测推荐效果表2CN115048577A权利要求书2/2页征值与实际推荐效果表征值之间差异的最小化为训练目标训练所述目标业务类型对应的信息推荐模型之前,所述方法还包括:将所述目标训练样本输入预先训练的指定业务类型对应的信息推荐模型中,得到所述指定业务类型对应的信息推荐模型输出的所述目标训练样本对应的第二预测推荐效果表征值;以所述目标训练样本的第一预测推荐效果表征值与实际推荐效果表征值之间差异的最小化为训练目标训练所述目标业务类