预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114861783A(43)申请公布日2022.08.05(21)申请号202210446818.0(22)申请日2022.04.26(71)申请人北京三快在线科技有限公司地址100080北京市海淀区北四环西路9号2106-030(72)发明人赵子豪曹雪智武威(74)专利代理机构北京润泽恒知识产权代理有限公司11319专利代理师任亚娟(51)Int.Cl.G06K9/62(2022.01)G06F16/9535(2019.01)G06F16/958(2019.01)G06Q30/02(2012.01)G06Q30/06(2012.01)权利要求书3页说明书11页附图2页(54)发明名称推荐模型训练方法、装置、电子设备及存储介质(57)摘要本公开的实施例提供了一种推荐模型训练方法、装置、电子设备及存储介质。所述方法包括:获取样本物品与所有用户之间的历史交互记录;计算得到样本物品中每个物品在每次交互时的盲从行为强度;将所述历史交互记录和所述盲从行为强度输入至初始推荐模型;获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理,输出的交互概率预测值;基于所述交互概率预测值和所述历史交互记录,计算得到所述初始推荐模型的损失值;采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数,并迭代训练,得到最终的目标推荐模型。本公开的实施例可以提高推荐系统的物品推荐质量。CN114861783ACN114861783A权利要求书1/3页1.一种推荐模型训练方法,其特征在于,包括:获取样本物品与所有用户之间的历史交互记录;计算得到样本物品中每个物品在每次交互时的盲从行为强度;将所述历史交互记录和所述盲从行为强度输入至初始推荐模型;获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理,输出的交互概率预测值;基于所述交互概率预测值和所述历史交互记录,计算得到所述初始推荐模型的损失值;采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数,并迭代训练,得到最终的目标推荐模型。2.根据权利要求1所述的方法,其特征在于,所述计算得到样本物品中每个物品在每次交互时的盲从行为强度,包括:获取在目标时刻之前所述样本物品发生的全部交互信息,以及每个交互信息对应的发生时刻;根据所述样本物品的物品种类和数据集特性,确定所述样本物品对应的指数衰减函数中的衰减系数;根据所述全部交互信息、所述发生时刻和所述衰减系数,计算得到所述盲从行为强度。3.根据权利要求1所述的方法,其特征在于,所述获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理,输出的交互概率预测值,包括:调用所述初始推荐模型根据所述盲从行为强度和所述样本物品对应的盲从行为影响系数,计算得到盲从行为指数;调用所述初始推荐模型根据所述盲从行为指数、所述历史交互记录、所述所有用户的用户表示向量和所述样本物品的物品表示向量,计算得到所述交互概率预测值。4.根据权利要求1所述的方法,其特征在于,在所述采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数,并迭代训练,得到最终的目标推荐模型之后,还包括:获取目标用户的候选物品;调用所述目标推荐模型,对所述目标用户的用户表示向量、所述候选物品表示向量和物品质量参数进行计算,得到目标用户和每个候选物品之间的目标交互概率预测值;根据所述目标交互概率预测值,确定所述候选物品中的目标推荐物品,并将所述目标推荐物品推荐给所述目标用户。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标交互概率预测值,确定所述候选物品中的目标推荐物品,包括:根据所述目标交互概率预测值由大到小的顺序对所述候选物品进行排序,得到排序结果;根据所述排序结果,从所述候选物品中筛选出排序在前N位的候选物品,并将排序在前N位的候选物品作为所述目标推荐物品;其中,N为大于等于1的正整数。6.一种推荐模型训练装置,其特征在于,包括:历史交互记录获取模块,用于获取样本物品与所有用户之间的历史交互记录;2CN114861783A权利要求书2/3页盲从行为强度计算模块,用于计算得到样本物品中每个物品在每次交互时的盲从行为强度;历史交互记录输入模块,用于将所述历史交互记录和所述盲从行为强度输入至初始推荐模型;概率预测值输出模块,用于获取所述初始推荐模型对所述历史交互记录和所述盲从行为强度处理,输出的交互概率预测值;模型损失值计算模块,用于基于所述交互概率预测值和所述历史交互记录,计算得到所述初始推荐模型的损失值;目标推荐模型获取模块,用于采用反向梯度传播算法根据所述损失值优化所述初始推荐模型的模型参数,并迭代训练,得到最终的目标推荐模型。7.根据权利要求6所述的装置,其特征在于,所述盲从行为强度计算模块包