预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114741604A(43)申请公布日2022.07.12(21)申请号202210437700.1(22)申请日2022.04.25(71)申请人大连理工大学地址116024辽宁省大连市甘井子区凌工路2号(72)发明人王鹏飞张强焦点(74)专利代理机构辽宁鸿文知识产权代理有限公司21102专利代理师王海波(51)Int.Cl.G06F16/9535(2019.01)G06Q30/06(2012.01)G06K9/62(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书7页附图5页(54)发明名称基于多模态数据融合的商品推荐方法(57)摘要本发明提供了一种基于多模态数据融合的商品推荐方法,属于深度学习技术领域。通过ALBERT‑TextCNN提升从客户基本属性数据集中提取出的词向量的表征能力和最大程度保留客户不同层次的语义信息,提升不同客户群体的分类效果;通过AlBert‑BiLSTM‑CRF有效解决对于文本中一词多义解析效果差、多义词的不同语境无法处理等传统语言处理模型无法解决的问题,将客户线上和线下交易数据集进行更加符合文本集上下文语义的关键词,更有针对性地构建客户标签;使用k维树方法获取两种标签类别的相似客户,再通过相似客户购买历史进行推荐,实现较高的推荐准确度。本发明在保证高效地训练数据的同时,保证预测数据的准确性。CN114741604ACN114741604A权利要求书1/3页1.一种基于多模态数据融合的商品推荐方法,其特征在于,该方法包括以下步骤:步骤一,获取三种客户数据集文本,即客户属性数据集X、客户线上交易数据集Y和客户线下交易数据集Z;并对每一种数据集文本进行预处理,预处理方式是填充缺失值和删除冗余数据;步骤二,对预处理后的客户数据集文本X、Y和Z均划分为训练集和测试集;步骤三,将预处理后的客户数据集文本X、Y和Z的测试集均输入到内部采用多层双向Transformer模块的Encoder的AlBert层进行序列化操作,分别得到包含丰富语义的序列化后的客户属性数据文本向量T1、客户线上交易数据文本向量T2和客户线下交易数据文本向量T3;步骤四,客户属性数据文本向量T1经过基于TextCNN的编码器的训练,客户线上交易数据文本向量T2和客户线下交易数据文本向量T3分别经过两个不同的基于BiLSTM‑CRF的编码器的训练,分别输出三种文本特征向量序列C1、C2和C3;步骤五,将三种文本特征向量序列C1、C2和C3进行简单加和得到总文本特征向量序列C,通过基于LSTM的解码器的训练后,得到目标序列W={w1,w2,...,wn},用以构造两类客户标签:属性信息类标签和频次偏好类标签;步骤六,将预处理后的客户数据集文本X、Y和Z的训练集均进行步骤三到步骤五中的操作,得到通过训练集获取的客户标签;记录使用测试集测试模型得到的客户标签与训练集得到的客户标签之间的误差,并根据误差修改模型各参数;步骤七,重复步骤六,直到模型产生的误差不再变化为止;步骤八,模型训练过程结束,保存训练集得到的客户标签与测试集得到的客户标签误差最小时的模型各参数,作为最终模型参数;并根据模型输出的目标序列W={w1,w2,...,wn}来构造客户的两种标签结果;步骤九:对得到的客户属性信息类标签做独热编码处理,得到数值向量序列L={L1,L2,...,Ln},其中Li=[li1,li2,...,lim],i∈[1,n],lij∈{0,1};步骤十:针对被推荐的用户,对步骤九中得到的向量使用k‑维树相似度运算,通过构建k维点的二叉树搜索其最近邻向量;步骤十一:通过客户交易数据得到最近邻向量对应的客户购买过的商品,得到针对被推荐用户的一个推荐商品集合;步骤十二:对得到的频次偏好类标签做频数编码处理,得到频数数值向量序列F={F1,F2,...,Fn},其中Fi=[fi1,fi2,...,fim],i∈[1,n],fij∈N;步骤十三:针对被推荐的客户,对步骤十二中得到的向量使用k‑维树相似度运算,通过构建k维点的二叉树搜索其最近邻向量;步骤十四:通过客户交易数据得到最近邻向量对应的客户购买过的商品,得到针对被推荐用户的另一个推荐商品集合;步骤十五:根据两个推荐商品集合推荐商品。2.根据权利要求1所述的一种基于多模态数据融合的商品推荐方法,其特征在于,所述步骤一中,表示三种客户数据集文本步骤如下:1.1获取客户属性数据集文本:X=[x1,x2,...,xi,...,xn],其中xi表示该客户属性数据集文本的第i个词;2CN114741604A权利要求书2/3页1.2获取客户线上交易数据集文本:Y=[y1,y2,...,yj,...,yn