预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111241851A(43)申请公布日2020.06.05(21)申请号202010329730.1(22)申请日2020.04.24(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人成幸毅徐威迪陈昆龙黄伟鹏蒋亮温祖杰王太峰褚崴(74)专利代理机构北京三友知识产权代理有限公司11127代理人周达刘飞(51)Int.Cl.G06F40/30(2020.01)G06F40/289(2020.01)G06K9/62(2006.01)权利要求书3页说明书17页附图6页(54)发明名称语义相似度确定方法、装置及处理设备(57)摘要本说明书提供一种语义相似度确定方法、装置及处理设备,预先建立的语义相似度模型从两个不同的角度处理句子对,既考虑了文本句子的维度,又结合了文本单词级交叉矩阵的角度。在需要对待处理文本进行语义相似度的计算时,可以直接利用建立好的语义相似度模型中的语句语义确定子模型对待处理文本分别进行语义编码,将待处理文本分别转换为向量表示,基于转换后的向量对待处理文本进行相似度计算。在确保语义相似度计算效率的基础上,提高了语义相似度计算的准确性。CN111241851ACN111241851A权利要求书1/3页1.一种语义相似度确定方法,所述方法包括:获取待处理文本;利用建立好的语义相似度模型中的语句语义确定子模型对所述待处理文本分别进行向量转换,并利用所述语句语义确定子模型根据转换后的向量进行相似度计算,获得所述语义相似度模型的输出结果;其中,所述语义相似度模型包括所述语句语义确定子模型和交叉语义确定子模型,所述语句语义确定子模型是以预训练好的所述交叉语义确定子模型输出的结果为训练目标进行模型训练构建的;根据所述语义相似度模型的输出结果,确定出所述待处理文本之间的语义相似度。2.如权利要求1所述的方法,所述语义相似度模型被设置为按照下述方法进行构建:获取第一样本数据集,所述第一样本数据集包括多个带有标签的样本数据;利用所述第一样本数据集中的样本数据以及对应的标签对所述语义相似度模型中的交叉语义确定子模型进行预训练;将第二样本数据集中的样本数据输入到预训练好的所述交叉语义确定子模型和语句语义确定子模型中,并将预训练好的交叉语义确定子模型的输出结果作为所述语句语义确定子模型训练的训练目标,对所述语句语义确定子模型进行训练,直至满足训练要求,构建出所述语义相似度模型。3.如权利要求2所述的方法,所述方法还包括:将预训练好的交叉语义确定子模型的输出结果作为所述语句语义确定子模型训练的训练软目标;将所述第二样本数据集中样本数据的标签作为所述语句语义确定子模型训练的训练硬目标;根据所述训练软目标和所述训练硬目标确定出所述语句语义确定子模型的训练目标。4.如权利要求3所述的方法,所述根据所述训练软目标和所述训练硬目标确定出所述语句语义确定子模型的训练目标,包括:根据所述训练软目标对应的软目标权重、所述训练硬目标对应的硬目标权重、所述训练软目标、所述训练硬目标确定出所述语句语义确定子模型的训练目标;其中,在所述语句语义确定子模型训练开始时,所述硬目标权重小于所述软目标权重,随着所述语句语义确定子模型的模型训练,所述软目标权重的数值递减,所述硬目标权重的数值递增。5.如权利要求4所述的方法,所述方法还包括:在所述语句语义确定子模型训练开始时,所述硬目标权重为0。6.如权利要求3-5任一项所述的方法,所述方法还包括:利用预训练好的所述交叉语义确定子模型确定所述第一样本数据集中的样本数据的计算标签;将所述计算标签添加到所述第一样本数据集中,将添加了计算标签的第一样本数据集作为所述第二样本数据集。7.如权利要求1所述的方法,所述交叉语义确定子模型有多个,各个交叉语义确定子模型的结构不同,所述语句语义确定子模型以各个训练好的交叉语义确定子模型输出的结果为训练目标进行模型训练。8.如权利要求2所述的方法,所述交叉语义确定子模型通过根据两个文本的单词级交2CN111241851A权利要求书2/3页互矩阵确定出两个文本之间的相似度语句语义确定子模型。9.一种用于语义相似度计算的模型训练构建方法,所述方法包括:获取待训练的语义相似度模型中的语句语义确定子模型和交叉语义确定子模型的模型参数;获取第一样本数据集,所述第一样本数据集包括多个带有标签的样本数据,所述样本数据为文本数据;利用所述第一样本数据集中的样本数据以及对应的标签对所述交叉语义确定子模型进行预训练,调整所述交叉语义确定子模型的模型参数;将第二样本数据集中的样本数据输入到预训练好的所述交叉语义确定子模型和所述语句语义确定子模型中,并将预训练好的交叉语义