预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114547307A(43)申请公布日2022.05.27(21)申请号202210177155.7G06K9/62(2022.01)(22)申请日2022.02.25G06F16/9535(2019.01)G06Q30/06(2012.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人吴嘉敏王刚佘志东(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师阚梓瑄(51)Int.Cl.G06F16/35(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书17页附图6页(54)发明名称文本向量模型训练方法、文本匹配方法、装置及设备(57)摘要本公开提供一种文本向量模型训练方法、文本匹配方法、装置及电子设备;涉及人工智能技术领域。所述方法包括:对多个第一类文本进行预处理,得到第一训练文本对;利用第一训练文本对预设孪生网络进行训练,得到初始文本向量模型;通过初始文本向量模型生成多个第二类文本的文本向量;计算任意两个文本向量的相似度,并根据相似度确定第二训练文本对;利用第二训练文本对重新训练孪生网络,得到第一文本向量模型。将待预测文本集输入降维处理后的第一文本向量模型生成对应的文本向量,并利用该文本向量进行文本匹配。本公开可以实现训练数据和文本向量模型的共同进化,提高了文本向量模型的泛化能力,进而提高了文本匹配的准确性。CN114547307ACN114547307A权利要求书1/2页1.一种文本向量模型训练方法,其特征在于,包括:对多个第一类文本进行预处理,得到第一训练文本对;利用所述第一训练文本对基于预训练模型构成的孪生网络进行训练,得到初始文本向量模型;通过所述初始文本向量模型生成多个第二类文本的文本向量;计算任意两个文本向量的相似度,并根据所述相似度确定第二训练文本对;利用所述第二训练文本对重新训练所述孪生网络,得到第一文本向量模型。2.根据权利要求1所述的文本向量模型训练方法,其特征在于,所述对多个第一类文本进行预处理,得到第一训练文本对,包括:将所述多个第一类文本分成多个文本集,并对所述多个文本集进行直积运算,得到多个初始文本对;计算每个初始文本对的类编辑距离,并根据所述类编辑距离确定所述第一训练文本对。3.根据权利要求2所述的文本向量模型训练方法,其特征在于,所述计算每个初始文本对的类编辑距离,并根据所述类编辑距离确定所述第一训练文本对,包括:根据每个初始文本对的词袋相似度和编辑距离,计算每个初始文本对的类编辑距离;将类编辑距离满足预设阈值的初始文本对作为所述第一训练文本对。4.根据权利要求1所述的文本向量模型训练方法,其特征在于,所述利用所述第一训练文本对基于预训练模型构成的孪生网络进行训练,得到初始文本向量模型,包括:将所述第一训练文本对输入基于预训练模型构成的孪生网络中,得到所述第一训练文本对的相似度预测值;根据所述相似度预测值对所述孪生网络的模型参数进行迭代更新,当满足迭代终止条件时,得到所述初始文本向量模型。5.根据权利要求1所述的文本向量模型训练方法,其特征在于,所述计算任意两个文本向量的相似度,并根据所述相似度确定第二训练文本对,包括:计算任意两个文本向量的相似度,将满足第一相似度阈值的文本对作为候选文本对;计算所述候选文本对的类编辑距离,将满足第二相似度阈值的文本对作为所述第二训练文本对。6.一种文本匹配方法,其特征在于,包括:获取待预测文本集,所述待预测文本集中的每个文本用于表征对应物品的物品信息;对预先训练好的第一文本向量模型进行知识蒸馏,得到第二文本向量模型;通过所述第二文本向量模型生成所述待预测文本集中每个文本的文本向量;计算任意两个文本向量的相似度,并根据所述相似度对多个物品进行匹配。7.根据权利要求6所述的文本匹配方法,其特征在于,所述对预先训练好的第一文本向量模型进行知识蒸馏,得到第二文本向量模型,包括:将所述预先训练好的第一文本向量模型作为教师模型,并由所述第一文本向量模型中的目标网络结构组成学生模型;基于预设损失函数,利用随机梯度下降算法对所述学生模型的模型参数进行迭代更新,当满足迭代终止条件时,得到所述第二文本向量模型。2CN114547307A权利要求书2/2页8.根据权利要求6所述的文本匹配方法,其特征在于,所述通过所述第二文本向量模型生成所述待预测文本集中每个文本的文本向量,包括:将所述待预测文本集批量发送至文本队列中;从所述文本队列中获取所述多个文本,并将所述多个文本输入所述第二文本向量模型中,输出每个文本对应的文本向量。9.