预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114510944A(43)申请公布日2022.05.17(21)申请号202210153195.8G06N3/08(2006.01)(22)申请日2022.02.18(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈珺孙清清郑行赖伟达张天翼王爱凌邹泊滔(74)专利代理机构北京博思佳知识产权代理有限公司11415专利代理师陈雨柔(51)Int.Cl.G06F40/295(2020.01)G06F40/30(2020.01)G06K9/62(2022.01)G06N3/04(2006.01)权利要求书3页说明书12页附图4页(54)发明名称名称匹配方法、训练方法、设备及存储介质(57)摘要本说明书一个或多个实施例提供一种名称匹配方法、训练方法、设备及存储介质。所述方法包括:获取待匹配名称的名称字符串;根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量;其中,所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量;确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度;其中,所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到;根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。本实施例有利于提高匹配效率和匹配准确性。CN114510944ACN114510944A权利要求书1/3页1.一种名称匹配方法,包括:获取待匹配名称的名称字符串;根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量;其中,所述神经网络用于将同一名称的不同变体的字符串均转换成同一表征向量;确定所述待匹配名称的表征向量分别与预存的若干参考名称的表征向量之间的相似度;其中,所述参考名称的表征向量为将所述参考名称的任一变体的字符串输入所述神经网络得到;根据所述相似度确定所述待匹配名称与所述参考名称是否匹配。2.根据权利要求1所述的方法,所述神经网络用于将同一名称中,语音和/或语义相似的不同变体的字符串均转换成同一表征向量。3.根据权利要求1所述的方法,所述根据预先训练好的神经网络将所述待匹配名称的名称字符串转换成表征向量,包括:将所述待匹配名称的名称字符串进行分词处理,得到所述待匹配名称的字符集合;将所述字符集合输入预先训练好的神经网络中,通过所述神经网络将所述字符集合转换成表征向量。4.根据权利要求1或3所述的方法,所述神经网络至少包括嵌入层和编码器;所述嵌入层用于将所述名称字符串在分词后得到的字符集合进行转换处理,获取嵌入向量;所述编码器用于将所述嵌入向量从字符向量空间映射到数值向量空间,获取所述表征向量。5.根据权利要求4所述的方法,所述神经网络还包括全连接层;所述全连接层用于将所述编码器输出的表征向量进行降维处理。6.根据权利要求1所述的方法,在训练过程中,所述神经网络根据具有多个变体的名称样本进行对比学习和表征学习得到;其中,所述具有多个变体的名称样本包括语音相似的不同变体的字符串,和/或,语义相似的不同变体的字符串。7.根据权利要求6所述的方法,在训练过程中,所述神经网络的优化目标包括:最小化属于同一名称样本的不同变体的字符串分别对应的表征向量之间的距离,和/或最大化属于不同名称样本的至少两个字符串分别对应的表征向量之间的距离。8.根据权利要求7所述的方法,还包括:在训练过程中,获取若干三元组样本,所述三元组样本包括两个正样本和一个负样本,所述两个正样本包括同一名称样本的不同变体的字符串,所述负样本包括与所述正样本属于不同名称样本的字符串;将所述三元组样本输入具有三条支路的预设神经网络中,由每条支路处理所述三元组样本中的其中一个样本,获取三个表征向量;其中,所述三条支路的权重共享;根据两个正样本分别对应的表征向量之间的相似程度、和/或其中一个正样本的表征向量与所述负样本的表征向量之间的差异程度,调整所述预设神经网络的参数,获得所述训练好的神经网络;其中,所述训练好的神经网络包括至少一条所述支路。9.根据权利要求7所述的方法,还包括:2CN114510944A权利要求书2/3页在训练过程中,获取若干二元组样本,其中一部分所述二元组样本包括两个正样本,另一部分所述二元组样本包括一个正样本和一个负样本;所述两个正样本包括同一名称样本的不同变体的字符串,所述负样本包括与所述正样本属于不同名称样本的字符串;将所述二元组样本输入具有两条支路的预设神经网络中,由每条支路处理所述二元组样本中的其中一个样本,获取两个表征向量;其中,所述两条支路的权重共享;根据两个正样本分别对应的表征向量之间的相似程度、和/或所述正样本的表征向量与所述负样本的表