预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111401076A(43)申请公布日2020.07.10(21)申请号202010272706.9(22)申请日2020.04.09(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈晓军杨明晖陈显玲崔恒斌(74)专利代理机构北京风雅颂专利代理有限公司11403代理人王刚(51)Int.Cl.G06F40/30(2020.01)G06F40/289(2020.01)G06N3/04(2006.01)权利要求书3页说明书8页附图5页(54)发明名称一种文本的相似度确定方法、装置和电子设备(57)摘要本说明书一个或多个实施例提供一种文本的相似度确定方法、装置和电子设备;所述方法包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。CN111401076ACN111401076A权利要求书1/3页1.一种文本的相似度确定方法,包括:获取第一文本和第二文本;根据所述第一文本和第二文本,得到对应于所述第一文本和所述第二文本的文本表示向量;根据所述第一文本和第二文本,确定共有单字表示向量和差异单字表示向量;其中,所述共有单字表示向量对应于在所述第一文本和所述第二文本中均存在的单字,所述差异单字表示向量对应于仅在所述第一文本和所述第二文本之一中存在的单字;根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量;根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度。2.根据权利要求1所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,包括:获取基于BERT的文本相似度模型;将所述第一文本和所述第二文本输入基于BERT的文本相似度模型的输入层;获取所述输入层的输出,作为所述文本表示向量。3.根据权利要求2所述的方法,所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,包括:将所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,输入所述基于BERT的文本相似度模型的编码器层;获取所述编码器层的输出,作为所述文本特征向量。4.根据权利要求3所述的方法,根据所述文本特征向量,确定所述第一文本和所述第二文本的相似度,包括:将所述文本特征向量输入所述基于BERT的文本相似度模型的输出层;获取所述输出层输出的所述相似度。5.根据权利要求4所述的方法,所述根据所述第一文本和第二文本,生成对应于所述第一文本和第二文本的文本特征向量,具体包括:将所述第一文本和所述第二文本排列为序列,并将所述第一文本和所述第二文本划分为若干单字;在所述序列的首部添加语义符;在所述序列的尾部和所述第一文本、所述第二文本之间添加断句符;生成对应于所述语义符的语义表示向量、对应于所述单字的单字表示向量,以及对应于所述断句符的断句表示向量;根据所述语义表示向量、所述单字表示向量和所述断句表示向量,得到所述文本表示向量。6.根据权利要求5所述的方法,所述编码器层设置有至少两个,且至少两个所述编码器层依次连接;所述根据所述文本表示向量、所述共有单字表示向量和所述差异单字表示向量,得到对应于所述第一文本和所述第二文本的文本特征向量,具体包括:将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合并输入2CN111401076A权利要求书2/3页至少两个所述编码器层;其中,每个所述编码器层的输出均与所述共有单字表示向量和所述差异单字表示向量进行组合后输入下一所述编码器层;获取最后一个所述编码器层的输出,作为所述文本特征向量。7.根据权利要求6所述的方法,所述将文本表示向量与所述共有单字表示向量和所述差异单字表示向量进行组合,包括:将所述共有单字表示向量与在所述第一文本和所述第二文本中均存在的单字对应的单字表示向量相加;以及,将所述差异单字表示向量与仅在所述第一文本和所述第二文本之一中存在的单字对应的单字表示向量相加。8.根据权利要求6所述的方法,每个所述编码器层的输出包括:对应于所述语义符的语义特征