预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111401928A(43)申请公布日2020.07.10(21)申请号202010252268.X(22)申请日2020.04.01(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人杨明晖崔恒斌陈晓军陈显玲(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06Q30/00(2012.01)G06F16/33(2019.01)G06F40/289(2020.01)G06F40/30(2020.01)权利要求书4页说明书15页附图6页(54)发明名称基于图数据确定文本的语义相似度的方法及装置(57)摘要本说明书实施例提供了利用图数据确定文本的语义相似度的构思,在该技术构思下,图数据中的节点对应语料库中的句子和词,相关联的句子和词、词和词之间通过连接边连接,各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中,能够利用大量无监督数据构建图数据,来描述词和句子、词和词之间的关系,并通过少量有监督数据优化处理模型的模型参数,使得相似文本的向量表示可以相互影响,从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时,通过图数据获取待确定语义相似度文本的向量,利用向量相似度确定文本语义相似度。如此,可以提高文本语义相似度的通用性、准确度、有效性。CN111401928ACN111401928A权利要求书1/4页1.一种基于图数据进行文本向量表达的方法,所述图数据包括,分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点,以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边,各个节点分别对应有节点表达向量;所述方法包括:利用预设的处理模型处理所述图数据,所述处理模型用于遍历所述图数据中的各个节点,以针对所述图数据中的各个节点,执行邻居节点向量融合操作,从而更新各个节点的节点表达向量;获取第一样本中,由第一样本文本和第二样本文本构成的样本文本对,所述样本文本对还对应有样本相似性标签;根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量;利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度;基于所述相似度与所述样本相似性标签进行对比,从而根据对比结果调整所述处理模型的模型参数;利用调整后的处理模型处理图数据,遍历图数据中的各个节点,执行所述邻居节点向量融合操作,以进一步更新各个节点的节点表达向量,从而使得所述图数据用于与确定文本的语义相似度相关的业务。2.根据权利要求1所述的方法,其中,所述图数据包括第一节点,所述处理模型针对所述第一节点,执行的所述邻居节点向量融合操作包括:获取所述第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量;对各个邻居节点表达向量进行融合,得到第一融合结果;将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果;根据所述第二融合结果,更新所述第一节点的节点表达向量。3.根据权利要求2所述的方法,其中,各个连接边对应有边权重,所述对各个邻居节点表达向量进行融合,得到第一融合结果包括:将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量,作为所述第一融合结果。4.根据权利要求2所述的方法,其中,所述将所述第一融合结果与所述第一节点的当前节点表达向量进行融合,得到第二融合结果包括:将所述第一融合结果和所述第一节点的当前节点表达向量拼接成2m维列向量;利用列数为2m的辅助权重矩阵,与所述2m维列向量的乘积,确定所述第二融合结果。5.根据权利要求1所述的方法,其中,在所述第一样本文本与所述图数据中的第一句子节点对应的句子一致的情况下,所述根据更新后的图数据,分别确定与所述第一样本文本对应的第一样本向量,以及与所述第二样本文本对应的第二样本向量包括:获取所述第一句子节点当前的节点表达向量,作为所述第一样本文本对应的第一样本向量。6.根据权利要求1所述的方法,其中,在所述第一样本文本与所述图数据中的各个句子节点对应的句子都不一致的情况下,所述从更新后的图数据中,获取与第一样本对应的两2CN111401928A权利要求书2/4页个文本表达向量包括:将所述第一样本文本进行分词,得到若干候选词;从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量;将各个候选词分别对应的各个词节点的节点表达向量进行融合,得到所述第一样本文本对应的第一样本向量。7.根据权利要求1所述的方法,其中,所述预定的相似度模型为余弦