预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113887192A(43)申请公布日2022.01.04(21)申请号202111472529.X(22)申请日2021.12.06(71)申请人阿里巴巴达摩院(杭州)科技有限公司地址310023浙江省杭州市余杭区五常街道文一西路969号3幢5层516室(72)发明人葛鑫姜鹏赵宇骆卫华(74)专利代理机构北京合智同创知识产权代理有限公司11545代理人李杰林鑫(51)Int.Cl.G06F40/194(2020.01)权利要求书2页说明书8页附图3页(54)发明名称文本匹配方法、装置及存储介质(57)摘要本申请实施例提供一种文本匹配方法、装置及存储介质,其中,文本匹配方法包括:获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。CN113887192ACN113887192A权利要求书1/2页1.一种文本匹配方法,其中,包括:获取原文本和至少一个待匹配文本,所述原文本和所述待匹配文本均包含至少一个语句;在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值;根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本。2.根据权利要求1所述的方法,其中,所述在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对,包括:将所述原文本的语句与所述待匹配文本的语句进行编码得到所述原文本的语句向量和所述待匹配文本的语句向量;对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索,根据检索结果确定相互匹配的至少一个语句对。3.根据权利要求2所述的方法,其中,所述方法还包括:利用神经网络模型对所述原文本的语句向量和所述待匹配文本的语句向量进行降维处理,得到降维后的所述原文本的语句向量和所述待匹配文本的语句向量。4.根据权利要求1所述的方法,其中,所述根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值,包括:为所述语句对增加文本对标记,所述文本对标记包括所述语句对中包含的语句所属的原文本和待匹配文本;根据所述文本对标记,确定所述待匹配文本与所述原文本相互匹配的语句对数量;根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值。5.根据权利要求4所述的方法,其中,所述根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值,包括:将所述原文本的语句数量和所述待匹配文本的语句数量中的较大值作为基数;所述待匹配文本与所述原文本相互匹配的语句对数量与所述基数的比值作为所述待匹配文本的相似度分值。6.根据权利要求1所述的方法,其中,所述根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本,包括:按照相似度分值从大到小的顺序对M个所述待匹配文本进行排序得到待匹配文本序列;在所述待匹配文本序列中,将排序在前N位的待匹配文本作为所述目标文本,M和N为正整数,且N小于M。7.根据权利要求1‑6任一项所述的方法,其中,所述获取原文本和至少一个待匹配文本,包括:获取原网页和至少一个候选网页;2CN113887192A权利要求书2/2页在至少一个候选网页中确定与原网页一级域名相同的网页作为待匹配网页;从所述原网页中提取所述原文本,从所述待匹配网页中提取所述待匹配文本。8.一种文本匹配装置,包括:获取模块,用于获取原文本和至少一个待匹配文本,所述原文本和所述待匹配文本均包含至少一个语句;语句匹配模块,用于在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;相似度模块,用于根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值;文本匹配模块,用于根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本。9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线