预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113779183A(43)申请公布日2021.12.10(21)申请号202010512725.4(22)申请日2020.06.08(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人张蒙(74)专利代理机构北京律智知识产权代理有限公司11438代理人孙宝海袁礼君(51)Int.Cl.G06F16/33(2019.01)G06F40/289(2020.01)G06K9/62(2006.01)权利要求书3页说明书17页附图8页(54)发明名称文本匹配方法、装置、设备及存储介质(57)摘要本公开提供一种文本匹配方法、装置、设备及存储介质,涉及文本处理技术领域。该方法包括:获得源文本的源词序列和所述源文本的源字符序列;获得目标文本的目标词序列和所述目标文本的目标字符序列;对所述源词序列和所述目标词序列进行相似度计算获得词序列相似度;对所述源字符序列和所述目标字符序列进行相似度计算获得字符序列相似度;根据所述源词序列和所述目标词序列获得相似度权重;基于所述相似度权重对所述词序列相似度和所述字符序列相似度进行加权计算获得复合相似度以匹配所述源文本与所述目标文本。该方法实现了一定程度上提高了文本匹配的准确率和效率。CN113779183ACN113779183A权利要求书1/3页1.一种文本匹配方法,其特征在于,包括:获得源文本的源词序列和所述源文本的源字符序列;获得目标文本的目标词序列和所述目标文本的目标字符序列;对所述源词序列和所述目标词序列进行相似度计算获得词序列相似度;对所述源字符序列和所述目标字符序列进行相似度计算获得字符序列相似度;根据所述源词序列和所述目标词序列获得相似度权重;基于所述相似度权重对所述词序列相似度和所述字符序列相似度进行加权计算获得复合相似度以匹配所述源文本与所述目标文本。2.根据权利要求1所述的方法,其特征在于,所述对所述源词序列和所述目标词序列进行相似度计算获得词序列相似度包括:获得所述源词序列中各个词与所述目标词序列的最匹配词和最匹配词相似度,其中,所述最匹配词为所述源词序列中的词与所述目标词序列中词相似度最高的词,所述最匹配词相似度为所述源词序列中的词与所述最匹配词之间的词相似度;根据所述源词序列中各个词与所述目标词序列的最匹配词和最匹配词相似度获得所述源词序列中各个词的词序列相似指数;根据所述源词序列中各个词的词序列相似指数获得所述词序列相似度。3.根据权利要求2所述的方法,其特征在于,所述获得所述源词序列中各个词与所述目标词序列的最匹配词和最匹配词相似度包括:获得源词字符量,所述源词字符量为所述源词序列中各个词的字符量;获得目标词字符量,所述目标词字符量为所述目标词序列中各个词的字符量;将所述源词序列中各个词与所述目标词序列中各个词进行字符匹配获得所述源词序列中各个词与所述目标词序列中各个词的词内公共子字符序列;获得公共字符源位置,所述公共字符源位置为所述词内公共子字符序列的首字符在对应的所述源词序列中的词中的位置;获得公共字符目标位置,所述公共字符目标位置为所述词内公共子字符序列的首字符在对应的所述目标词序列中的词中的位置;根据所述源词字符量、所述目标词字符量、所述词内公共子字符序列、所述公共字符源位置和所述公共字符目标位置计算所述源词序列中各个词与所述目标词序列的各个词的词相似度;将所述源词序列中各个词与所述目标词序列的各个词的词相似度进行比较获得所述源词序列中各个词与所述目标词序列的最匹配词和最匹配词相似度。4.根据权利要求2所述的方法,其特征在于,所述根据所述源词序列中各个词与所述目标词序列的最匹配词和最匹配词相似度获得所述源词序列中各个词的词序列相似指数包括:获得最匹配词位置,所述最匹配词位置为所述源词序列中各个词与所述目标词序列的最匹配词在所述目标词序列中的位置;获得所述目标词序列的词量;根据所述源词序列中各个词与所述目标词序列的最匹配词相似度、最匹配词位置和所述目标词序列的词量计算获得所述源词序列中各个词的词序列相似指数。2CN113779183A权利要求书2/3页5.根据权利要求2所述的方法,其特征在于,所述根据所述源词序列中各个词的词序列相似指数获得所述词序列相似度包括:将所述源词序列中各个词与所述目标词序列的最匹配词相似度与预设匹配阈值进行比较获得词匹配数;获得所述源词序列的词量;获得所述目标词序列的词量;将所述源词序列中各个词的词序列相似指数相加获得总词序列相似指数;根据所述词匹配数、所述源词序列的词量、所述目标词序列的词量和所述总词序列相似指数计算所述词序列相似度。6.根据权利要