预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112256841A(43)申请公布日2021.01.22(21)申请号202011350754.1(22)申请日2020.11.26(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人郑行孙清清沈淑张天翼(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人许振新(51)Int.Cl.G06F16/33(2019.01)G06F40/279(2020.01)G06F40/30(2020.01)权利要求书4页说明书15页附图6页(54)发明名称文本匹配和对抗文本识别方法、装置及设备(57)摘要本说明书实施例提供一种文本匹配和对抗文本识别方法、装置及设备。文本匹配方法包括:构建第一文本和第二文本的文本向量,并分析文本向量之间的对齐信息;从对齐信息中抽取出关键对齐信息,以保留文本中关键文本单元相关的对齐信息;基于第一文本和第二文本的文本向量、关键对齐信息,分析第一文本和第二文本的匹配关系,达到从文本样本的维度进行文本匹配分析的目的。CN112256841ACN112256841A权利要求书1/4页1.一种文本匹配方法,包括:确定第一文本的第一文本向量和第二文本的第二文本向量;确定所述第一文本向量和所述第二文本向量的对齐信息,所述对齐信息用于描述所述第一文本和所述第二文本中的文本单元之间的相似关系以及各文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;对所述对齐信息进行特征抽取聚集处理,得到关键对齐信息,所述关键对齐信息用于描述所述第一文本和所述第二文本中的关键文本单元之间的相似关系以及关键文本单元在所述第一文本和所述第二文本的文本相似度中所占的权重;基于所述第一文本向量、所述第二文本向量和所述关键对齐信息,确定所述第一文本和所述第二文本之间的匹配关系。2.根据权利要求1所述的方法,所述确定第一文本的第一文本向量和第二文本的第二文本向量,包括:分别对所述第一文本和所述第二文本进行文本切分,得到第一文本单元集和第二文本单元集;分别对所述第一文本单元集和所述第二文本单元集进行向量化,得到第一文本单元向量集和第二文本单元向量集;基于第一文本单元向量集和第二文本单元向量集,分别生成所述第一文本的第一文本向量和第二文本的第二文本向量。3.根据权利要求2所述的方法,在所述分别对所述第一文本和所述第二文本进行文本切分,得到第一文本单元集和第二文本单元集之前,还包括:确定所述第一文本和所述第二文本的文本类型;若所述文本类型属于预设的强语义场景,则选择词汇级的文本单元维度进行文本切分;若所述文本类型属于预设的弱语义场景,则选择字符级或者子词级的文本单元维度进行文本切分。4.根据权利要求2所述的方法,所述分别对所述第一文本单元集和所述第二文本单元集进行向量化,得到第一文本单元向量集和第二文本单元向量集,包括:若所述第一文本和所述第二文本属于预设的特定领域,则将所述第一文本单元集和所述第二文本单元集分别输入至词向量模型中,得到第一文本单元向量集和第二文本单元向量集,所述词向量模型基于所述特定领域的语料训练,用于生成文本单元集中的每个文本单元的文本单元向量。5.根据权利要求2所述的方法,所述基于第一文本单元向量集和第二文本单元向量集,分别生成所述第一文本的第一文本向量和第二文本的第二文本向量,包括:分别对所述第一文本单元向量集内的文本单元向量和所述第二文本单元向量集内的文本单元向量进行拼接,得到第一拼接文本向量和第二拼接文本向量;基于预设深度学习文本特征抽取器,分别分析所述第一拼接文本向量中的向量之间上下文关联和所述第二拼接文本向量中的向量之间的上下文关联;基于所述向量之间的上下文关联,分别生成所述第一拼接文本向量和所述第二拼接文本向量的句子级别的表示,得到第一文本向量和第二文本向量。2CN112256841A权利要求书2/4页6.根据权利要求5所述的方法,还包括:确定所述第一文本和所述第二文本的文本复杂类型;若所述文本复杂类型属于短文本类型,则选择基于卷积神经网络CNN或者循环神经网络RNN结构的文本特征抽取器;若所述文本复杂类型属于长文本类型或者语义复杂类型,则选择基于自注意力机制的文本特征抽取器。7.根据权利要求1所述的方法,所述确定所述第一文本向量和所述第二文本向量的对齐信息,包括:确定所述第一文本向量对应的句内上下文关联依赖关系和所述第二文本向量对应的句内上下文关联依赖关系;基于所述第一文本向量和所述第二文本向量的语义信息,对所述第一文本向量和所述第二文本向量进行句间对齐处理,得到句间对齐信息,所述句间对齐信息用于描述文本向量之间的文本单元的相似关系;基于所述句内上下文关