预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111310456A(43)申请公布日2020.06.19(21)申请号202010090933.XG06N3/08(2006.01)(22)申请日2020.02.13G06N20/00(2019.01)G06Q40/04(2012.01)(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人郑行陈永环孙清清沈淑张天翼(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人王戈(51)Int.Cl.G06F40/284(2020.01)G06F40/295(2020.01)G06F40/30(2020.01)G06N3/04(2006.01)权利要求书3页说明书15页附图3页(54)发明名称一种实体名称匹配方法、装置及设备(57)摘要本说明书实施例提供一种实体名称匹配方法、装置及设备。方案包括:获取待匹配实体名称;对待匹配实体名称进行分词,并将分词映射为向量,得到待匹配实体名称的词向量;采用基于自注意力机制的特征抽取器对每个词向量进行特征抽取,得到第一特征向量;再采用训练完成的条件随机场模型对第一特征向量进行序列标注,得到携带有域标签的第二特征向量,将第二特征向量输入到实体匹配模型中,得到匹配结果。CN111310456ACN111310456A权利要求书1/3页1.一种实体名称匹配方法,包括:获取待匹配实体名称;对所述待匹配实体名称进行分词,并将所述待匹配实体名称的分词映射为向量,得到所述待匹配实体名称的词向量,所述词向量携带有语义信息;采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,所述第一特征向量为权重向量,所述权重表示所述词向量之间的上下文联系;采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,所述第二特征向量为携带有域标签的特征向量;将所述第二特征向量输入到实体匹配模型中,得到匹配结果。2.如权利要求1所述的方法,所述获取待匹配实体名称,具体包括:获取待匹配交易数据;从所述待匹配交易数据中提取出交易双方的账户实体名称,所述账户实体名称包括公司实体名称。3.如权利要求1所述的方法,所述采用基于自注意力机制的特征抽取器对每个所述词向量进行特征抽取,得到第一特征向量,具体包括:根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值;根据所述权重值对每个所述词向量进行注意力权重赋值,得到第一特征向量。4.如权利要求3所述的方法,所述根据所述词向量的上下文信息采用自注意力机制计算每个词向量的权重值,具体包括:对于任意一个所述词向量,根据所述词向量之间的语义信息,确定所述实体名称中的其他词向量对该词向量的影响权重;对所述任意一个所述词向量的影响权重进行归一化;将进行归一化后的权重进行加权求和,得到每个词向量的权重值。5.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注,得到第二特征向量,具体包括:确定每个所述第一特征向量对应的域标签概率;根据所述域标签概率确定所述第一特征向量的标签转移关系;根据所述标签转移关系对所述第一特征向量进行序列组合排序,得到组合排序后的特征向量;对所述组合排序后的特征向量标注域标签,得到第二特征向量。6.如权利要求5所述的方法,所述域标签包括:名称标签、地址标签、领域标签、后缀标签和/或其他标签。7.如权利要求1所述的方法,所述采用训练完成的条件随机场模型对所述第一特征向量进行序列标注之前,还包括:获取域标签已知的实体名称样本;提取所述实体名称样本对应的第三特征向量;将所述第三特征向量输入待训练的条件随机场模型进行训练,得到所述待训练的条件随机场模型输出的所述第三特征向量所述域标签的概率;根据转移概率表和所述第三特征向量对应的各个域标签的概率,得到第三特征向量对2CN111310456A权利要求书2/3页应的最大联合概率对应的标注结果;将所述标注结果与所述实体名称样本的已知域标签进行比对,得到比对结果;当所述比对结果表示所述全部实体名称样本中的域标签标注结果与所述实体名称样本的已知域标签相比,准确率达到预设阈值时,得到训练完成的条件随机场模型。8.如权利要求1所述的方法,所述实体匹配模型中包括实体名称名单,所述实体名称名单包括公司名称。9.如权利要求8所述的方法,所述将所述第二特征向量输入到实体匹配模型中,得到匹配结果,具体包括:按照域标签分类将所述第二特征向量与所述实体名单中相同域的特征向量进行对齐匹配,得到每个域标签对应的相似度匹配分数;将所述每个域标签对应的相似度匹配分数进行加权得到所述第二特征向量的匹配分数;当所述匹配分数大于预设