预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113609304A(43)申请公布日2021.11.05(21)申请号202110818313.8(22)申请日2021.07.20(71)申请人广州大学地址510006广东省广州市番禺广州大学城外环西路230号(72)发明人周琥晨李默涵张雨成顾钊铨韩伟红唐可可(74)专利代理机构广州三环专利商标代理有限公司44202代理人郭浩辉颜希文(51)Int.Cl.G06F16/36(2019.01)权利要求书2页说明书7页附图2页(54)发明名称一种实体匹配方法和装置(57)摘要本发明涉及实体匹配技术领域,公开了一种实体匹配方法和装置,所述方法包括:获取第一数据集和第二数据集,数据集包括若干条实体记录,实体记录包括若干个属性;获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,根据实体记录中多个属性间的预设潜在关系,将第三数据集中每个实体记录进行句子组合,获得包括第二组合的第四数据集;将第四数据集中的第二组合输入到预设的Bert模型,Bert模型用于判断第二组合的两个句子否匹配并输出匹配结果。有益效果:将第三数据集中的实体记录替换为根据属性潜在关系生成的句子,可以使第二组合输入到Bert模型中的数据保留属性之间的联系,使数据集的实体记录匹配结果更加准确。CN113609304ACN113609304A权利要求书1/2页1.一种实体匹配方法,其特征在于,包括:获取所需匹配的第一数据集和第二数据集,其中,所述第一数据集和第二数据集均包括若干条实体记录,所述每个实体记录包括若干个属性;获取第一数据集和第二数据集的笛卡尔乘积,得到第三数据集,所述第三数据集包括若干组第一组合,所述第一组合为第一数据集的实体记录和第二数据集的实体记录的组合;根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,获得第四数据集;所述第四数据集包括若干组第二组合,所述第二组合为对应实体记录的句子和句子的组合;将第四数据集中的每组第二组合输入到预先设置的Bert模型,所述Bert模型将输入的句子转化为实体嵌入向量并通过实体嵌入向量比较每组第二组合中的两个句子是否匹配并输出匹配结果。2.根据权利要求1所述的一种实体匹配方法,其特征在于,还包括:在得到第三数据集之后,对第三数据集进行阻断操作,去除第三数据集中的负例,所述负例为明显不匹配的第一数据集的实体记录和第二数据集的实体记录的第一组合。3.根据权利要求2所述的一种实体匹配方法,其特征在于,所述对第三数据集进行阻断操作,具体的方法包括:属性相等阻断和基于规则阻断;所述属性相等阻断具体为:判断每一组第一组合中两个实体记录的多个属性值是否相等,若存在第一数量的属性值均不相等,则删除此第一组合,若不存在第一数量的属性值均相等,则保留此第一组合,所述第一数量小于实体记录的属性个数;所述基于规则阻断具体为:判断每一组第一组合中两个实体记录的属性值是否同时满足预设的第一条件,若满足第一条件则保留,若不满足第一条件则删除。4.根据权利要求2所述的一种实体匹配方法,其特征在于,还包括:在对第三数据集进行阻断操作之后,对第三数据集进行第一预处理,使经过第一预处理的第三数据集满足SBert模型输入标准。5.根据权利要求1所述的一种实体匹配方法,其特征在于,根据实体记录中多个属性间的预设潜在关系,将所述第三数据集中每个实体记录进行句子组合,具体为:获取实体记录中任意两个属性之间的潜在关系,并将获取任意两个属性根据潜在关系所组成的短语;将得到的多个短语组成句子;将得到的句子按照句子和实体记录的对应关系替换到第三数据集中。6.根据权利要求1所述的一种实体匹配方法,其特征在于,所述Bert模型具体为SBert模型,所述SBert模型包括采用权值共享孪生神经网络的第一Bert模型和第二Bert模型;第二组合输入到SBert模型时,所述第一Bert模型和第二Bert模型分别用于处理第二组合中的两个句子,且保存每个句子所转化的实体嵌入向量。7.根据权利要求6所述的一种实体匹配方法,其特征在于,当后输入的第二组合中的句子已经被SBert模型处理过时,调用保存的实体嵌入向量进行匹配判断。8.根据权利要求1所述的一种实体匹配方法,其特征在于,所述通过实体嵌入向量比较每组第二组合中的两个句子是否匹配,具体为:2CN113609304A权利要求书2/2页计算第二组合中两个句子所对应的实体嵌入向量的余弦相似度,并判断所述余弦相似度的值是否大于等于预设的第一阈值,若大于等于第一阈值,则确定第一组合中的两个句子相匹配,若小于第一阈值则确定第一组合中的两个句子不相匹配。9.一种实体匹配装置,其特征在于,包括第一获取模块、第二获取模块、第一处理模块和第二处理