预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共32页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657100A(43)申请公布日2021.11.16(21)申请号202110821289.3(22)申请日2021.07.20(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人万凡骆金昌王杰王海威陈坤斌和为(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张梦瑶(51)Int.Cl.G06F40/279(2020.01)G06F16/36(2019.01)权利要求书4页说明书17页附图10页(54)发明名称实体识别方法、装置、电子设备及存储介质(57)摘要本公开提供了实体识别方法、装置、电子设备及存储介质,涉及计算机技术领域,具体涉及云计算、知识图谱、自然语言处理等人工智能技术领域。具体实现方案为:获取待处理消息数据;采用多模匹配方法处理待处理消息数据,以得到实体提及信息;确定与实体提及信息关联的候选实体,并确定与候选实体对应的实体描述信息;以及根据待处理消息数据和实体描述信息,确定实体提及信息提及的目标实体,能够有效提升消息数据中所涉及实体的识别合理性和识别效率,从而能够有效地辅助获取到该实体相关的知识,有效地辅助提升消息数据的表达效果,辅助提升消息交互效果。CN113657100ACN113657100A权利要求书1/4页1.一种实体识别方法,包括:获取待处理消息数据;采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息;确定与所述实体提及信息关联的候选实体,并确定与所述候选实体对应的实体描述信息;以及根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体。2.根据权利要求1所述的方法,所述候选实体的数量为多个,其中,所述根据所述待处理消息数据和所述实体描述信息,确定所述实体提及信息提及的目标实体,包括:采用所述实体提及信息处理所述待处理消息数据,以得到待匹配消息数据;将所述待匹配消息数据和多个所述实体描述信息输入至实体排序模型之中,以得到所述实体排序模型分别输出的多个相关程度值,所述相关程度值,描述所述待匹配消息数据中的实体提及信息,与对应所述实体描述信息之间的相关程度;将所述多个相关程度值之中,值最大的所述相关程度值对应的所述实体描述信息所属的候选实体作为所述目标实体。3.根据权利要求1所述的方法,其中,所述确定与所述实体提及信息关联的候选实体,包括:根据索引表,确定与所述实体提及信息匹配的目标提及信息,所述索引表,用于根据所述目标提及信息索引关联的实体;将所述目标提及信息所关联的实体作为所述候选实体。4.根据权利要求3所述的方法,在所述获取待处理消息数据之前,还包括:获取知识图谱数据,所述知识图谱数据包括:多个实体描述信息,以及与所述多个实体描述信息分别关联的多个实体;对所述多个实体描述信息进行解析,以分别得到对应的多个目标提及信息;以及根据所述多个目标提及信息和所述关联的多个实体构建所述索引表。5.根据权利要求1所述的方法,其中,所述获取待处理消息数据,包括:获取初始消息数据;对所述初始消息数据进行预处理,以得到候选消息数据;以及如果所述候选消息数据的数据特征满足设定条件,则将所述候选消息数据作为所述待处理消息数据。6.根据权利要求5所述的方法,其中,所述对所述初始消息数据进行预处理,以得到候选消息数据,包括:从所述初始消息数据之中识别出第一类型的第一数据段;对所述第一数据段进行类型转换,以得到第二类型的第二数据段,所述第一类型和所述第二类型不相同;以及采用所述第二数据段替换所述初始消息数据之中的所述第一数据段,以得到所述候选消息数据。7.根据权利要求5所述的方法,其中,所述数据特征,是所述候选消息数据的长度特征,和/或,预设字符占比特征。2CN113657100A权利要求书2/4页8.根据权利要求1所述的方法,其中,所述采用多模匹配方法处理所述待处理消息数据,以得到实体提及信息,包括:采用多模匹配方法处理所述待处理消息数据,以得到候选提及信息;对所述候选提及信息进行校验处理,以得到校验结果;以及如果所述校验结果满足校验条件,则将所述候选提及信息作为所述实体提及信息。9.根据权利要求8所述的方法,其中,所述对所述候选提及信息进行校验处理,包括:如果所述候选提及信息是第一信息类型,则对所述候选提及信息进行分词校验处理;如果所述候选提及信息是第二信息类型,则对所述候选提及信息进行词周校验处理,所述第一信息类型和所述第二信息类型不相同。10.根据权利要求9所述的方法,其中,所述对所述候选提及信息进行分词校验处理,包括:对所述待处理消息数据进行分词处理,以得到多个分词;如果所述候选提及信息与第一分词相匹配,则确定所述分词校验处理的