预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113705163A(43)申请公布日2021.11.26(21)申请号202110308162.1(22)申请日2021.03.23(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人王明(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人崔晓岚张颖玲(51)Int.Cl.G06F40/126(2020.01)G06F40/242(2020.01)G06F40/295(2020.01)G06F16/33(2019.01)G06K9/62(2006.01)权利要求书2页说明书18页附图7页(54)发明名称实体提取方法、装置、设备及计算机可读存储介质(57)摘要本申请提供了一种实体提取方法、装置、设备及计算机可读存储介质;方法包括:获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;至少一个扩展词向量包含至少一个预设实体向量;至少一个预设实体向量为待提取文本在预设实体字典中对应的实体的向量信息;基于至少一个字符向量以及至少一个扩展词向量进行编解码变换,得到待提取文本对应的至少一个目标实体;至少一个目标实体用于实现对待提取文本的自然语言处理。通过本申请,能够在保证实体提取准确性的基础上,提高实体提取的效率。CN113705163ACN113705163A权利要求书1/2页1.一种实体提取方法,其特征在于,包括:获取待提取文本中包含的至少一个字符向量以及至少一个扩展词向量;所述至少一个扩展词向量包含至少一个预设实体向量;所述至少一个预设实体向量为所述待提取文本在预设实体字典中对应的实体的向量信息;基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体;所述至少一个目标实体用于实现对所述待提取文本的自然语言处理。2.根据权利要求1所述的方法,其特征在于,所述至少一个扩展词向量还包括:至少一个分词向量,所述获取待提取文本包含的至少一个字符向量以及至少一个扩展词向量,包括:在待提取文本中包含的至少一个字符中,根据每个单个字符的向量信息,得到所述至少一个字符向量;对所述待提取文本进行分词处理,得到所述至少一个分词向量;使用所述待提取文本在所述预设实体字典中进行关联度匹配,得到所述待提取文本匹配的至少一个预设实体信息;所述至少一个预设实体信息中的每个预设实体信息包含预设实体与预设实体别名中的至少一个;将所述至少一个预设实体信息对应的向量作为所述至少一个预设实体向量。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述待提取文本对应的至少一个目标实体,包括以下任意一种:对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体;以及将所述至少一个第一实体作为所述至少一个目标实体;在所述至少一个字符向量以及所述至少一个扩展词向量中,获取每个字符向量与每个扩展词向量各自对应的边界信息;以及结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体;以及将所述至少一个第二实体作为所述至少一个目标实体。4.根据权利要求3所述的方法,其特征在于,所述边界信息包括:所述每个扩展词向量对应的第一边界信息以及所述每个字符向量对应的第二边界信息;所述获取每个字符向量与每个扩展词向量各自对应的边界信息,包括:根据所述每个扩展词向量中的首尾字符位置,得到所述第一边界信息;将所述每个字符向量的位置作为所述第二边界信息。5.根据权利要求3所述的方法,所述对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第一实体,包括:对所述至少一个字符向量以及所述至少一个扩展词向量进行注意力编码,得到第一注意力编码向量集;对所述第一注意力编码向量集进行解码预测,得到第一位置预测序列;所述第一位置预测序列用于在所述至少一个字符向量中指示出属于所述至少一个第一实体的字符的位置;根据所述第一位置预测序列,得到所述至少一个第一实体。2CN113705163A权利要求书2/2页6.根据权利要求4所述的方法,其特征在于,所述结合所述边界信息,对所述至少一个字符向量以及所述至少一个扩展词向量进行编解码变换,得到所述至少一个第二实体,包括:分别对所述至少一个字符向量以及所述至少一个扩展词向量进行标识,得到至少一个编码标识;根据所述第一边界信息与所述第二边界信息,得到所述至少一个编码标识中每个编码标识对应的待编码向量长度;结合所述待编码向量长度,对所述每个编码标识对应的字符向量或扩展词向量进行注意力编码,得到第二