预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114218931A(43)申请公布日2022.03.22(21)申请号202111300797.3(22)申请日2021.11.04(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人孙建东史亚冰蒋烨柴春光(74)专利代理机构北京鸿德海业知识产权代理有限公司11412代理人田宏宾(51)Int.Cl.G06F40/279(2020.01)G06F40/30(2020.01)G06F16/35(2019.01)G06K9/62(2022.01)G06N3/02(2006.01)权利要求书4页说明书10页附图4页(54)发明名称信息抽取方法、装置、电子设备和可读存储介质(57)摘要本公开提供了一种信息抽取方法、装置、电子设备和可读存储介质,涉及人工智能技术领域,具体为知识图谱技术领域。其中,信息抽取方法包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。本公开能够抽取文本中所存在的重叠三元组,扩展了信息抽取的应用场景,进一步提升了信息抽取的准确性与效率。CN114218931ACN114218931A权利要求书1/4页1.一种信息抽取方法,包括:获取待处理文本,得到所述待处理文本中每个字符的语义向量;根据所述待处理文本中的每个字符与每个字符的语义向量,分别生成关系预测矩阵、实体预测矩阵与对齐矩阵;使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组,将所述目标三元组作为所述待处理文本的信息抽取结果。2.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成关系预测矩阵包括:获取至少一个关系类型,每个关系类型中包含关系实体类型与关系客体类型;将所述至少一个关系类型作为所述关系预测矩阵中的行,将所述待处理文本中的每个字符作为所述关系预测矩阵中的列;根据各列的字符的语义向量与各行的关系类型,得到所述关系预测矩阵中的不同元素的元素取值。3.根据权利要求2所述的方法,其中,所述根据各列的字符的语义向量与各行的关系类型,得到所述关系预测矩阵中的不同元素的元素取值包括:针对所述关系预测矩阵中的每个元素,确定对应该元素的字符与关系类型;根据所确定的字符的语义向量与关系类型进行计算,得到该元素的计算结果;在确定所述计算结果超过第一预设阈值的情况下,将该元素的元素取值设置为1。4.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成实体预测矩阵包括:获取至少一个实体类型,每个实体类型中包含实体开始类型与实体结束类型;将所述至少一个实体类型作为所述实体预测矩阵中的行,将所述待处理文本中的每个字符作为所述实体预测矩阵中的列;根据各列的字符的语义向量与各行的实体类型,得到所述实体预测矩阵中的不同元素的元素取值。5.根据权利要求4所述的方法,其中,所述根据各列的字符的语义向量与各行的实体类型,得到所述实体预测矩阵中的不同元素的元素取值包括:针对所述实体预测矩阵中的每个元素,确定对应该元素的字符与实体类型;根据所确定的字符的语义向量与实体类型进行计算,得到该元素的计算结果;在确定所述计算结果超过第二预设阈值的情况下,将该元素的元素取值设置为1。6.根据权利要求1所述的方法,其中,根据所述待处理文本中的每个字符与每个字符的语义向量,生成对齐矩阵包括:将所述待处理文本中的每个字符,分别作为所述对齐矩阵中的行与列;根据各列的字符的语义向量与各行的字符的语义向量,得到所述对齐矩阵中的不同元素的元素取值。7.根据权利要求6所述的方法,其中,所述根据各列的字符的语义向量与各行的字符的语义向量,得到所述对齐矩阵中的不同元素的元素取值包括:针对所述对齐矩阵中的每个元素,确定对应该元素的行字符与列字符;根据所确定的行字符的语义向量与列字符的语义向量进行计算,得到该元素的计算结2CN114218931A权利要求书2/4页果;在确定所述计算结果超过第三预设阈值的情况下,将该元素的元素取值设置为1。8.根据权利要求1所述的方法,其中,所述使用所述关系预测矩阵、实体预测矩阵与对齐矩阵,抽取所述待处理文本中的目标三元组包括:根据所述关系预测矩阵,确定对应同一关系类型的主体开始字符与客体开始字符;根据所述实体预测矩阵,确定对应同一实体类型的实体开始字符与实体结束字符;根据所述对应同一关系类型的主体开始字符与客体开始字符、以及所述对