预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115858814A(43)申请公布日2023.03.28(21)申请号202211644166.8(22)申请日2022.12.20(71)申请人上海大学地址200444上海市宝山区上大路99号(72)发明人沈珂钒刘炜彭艳谢少荣李卫民(74)专利代理机构广州爱豆鼎盛知识产权代理事务所(普通合伙)44763专利代理师袁翔(51)Int.Cl.G06F16/36(2019.01)G06F16/33(2019.01)G06F40/295(2020.01)权利要求书2页说明书5页附图1页(54)发明名称基于全局指针解码方法的文本结构化信息抽取方法(57)摘要本发明涉及信息抽取方法技术领域,且公开了基于全局指针解码方法的文本结构化信息抽取方法,包括以下算法及模型:(1)面向文本事件信息抽取的向量化表示;(2)统一方式处理嵌套与非嵌套NER任务;(3)设计事件抽取算法并完成模型训练;(4)设计事件关系抽取算法并完成模型训练;(5)完成最优化模型参数的部署对知识进行融合加工。本发明通过全局化的关联文本内容,用归一处理的全局指针解码方法方法来应对命名实体识别任务,不对嵌套实体和非嵌套实体作明确区分,使得形成的模型统一高效的处理两类文本,并将归一化的模型利用到两个抽取任务之中,实现从非结构化文本中抽取结构化有效信息的优点。CN115858814ACN115858814A权利要求书1/2页1.基于全局指针解码方法的文本结构化信息抽取方法,其特征在于,包括以下算法及模型:(1)面向文本事件信息抽取的向量化表示;(2)统一方式处理嵌套与非嵌套NER任务;(3)设计事件抽取算法并完成模型训练;(4)设计事件关系抽取算法并完成模型训练;(5)完成最优化模型参数的部署对知识进行融合加工;(6)基于web实现事件知识图谱自动构建的原型系统。2.根据权利要求1所述的基于全局指针解码方法的文本结构化信息抽取方法,其特征在于:所述面向文本事件信息抽取的向量化表示模块运用了BERT针对中文文本信息而设计出的预训练模型bert‑base‑chinese,该模型将文本内容转化为向量形式来表征文本的特征,且在向量化的过程中将单个的字作为最小的文本单位,后续神经网络中也以单个字向量作为基本的单位作训练。3.根据权利要求1所述的基于全局指针解码方法的文本结构化信息抽取方法,其特征在于,所述统一方式处理嵌套与非嵌套NER任务模型为指针网络模型,而指针网络模型由全局指针解码方法所构成,且包括以下具体步骤:步骤一:在给定的一段文本中,如果要识别的实体的长度是n,那么,为了简单起见首先假定所述文本中仅有一种特殊的实体需要识别,并且所需识别的实体是所述文本中连续的一部分,长度不受限制,内容可以彼此嵌套。那么可以通过计算得出该文本序列中共计有n(n+1)/2个符合上述设定要求的候选序列,也就是说当抽取出了总数为n(n+1)/2的候选实体之后,所有可能的实体就已经被包含在其中了;步骤二:不管是事件抽取任务还是关系抽取任务,要做的都是从这些全部候选实体里边挑出满足筛选要求的特定格式和内容的实体,简化来说就是一个结构很清晰的多分类任务,从n(n+1)/2个可能中选k个不同的标签。从实体抽取延伸到事件抽取,则可以考虑成有x个不同类别的实体需要识别,那么就调整为x个多分类任务,每个任务同样是从n(n+1)/2个可能中选k个不同的标签。4.根据权利要求1所述的基于全局指针解码方法的文本结构化信息抽取方法,其特征在于:所述事件抽取算法模块由考察事件类型,论元角色和论元所组成,简化成命名实体识别任务,利用全局指针解码方法模型统一了有无触发词的抽取抽取场景。在有效实体识别出之后,利用类似于完全子图的递归搜索方法搜索出事件论元,组合这些事件论元作为抽取结果,最终实现模型效果。5.根据权利要求1所述的基于全局指针解码方法的文本结构化信息抽取方法,其特征在于:所述事件关系算法模块是分离出所有可能出现的五元组,利用特定的打分函数通过打分高低来判别出正确的事件关系,将这些判别出的关系视为抽取结果,并通过上文提到的全局指针解码方法模型完成算法简化,最后对全局指针解码方法模型内置的多标签交叉熵稀疏化处理后作为模型的损失函数,即可得到事件关系抽取模型。6.根据权利要求1所述的基于全局指针解码方法的文本结构化信息抽取方法,其特征在于:所述基于web的展示页面利用了FastAPI网络框架实现了在线抽取系统的高效实时响应,在模型参数的部署时选用了Ray框架,利用其较强的伸缩性满足短时间内的较大数据流2CN115858814A权利要求书2/2页传输。在原型系统的可视化展示时利用了D3组件,避开对本地图形数据库的访问带来的耗时过长问题,直接基于HTML生成可视化的知