预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115017885A(43)申请公布日2022.09.06(21)申请号202210794586.8G06F40/284(2020.01)(22)申请日2022.07.07G06F16/35(2019.01)G06F16/36(2019.01)(71)申请人南方电网大数据服务有限公司地址510800广东省广州市花都区新华街红珠路5-1(72)发明人赵永国杨荣霞曹熙张仙梅曾祥清黎名航(74)专利代理机构华进联合专利商标代理有限公司44224专利代理师李志健(51)Int.Cl.G06F40/211(2020.01)G06F40/295(2020.01)G06F40/289(2020.01)G06F40/216(2020.01)权利要求书2页说明书11页附图6页(54)发明名称一种从电力领域的文本中抽取实体关系的方法(57)摘要本申请涉及一种从电力领域的文本中抽取实体关系的方法。方法包括:获取电力领域对应的目标文本,并基于目标文本进行与电力领域相关的结构化分析,确定电力领域对应的非结构化部分,非结构化部分为目标文本中各标题下的文本内容;对非结构化部分对应的非结构化文本进行标引,并基于标引后的非结构化文本确定目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到电力领域对应的目标文本中的知识三元组;基于知识三元组中的各核心动词进行实体关系的标定,以对知识三元组进行优化,得到优化后的知识三元组对应的电力领域实体关系。采用本方法能够提高了电力领域实体关系的抽取质量和效率。CN115017885ACN115017885A权利要求书1/2页1.一种文本中抽取实体关系方法,其特征在于,所述方法包括:获取电力领域对应的目标文本,并基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,所述非结构化部分为所述目标文本中各标题下的文本内容;对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组;基于所述知识三元组中的各核心动词进行所述实体关系的标定,以对所述知识三元组进行优化,得到优化后的所述知识三元组对应的电力领域实体关系。2.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本进行与所述电力领域相关的结构化分析,确定所述电力领域对应的非结构化部分,包括:基于所述目标文本进行中文分词,得到中文分词结果,并对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果;基于所述中文分词归类结果,确定所述电力领域对应的非结构化部分;和/或,基于所述中文分词归类结果,确定所述电力领域对应的结构化部分。3.根据权利要求2所述的方法,其特征在于,所述对所述中文分词结果按照预设的类簇进行归类,得到中文分词归类结果,包括:对所述中文分词结果使用词频‑逆向文件频率加权算法进行计算,得到中文分词计算结果,并根据所述中文分词计算结果建立文档‑中文分词矩阵;基于文本聚类算法,对所述文档‑中文分词矩阵进行降维处理,得到已聚类中文分词;对所述已聚类中文分词按照所述预设的类簇进行归类,得到所述中文分词归类结果。4.根据权利要求2所述的方法,其特征在于,所述基于所述中文分词归类结果,确定所述电力领域对应的结构化部分之后,还包括:对所述电力领域对应的结构化部分中的各级标题进行标题内容之间的逻辑关系提取,并对所述标题内容之间具有逻辑关系对应的标题进行标注。5.根据权利要求1所述的方法,其特征在于,所述基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组,包括:对基于标引后的所述非结构化文本中的独立的句子,被单向依赖的句子,具有双向依赖的句子进行分词以及词性分析,得到句子分析结果;基于所述句子分析结果,使用句法分析器构建与所述句子分析结果对应的依存句法分析图;对所述依存句法分析图进行自然语言句法分析和语义角色标注,得到所述电力领域对应的目标文本中的知识三元组。6.根据权利要求1所述的方法,其特征在于,所述对所述非结构化部分对应的非结构化文本进行标引,并基于标引后的所述非结构化文本确定所述目标文本中对应的独立的句子成分、被单向依赖的句子成分、双向依赖的句子成分,得到所述电力领域对应的目标文本中的知识三元组之后,还包括:2CN115017885A权利要求书2/2页对所述非结构化部分对应的非结构化文本的补充内容进行判断;若所述非结构化文本的补充内容为名词或者短语,则将所述名词或者短语作为补充知识填充至所述知识三元组;若