预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905567A(43)申请公布日2023.04.04(21)申请号202211447688.9(51)Int.Cl.(22)申请日2022.11.18G06F16/36(2019.01)G06F16/35(2019.01)(71)申请人国网宁夏电力有限公司电力科学研G06F40/30(2020.01)究院G06F40/279(2020.01)地址750001宁夏回族自治区银川市金凤G06N3/0442(2023.01)区黄河东路716号G06N3/045(2023.01)申请人中国电力科学研究院有限公司G06N3/08(2023.01)国网宁夏电力有限公司超高压公司(72)发明人高博夏绪卫季知祥张爽闫振华李永亮李学锋罗海荣张庆平马静(74)专利代理机构北京润泽恒知识产权代理有限公司11319专利代理师翟磊权利要求书2页说明书5页附图1页(54)发明名称基于深度学习的电力实体关系的识别方法和装置(57)摘要本发明公开了一种基于深度学习的电力实体关系的识别方法和系统,包括:读取电力调度、运检等文件,根据文件内容,提取相关内容,整理形成文本文件,对文本文件进行分段、分句处理;建立专业样本库,库内存储预处理后的样本数据;从所述文本文件中选取部分样本,用于数据标注,构建电力实体关系抽取模型训练数据集,并训练识别模型;所述识别模型至少包括:Embedding层、BiLSTM层、Attention层;采用所述识别模型,读取待识别文件,显示解析后的实体关系。通过上述的方案,可以实现关系数据的输出,便于后续构建知识图谱。CN115905567ACN115905567A权利要求书1/2页1.一种基于深度学习的电力实体关系的识别方法,其特征在于,包括:步骤1:读取电力调度、运检文件,根据文件内容,提取相关内容,整理形成文本文件,对文本文件进行分段、分句处理;步骤2:建立专业样本库,库内存储预处理后的样本数据;步骤3:从所述文本文件中选取部分样本数据,用于数据标注,构建电力实体关系抽取模型训练数据集,并训练识别模型;所述识别模型至少包括:Embedding层、BiLSTM层、Attention层;步骤4:采用所述识别模型,读取待识别文件,显示解析后的实体关系。2.根据权利要求1所述的识别方法,其特征在于,所述识别模型的输入,包括:建立关系抽取内容,包括:句子级字序列、实体标签序列、实体范围标签。3.根据权利要求2所述的识别方法,其特征在于,所述解析的过程包括:采用Embedding层利用预训练“字到字向量的映射”将句子映射成字向量序列Xc,利用随机初始化的“实体标签到实体标签向量的映射”将实体标签序列映射成标签向量序列Xe,利用随机初始化“实体范围标签到范围向量的映射”将实体范围标签序列映射成范围向量序列Xr,将对应下表的三种向量进行拼接得到后续神经网络的输入X:其中dc表示字向量的维度,de为实体标签向量的维度,dr为范围向量的维度,其中“:”表示向量拼接。4.根据权利要求3所述的识别方法,其特征在于,所述解析的过程包括:采用紧接着Embedding层的为双向的LSTM层,用于提取句子级特征;电网故障文本中的各个字的向量序列作为双向LSTM各个时间步的输入,得到正向LSTM输出的隐藏状态序列:以及反向LSTM输出的隐藏状态序列:将正向LSTM的隐藏状态序列与反向LSTM的隐藏状态序列按位拼接,得到双向LSTM的完整隐藏状态序列:其中m表示双向LSTM隐藏状态向量的维度。5.根据权利要求4所述的识别方法,其特征在于,所述解析的过程包括:得到经过双向LSTM的隐藏状态序列后,将该序列输入至attention层。Attention层的加入能够使模型关注文本中对于实体关系分类更为有用的信息,帮助模型提高实体关系分类效果,attention层具体操作如下:2CN115905567A权利要求书2/2页α=softmax(WTM)∈Rn(9)可得到α,为隐藏状态序列在模型输出中对应的权重大小,通过权重计算,进而可以得到输入文本的语义向量。6.根据权利要求5所述的识别方法,其特征在于,还包括:采用分类器输出识别结果,具体如下:模型通过softmax分类器来预测输入文本对应标签,分类器以输入文本的语义向量作为输入:P(Y|X)=softmax(WC+b)(11)最终模型通过以下损失函数进行优化训练:其中N为训练数据(训练数据包)数量,yi为第i条样本的正确分类,β为L2正则化超参数。7.根据权利要求6所述的识别方法,其特征在于,还包括:对识别结果去重,并存储图数据库。8.采用权利要求1~7任一项所述方法的识别系统,其特征在于,包括处理器,用于运行代码,执行所述的方法。3CN115905567A说明