预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113742733A(43)申请公布日2021.12.03(21)申请号202110909147.2(22)申请日2021.08.09(71)申请人扬州大学地址225009江苏省扬州市大学南路88号(72)发明人李莉莉孙小兵薄莉莉魏颖李斌(74)专利代理机构南京苏高专利商标事务所(普通合伙)32204代理人柏尚春(51)Int.Cl.G06F21/57(2013.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书2页说明书5页附图2页(54)发明名称阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置(57)摘要本发明公开了一种阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置,所述方法包括:漏洞数据采集;漏洞描述语句表示学习;利用图卷积网络GCN构造漏洞描述文本的句法依存关系,提取漏洞特征;基于BERT微调模型中的问答任务,实现漏洞事件触发词识别及分类。本发明可以更好地利用漏洞描述中的语法和语义信息,充分挖掘漏洞描述中的上下文信息,达到对漏洞事件触发词的识别和分类,可以一定程度上解决漏洞分类不准确的问题,相较于目前流行的事件触发词抽取方法,能够捕获不同事件间的依存关系,并且与已有漏洞分类方法相比,可以输出漏洞事件的触发词,辅助开发人员分析漏洞。CN113742733ACN113742733A权利要求书1/2页1.一种阅读理解漏洞事件触发词抽取和漏洞类型识别方法,其特征在于,包括以下步骤:(1)采集漏洞数据,获取漏洞条目的CVE‑ID、每个ID对应的漏洞描述及漏洞类型,并为漏洞事件设计提问问题Q;(2)基于BERT预训练模型,进行漏洞描述语句表示学习,作为GCN输入的初始节点特征;(3)使用图卷积网络GCN,提取漏洞信息的节点特征;(4)基于BERT微调模型中的问答任务,实现漏洞事件触发词识别及分类。2.根据权利要求1所述的阅读理解漏洞事件触发词抽取和漏洞类型识别方法,其特征在于,所述步骤(2)包括以下步骤:(21)将设计的提问问题Q与漏洞条目的描述Text转换成BERT预训练模型的输入序列;即采用特殊标记[CLS]放在开头,用来融合描述中每个单词的语义信息,问题和漏洞描述使用[SEP]分隔;将每个单词转换成Token嵌入、Segment嵌入和Position嵌入,并对这些嵌入表示求和得到表示向量;(22)将表示向量传递给BERT的编码器层,利用Transformer结合掩码语言模型、预测下一句任务实现双向语言模型任务,进行表示学习,得到嵌入向量X,作为GCN输入的初始节点特征。3.根据权利要求1所述的阅读理解漏洞事件触发词抽取和漏洞类型识别方法,其特征在于,所述步骤(3)包括以下步骤:(31)基于得到漏洞条目的文本描述,利用斯坦福句法分析工具获取漏洞描述文本的句法依存关系;(32)根据句法依存关系构建漏洞描述的句法信息图G=(V,E);其中V是漏洞节点v1,v2,...,vi...,vn的集合,vi表示漏洞描述中的第i个单词,n是漏洞描述中的单词数量,E是节点vi到节点vj有向边(vi,vj)的集合;同时为每条有向边增加一条反向边(vj,vi),每个节点vi添加一个自循环边(vi,vi),并为每一条边添加关系类型标签K(vi,vj);基于句法信息图G获得邻接矩阵A,即若节点vi和节点vj相连,邻接矩阵A中第i行第j列的元素aij=1,否则aij=0;是邻接矩阵A的规范化矩阵,由如下变换得到:式中,A′=A+I,其中I是单位矩阵;是A′的度矩阵;(34)对漏洞节点信息进行梯度下降训练,提取漏洞节点特征,变换如下:式中,是图卷积神经网络第l层输入的漏洞节点信息;利用规范化矩阵以及每层特定类型标签K(vi,vj)的权重矩阵做线性变换,之后再经过非线性激活函数σ得到下一层输入的漏洞节点信息经过多次卷积训练,从而获取漏洞节点的特征向量;(35)针对漏洞事件触发词提问的问题也做如上操作,构造其句法依存关系,获取问题语句的特征向量。4.根据权利要求1所述的阅读理解漏洞事件触发词抽取和漏洞类型识别方法,其特征2CN113742733A权利要求书2/2页在于,所述步骤包括以下步骤:(41)将问题描述特征向量A及漏洞描述特征向量B,接入BERT问答任务中的全连接层和softmax层;(42)为BERT问答任务引入一个起始向量S和一个结束向量E,计算漏洞描述中第i个单词作为答案跨度开始的概率Pi,概率最高单词的作为答案跨度的开始,由如下变换得到:其中,Ti是单词i的特征向量;同理利用公式计算答案跨度的结束;将候选答案从位置i到位置j的得分定义为Si,j=S·Ti+E·Tj,以j≥i时的最大得分跨度作为预测结果;同时进行无答案预测,将没有答