预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共37页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761122A(43)申请公布日2021.12.07(21)申请号202110546916.7G06F16/35(2019.01)(22)申请日2021.05.19G06F40/30(2020.01)(71)申请人清华大学地址100084北京市海淀区双清路30号申请人腾讯科技(深圳)有限公司(72)发明人李涓子王子奇王晓智韩旭林衍凯侯磊刘知远李鹏周杰(74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙)44285代理人聂秀娜(51)Int.Cl.G06F16/33(2019.01)G06F16/335(2019.01)G06F16/36(2019.01)权利要求书3页说明书24页附图9页(54)发明名称一种事件抽取方法、相关装置、设备及存储介质(57)摘要本申请实施例公开了一种事件抽取方法、相关装置、设备及存储介质,用于将句级自然语言转化为结点和边,再将结点和边转化为语义特征来进行事件抽取,能够保证获取事件的精度。本申请实施例方法包括:获取待处理文本;根据待处理文本生成抽象语义表示,抽象语义表示包括与词语一一对应的结点,以及用于连接结点之间边;对抽象语义和文本表示进行语义编码处理,得到语义嵌入向量,语义嵌入向量用于表示每个词语的与事件之间的语义特征;对抽象语义表示进行图编码处理,得到图嵌入向量,其中,图嵌入向量为用于表示通过边相连接的结点的结构特征;将语义嵌入向量与图嵌入向量进行拼接,得到拼接特征向量;对拼接特征向量进行识别,输出目标事件。CN113761122ACN113761122A权利要求书1/3页1.一种事件抽取方法,其特征在于,包括:获取待处理文本,其中,所述待处理文本包括N个词语,所述N为大于1的整数;根据所述待处理文本生成抽象语义表示,其中,所述抽象语义表示包括与所述词语一一对应的结点,以及用于连接所述结点之间边;对所述抽象语义表示以及所述待处理文本进行语义编码处理,得到语义嵌入向量,其中,所述语义嵌入向量用于表示每个所述词语与事件之间的语义特征;对所述抽象语义表示进行图编码处理,得到图嵌入向量,其中,所述图嵌入向量为用于表示通过所述边相连接的所述结点之间的结构特征;将所述语义嵌入向量与所述图嵌入向量进行拼接,得到拼接特征向量;对所述拼接特征向量进行识别,输出目标事件,其中,所述目标事件包括从N个所述词语中抽取出的触发词以及角色词,所述触发词用于指示所述待处理文本中的发生的所述事件,所述角色词用于指示所述待处理文本中的各个实体在所述事件中角色。2.根据权利要求1所述的方法,其特征在于,在所述对所述抽象语义表示进行图编码处理,得到图嵌入向量之前,所述方法还包括:将所述待处理文本进行结点编码处理,得到结点编码向量,所述结点编码向量用于初始化每个所述词语与所述事件之间的语义特征;所述对所述抽象语义表示进行图编码处理,得到图嵌入向量包括:将所述结点编码向量以及所述抽象语义表示通过图编码模型进行图编码处理,得到所述图嵌入向量。3.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件包括:根据动态最大池化算法确定所述语义嵌入向量对应的触发词最大池化特征向量以及角色词最大池化特征向量;将所述触发词最大池化特征向量以及所述角色词最大池化特征向量与所述拼接特征向量进行拼接,得到待识别特征向量;对所述待识别特征向量进行分类识别,得到所述目标事件。4.根据权利要求1所述的方法,其特征在于,所述对所述拼接特征向量进行事件识别,输出目标事件还包括:对所述拼接特征向量进行谱聚类,得到结点聚类图,其中,所述结点聚类图包括聚类结点以及连接所述聚类结点的聚类边;根据所述聚类边的距离确定所述聚类结点之间的边权重值;对所述结点聚类图进行切图处理,得到K个聚类子图,所述K为大于1的整数;当每个所述聚类子图的边权重值符合预设的权重值时,输出所述目标事件。5.根据权利要求1所述的方法,其特征在于,所述对所述抽象语义表示进行语义编码处理,得到语义嵌入向量包括:根据序列编码模型对所述抽象语义表示进行编码,得到所述语义嵌入向量,所述序列编码模型用于对通过所述边连接的所述结点进行时序性编码。6.根据权利要求1所述的方法,其特征在于,在根据所述待处理文本生成抽象语义表示之前,所述方法还包括:2CN113761122A权利要求书2/3页获取数据库中的待处理语料,所述待处理语料包括M个句子,所述M为大于等于1的整数;将所述待处理语料生成抽象语义表示集合,所述抽象语义表示集合包括与所述句子对应结点集,以及连接所述结点之间边形成的边集。7.根据权利要求6所述的方法,其特征在于,在所述将所述待处理语料生成抽象语义表示集合之后,所述方法还包括:根据所述抽象