预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114998698A(43)申请公布日2022.09.02(21)申请号202210640854.0(22)申请日2022.06.08(71)申请人西安理工大学地址710048陕西省西安市碑林区金花南路5号(72)发明人孙强党鑫豪(74)专利代理机构西安弘理专利事务所61214专利代理师赵燕秋(51)Int.Cl.G06V10/80(2022.01)G06V10/764(2022.01)G06V10/82(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称动态时域卷积网络驱动的多模态情感识别方法(57)摘要本发明公开了动态时域卷积网络驱动的多模态情感识别方法,利用三种模态特征生成查询向量,通过注意力机制增强各模态特征,明确捕捉到各模态特征中与模态间交互作用相关的信息,使模型更容易地建模不同模态之间的交互作用;通过具有动态卷积特性的时域卷积网络来学习查询向量,不仅使查询向量的学习过程更加充分合理,而且通过动态卷积,使查询向量的生成随输入特征动态变化,更贴合目标任务;给出的时域卷积网络通过动态卷积的方式来生成卷积核,使卷积核随输入特征呈现动态变化,与输入特征更适配,有助于更灵活地建模多模态特征之间的交互作用;这种具有动态卷积特性的时域卷积网络还能够融合来自不同模态的特征,产生有效的多模态融合特征。CN114998698ACN114998698A权利要求书1/2页1.动态时域卷积网络驱动的多模态情感识别方法,其特征在于,具体按照以下步骤实施:步骤1、从视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征xa、图像模态特征xv和文本模态特征xl,以及对应的情感类别标签;步骤2、分别建立三个时域卷积神经网络,将每个视频样本的音频模态特征xa、图像模态特征xv和文本模态特征xl送入对应的时域卷积神经网络中,滤除各模态特征的冗余噪声,对各模态特征做时域关系上的建模,得到包含上下文信息的音频特征图像特征和文本特征步骤3、构建具有动态卷积特性的时域卷积网络,将音频特征图像特征和文本特征按特征向量维度拼接在一起,并输入具有动态卷积特性的时域卷积网络进行压缩,得到一个压缩特征xkey;步骤4、将音频特征图像特征和文本特征作为输入特征,并将压缩特征xkey作为查询向量,分别执行一个注意力操作,得到注意力音频特征注意力图像特征和注意力文本特征步骤5、将注意力音频特征注意力图像特征和注意力文本特征分别送入一个自注意力网络,输出自注意力音频特征自注意力图像特征和自注意力文本特征步骤6、将自注意力音频特征自注意力图像特征和自注意力文本特征按特征向量维度拼接,得到拼接特征将拼接特征输入到具有动态卷积特性的时域卷积网络执行多模态特征融合,得到一个融合特征xfusion;步骤7、将多模态融合特征xfusion送入一个三层的全连接神经网络执行情感类别预测;步骤8、将模型预测到的情感类别与步骤1中的情感类别标签进行对比,并通过反向传播算法去更新三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络中的参数,然后不断重复步骤1‑步骤7,直至模型能正确预测出情感类别,输出更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络;步骤9、通过更新后的三个时域卷积神经网络、具有动态卷积特性的时域卷积网络、自注意力网络和三层全连接神经网络识别待识别的视频情感。2.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤1中所述视频数据库包括CMU‑MOSEI和IEMOCAP两种多模态情感分析数据集。3.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤3所述具有动态卷积特性的时域卷积网络由五个卷积层堆叠组成,每个卷积层由两个卷积神经网络组成,每个卷积神经网络的卷积核由动态卷积网络生成。4.根据权利要求3所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步2CN114998698A权利要求书2/2页骤3中将特征输入到具有动态卷积特性的时域卷积网络执行压缩的具体过程为:步骤a、将输入特征xinput输入动态卷积网络,得到动态卷积核其中dout为输出的特征向量维度,3d为输入的特征向量维度,ksize为卷积核大小;步骤b、以xinput作为输入特征,k作为卷积核,进行一次膨胀卷积操作,得到输出特征步骤c、以作为输入特征重复步骤a、步骤b,重复4次之后将得到的输出特征作为压缩特征xkey。5.根据权利要求1所述动态时域卷积网络驱动的多模态情感识别方法,其特征在于,步骤4中所述执行一个