预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113903362A(43)申请公布日2022.01.07(21)申请号202110990439.3G06F40/279(2020.01)(22)申请日2021.08.26(71)申请人电子科技大学地址611731四川省成都市高新区(西区)西源大道2006号(72)发明人张悦黄逸轩(74)专利代理机构成都玖和知识产权代理事务所(普通合伙)51238代理人胡琳梅(51)Int.Cl.G10L25/63(2013.01)G10L25/30(2013.01)G06N3/04(2006.01)G06N3/08(2006.01)G06F16/35(2019.01)权利要求书1页说明书4页附图5页(54)发明名称一种基于神经网络的语音情感识别方法(57)摘要本发明公开了一种基于神经网络的语音情感识别方法,首先将目标语音信号分类为高兴、悲伤、中性以及生气四类情感,再提取语音信号的基于滤波器组的特征,然后将特征分别送入所述卷积神经网络和所述时延神经网络来自动提取情感特征,使用归一化指数函数分类器得到属于每一类情感的概率值,选取最大概率值对应的情感作为该段语音的情感类别;再将所述目标语音信号识别为文本,送入双向编码器预训练模型获取文本情感类别,融合以上三种模型后获得最终情感类别,解决了现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。CN113903362ACN113903362A权利要求书1/1页1.一种基于神经网络的语音情感识别方法,其特征在于,包括下列步骤:提取语音特征并送入卷积神经网络,获得卷积情感类别;所述语音特征送入时延神经网络,获得时延情感类别;识别语音文本并送入双向编码器预训练模型,获得文本情感类别;模型融合获得最终情感类别。2.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,所述语音特征为目标语音信号的基于滤波器组的特征。3.如权利要求2所述的基于神经网络的语音情感识别方法,其特征在于,所述目标语音信号的情感特征分为高兴、悲伤、中性和生气四类,所述卷积情感类别、所述时延情感类别、所述文本情感类别和所述最终情感类别是四类中的任意一类。4.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在提取语音特征并送入卷积神经网络,获得卷积情感类别的过程中,所述卷积神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为卷积情感类别。5.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在所述语音特征送入时延神经网络,获得时延情感类别的过程中,所述时延神经网络自动提取所述语音特征包含的情感特征,再使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为时延情感类别。6.如权利要求2所述的基于神经网络的语音情感识别方法,其特征在于,识别语音文本并送入双向编码器预训练模型,获得文本情感类别,包括下列步骤:利用语音识别技术识别所述目标语音信号对应的文本,获得语音文本;将所述语音文本中文字映射为相应的标号,形成标号序列;将所述标号序列送入双向编码器预训练模型,提取文本包含的情感特征;使用归一化指数函数分类器获得属于每一类所述情感特征的概率值,选取最大概率值对应的情感特征作为文本情感类别。7.如权利要求1所述的基于神经网络的语音情感识别方法,其特征在于,在模型融合获得最终情感类别的过程中,对所述卷积情感类别、所述时延情感类别和所述文本情感类别各自归一化指数函数之后的概率值进行线性相加,选取最大值对应的情感特征作为最终情感类别。8.如权利要求7所述的基于神经网络的语音情感识别方法,其特征在于,进行所述线性相加的过程中,不同模型的权重值设置为相同或不相同。2CN113903362A说明书1/4页一种基于神经网络的语音情感识别方法技术领域[0001]本发明涉及语音情感识别技术领域,尤其涉及一种基于神经网络的语音情感识别方法。背景技术[0002]语音情感识别的很多方法是采用将不同的语音情感分类模型进行融合,然而由于都是语音信息,模型的相关性比较高,模型融合的效果提升不大;也有使用不同模型提取特征的方法,然后不同模型按照相同的权重进行融合,同样存在效果提升不大的问题。[0003]当前还有文本情感识别和语音情感识别的多模态方法,但采用的是特征融合,由于不同模型的学习速度不同,特征融合不能很好的发挥不同模态信息优势互补的作用。发明内容[0004]本发明的目的在于提供一种基于神经网络的语音情感识别方法,旨在解决现有技术中模型融合以及多模态情感识别训练困难,准确率提升不大的问题。[0005]为实现上述目的,本发明采用一种