预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111292724A(43)申请公布日2020.06.16(21)申请号202010089880.X(22)申请日2020.02.13(71)申请人上海凯岸信息科技有限公司地址201808上海市嘉定区嘉罗公路1661弄12号101室-16(72)发明人封吉宁(74)专利代理机构上海海贝律师事务所31301代理人范海燕(51)Int.Cl.G10L15/06(2013.01)G10L15/08(2006.01)G10L15/26(2006.01)G10L25/18(2013.01)G10L25/30(2013.01)G10L25/63(2013.01)权利要求书1页说明书2页附图1页(54)发明名称一种基于深度学习的语音情绪识别方案(57)摘要本发明公开了一种基于深度学习的语音情绪识别方案,包括如下步骤:步骤一,将训练用语音音频文件进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对对应频域信号进行处理得到,就可以得到梅尔谱图,步骤二,语音情绪分类模型进行建立:将步骤一中的梅尔谱图经过CNN和LSTM的计算后,自动生成对于语音情绪分类重要的组合特征变量。本发明,第一点是使用深度学习方法替代传统机器学习方法,省去了耗时耗力的手工进行特征工程的步骤,使得整个模型训练过程更加清晰简洁。CN111292724ACN111292724A权利要求书1/1页1.一种基于深度学习的语音情绪识别方案,其特征在于包括如下步骤:步骤一,将训练用语音音频文件进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对对应频域信号进行处理;步骤二,语音情绪分类模型进行建立:将步骤一中的梅尔谱图经过CNN和LSTM的计算后,自动生成对于语音情绪分类的组合特征变量。2.根据权利要求1所述的一种基于深度学习的语音情绪识别方案,其特征在于:所述训练用语音音频文件采用加拿大Ryerson多媒体实验室录制的语音情感数据集。3.根据权利要求1所述的一种基于深度学习的语音情绪识别方案,其特征在于:所述语音情绪分类模型进行建立的网络架构为三层CNN叠加,然后后接两层LSTM,最后加一层softmax,激活函数使用ReLU,损失函数使用对数损失函数,优化器使用Adam和防止过拟合中间添加的了dropout层。2CN111292724A说明书1/2页一种基于深度学习的语音情绪识别方案技术领域[0001]本发明涉及机器学习算法技术领域,具体为一种基于深度学习的语音情绪识别方案。背景技术[0002]目前语音情绪识别采取的方法一般是先将音频文件通过预处理之后进行特征提取,提取出对音频分类有效果的特征变量,一般有基音相关特征、短时能量相关特征、共振峰相关特征、过零率、梅尔倒谱系数等,然后将抽取好的特征输入到传统的机器学习分类模型中,如支持向量机、高斯混合模型、基于bagging方法的树集成模型、基于boosting方法的树集成模型等,最后输出一段音频所属的情绪分类,现有技术的缺点主要有个:上面所述的基于传统方法的语音情绪识别主要工作大部分都集中在特征工程中,非常依赖专家经验与手工处理,耗时耗力,而且具体哪些声学特征变量对语音情绪分类是最重要的目前是没有定论的,声学特征在语音情绪分类中的重要性往往根据任务的不同而变化,因此无法用一套固定的声学特征组合来对所有的语音情绪识别任务进行分类,基于传统方法的语音情绪识别在模型准确率方面有限,不能达到在大规模工业生产中的落地应用。发明内容[0003]本发明的目的在于提供一种基于深度学习的语音情绪识别方案,以解决上述背景技术中提出的问题。[0004]为实现上述目的,本发明提供如下技术方案:一种基于深度学习的语音情绪识别方案,包括如下步骤:[0005]步骤一,将训练用语音音频文件进行傅里叶变换转换到频域,然后再利用梅尔频率刻度的滤波器组对对应频域信号进行处理;[0006]步骤二,语音情绪分类模型进行建立:将步骤一中的梅尔谱图经过CNN和LSTM的计算后,自动生成对于语音情绪分类的组合特征变量。[0007]优选的,所述训练用语音音频文件采用加拿大Ryerson多媒体实验室录制的语音情感数据集。[0008]优选的,所述语音情绪分类模型进行建立的网络架构为三层CNN叠加,然后后接两层LSTM,最后加一层softmax,激活函数使用ReLU,损失函数使用对数损失函数,优化器使用Adam和防止过拟合中间添加的了dropout层。[0009]与现有技术相比,本发明的有益效果是:[0010]1、本发明,第一点是使用深度学习方法替代传统机器学习方法,省去了耗时耗力的手工进行特征工程的步骤,使得整个模型训练过程更加清晰简洁;[0011]2、本发明,将语音分类问题转换为图像分类问题,图