预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109599129A(43)申请公布日2019.04.09(21)申请号201811343483.XG10L15/02(2006.01)(22)申请日2018.11.13G10L15/04(2013.01)G10L15/14(2006.01)(71)申请人杭州电子科技大学地址310018浙江省杭州市下沙高教园区2号大街(72)发明人戴国骏商吉利沈方瑶胡焰焰张桦(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240代理人朱月芬(51)Int.Cl.G10L25/66(2013.01)G10L25/45(2013.01)G10L25/30(2013.01)G10L25/18(2013.01)权利要求书3页说明书7页附图2页(54)发明名称基于注意力机制和卷积神经网络的语音抑郁症识别方法(57)摘要本发明涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别方法。本发明首先对语音数据进行预处理,对较长的语音数据进行分割,依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图,调整其输入到神经网络模型的频谱图尺寸大小,以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调,提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法,对片段级语音特征进行权重调整,得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本发明方法考虑了和抑郁症相关的语音特征的提取,提供一种基于语音的抑郁症识别的新方法。CN109599129ACN109599129A权利要求书1/3页1.基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于通过语音数据的预处理、提取语音频谱图、构建深度卷积神经网络预训练模型得到片段级特征、用注意力机制算法得到句级特征、SVM模型分类输出结果;具体实现包括如下步骤步骤1、语音数据的预处理,包括:将语音抑郁症识别的语音数据集中的所有语音样本,分为训练集、验证集和测试集三部分;分析所有语音样本的语音数据,从提问方式的语音样本中挑选出10句最长的句子,去掉提问者的语音,只保留被试者的语音数据;最后对每个语音样本的10个句子进行标定标签,标定和原语音样本相同的标签;从而产生语音抑郁症识别的样本;步骤2、提取语音频谱图,包括:对每个语音样本的10个句子,按窗口大小分割语音数据,从而对每个片段提取RGB三通道的语音频谱图;然后堆叠三通道的频谱图,调整频谱图的尺寸大小,作为卷积神经网络的输入;步骤3、构建深度卷积神经网络预训练模型得到片段级特征,包括:构建深度卷积神经网络,对网络进行预训练,然后将语音频谱图输入到卷积神经网络中,进行权值的微调,从而提取语音频谱图中更深层的特征,即得到每个语音分割片段的语音特征;步骤4、用注意力机制算法得到句级特征,包括:通过卷积神经网络得到了每个片段的语音特征,然后融合一个句子的所有片段特征,填充到相同长度,并用attention模型对得到的融合特征进行权值调整,最后训练attention模型,得到语音的句级特征;步骤5、SVM模型分类输出结果,包括:构建SVM分类器模型,然后用得到的句级特征进行训练,最后输出语音的抑郁症识别结果。2.根据权利要求1所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于步骤1中所述的语音数据集,采用的是AVEC2017比赛子项目的数据库;数据库包含了189个被试者,包含107个训练集、35个验证集和47个测试集;该数据库的语音数据采集的过程是虚拟机器人Ellie通过访谈的方式提问被试者问题,记录其语音对话,每个个体的语音长度为7-35min。3.根据权利要求1或2所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于步骤1中所述的标签标定每个语音样本中10个句子的标签都是和原语音样本的标签一致,即原语音样本的标签如果是抑郁症,则对应的10个句子都是抑郁症标签,这等于将原来的数据集扩充了10倍数据,能够更好的训练网络。4.根据权利要求3所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于步骤2中所述语音频谱图的提取过程,包含如下步骤:2-1.对每条语音数据进行预加重;2-2.将预加重后的语音信号进行分帧;2-3.对分帧后的语音信号进行加窗处理;2-4.将加窗后的波形信号进行快速傅里叶变换;2-5.最后将语音数据转换为RGB三通道的语音频谱图。2CN109599129A权利要求书2/3页5.根据权利要求4所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法,其特征在于步骤2中所述的RGB三通道的语音频谱图,三个通道分别为static、delta,、deltadelta;其中st