基于注意力机制和卷积神经网络的语音抑郁症识别方法-豆柴文库

基于注意力机制和卷积神经网络的语音抑郁症识别方法.pdf

2023-06-25

10金币

596KB

13页

是来****文章

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109599129A(43)申请公布日2019.04.09(21)申请号201811343483.XG10L15/02(2006.01)(22)申请日2018.11.13G10L15/04(2013.01)G10L15/14(2006.01)(71)申请人杭州电子科技大学地址310018浙江省杭州市下沙高教园区2号大街(72)发明人戴国骏商吉利沈方瑶胡焰焰张桦(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240代理人朱月芬(51)Int.Cl.G10L25/66(2013.01)G10L25/45(2013.01)G10L25/30(2013.01)G10L25/18(2013.01)权利要求书3页说明书7页附图2页(54)发明名称基于注意力机制和卷积神经网络的语音抑郁症识别方法(57)摘要本发明涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别方法。本发明首先对语音数据进行预处理，对较长的语音数据进行分割，依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图，调整其输入到神经网络模型的频谱图尺寸大小，以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调，提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法，对片段级语音特征进行权重调整，得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本发明方法考虑了和抑郁症相关的语音特征的提取，提供一种基于语音的抑郁症识别的新方法。CN109599129ACN109599129A权利要求书1/3页1.基于注意力机制和卷积神经网络的语音抑郁症识别方法，其特征在于通过语音数据的预处理、提取语音频谱图、构建深度卷积神经网络预训练模型得到片段级特征、用注意力机制算法得到句级特征、SVM模型分类输出结果；具体实现包括如下步骤步骤1、语音数据的预处理，包括：将语音抑郁症识别的语音数据集中的所有语音样本，分为训练集、验证集和测试集三部分；分析所有语音样本的语音数据，从提问方式的语音样本中挑选出10句最长的句子，去掉提问者的语音，只保留被试者的语音数据；最后对每个语音样本的10个句子进行标定标签，标定和原语音样本相同的标签；从而产生语音抑郁症识别的样本；步骤2、提取语音频谱图，包括：对每个语音样本的10个句子，按窗口大小分割语音数据，从而对每个片段提取RGB三通道的语音频谱图；然后堆叠三通道的频谱图，调整频谱图的尺寸大小，作为卷积神经网络的输入；步骤3、构建深度卷积神经网络预训练模型得到片段级特征，包括：构建深度卷积神经网络，对网络进行预训练，然后将语音频谱图输入到卷积神经网络中，进行权值的微调，从而提取语音频谱图中更深层的特征，即得到每个语音分割片段的语音特征；步骤4、用注意力机制算法得到句级特征，包括：通过卷积神经网络得到了每个片段的语音特征，然后融合一个句子的所有片段特征，填充到相同长度，并用attention模型对得到的融合特征进行权值调整，最后训练attention模型，得到语音的句级特征；步骤5、SVM模型分类输出结果，包括：构建SVM分类器模型，然后用得到的句级特征进行训练，最后输出语音的抑郁症识别结果。2.根据权利要求1所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法，其特征在于步骤1中所述的语音数据集，采用的是AVEC2017比赛子项目的数据库；数据库包含了189个被试者，包含107个训练集、35个验证集和47个测试集；该数据库的语音数据采集的过程是虚拟机器人Ellie通过访谈的方式提问被试者问题，记录其语音对话，每个个体的语音长度为7-35min。3.根据权利要求1或2所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法，其特征在于步骤1中所述的标签标定每个语音样本中10个句子的标签都是和原语音样本的标签一致，即原语音样本的标签如果是抑郁症，则对应的10个句子都是抑郁症标签，这等于将原来的数据集扩充了10倍数据，能够更好的训练网络。4.根据权利要求3所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法，其特征在于步骤2中所述语音频谱图的提取过程，包含如下步骤：2-1.对每条语音数据进行预加重；2-2.将预加重后的语音信号进行分帧；2-3.对分帧后的语音信号进行加窗处理；2-4.将加窗后的波形信号进行快速傅里叶变换；2-5.最后将语音数据转换为RGB三通道的语音频谱图。2CN109599129A权利要求书2/3页5.根据权利要求4所述的基于注意力机制和卷积神经网络的语音抑郁症识别方法，其特征在于步骤2中所述的RGB三通道的语音频谱图，三个通道分别为static、delta,、deltadelta；其中st

相关资料

基于注意力机制和卷积神经网络的语音抑郁症识别方法.pdf

本发明涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别方法。本发明首先对语音数据进行预处理，对较长的语音数据进行分割，依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图，调整其输入到神经网络模型的频谱图尺寸大小，以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调，提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法，对片段级语音特征进行权重调整，得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本发明方法考虑了和抑郁症

2023-06-25

596KB

基于注意力机制卷积神经网络钢琴乐谱难度识别方法.pdf

本发明属于音乐信息检索领域，为从众多信息中选择出对当前任务目标更关键的信息，充分使用源数据集中包含的所有信息，以提高分类准确率,为钢琴教学和学生学习，提供可靠的钢琴难度信息，同时也大大提高乐谱网站的用户体验。为此，本发明，基于注意力机制卷积神经网络钢琴乐谱难度识别方法，搭建并训练基于注意机制的改进卷积神经网络模型，在训练过程中，将n个不同难度等级的MIDI乐谱文件当做神经网络的n个通道输入到网络模型中进行训练，以便融合不同难度等级数据集的多个特征，进行准确率更高的难度分类，利用训练好的网络模型进行钢琴乐谱

2023-12-04

443KB

一种基于注意力机制和卷积神经网络的单通道语音增强方法.pdf

本发明公开了一种基于注意力机制和卷积神经网络的单通道语音增强方法，包括训练阶段和增强阶段：训练阶段：首先将噪声与纯净语音合成带噪语音，接着对带噪语音进行特征提取，然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系，训练阶段结束后，将训练好的模型保存下来；增强阶段：首先对带噪语音进行特征提取，然后送入训练好的模型中进行语音增强，最后输出增强后的语音。本发明的基于注意力机制和卷积神经网络的单通道语音增强方法可直接在时域上对带噪语音进行增强，不但可以节省傅里叶变换的计

2023-11-06

448KB

基于序列注意力机制的卷积神经网络异常检测.pdf

第51卷第2期郑州大学学报(理学版)Vol.51No.2()2019年6月J．ZhengzhouUniv．Nat．Sci．Ed．Jun．2019基于序列注意力机

2023-10-17

362KB

基于序列注意力机制的卷积神经网络异常检测.pdf

第51卷第2期郑州大学学报(理学版)Vol.51No.2()2019年6月J．ZhengzhouUniv．Nat．Sci．Ed．Jun．2019基于序列注意力机

2023-10-17

362KB