预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111179972A(43)申请公布日2020.05.19(21)申请号201911276900.8G10L25/45(2013.01)(22)申请日2019.12.12G10L15/14(2006.01)(71)申请人中山大学地址510275广东省广州市海珠区新港西路135号(72)发明人林庆健张东(74)专利代理机构广州粤高专利商标代理有限公司44102代理人王晓玲(51)Int.Cl.G10L25/60(2013.01)G10L25/12(2013.01)G10L25/18(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书1页说明书4页附图3页(54)发明名称一种基于深度学习的人声检测算法(57)摘要本发明涉及一种基于深度学习的人声检测算法。包括特征提取器、Resnet网络以及LSTM网络;所述的特征提取器用于从输入音频信号中提取梅尔频谱特征;所述的Resnet网络用于将连续输入的梅尔频谱特征在时间维度上进行压缩,将输入的T帧特征降低为T/8帧的同时保留人声检测的信息,从而减少后续LSTM的计算量;所述的LSTM网络采用两层的LSTM网络级联,输出连接全连接层后得到当前输入帧是否有人说话的预测,1表示有人说话,0则反之。本发明提供的一种基于深度学习的人声检测算法,加入了Resnet结构对信号在时间维度上进行压缩,从而减少后续LSTM网络的计算成本,相较于基于LSTM的实现方案而言,运算时间仅为其1/8左右,提高系统整体的运算速度。CN111179972ACN111179972A权利要求书1/1页1.一种基于深度学习的人声检测算法,其特征在于,包括特征提取器、Resnet网络以及LSTM网络;所述的特征提取器用于从输入音频信号中提取梅尔频谱特征;所述的Resnet网络用于将连续输入的梅尔频谱特征在时间维度上进行压缩,将输入的T帧特征降低为T/8帧的同时保留人声检测的信息,从而减少后续LSTM的计算量;所述的LSTM网络采用两层的LSTM网络级联,输出连接全连接层后得到当前输入帧是否有人说话的预测,1表示有人说话,0则反之。2.根据权利要求1所述的基于深度学习的人声检测算法,其特征在于,所述的特征提取器提取梅尔频谱特征具体包括以下步骤:S11.预加重:信号通过一个高频滤波器:H(Z)=1-μZ-1其中μ取0.9~1.0之间,用以提升高频信息;S12.分帧:采用固定的窗长、窗移对信号进行切分,得到N帧的切片信号;S13.加窗:对于每个切片信号,分别乘以汉明窗函数:S14.傅里叶变换:对于加窗后的每个切片信号进行傅里叶变换,得到频谱特征;S15.梅尔滤波器组滤波:采用梅尔滤波器组对频谱特征进行过滤,最终得到T帧梅尔频谱特征,每帧维度为D。3.根据权利要求2所述的基于深度学习的人声检测算法,其特征在于,所述的Resnet网络和LSTM网络是属于深度学习的方法,需要提供带真实标签的训练数据进行监督,从而不断优化网络参数;训练数据的标签为区间格式;训练过程中需要以最小时间单元对训练标签进行编码,转化成二进制格式;测试阶段则需要对输出的二进制预测结果进行解码,返回区间的格式。2CN111179972A说明书1/4页一种基于深度学习的人声检测算法技术领域[0001]本发明属于计算机和数字信号处理技术领域,更具体地,涉及一种基于深度学习的人声检测算法。背景技术[0002]现有的技术方案主要分为两类:基于隐马尔可夫模型(HMM)的实现方案和基于长短时循环神经网络(LSTM)的实现方案。[0003](1)基于HMM的实现方案[0004]HMM是一种传统的用于分析语音信号的算法模型,针对语音信号的时间序列结构简历统计模型。对于人声检测问题,HMM算法分为训练和测试两个阶段。在训练阶段,算法采用大量带时间戳标记的音频作为训练数据,分别对“有人说话”和“没人说话”两种状态进行建模,并统计状态到状态之间的转移概率。测试阶段,算法基于训练好的两个状态模型和彼此之间的转移概率预测当前时刻存在说话人声音的可能性。[0005](2)基于LSTM的实现方案[0006]LSTM是深度学习中的人们网络结构,用于解决信号的长时间依赖问题,对于连续的输入序列,LSTM当前时刻的输出不仅依赖于此刻的输入信号,同时还依赖于上下文信息。基于LSTM的人声检测实现方案同样分为训练和测试两个阶段。训练阶段,算法以连续的音频作为输入,经过LSTM网络生成预测结果,同时以真实的人声标签作为监督目标,使网络不断地优化参数来拟合监督目标。测试阶段,固定LSTM的网络参数,对于给定的信号输入,直接取输出作为预测结果。[0007]基于HMM的实现方案缺点是准确率较低