预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110600050A(43)申请公布日2019.12.20(21)申请号201910866598.5G10L25/30(2013.01)(22)申请日2019.09.12(71)申请人深圳市华创技术有限公司地址518108广东省深圳市宝安区石岩街道水田社区第四工业区祝龙田路50号赛联工业园B栋二层B(72)发明人郑敏郑炜乔刘钊祎(74)专利代理机构北京东方盛凡知识产权代理事务所(普通合伙)11562代理人张雪(51)Int.Cl.G10L21/0216(2013.01)G10L21/0224(2013.01)G10L21/0232(2013.01)G10L25/18(2013.01)权利要求书2页说明书5页附图5页(54)发明名称基于深度神经网络的麦克风阵列语音增强方法及系统(57)摘要本发明公开了基于深度神经网络的麦克风阵列语音增强方法及系统,利用麦克风阵列进行多通道语音信号的采集并对采集到的语音信号进行预处理,通过使用深度神经网络对预处理后的多通道语音信号估计噪声与目标语音的掩膜并计算得到噪声和目标语音的协方差矩阵,根据得到的噪声和目标语音协方差矩阵计算波束形成系数对带噪的多通道语音信号进行波束形成处理,并将波束形成处理后的语音信号通过由深度神经网络估计的目标语音掩膜进行消除残留噪声的后处理。本发明采用基于深度神经网络的方式对麦克风阵列进行语音增强处理,不需要依赖例如平面波假设或者阵列几何这样的先验知识进行波束形成处理,所实现的麦克风阵列语音增强系统具有较好的鲁棒性。CN110600050ACN110600050A权利要求书1/2页1.基于深度神经网络的麦克风阵列语音增强方法,其特征在于,包括如下步骤:步骤S101:使用麦克风阵列采集多通道语音信号,数学表示为y={y1,y2,……yk},k为在麦克风阵列中的个数,k≥2;步骤S102:对采集到的多通道带噪声语音信号进行预处理,得到对应的时频谱如下公式:Yf,t={Y1(t,f),Y2(t,f),...,Yk(t,f)}其中,f为频带数,t为时间帧;步骤S103:构建深度神经网络训练模块;步骤S104:将训练好的深度神经网络模型用于估计麦克风阵列采集的每个通道带噪信号的目标语音掩膜和噪声掩膜并进行对应的噪声协方差计算与语音协方差计算,语音协方差计算的计算公式为:噪声协方差计算的计算公式为:T为时间帧总数,H表示共轭转置;步骤S105:通过计算好的噪声协方差矩阵与语音协方差矩阵估计波束形成系数,公式如下:步骤S106:利用估计的波束形成系数通过广义特征值波束形成方法(generalizedeigenvaluebeamformer,GEV)对带噪的麦克风阵列语音信号进行波束形成处理,得到波束形成后的信号,公式如下:步骤S107:将波束形成后的信号与由步骤S104中估计得到的目标语音掩膜进行矩阵点乘的计算从而实现消除残留噪声的后处理,得到增强后的语音信号的时频谱图,公式如下:步骤S108:对增强后的语音信号时频谱图进行反傅里叶变换(ISTFT)从而使信号重构,得到时域信号z(t)。2.根据权利要求1所述的方法,其特征在于,所述步骤S102还包括:以16Hz的采样率对多通道带噪语音信号进行采样;对采样后的时域信号进行离散傅里叶变换(Short-TimeFourierTransform,STFT),得到对应的时频谱图。3.根据权利要求1所述的方法,其特征在于,所述步骤S103还包括:构建深度神经网络;深度神经网络隐含层之间均用Relu作为激活函数,使用sigmoid函数作为输出层激活函数;将得到的多通道带噪语音信号STFT时频谱图作为神经网络的输入;2CN110600050A权利要求书2/2页将初始的学习速率设定为1e-5,每经过10个迭代学习速率减少为之前的一半;采用二元交叉熵为损失函数进行训练得到估计的噪声掩膜谱图与估计的目标语音掩膜谱图保存训练后模型所得到的参数。4.根据权利要求3所述的方法,其特征在于,输出层为1026个神经元节点的FC(Fullyconnectedlayer,FC)。5.基于深度神经网络的麦克风阵列语音增强系统,其特征在于,包括:多通道数据获取模块,使用麦克风阵列拾音,获取多通道的带噪语音信号;预处理模块,将得到的多通道带噪语音信号进行采样,并使用STFT将各个通道的语音时域信号转换为对应的时频谱图;深度神经网络模块,该模块分为训练阶段与测试阶段,在训练阶段中将得到的多通道STFT时频谱图送入到深度神经网络中,以目标语音掩膜和噪声掩膜作为监督信息进行训练,在测试阶段中,输入带噪语音信号的STFT时频谱图到训练好的神经网络中,得到对应的目标语音掩膜和噪声掩膜;波束形成模块,该模块通过