预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110473564A(43)申请公布日2019.11.19(21)申请号201910621583.2(22)申请日2019.07.10(71)申请人西北工业大学深圳研究院地址518057广东省深圳市南山区高新南九道45号申请人西北工业大学(72)发明人张晓雷刘书培(74)专利代理机构西北工业大学专利中心61204代理人华金(51)Int.Cl.G10L21/0216(2013.01)G10L21/0208(2013.01)G10L25/03(2013.01)G10L25/30(2013.01)权利要求书2页说明书6页附图1页(54)发明名称一种基于深度波束形成的多通道语音增强方法(57)摘要本发明涉及一种基于深度波束形成的多通道语音增强方法,首先采集多个麦克风接收到的语音信号;然后提取要处理语音的对数梅尔滤波器组特征;将每个通道的特征送入双向长短时记忆网络(BLSTM,BidirectionalLong-ShortTimeMemory)得到增强后的理想比率掩膜(IRM,IdealRatioMask);将得到的掩膜用于计算GEV的语音和噪声协方差矩阵,进而得到增强后的语音。相比基于MVDR波束形成器的多通道语音增强方法,本方法得到的增强语音效果更好。CN110473564ACN110473564A权利要求书1/2页1.一种基于深度波束形成的多通道语音增强方法,其特征在于,包括以下步骤:步骤一:通过D个麦克风采集含噪含混响语音,其中每个麦克风表示一个采集通道,包括以下子步骤:子步骤一:分别采集从声源到每个麦克风的直达声,对噪声库中的噪声进行重采样保证直达声和噪声的采样率一致;子步骤二:将直达声与进行重采样后的噪声按照-5dB,0dB,5dB相加后得到新的噪声分量;子步骤三:使用镜像模型产生混响的方法(ImageModel)得到含混响的语音,将上一步得到的噪声分量与含混响语音相加得到含噪含混响语音;步骤二:对含噪含混响语音信号进行预处理,包括预加重,分帧和加窗;步骤三:提取每个通道采集到语音的100点对数梅尔滤波器组特征;步骤四:将若干采集通道的梅尔滤波器组特征送入已经训练好的双向长短时记忆网络(BLSTM)中得到若干理想比率掩膜(IRM),其中IRM数量和采集通道数量相同;步骤五:将步骤四中得到的若干掩膜进行融合,得到一个掩膜;步骤六:将步骤五中得到的掩膜和步骤一得到的含噪含混响语音通过广义特征值(GEV)波束形成器,得到增强后的语音,包括以下子步骤:子步骤一:GEV波束形成器的参数表达式为:和分别为语音和噪声协方差矩阵的估计,wGEV(f)为滤波器的系数;w(f)为特征向量,(.)H表示共轭转置,f为频率;其中式中,η(t,f)和ξ(t,f)分别代表了对于语音和噪声的加权,是通过估计得到的时频掩膜确定的:D代表了麦克风的数量,表示对于第i个麦克风信号的估计得到的掩膜,其中i的取值范围为1到D;t表示时间;f表示频率;子步骤二:对于S5.1中公式的计算可以归纳为一个广义特征值问题:其中λ是一个特征值,实际得到的wGEV(f)是最大特征值所对应的最大特征向量;子步骤三:通过选择后滤波器滤除语音失真,获得语音源方向的无失真响应:2CN110473564A权利要求书2/2页子步骤四:最终得到的增强后的语音信号为:H式中,wGEV(f)表示为滤波器系数的共轭转置,y(t,f)表示输入的未经处理的含噪含混响语音。3CN110473564A说明书1/6页一种基于深度波束形成的多通道语音增强方法技术领域[0001]本发明涉及一种多通道语音增强方法,可以对含噪含混响语音进行处理并得到很好的增强效果。背景技术[0002]我们生活的环境复杂多变,一些场景下需要采集到较高语音质量时,往往会遭受各种干扰,这会极大地影响语音的质量和可懂度。语音增强的目的是,从受到噪声干扰的语音信号中滤除噪声以提高语音质量和可懂度,其中噪声干扰包括加性噪声干扰以及混响干扰。近年来深度学习被引入语音增强,这种方法的增强效果与传统方法相比有明显的优点。传统的语音增强方法假设了噪声是平稳的,从而对日常生活中更为常见的非平稳噪声很难有很好的语音处理效果。另一方面,传统方法在低信噪比条件下的增强效果很差。而基于深度学习的语音增强方法可以在低信噪比条件下对加入非平稳噪声的语音实现很好的语音增强效果。[0003]按照采集语音的麦克风数量分类,语音增强可以分为单通道语音增强方法和多通道语音增强方法。基于深度学习的单通道增强方法可以分为两个方向,分别是基于谱映射的方法和基于时频掩膜的方法。基于时频掩膜的方法描述了干净语音与背景干扰的时频关系,而基于谱映射的方法则对应于干净语音的频谱表示。虽然基于深度学习的单通道语音