预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114999510A(43)申请公布日2022.09.02(21)申请号202210467641.2(22)申请日2022.04.29(71)申请人中国科学技术大学地址230026安徽省合肥市包河区金寨路96号(72)发明人叶中付赵紫微于润祥(74)专利代理机构北京科迪生专利代理有限责任公司11251专利代理师安丽(51)Int.Cl.G10L21/0208(2013.01)G10L25/30(2013.01)G10L21/0232(2013.01)G10L25/18(2013.01)权利要求书3页说明书8页附图3页(54)发明名称基于掩蔽效应的复卷积循环神经网络单通道语音增强方法(57)摘要本发明公开了一种基于掩蔽效应的复卷积循环神经网络单通道语音增强方法,包括:参照Bark带的频率划分方法将傅里叶变换后的初始向量的频率维划分成最接近临界频带的相邻子向量间具有重叠的22个子向量,22个子向量代表22个子频带,送入相对应的22个并行复卷积循环网络子带模型中;在并连的子带模型之后串连两个全频带复全连接层,得到完整的基于掩蔽效应的复卷积循环神经网络模型;采用复理想比率掩码cIRM作为训练目标,将cIRM与原始待增强语音一起重构干净语音。本发明既能捕捉子频带内的局部频谱模式,又能捕捉全频带的频谱模式和子频带间的交叉依赖关系;充分利用人耳的听觉掩蔽效应这一规律,在增强效果和计算速度上比一般的神经网络具有明显优势。CN114999510ACN114999510A权利要求书1/3页1.一种基于掩蔽效应的复卷积循环神经网络单通道语音增强方法,其特征在于,包括:步骤1、将分帧和加窗后的单通道原始待增强语音进行点数为1024的离散傅里叶变换STFT,得到长度为513的初始向量;然后参照Bark带的频率划分方法将点数为513的初始向量划分成相邻子向量间具有重叠的22个子向量,22个子向量对应着22个子频带,并将重叠的22个子向量中的重叠点定义为容错点,每个子向量的实部和虚部作为两个独立的通道,送入相对应的22个并行复卷积循环网络子带模型中;复卷积循环网络子带模型的输入向量维度与22个子向量的长度一一对应;将复卷积循环网络子带模型的输出拼接起来,输入到两个全频带复全连接层中,进行全频带的特征建模;经过上述操作,进行复卷积循环网络子带模型的训练,得到干净语音的复理想比率掩码cIRM;步骤2、采用步骤1中的复理想比率掩码cIRM作为训练目标,将cIRM与原始待增强语音一起重构干净语音的频率谱,再进行傅里叶反变换ISTFT,最终得到增强后的语音。2.根据权利要求1所述的基于掩蔽效应的复卷积循环神经网络单通道语音增强方法,其特征在于,所述步骤1中:分帧和加窗后的原始待增强语音中的帧长为400,帧移动为100,所有音频的采样率为16khz,经过点数为1024的STFT变换后,得到带噪信号的实部和虚部两个输入,如下:Y(t,f)=S(t,f)+N(t,f)Y=Yr+jYiS=Sr+jSi其中,Y(t,f)表示经过STFT变换后的单通道原始待增强语音频谱,t表示时间维度,f表示频率维度,S(t,f)和N(t,f)代表干净语音和背景噪声,Y和S表示Y(t,f)和S(t,f)的频谱,下标r和i分别代表频谱的实部和虚部,Yr和Yi均为513维的向量,将0‑8000Hz的频率范围等距切割,对应的频率分辨率为8000(Hz)/512=15.625(Hz);已知在0‑8000Hz范围内,进行22个子频带的划分,具体划分为:最接近临界频带的22个子频带范围分别是:(0‑93.75),(93.75‑203.125),(203.125‑312.5),(296.875‑406.25),(406.25‑515.625),(515.625‑625),(625‑765.625),(765.625‑921.875),(921.875‑1078.125),(1078.125‑1265.625),(1265.625‑1484.375),(1484.375‑1718.75),(1718.75‑2000),(2000‑2328.125),(2312.5‑2703.125),(2703.125‑3156.25),(3156.25‑3703.125),(3703.125‑4406.25),(4406.25‑5296.875),(5296.875‑6406.25),(6406.25‑7703.125),(7703.125‑8000),单位为Hz;在频率分辨率为15.625(Hz)的条件下,为了提高复卷积循环网络子带模型精度,定义了容错点的概念:在上述标准Bark带中,每两个临界频带之间都有一个临界值,当经过STFT后的点的对应频率与临界值之