预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114464201A(43)申请公布日2022.05.10(21)申请号202210125478.1(22)申请日2022.02.10(71)申请人辽宁工程技术大学地址123000辽宁省阜新市细河区中华路47号(72)发明人沈学利田桂源马琳琳(74)专利代理机构北京华夏正合知识产权代理事务所(普通合伙)11017专利代理师韩登营(51)Int.Cl.G10L21/02(2013.01)G10L25/30(2013.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于注意力机制和卷积神经网络的单通道语音增强方法(57)摘要本发明公开了一种基于注意力机制和卷积神经网络的单通道语音增强方法,包括训练阶段和增强阶段:训练阶段:首先将噪声与纯净语音合成带噪语音,接着对带噪语音进行特征提取,然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系,训练阶段结束后,将训练好的模型保存下来;增强阶段:首先对带噪语音进行特征提取,然后送入训练好的模型中进行语音增强,最后输出增强后的语音。本发明的基于注意力机制和卷积神经网络的单通道语音增强方法可直接在时域上对带噪语音进行增强,不但可以节省傅里叶变换的计算时间还可以尽可能的保留增强语音的相位信息,能取得较好的降噪效果。CN114464201ACN114464201A权利要求书1/1页1.一种基于注意力机制和卷积神经网络的单通道语音增强方法,其特征在于,包括训练阶段和增强阶段:训练阶段:首先将噪声与纯净语音合成带噪语音,接着对带噪语音进行特征提取,然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系,训练阶段结束后,将训练好的模型保存下来;增强阶段:首先对带噪语音进行特征提取,然后送入训练好的模型中进行语音增强,最后输出增强后的语音。2.如权利要求1所述的基于注意力机制和卷积神经网络的单通道语音增强方法,其特征在于,所述神经网络模型包括编码模块、降噪模块和解码模块,带噪语音首先经过编码模块处理,然后送入降噪模块,接着编码模块的输出与降噪模块的输出相乘最后送入解码模块获得增强后的语音。3.如权利要求2所述的基于注意力机制和卷积神经网络的单通道语音增强方法,其特征在于,所述编码模块的输出首先送入降噪模块中的注意力模块处理,然后再经过卷积模块处理后输出;在注意力模块中,语音特征经过层归一化、多头自注意力和Dropout处理后和编码模块的输出逐点相加后输出;在卷积模块中,语音特征经过层归一化、逐点卷积、激活函数GLU、深度卷积、批归一化、激活函数Swish、逐点卷积和Dropout处理后和注意力模块的输出逐点相加后输出。4.如权利要求2所述的基于注意力机制和卷积神经网络的单通道语音增强方法,其特征在于,在解码模块中:首先,语音特征经过二维反卷积、批归一化和激活函数PReLU处理后大小变为[B,128,K,S],接着语音特征经过重叠相加后大小变为[B,128,L],最后语音特征经过一维反卷积处理大小还原为[B,1,L]。2CN114464201A说明书1/4页一种基于注意力机制和卷积神经网络的单通道语音增强方法技术领域[0001]本发明属于语音处理的技术领域,尤其涉及一种基于注意力机制和卷积神经网络的单通道语音增强方法。背景技术[0002]语音增强就是从带噪语音中还原纯净语音的一种技术,根据通道数量的不同分为单通道和多通道技术。根据处理的域不同又分为时域语音增强和频域语音增强。根据处理方法的不同还可以分为基于信号知识的语音增强方法和基于机器学习的语音增强方法。随着计算机技术的快速发展,深度学习方法对于解决各个领域中的问题均有较好的帮助,于是基于深度学习的语音增强方法正成为语音领域研究的热点。[0003]传统的单通道语音增强方法研究中,通常需要对噪声信号和语音信号之间的作用关系做出一定的假设,正是由于其先决假设条件限制了系统的性能,适用性差、增强效果欠佳。基于深度学习的语音增强方法,不需要对语音信号和噪声信号做任何假设,通过大量训练数据,直接学习纯净语音和噪声之间的关系,克服了传统语音增强算法的固有缺陷,取得了更优异的去噪水平和泛化能力。[0004]基于卷积神经网络的语音增强方法只能捕获语音的局部信息,无法高效利用语音的全局信息,这对语音增强是不利的。同时,基于注意力机制的神经网络虽然可以提取语音的上下文信息但无法较好的处理语音的局部信息。此外,大多数流行的语音增强方法是利用短时傅里叶变换将带噪语音转换到频域上进行处理,在频域上进行语音增强一般是忽略增强语音的相位信息,直接利用带噪语音的相位合成增强语音,相位信息的丢失也制约了增强语音的效果。发明内容[0005