一种基于注意力机制和卷积神经网络的单通道语音增强方法-豆柴文库

一种基于注意力机制和卷积神经网络的单通道语音增强方法.pdf

2023-11-06

10金币

448KB

8页

葫芦****io

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114464201A(43)申请公布日2022.05.10(21)申请号202210125478.1(22)申请日2022.02.10(71)申请人辽宁工程技术大学地址123000辽宁省阜新市细河区中华路47号(72)发明人沈学利田桂源马琳琳(74)专利代理机构北京华夏正合知识产权代理事务所(普通合伙)11017专利代理师韩登营(51)Int.Cl.G10L21/02(2013.01)G10L25/30(2013.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于注意力机制和卷积神经网络的单通道语音增强方法(57)摘要本发明公开了一种基于注意力机制和卷积神经网络的单通道语音增强方法，包括训练阶段和增强阶段：训练阶段：首先将噪声与纯净语音合成带噪语音，接着对带噪语音进行特征提取，然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系，训练阶段结束后，将训练好的模型保存下来；增强阶段：首先对带噪语音进行特征提取，然后送入训练好的模型中进行语音增强，最后输出增强后的语音。本发明的基于注意力机制和卷积神经网络的单通道语音增强方法可直接在时域上对带噪语音进行增强，不但可以节省傅里叶变换的计算时间还可以尽可能的保留增强语音的相位信息，能取得较好的降噪效果。CN114464201ACN114464201A权利要求书1/1页1.一种基于注意力机制和卷积神经网络的单通道语音增强方法，其特征在于，包括训练阶段和增强阶段：训练阶段：首先将噪声与纯净语音合成带噪语音，接着对带噪语音进行特征提取，然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系，训练阶段结束后，将训练好的模型保存下来；增强阶段：首先对带噪语音进行特征提取，然后送入训练好的模型中进行语音增强，最后输出增强后的语音。2.如权利要求1所述的基于注意力机制和卷积神经网络的单通道语音增强方法，其特征在于，所述神经网络模型包括编码模块、降噪模块和解码模块，带噪语音首先经过编码模块处理，然后送入降噪模块，接着编码模块的输出与降噪模块的输出相乘最后送入解码模块获得增强后的语音。3.如权利要求2所述的基于注意力机制和卷积神经网络的单通道语音增强方法，其特征在于，所述编码模块的输出首先送入降噪模块中的注意力模块处理，然后再经过卷积模块处理后输出；在注意力模块中，语音特征经过层归一化、多头自注意力和Dropout处理后和编码模块的输出逐点相加后输出；在卷积模块中，语音特征经过层归一化、逐点卷积、激活函数GLU、深度卷积、批归一化、激活函数Swish、逐点卷积和Dropout处理后和注意力模块的输出逐点相加后输出。4.如权利要求2所述的基于注意力机制和卷积神经网络的单通道语音增强方法，其特征在于，在解码模块中：首先，语音特征经过二维反卷积、批归一化和激活函数PReLU处理后大小变为[B,128,K,S]，接着语音特征经过重叠相加后大小变为[B,128,L]，最后语音特征经过一维反卷积处理大小还原为[B,1,L]。2CN114464201A说明书1/4页一种基于注意力机制和卷积神经网络的单通道语音增强方法技术领域[0001]本发明属于语音处理的技术领域，尤其涉及一种基于注意力机制和卷积神经网络的单通道语音增强方法。背景技术[0002]语音增强就是从带噪语音中还原纯净语音的一种技术，根据通道数量的不同分为单通道和多通道技术。根据处理的域不同又分为时域语音增强和频域语音增强。根据处理方法的不同还可以分为基于信号知识的语音增强方法和基于机器学习的语音增强方法。随着计算机技术的快速发展，深度学习方法对于解决各个领域中的问题均有较好的帮助，于是基于深度学习的语音增强方法正成为语音领域研究的热点。[0003]传统的单通道语音增强方法研究中，通常需要对噪声信号和语音信号之间的作用关系做出一定的假设，正是由于其先决假设条件限制了系统的性能，适用性差、增强效果欠佳。基于深度学习的语音增强方法，不需要对语音信号和噪声信号做任何假设，通过大量训练数据，直接学习纯净语音和噪声之间的关系，克服了传统语音增强算法的固有缺陷，取得了更优异的去噪水平和泛化能力。[0004]基于卷积神经网络的语音增强方法只能捕获语音的局部信息，无法高效利用语音的全局信息，这对语音增强是不利的。同时，基于注意力机制的神经网络虽然可以提取语音的上下文信息但无法较好的处理语音的局部信息。此外，大多数流行的语音增强方法是利用短时傅里叶变换将带噪语音转换到频域上进行处理，在频域上进行语音增强一般是忽略增强语音的相位信息，直接利用带噪语音的相位合成增强语音，相位信息的丢失也制约了增强语音的效果。发明内容[0005

相关资料

一种基于注意力机制和卷积神经网络的单通道语音增强方法.pdf

本发明公开了一种基于注意力机制和卷积神经网络的单通道语音增强方法，包括训练阶段和增强阶段：训练阶段：首先将噪声与纯净语音合成带噪语音，接着对带噪语音进行特征提取，然后将纯净语音与特征提取后的带噪语音一并送入神经网络模型中学习带噪语音和纯净语音之间的映射关系，训练阶段结束后，将训练好的模型保存下来；增强阶段：首先对带噪语音进行特征提取，然后送入训练好的模型中进行语音增强，最后输出增强后的语音。本发明的基于注意力机制和卷积神经网络的单通道语音增强方法可直接在时域上对带噪语音进行增强，不但可以节省傅里叶变换的计

2023-11-06

448KB

基于掩蔽效应的复卷积循环神经网络单通道语音增强方法.pdf

本发明公开了一种基于掩蔽效应的复卷积循环神经网络单通道语音增强方法，包括：参照Bark带的频率划分方法将傅里叶变换后的初始向量的频率维划分成最接近临界频带的相邻子向量间具有重叠的22个子向量，22个子向量代表22个子频带，送入相对应的22个并行复卷积循环网络子带模型中；在并连的子带模型之后串连两个全频带复全连接层，得到完整的基于掩蔽效应的复卷积循环神经网络模型；采用复理想比率掩码cIRM作为训练目标，将cIRM与原始待增强语音一起重构干净语音。本发明既能捕捉子频带内的局部频谱模式，又能捕捉全频带的频谱模式

2023-07-21

757KB

基于注意力的复数卷积神经网络语音增强方法及系统.pdf

本发明提供一种基于注意力的复数卷积神经网络语音增强方法及系统，其特征在于：针对带有背景噪音的语音进行降噪从而实现对语音的增强，包括使用通道时频注意力机制捕捉时频域的语音分布；使用门控时间卷积网络GTCN进行时间建模，从而减少网络的参数、提高网络的训练速度；使用亚像素卷积对实现对纯净语音的重构，避免反卷积时造成的棋盘伪影。本发明有效的提升了网络降噪效果，降低语音信号中的噪声影响，从而提高了语音的可懂度和质量。

2023-06-02

915KB

基于注意力机制和卷积神经网络的语音抑郁症识别方法.pdf

本发明涉及一种基于注意力机制和卷积神经网络的语音抑郁症识别方法。本发明首先对语音数据进行预处理，对较长的语音数据进行分割，依据的是分割后的片段能够充分包含抑郁症相关的特征。然后对分割后每个片段提取梅尔频谱图，调整其输入到神经网络模型的频谱图尺寸大小，以便模型的训练。之后用预训练好的Alexnet深度卷积神经网络进行权值的微调，提取梅尔频谱图中更高级的语音特征。然后用注意力机制算法，对片段级语音特征进行权重调整，得到句级的语音特征。最后对句级语音特征用SVM分类模型进行抑郁症的分类。本发明方法考虑了和抑郁症

2023-06-25

596KB

基于注意力机制的卷积神经网络入侵检测方法.pdf

本发明提供一种基于注意力机制的卷积神经网络入侵检测方法,在卷积神经网络的基础之上,结合了CBAM注意力机制。在全局特征提取过程中,入侵检测模型使用卷积来提取,但是传统的卷积在面对海量数据时,无法精准有效的提取特征。本专利采用Inception结构从多个维度进行特征提取。另外在卷积过程中可能会丢失重要信息,通过CBAM注意力机制进行维度更新,使其可以更好地捕捉全局特征与局部特征之间的关系,减少噪声的干扰,可以更好地检测出数据细节的变化。该方法不仅解决了数据存在的不平衡问题,而且提高了整体网络的特征表示能力。

2023-05-26