一种语音增强方法、装置、设备及存储介质-豆柴文库

一种语音增强方法、装置、设备及存储介质.pdf

2023-07-25

10金币

951KB

21页

一吃****昕靓

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889132A(43)申请公布日2022.01.04(21)申请号202111326968.X(22)申请日2021.11.10(71)申请人清华大学苏州汽车研究院（相城）地址215134江苏省苏州市相城区高铁新城太阳路2266号5幢(72)发明人姜彦吉田桂源刘海涛彭博郑四发(74)专利代理机构北京品源专利代理有限公司11332代理人初春(51)Int.Cl.G10L21/02(2013.01)G10L15/16(2006.01)权利要求书2页说明书13页附图5页(54)发明名称一种语音增强方法、装置、设备及存储介质(57)摘要本发明实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。本发明实施例通过直接将带噪语音信号输入到目标语音增强模型中，解决了频域语音增强方法需要时域变换的问题，既缩短了语音增强的计算时间，又提高了语音增强的效果。CN113889132ACN113889132A权利要求书1/2页1.一种语音增强方法，其特征在于，包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。2.根据权利要求1所述的方法，其特征在于，所述降噪网络包括卷积模块、双阶变压模块、密集块模块和反卷积模块；所述卷积模块用于基于所述编码网络输出的编码语音特征，输出卷积语音特征；所述双阶变压模块用于基于注意力机制对所述卷积模块输出的卷积语音特征进行特征提取，输出变压语音特征；所述密集块模块用于基于所述双阶变压模块输出的变压语音特征，输出密集语音特征；所述反卷积模块用于基于所述卷积模块输出的卷积语音特征和所述密集块输出的密集语音特征，输出降噪语音特征。3.根据权利要求2所述的方法，其特征在于，所述双阶变压模块包括局部变压模块和全局变压模块；所述局部变压模块用于基于所述卷积模块输出的卷积语音特征，输出局部语音特征；所述全局变压模块用于基于所述局部变压模块输出的局部语音特征，输出变压语音特征。4.根据权利要求2所述的方法，其特征在于，所述密集块模块包括至少两个二维卷积模块，第一个二维卷积模块基于所述双阶变压模块输出的变压语音特征，输出第一子密集语音特征；第N个二维卷积模块基于所述双阶变压模块输出的变压语音特征以及前N‑1个二维卷积模块分别输出的子密集语音特征，输出密集语音特征；其中，所述N表示所述密集块模块包含的二维卷积模块的数量。5.根据权利要求2所述的方法，其特征在于，所述卷积模块包括预处理模块、第一卷积模块和第二卷积模块；所述预处理模块用于基于所述编码网络输出的编码语音特征，输出预处理语音特征；所述第一卷积模块用于对所述预处理模块输出的预处理语音特征进行卷积处理，输出第一卷积语音特征；所述第二卷积模块用于对所述第一卷积模块输出的第一卷积语音特征进行卷积处理，输出卷积语音特征。6.根据权利要求5所述的方法，其特征在于，所述反卷积模块包括第一合并模块、第一反卷积模块、第二合并模块和第二反卷积模块；所述第一合并模块用于对所述第二卷积模块输出的卷积语音特征和所述密集块模块输出的密集语音特征执行合并操作并输出给第一反卷积模块；所述第二合并模块用于对所述第一卷积模块输出的第一卷积语音特征和所述第一反卷积模块输出的第一反卷积语音特征执行合并操作并输出给所述第二反卷积模块。7.根据权利要求1‑6任一项所述的方法，其特征在于，所述目标语音增强模型的训练方法包括：将获取到的训练语音信号输入到待训练的初始语音增强模型中，得到输出的预测语音信号；基于所述预测语音信号和与所述训练语音信号对应的标准语音信号，确定损失函数；基于所述损失函数，对所述初始语音增强模块的模型参数进行更新，直到损失函数收2CN113889132A权利要求书2/2页敛时，得到训练完成的目标语音增强模型。8.一种语音增强装置，其特征在于，包括：带噪语音信号输入模块，用于将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型中包含编码网络、降噪网络和解码网络；语音编码模块，用

相关资料

语音增强方法、装置、设备及存储介质.pdf

本发明公开了一种语音增强方法、装置、设备及存储介质。获取语音样本数据，并将所述语音样本数据按照设定比例拆分为训练集和验证集；其中，所述语音样本数据包括带噪语音及对应的纯净语音；基于所述训练集对设定语音增强模型进行训练；基于所述验证集对训练后的所述设定语音增强模型进行验证；将待增强语音输入验证后的所述设定语音增强模型，输出目标语音。本发明实施例提供的语音增强方法，将待增强语音输入验证后的设定语音增强模型，输出目标语音，可以改善语音增强过程中容易产生语音丢失和语音失真等损伤原始语音数据的问题，保证语音增强的效

2023-07-24

755KB

一种语音增强方法、装置、设备及存储介质.pdf

本发明实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。本发明实施例通过直接将带噪语音信号输入到目标语音增强模型中，解决了频域语音增强方法需要时域变换的问题，

2023-07-25

951KB

一种语音增强方法、装置、设备以及存储介质.pdf

本公开提供了一种语音增强方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习技术和语音技术领域，可用于音频通讯场景。具体实现方案为：对至少两路目标语音进行子带分解处理，得到至少两路目标语音的幅度谱和相位谱；其中，至少两路目标语音包括：目标混合语音和目标干扰语音；根据至少两路目标语音的幅度谱，确定目标混合语音在特征域内存在目标纯净语音的预测概率；根据预测概率、至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到目标混合语音中的目标纯净语音。能够提高语音增强效果，为语音增强提供了新的解决思

2023-07-24

1.1MB

语音增强方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品，涉及语音技术处理领域。该方法包括：沿频域维度对待进行语音增强的目标音频进行频带切分，得到至少两个子频带；获取至少两个子频带分别对应的子带能量数据；沿时域维度对至少两个子频带分别对应的子带能量数据进行分析，得到至少两个子频带分别对应的子带能量分布数据；当指定子频带对应的子带能量分布数据符合调整条件的情况下，对指定子频带的子带能量数据进行调整，得到目标增强音频。通过以上方式，能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整，在充分考虑目

2023-07-21

1.3MB

语音增强方法、装置、设备、存储介质和程序产品.pdf

本申请涉及一种语音增强方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取目标语音数据并确定语音增强模型，语音增强模型包括第一增强模型和第二增强模型；将目标语音数据输入至第一增强模型，得到第一增强模型输出的说话者信息；根据目标语音数据、说话者信息以及第二增强模型，获取目标语音数据对应的增强语音数据。采用本方法能够提高语音质量。

2023-07-21

776KB