用于训练语音处理模型的方法和装置-豆柴文库

用于训练语音处理模型的方法和装置.pdf

2023-06-14

10金币

702KB

21页

觅松****哥哥

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112489662A(43)申请公布日2021.03.12(21)申请号202011265361.0(22)申请日2020.11.13(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人童颖(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/14(2013.01)G10L25/30(2013.01)权利要求书2页说明书13页附图5页(54)发明名称用于训练语音处理模型的方法和装置(57)摘要本公开的实施例公开了用于训练语音处理模型的方法和装置。该方法的一具体实施方式包括：获取初始第一语音处理模型和端到端的初始第二语音处理模型，其中，初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络，初始第二语音处理模型还包括分类网络，特征提取网络用于提取语音的特征向量，分类网络用于根据语音的特征向量确认说话人是否为目标人；利用交替训练的方法训练初始第一语音处理模型和初始第二语音处理模型，以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。该实施方式可以获得端到端的语音处理模型。CN112489662ACN112489662A权利要求书1/2页1.一种用于训练语音处理模型的方法，包括：获取初始第一语音处理模型和端到端的初始第二语音处理模型，其中，所述初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络，所述初始第二语音处理模型还包括分类网络，特征提取网络用于提取语音的特征向量，分类网络用于根据语音的特征向量确认说话人是否为目标人；利用交替训练的方法训练所述初始第一语音处理模型和初始第二语音处理模型，以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。2.根据权利要求1所述的方法，其中，所述分类网络利用概率线性判别分析算法实现。3.根据权利要求1所述的方法，其中，所述特征提取网络基于X‑VECTORS构建。4.根据权利要求2所述的方法，其中，所述分类网络使用对数似然比计算语音之间的相似度，其中，所述语音之间的相似度用于表征两个语音属于同一说话人的概率。5.根据权利要求4所述的方法，其中，所述分类网络包括用于对语音的特征向量进行降维的降维层、用于根据所述降维层的输出计算对数似然比的打分层、用于根据打分层的输出进行分类的分类层。6.根据权利要求5所述的方法，其中，所述降维层利用线性判别分析算法实现。7.根据权利要求3所述的方法，其中，所述特征提取网络包括基于时延神经网络构建的第一子网络、统计池化层、第二子网络，其中，所述第一子网络用于提取语音的帧级别的特征向量，所述统计池化层用于统计分析所述第一子网络的输出结果，所述第二子网络用于根据所述统计池化层的输出结果提取语音的句子级别的特征向量。8.根据权利要求1‑7之一所述的方法，其中，所述方法还包括：存储训练完成的初始第一语音处理模型包括的特征提取网络。9.一种说话人识别方法，包括：获取待识别语音；利用预先训练的说话人识别模型根据所述待识别语音，确认所述待识别语音的说话人是否为目标人，其中，所述说话人识别模型基于如权利要求1‑7之一所述的方法生成的待用语音处理模型得到；响应于确定所述待识别语音的说话人不是目标人，生成用于提示所述待识别语音的说话人不是目标人的提示信息以及提示。10.一种语音处理方法，包括：获取待处理语音；利用预先训练的特征提取网络提取所述待处理语音的特征向量，其中，所述特征提取网络利用如权利要求8所述的方法生成；根据所述待处理语音的特征向量进行语音识别和/或语音合成。11.一种用于训练语音处理模型的装置，包括：初始模型获取单元，被配置成获取初始第一语音处理模型和端到端的初始第二语音处理模型，其中，所述初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络，所述初始第二语音处理模型还包括分类网络，特征提取网络用于提取语音的特征向量，分类网络用于根据语音的特征向量确认说话人是否为目标人；训练单元，被配置成利用交替训练的方法训练所述初始第一语音处理模型和初始第二2CN112489662A权利要求书2/2页语音处理模型，以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。12.一种说话人识别装置，包括：待识别语音获取单元，被配置成获取待识别语音；确认单元，被配置成利用预先训练的说话人识别模型根据所述待识别语音，确认所述待识别语音的说话人是否为目标人，其中，所述说话人识别模型基于如权利要求1‑7之一所述的方法生成的

相关资料

用于训练语音处理模型的方法和装置.pdf

本公开的实施例公开了用于训练语音处理模型的方法和装置。该方法的一具体实施方式包括：获取初始第一语音处理模型和端到端的初始第二语音处理模型，其中，初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络，初始第二语音处理模型还包括分类网络，特征提取网络用于提取语音的特征向量，分类网络用于根据语音的特征向量确认说话人是否为目标人；利用交替训练的方法训练初始第一语音处理模型和初始第二语音处理模型，以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。该实施方式可以获得端到端的语音处理模型。

2023-06-14

702KB

一种语音处理方法、装置和用于语音处理的装置.pdf

本发明实施例提供了一种语音处理方法、装置和用于语音处理的装置,应用于终端设备，所述终端设备设置有至少两个麦克风。其中的方法包括：将所述至少两个麦克风接收到的信号进行求和处理，得到第一路信号，以及将所述至少两个麦克风接收到的信号进行求差处理，得到第二路信号；将所述第一路信号和所述第二路信号进行盲分离处理，得到语音信号和噪音信号；基于所述噪音信号，将所述语音信号进行自适应噪音消除处理，得到目标语音信号。本发明实施例可以优化语音去噪效果，进而在环境复杂多变、噪音或者干扰较大的情况下，提高终端设备的语音识别准确率

2023-06-27

661KB

语音处理方法、装置以及用于语音处理的装置.pdf

本发明提供了一种语音处理方法及装置，在对语音文件进行录制或播放的情况下，响应于对电子设备中目标区域的敲击操作，在语音文件的时间轴中确定目标时刻；对时间轴中的目标时刻进行标记；在语音文件中，将与目标时刻相邻的至少一个语音片段转换为目标文本，并对目标文本进行智能整理，本发明可以对电子设备的目标位置进行敲击操作来快速便捷的完成标记；提高了标记效率，降低了标记繁琐程度。另外，作为重要内容的目标文本，在用户进行目标时刻标记的同时就会自动生成，并不需要用户重复将语音文件在目标时刻进行播放，也不需要用户人工记录生成重要

2023-07-24

688KB

语音降噪模型的训练方法和装置及语音降噪方法和装置.pdf

本公开关于语音降噪模型的训练方法和装置及语音降噪方法和装置。训练方法包括：获取含噪语音信号样本，含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号与目标麦克风位置之间的距离；获取预设第一保留距离值以及目标降噪语音信号，目标降噪语音信号是通过基于每条原始语音信号的距离值以及预设第一保留距离值计算得到；将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱；基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅

2023-07-24

938KB

语音增强模型的训练方法和装置及语音增强方法和装置.pdf

本申请涉及语音处理技术领域，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

2023-07-25

1.3MB