语音识别方法、模型训练方法、装置、介质、电子设备-豆柴文库

语音识别方法、模型训练方法、装置、介质、电子设备.pdf

2023-06-04

10金币

1KB

27页

猫巷****婉慧

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共27页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115376498A(43)申请公布日2022.11.22(21)申请号202211033301.5G10L25/51(2013.01)(22)申请日2022.08.26G10L25/03(2013.01)(71)申请人杭州网易智企科技有限公司地址310052浙江省杭州市滨江区长河街道网商路399号3幢408室(72)发明人周立峰朱浩齐杨卫强李雨珂魏凯峰(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师孙宝海(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L17/04(2013.01)G10L17/06(2013.01)权利要求书2页说明书17页附图7页(54)发明名称语音识别方法、模型训练方法、装置、介质、电子设备(57)摘要本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。方法包括：将待识别音频数据输入至第一语音特征提取子模型，得到待识别音频数据的初始特征数据；将初始特征数据输入第二语音特征提取子模型中，第二语音特征提取子模型包括频域分支以及时域分支，频域分支用于输出待识别音频数据的频域特征数据，时域分支用于输出的待识别音频数据的时域特征数据；将频域特征数据和时域特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果，分类结果用以指示待识别音频数据是否为真实语音。本公开的技术方案能够提高语音识别的效率。CN115376498ACN115376498A权利要求书1/2页1.一种语音识别方法，其特征在于，包括：将待识别音频数据输入至第一语音特征提取子模型，得到所述待识别音频数据的初始特征数据，所述第一语音特征提取子模型为预先训练的语音识别模型的子模型，所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；将所述初始特征数据输入所述第二语音特征提取子模型中，所述第二语音特征提取子模型包括频域分支以及时域分支，所述频域分支用于输出所述待识别音频数据的频域特征数据，所述时域分支用于输出的所述待识别音频数据的时域特征数据；将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中，得到所述待识别音频数据的分类结果，所述分类结果用以指示所述待识别音频数据是否为真实语音。2.根据权利要求1所述的语音识别方法，其特征在于，所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。3.根据权利要求2所述的语音识别方法，其特征在于，所述第一语音特征提取子模型为WavLM模型，所述第一语音特征提取子模型包括：卷积编码模块，用于对所述待识别音频数据进行编码获得编码数据；Transformer编码模块，包括J个特征提取层，其中，第一个特征提取层用于根据所述编码数据提取特征数据C1，第j个特征提取层用于根据特征数据Cj‑1提取特征数据Cj，j为大于1且小于J的整数，J为大于1的整数，其中，所述初始特征数据根据特征数据C1至Cj获得。4.根据权利要求3所述的语音识别方法，其特征在于，所述第一语音特征提取子模型还包括：自注意力模块，用于对所述特征数据C1至Cj进行加权求和，得到所述待识别音频数据的初始特征数据。5.根据权利要求2所述的语音识别方法，其特征在于，所述第一语音特征提取子模型为Wav2vec模型，所述第一语音特征提取子模型包括：特征提取层，用于提取所述待识别音频数据的浅层特征数据；上下文编码层，用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据，得到所述待识别音频数据的初始特征数据。6.一种语音识别模型训练方法，其特征在于，包括：将样本音频数据输入至第一语音特征提取子模型，得到所述样本音频数据的初始特征数据，所述第一语音特征提取子模型为预先训练的语音识别模型的子模型，所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型；将所述初始特征数据输入所述第二语音特征提取子模型中，所述第二语音特征提取子模型包括频域分支以及时域分支，所述频域分支用于输出所述样本音频数据的频域特征数据，所述时域分支用于输出所述样本音频数据的时域特征数据；将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中，得到所述样本音频数据的预测分类结果，所述预测分类结果用以预测所述样本音频数据是否为真实语音；根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。7.一种语音识别装置，其特征在于，包括：第一输入模块，用于将待识别音频数据输入至第一语音特征提取子模型，得到所述待2CN115376498A权利要求书2/2页识别音频数据的初始特征数据，所述第一语音特征提取子模型为预先训练的语音识别模型的子模型，所述语音识别模型还

相关资料

语音识别方法、模型训练方法、装置、介质、电子设备.pdf

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。方法包括：将待识别音频数据输入至第一语音特征提取子模型，得到待识别音频数据的初始特征数据；将初始特征数据输入第二语音特征提取子模型中，第二语音特征提取子模型包括频域分支以及时域分支，频域分支用于输出待识别音频数据的频域特征数据，时域分支用于输出的待识别音频数据的时域特征数据；将频域特征数据和时域特征数据输入语音鉴伪子模型中，得到待识别音频数据的分类结果，分类结果用以指示待识别音频数据是否为真

2023-06-04

1KB

声学模型训练方法、语音识别方法、装置及电子设备.pdf

本发明公开了一种声学模型训练方法、语音识别方法、装置及电子设备，所述声学模型训练方法包括：获取双语混合字典，双语混合字典包括词汇与发音标注的对应关系，双语混合字典中的外语词汇对应的发音标注包括至少一个声母和/或韵母；根据双语混合字典，确定训练数据集中的训练数据对应的文本包含的词汇对应的发音标注，训练数据至少包括双语混合音频数据；根据所确定的发音标注，得到文本对应的发音标注序列，并将发音标注序列确定为训练数据的训练标签；根据训练数据和训练数据的训练标签，对声学模型进行训练。本发明实施例提供的技术方案，训练得

2024-01-04

632KB

语音识别模型的训练方法、装置、存储介质及电子设备.pdf

本公开涉及语音识别领域，具体涉及一种语音识别模型的训练方法、装置、存储介质及电子设备。该语音识别模型的训练方法包括构建初始语音识别模型；固定第二初始参数，基于无标注数据集计算对比学习损失函数以将第一初始参数调整为第一中间参数；固定第一中间参数，基于有标注数据集计算第一联合损失函数以将第二初始参数调整为第二中间参数；基于有标注数据集计算第二联合损失函数，并根据第二联合损失函数对第一网络和第二网络进行训练，以调整第一中间参数和第二中间参数得到目标语音识别模型。本公开提供的语音识别模型的训练方法能够解决语音识别

2023-07-21

755KB

语音合成模型的训练方法、装置、电子设备及存储介质.pdf

本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质。方法包括：获取待处理的初始文本，并检测初始文本携带的字符，得到初始文本对应的初始韵律结构；获取初始文本对应的目标个性化语音，并确定目标个性化语音所包括每一个音素的对齐结果；利用对齐结果修正初始文本对应的初始韵律结构，得到目标韵律结构，并基于目标音律结构生成目标文本；基于目标文本的目标韵律结构以及目标个性化语音训练预设神经网络模型，得到语音合成模型。本申请通过对齐结果对初始韵律结构中不连贯的部分进行修正，通过目标文本保证录音和文本的韵律结构一致。

2023-07-21

416KB

语音合成模型的训练方法、装置、电子设备及存储介质.pdf

本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质，所述方法包括：将第一语音样本对应的音乐信息，输入至时长提取模块，获取乐谱样本嵌入值；将乐谱样本嵌入值和乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块，进行降维；将线性变换模块的输出，作为框架网络模块的输入，获取音乐信息对应的第一预测样本特征；获取第一语音样本对应的隐特征；将隐特征输入至解码器中，获取隐特征对应的预测语音样本；基于第一语音样本和所述预测语音样本，调整解码器的参数；基于第一预测样本特征和隐特征，调整所述线性变换模块和框架网

2023-12-02

761KB