预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115376498A(43)申请公布日2022.11.22(21)申请号202211033301.5G10L25/51(2013.01)(22)申请日2022.08.26G10L25/03(2013.01)(71)申请人杭州网易智企科技有限公司地址310052浙江省杭州市滨江区长河街道网商路399号3幢408室(72)发明人周立峰朱浩齐杨卫强李雨珂魏凯峰(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师孙宝海(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L17/04(2013.01)G10L17/06(2013.01)权利要求书2页说明书17页附图7页(54)发明名称语音识别方法、模型训练方法、装置、介质、电子设备(57)摘要本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及语音识别方法、模型训练方法、装置、介质、电子设备。方法包括:将待识别音频数据输入至第一语音特征提取子模型,得到待识别音频数据的初始特征数据;将初始特征数据输入第二语音特征提取子模型中,第二语音特征提取子模型包括频域分支以及时域分支,频域分支用于输出待识别音频数据的频域特征数据,时域分支用于输出的待识别音频数据的时域特征数据;将频域特征数据和时域特征数据输入语音鉴伪子模型中,得到待识别音频数据的分类结果,分类结果用以指示待识别音频数据是否为真实语音。本公开的技术方案能够提高语音识别的效率。CN115376498ACN115376498A权利要求书1/2页1.一种语音识别方法,其特征在于,包括:将待识别音频数据输入至第一语音特征提取子模型,得到所述待识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述待识别音频数据的频域特征数据,所述时域分支用于输出的所述待识别音频数据的时域特征数据;将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述待识别音频数据的分类结果,所述分类结果用以指示所述待识别音频数据是否为真实语音。2.根据权利要求1所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型或者Wav2vec模型。3.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为WavLM模型,所述第一语音特征提取子模型包括:卷积编码模块,用于对所述待识别音频数据进行编码获得编码数据;Transformer编码模块,包括J个特征提取层,其中,第一个特征提取层用于根据所述编码数据提取特征数据C1,第j个特征提取层用于根据特征数据Cj‑1提取特征数据Cj,j为大于1且小于J的整数,J为大于1的整数,其中,所述初始特征数据根据特征数据C1至Cj获得。4.根据权利要求3所述的语音识别方法,其特征在于,所述第一语音特征提取子模型还包括:自注意力模块,用于对所述特征数据C1至Cj进行加权求和,得到所述待识别音频数据的初始特征数据。5.根据权利要求2所述的语音识别方法,其特征在于,所述第一语音特征提取子模型为Wav2vec模型,所述第一语音特征提取子模型包括:特征提取层,用于提取所述待识别音频数据的浅层特征数据;上下文编码层,用于提取所述待识别音频数据的相邻帧的浅层特征数据之间的关联特征数据,得到所述待识别音频数据的初始特征数据。6.一种语音识别模型训练方法,其特征在于,包括:将样本音频数据输入至第一语音特征提取子模型,得到所述样本音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还包括第二语音特征提取子模型和语音鉴伪子模型;将所述初始特征数据输入所述第二语音特征提取子模型中,所述第二语音特征提取子模型包括频域分支以及时域分支,所述频域分支用于输出所述样本音频数据的频域特征数据,所述时域分支用于输出所述样本音频数据的时域特征数据;将所述频域特征数据和所述时域特征数据输入所述语音鉴伪子模型中,得到所述样本音频数据的预测分类结果,所述预测分类结果用以预测所述样本音频数据是否为真实语音;根据所述预测分类结果以及所述样本音频数据的类别标签训练所述语音识别模型。7.一种语音识别装置,其特征在于,包括:第一输入模块,用于将待识别音频数据输入至第一语音特征提取子模型,得到所述待2CN115376498A权利要求书2/2页识别音频数据的初始特征数据,所述第一语音特征提取子模型为预先训练的语音识别模型的子模型,所述语音识别模型还