预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114283791A(43)申请公布日2022.04.05(21)申请号202111443194.9(22)申请日2021.11.30(71)申请人广东电力信息科技有限公司地址510000广东省广州市越秀区东风东路808号509房(72)发明人郑颖龙赖蔚蔚吴广财郑杰生周昉昉林嘉鑫陈颖璇叶杭梁运德黄宏恩(74)专利代理机构深圳市智圈知识产权代理事务所(普通合伙)44351代理人林炮勤(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/26(2006.01)权利要求书2页说明书11页附图7页(54)发明名称一种基于高维声学特征的语音识别方法及模型训练方法(57)摘要本申请公开了一种基于高维声学特征的语音识别方法及模型训练方法,涉及语音识别技术领域。该方法包括:获取待识别音频;基于预先训练的声学特征提取模型,获取待识别音频对应的高维特征,作为待识别音频的高维声学特征;获取待识别音频对应的识别场景,作为目标识别场景;将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型,得到待识别音频对应的文本识别结果。如此,通过提取包含了更多有助于语音识别的特征信息,使得基于高维声学特征识别到的文本识别结果更准确,提高了语音识别的准确性;并且,调用与待识别音频的识别场景对应的语音识别模型,实现更具有针对性的语音识别,也提高了文本识别结果的准确性。CN114283791ACN114283791A权利要求书1/2页1.一种基于高维声学特征的语音识别方法,其特征在于,所述方法包括:获取待识别音频;基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征;获取所述待识别音频对应的识别场景,作为目标识别场景;将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型,得到所述待识别音频对应的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述声学特征提取模型包括特征提取模块、编码模块、对齐模块以及解码模块,所述基于预先训练的声学特征提取模型,获取所述待识别音频对应的高维特征,作为所述待识别音频的高维声学特征,包括:通过所述特征提取模块获取所述待识别音频的高维特征;通过所述编码模块对所述高维特征进行编码,得到第一编码结果;通过所述对齐模块对所述第一编码结果进行对齐处理,得到第二编码结果,所述第二编码结果中的高维特征的时间戳与所述待识别音频对应的音频特征的时间戳保持一致;通过所述解码模块对所述第二编码结果进行解码,得到解码后的高维特征,作为所述高维声学特征。3.根据权利要求1或2所述的方法,其特征在于,所述高维声学特征的帧数为多帧,所述将所述高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型,得到所述待识别音频对应的文本识别结果,包括:对多帧高维声学特征中的每帧高维声学特征进行归一化;将进行归一化后的多帧高维声学特征输入至与所述目标识别场景对应的预先训练的语音识别模型中进行语音识别,得到所述待识别音频对应的文本识别结果。4.根据权利要求3所述的方法,其特征在于,所述对多帧高维声学特征中的每帧高维声学特征进行归一化,包括:其中,A[i]为所述每帧高维声学特征中的第i个特征值,A[i]’为所述每帧高维声学特征中第i个特征值归一化后的特征值,M为所述每帧高维声学特征中的最大值,N为所述每帧高维声学特征中的最小值,u为所述每帧高维声学特征中的特征值均值。5.根据权利要求1所述的方法,其特征在于,所述获取所述待识别音频对应的识别场景,作为目标识别场景,包括:获取所述待识别音频的环境声纹特征;判断预设声纹特征库中是否存在与所述环境声纹特征匹配的预设声纹特征;若存在,则获取与所述环境声纹特征相匹配的预设声纹特征对应的识别场景,作为所述目标识别场景。6.一种基于高维声学特征的语音识别模型的训练方法,其特征在于,所述方法包括:获取第一音频样本集,所述第一音频样本集中包含的第一音频样本均为同一识别场景下的;基于预先训练的声纹特征提取模型,获取所述第一音频样本集对应的高维特征,得到2CN114283791A权利要求书2/2页多个高维声学特征,所述多个高维声学特征中的每个高维声学特征与所述第一音频样本集中的每个第一音频样本一一对应;基于所述多个高维声学特征,对第一初始模型进行训练,直至所述第一初始模型满足第一预设条件,得到与所述第一音频样本集对应的识别场景下的语音识别模型。7.根据权利要求6所述的方法,其特征在于,所述声纹特征提取模型的训练过程包括:获取第二音频样本集;基于所述第二音频样本集,对第二初始模型进行训练,直至所述第二初始模型满足第二预设条件,得到所述声纹特征提