预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115862602A(43)申请公布日2023.03.28(21)申请号202111110547.3G10L25/24(2013.01)(22)申请日2021.09.23(71)申请人厦门快商通科技股份有限公司地址351200福建省厦门市软件园三期诚毅北大街63号1301单元(72)发明人徐敏肖龙源李稀敏叶志坚(74)专利代理机构厦门市精诚新创知识产权代理有限公司35218专利代理师何家富(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L15/07(2013.01)G10L15/14(2006.01)G10L15/16(2006.01)权利要求书1页说明书4页附图1页(54)发明名称一种语音识别方法、终端设备及存储介质(57)摘要本发明涉及一种语音识别方法、终端设备及存储介质,该方法中包括:S1:采集原始音频数据;S2:对原始音频数据进行转码和数据增强处理后,将三种音频合并组成训练集;S3:提取训练集中各音频的声学特征;S4:构建3‑gram语言模型并进行训练;S5:构建单音素声学模型,并基于单音素构建三音素声学模型,通过训练集中各音频的声学特征模型进行训练;S6:构建说话人识别模型;S7:构建TDNN声学模型,通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练;S8:通过发音词典、声学模型和语言模型共同构建语音识别模型;S9:通过语音识别模型进行语音识别。本发明增加信道的多样性,提升了系统的识别效果及鲁棒性。CN115862602ACN115862602A权利要求书1/1页1.一种语音识别方法,其特征在于,包括以下步骤:S1:采集待识别语种的原始音频数据,并对其进行说话人和文本的标注;S2:对原始音频数据进行转码处理为转码音频,并对转码音频进行数据增强处理为数据增强音频后,将三种音频合并组成训练集;S3:提取训练集中各音频的声学特征;S4:构建3‑gram语言模型,通过训练集中各音频对应的文本对3‑gram语言模型进行训练;S5:构建单音素声学模型,通过训练集中各音频的声学特征对单音素声学模型进行训练,并基于单音素声学模型的训练结果构建三音素声学模型,通过训练集中各音频的声学特征对三音素声学模型进行训练;S6:构建说话人识别模型,通过训练集中各音频的声学特征和对应的说话人对说话人识别模型进行训练;S7:构建TDNN声学模型,通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练;S8:将发音词典、TDNN声学模型和3‑gram语言模型共同构建为WFST图,并合并为HCLG图,将合并后的HCLG图作为语音识别模型;S9:通过语音识别模型对待识别语种的音频进行语音识别。2.根据权利要求1所述的语音识别方法,其特征在于:步骤S2中数据增强处理包括增加噪声和混响。3.根据权利要求1所述的语音识别方法,其特征在于:步骤S2中还包括:根据训练集中的音频构建音频‑路径列表、说话人‑音频列表和音频‑文本列表三种列表,用于模型训练时的数据提取。4.根据权利要求1所述的语音识别方法,其特征在于:步骤S3中提取的声学特征为梅尔倒谱系数,并进行一阶和二阶差分。5.根据权利要求1所述的语音识别方法,其特征在于:步骤S5中单音素声学模型和三音素声学模型均采用GMM‑HMM模型。6.根据权利要求1所述的语音识别方法,其特征在于:步骤S6中说话人识别模型采用I‑Vector模型。7.根据权利要求1所述的语音识别方法,其特征在于:步骤S8中发音词典的构建过程为:采用词作为建模单元构建音素集,根据词到音素和声调的映射构建发音词典。8.一种语音识别终端设备,其特征在于:包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~7中任一所述方法的步骤。9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1~7中任一所述方法的步骤。2CN115862602A说明书1/4页一种语音识别方法、终端设备及存储介质技术领域[0001]本发明语音识别领域,尤其涉及一种语音识别方法、终端设备及存储介质。背景技术[0002]低资源语种的语音识别一直以来都是语音识别领域的难点,现有的针对低资源语种的语音识别方法主要有两种:一种为利用相近语种的资源做预训练或者混合训练,然后迁移到目标语种后进行微调;另一种为对数据本身进行处理,增加数据数量和多样性,目前主要采用的为增加加性噪声和增加混响。现有的低资源语种的语音识别方法存在一定局限性:1.需要收集相近语种