预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116013256A(43)申请公布日2023.04.25(21)申请号202211632489.5(22)申请日2022.12.19(71)申请人镁佳(北京)科技有限公司地址100102北京市朝阳区创远路34号院6号楼11层1101室(72)发明人赵晴(74)专利代理机构北京三聚阳光知识产权代理有限公司11250专利代理师周玉涛(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)权利要求书2页说明书9页附图3页(54)发明名称一种语音识别模型构建及语音识别方法、装置及存储介质(57)摘要本发明提供了一种语音识别模型构建及语音识别方法、装置及存储介质,其中,语音识别模型构建方法包括:获取音频数据集;对音频数据集中的每一音频数据进行特征提取,得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集;利用目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件,其中,目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成,音素识别模型的输出为发音识别模型输入,发音识别模型的输出为语言识别模型输入。本发明可实现在有限训练数据量条件下,提高语音识别准确率的目的。CN116013256ACN116013256A权利要求书1/2页1.一种语音识别模型构建方法,其特征在于,包括:获取音频数据集;对所述音频数据集中的每一音频数据进行特征提取,得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集;利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件,其中,所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成,所述音素识别模型的输出为所述发音识别模型输入,所述发音识别模型的输出为所述语言识别模型输入。2.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述利用所述目标音频特征数据集对目标识别模型进行训练直至训练结果满足预设条件,包括:利用所述目标音频特征数据集对目标识别模型进行迭代训练;计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值,直到联合加权损失值满足预设条件。3.根据权利要求2所述的语音识别模型构建方法,其特征在于,所述计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值步骤之后,还包括:将所述联合加权损失值进行梯度回传;基于回传的联合加权损失值,调整目标识别模型中参数。4.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述音素识别模型包括级联的单因素识别模型和三音素识别模型,所述单因素识别模型的输出用于对所述三音素识别模型的训练。5.一种语音识别方法,其特征在于,包括:获取待识别音频数据;将所述待识别音频数据输入利用如权利要求1‑4中任一项所述的语音识别模型构建方法构建得到的目标识别模型;根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。6.根据权利要求5所述的语音识别方法,其特征在于,所述根据所述目标识别模型的输出结果确定所述待识别音频数据的内容,包括:获取所述目标识别模型的输出结果中对应每一种音频内容的概率;将最大概率对应的音频内容作为最终输出结果。7.一种语音识别模型构建装置,其特征在于,包括:第一获取模块,用于获取音频数据集;第一提取模块,用于对所述音频数据集中的每一音频数据进行特征提取,得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集;第一训练模块,利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件,其中,所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成,所述音素识别模型的输出为所述发音识别模型输入,所述发音识别模型的输出为所述语言识别模型输入。8.一种语音识别装置,其特征在于,包括:2CN116013256A权利要求书2/2页第二获取模块,用于获取待识别音频数据;第一输入模块,用于将所述待识别音频数据输入利用如权利要求1‑4中任一项所述的语音识别模型构建方法构建得到的目标识别模型;第一确定模块,用于根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。9.一种计算机设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1‑4任一项所述的语音识别模型构建方法的步骤,或者实现权利要求5‑6任一项所述的语音识别方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利