预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115831114A(43)申请公布日2023.03.21(21)申请号202211500191.9(22)申请日2022.11.28(71)申请人镁佳(北京)科技有限公司地址100102北京市朝阳区创远路34号院6号楼11层1101室(72)发明人赵晴(74)专利代理机构北京三聚阳光知识产权代理有限公司11250专利代理师周玉涛(51)Int.Cl.G10L15/22(2006.01)G10L15/06(2013.01)G10L15/02(2006.01)权利要求书2页说明书8页附图3页(54)发明名称一种语音识别模型构建及语音识别方法、装置(57)摘要本发明提供了一种语音识别模型构建及语音识别方法、装置,其中,语音识别模型构建方法包括:获取音频数据集;确定音频数据集中每一个音频数据的长度;当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于预设长度则将音频数据作为训练样本;对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。本发明可解决现有技术中基于整条音频进行训练时速度慢及受静音干扰的技术问题。CN115831114ACN115831114A权利要求书1/2页1.一种语音识别模型构建方法,其特征在于,包括:获取音频数据集;确定所述音频数据集中每一个音频数据的长度;当任一音频数据的长度大于预设长度则从所述音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于所述预设长度则将所述音频数据作为训练样本;对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。2.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集,包括:对训练样本中的每一音频数据进行特征提取,得到音频数据的第一语音特征数据集;对所述第一语音特征数据集中每一语音特征进行提纯处理,得到音频数据的第二语音特征数据集,将所述第二语音特征数据集作为所述目标语音特征数据集。3.根据权利要求1所述的语音识别模型构建方法,其特征在于,所述利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件,包括:利用所述语音特征数据集对目标识别模型进行迭代训练,计算每次迭代的损失值,直到连续预设次数的迭代周期内的损失值满足预设条件。4.一种语音识别方法,其特征在于,包括:获取待识别音频数据;将所述待识别音频数据输入利用如权利要求1‑3中任一项所述的语音识别模型构建方法构建得到的目标识别模型;根据所述目标识别模型的输出结果确定所述待识别音频数据的类型。5.根据权利要求4所述的语音识别方法,其特征在于,所述根据所述目标识别模型的输出结果确定所述待识别音频数据的类型,包括:获取所述目标识别模型的输出结果中对应每一种预设音频类型的概率;将最大概率对应的音频类型作为最终输出结果。6.一种语音识别模型构建装置,其特征在于,包括:第一获取模块,用于获取音频数据集;第一确定模块,用于确定所述音频数据集中每一个音频数据的长度;第一选取模块,用于当任一音频数据的长度大于预设长度则从所述音频数据中选取预设长度的音频数据作为训练样本,当任一音频数据的长度小于所述预设长度则将所述音频数据作为训练样本;第一提取模块,用于对训练样本中的每一音频数据进行特征提取,得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集;第一训练模块,用于利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。7.根据权利要求6所述的语音识别模型构建装置,其特征在于,第一提取模块包括:2CN115831114A权利要求书2/2页第一提取子模块,用于对训练样本中的每一音频数据进行特征提取,得到音频数据的第一语音特征数据集;第二提取子模块,用于对所述第一语音特征数据集中每一语音特征进行提纯处理,得到音频数据的第二语音特征数据集,将所述第二语音特征数据集作为所述目标语音特征数据集。8.一种语音识别装置,其特征在于,包括:第二获取模块,用于获取待识别音频数据;第一输入模块,用于将所述待识别音频数据输入利用如权利要求1‑3中任一项所述的语音识别模型构建方法构建得到的目标识别模型;第二确定模块,用于根据所述目标识别模型的输出结果确定所述待识别音频数据的类型。9.一种计算机设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器