一种语音识别模型构建及语音识别方法、装置-豆柴文库

一种语音识别模型构建及语音识别方法、装置.pdf

2023-06-07

10金币

534KB

14页

是你****盟主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115831114A(43)申请公布日2023.03.21(21)申请号202211500191.9(22)申请日2022.11.28(71)申请人镁佳(北京)科技有限公司地址100102北京市朝阳区创远路34号院6号楼11层1101室(72)发明人赵晴(74)专利代理机构北京三聚阳光知识产权代理有限公司11250专利代理师周玉涛(51)Int.Cl.G10L15/22(2006.01)G10L15/06(2013.01)G10L15/02(2006.01)权利要求书2页说明书8页附图3页(54)发明名称一种语音识别模型构建及语音识别方法、装置(57)摘要本发明提供了一种语音识别模型构建及语音识别方法、装置，其中，语音识别模型构建方法包括：获取音频数据集；确定音频数据集中每一个音频数据的长度；当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本，当任一音频数据的长度小于预设长度则将音频数据作为训练样本；对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集；利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。本发明可解决现有技术中基于整条音频进行训练时速度慢及受静音干扰的技术问题。CN115831114ACN115831114A权利要求书1/2页1.一种语音识别模型构建方法，其特征在于，包括：获取音频数据集；确定所述音频数据集中每一个音频数据的长度；当任一音频数据的长度大于预设长度则从所述音频数据中选取预设长度的音频数据作为训练样本，当任一音频数据的长度小于所述预设长度则将所述音频数据作为训练样本；对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集；利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。2.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集，包括：对训练样本中的每一音频数据进行特征提取，得到音频数据的第一语音特征数据集；对所述第一语音特征数据集中每一语音特征进行提纯处理，得到音频数据的第二语音特征数据集，将所述第二语音特征数据集作为所述目标语音特征数据集。3.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件，包括：利用所述语音特征数据集对目标识别模型进行迭代训练，计算每次迭代的损失值，直到连续预设次数的迭代周期内的损失值满足预设条件。4.一种语音识别方法，其特征在于，包括：获取待识别音频数据；将所述待识别音频数据输入利用如权利要求1‑3中任一项所述的语音识别模型构建方法构建得到的目标识别模型；根据所述目标识别模型的输出结果确定所述待识别音频数据的类型。5.根据权利要求4所述的语音识别方法，其特征在于，所述根据所述目标识别模型的输出结果确定所述待识别音频数据的类型，包括：获取所述目标识别模型的输出结果中对应每一种预设音频类型的概率；将最大概率对应的音频类型作为最终输出结果。6.一种语音识别模型构建装置，其特征在于，包括：第一获取模块，用于获取音频数据集；第一确定模块，用于确定所述音频数据集中每一个音频数据的长度；第一选取模块，用于当任一音频数据的长度大于预设长度则从所述音频数据中选取预设长度的音频数据作为训练样本，当任一音频数据的长度小于所述预设长度则将所述音频数据作为训练样本；第一提取模块，用于对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集；第一训练模块，用于利用所述目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。7.根据权利要求6所述的语音识别模型构建装置，其特征在于，第一提取模块包括：2CN115831114A权利要求书2/2页第一提取子模块，用于对训练样本中的每一音频数据进行特征提取，得到音频数据的第一语音特征数据集；第二提取子模块，用于对所述第一语音特征数据集中每一语音特征进行提纯处理，得到音频数据的第二语音特征数据集，将所述第二语音特征数据集作为所述目标语音特征数据集。8.一种语音识别装置，其特征在于，包括：第二获取模块，用于获取待识别音频数据；第一输入模块，用于将所述待识别音频数据输入利用如权利要求1‑3中任一项所述的语音识别模型构建方法构建得到的目标识别模型；第二确定模块，用于根据所述目标识别模型的输出结果确定所述待识别音频数据的类型。9.一种计算机设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器

相关资料

一种语音识别模型构建及语音识别方法、装置.pdf

本发明提供了一种语音识别模型构建及语音识别方法、装置，其中，语音识别模型构建方法包括：获取音频数据集；确定音频数据集中每一个音频数据的长度；当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本，当任一音频数据的长度小于预设长度则将音频数据作为训练样本；对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集；利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。本发明可解决现有技术中基于整条音频进行训练时速度慢及受静音

2023-06-07

534KB

一种语音识别模型构建及语音识别方法、装置及存储介质.pdf

本发明提供了一种语音识别模型构建及语音识别方法、装置及存储介质，其中，语音识别模型构建方法包括：获取音频数据集；对音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。本发明可实现在有限训练数据量条件下，提高语音识别准确率的目的。

2023-05-31

1.4MB

语音识别模型的训练、语音识别方法、装置及设备.pdf

本申请实施例提供了一种语音识别模型的训练方法、语音识别方法、装置及设备。该方法包括：重复执行至少一个训练过程，直至第一文本数据的置信度满足停止训练条件，训练过程包括：将小语种音频数据输入至第一语音识别模型，得到第一文本数据，当第一文本数据的置信度不满足停止训练条件时，根据第一文本数据、对应的小语种音频数据以及第一样本数据，生成第二样本数据，将第二样本数据输入至第一语音识别模型，对第一语音识别模型进行训练，生成第二语音识别模型，并将第二语音识别模型作为第一语音识别模型；将第一文本数据的置信度满足停止训练条件

2023-07-25

944KB

语音识别模型的训练方法、语音识别方法及装置.pdf

本申请公开了一种语音识别模型的训练方法、语音识别方法及装置。语音识别模型的训练方法，包括：获取目标训练文本，其中，所述目标训练文本包括对将来的预设时间段内预测的目标场景对应的场景关键词；根据目标训练文本对初始语音识别模型进行更新训练，得到目标语音识别模型，其中，所述初始语音识别模型为已训练完成的语音识别模型。根据本申请实施例，能够解决语音识别效率低，识别准确性差的问题。

2023-07-24

429KB

一种语音识别方法及语音识别装置.pdf

本发明公开了一种语音识别方法及识别装置，具体包括以下步骤：S1：进行数据预处理，使用者首先根据其需求创建语音文件，所述语音文件包括语音数据预处理和文本数据预处理，其中所述语音数据预处理用于获取语音文件中的特征数据，所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典；S2：构建语音识别模型，其中所述语音识别模型基于CTC算法进行语音序列的切分。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息，同时该模型结构也采用了判断环境状态的技术，能够进一步简化语音识别的流程，

2023-06-11

285KB