一种语音识别模型构建及语音识别方法、装置及存储介质-豆柴文库

一种语音识别模型构建及语音识别方法、装置及存储介质.pdf

2023-05-31

10金币

1.4MB

15页

冬易****娘子

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116013256A(43)申请公布日2023.04.25(21)申请号202211632489.5(22)申请日2022.12.19(71)申请人镁佳(北京)科技有限公司地址100102北京市朝阳区创远路34号院6号楼11层1101室(72)发明人赵晴(74)专利代理机构北京三聚阳光知识产权代理有限公司11250专利代理师周玉涛(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)权利要求书2页说明书9页附图3页(54)发明名称一种语音识别模型构建及语音识别方法、装置及存储介质(57)摘要本发明提供了一种语音识别模型构建及语音识别方法、装置及存储介质，其中，语音识别模型构建方法包括：获取音频数据集；对音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。本发明可实现在有限训练数据量条件下，提高语音识别准确率的目的。CN116013256ACN116013256A权利要求书1/2页1.一种语音识别模型构建方法，其特征在于，包括：获取音频数据集；对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。2.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述利用所述目标音频特征数据集对目标识别模型进行训练直至训练结果满足预设条件，包括：利用所述目标音频特征数据集对目标识别模型进行迭代训练；计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值，直到联合加权损失值满足预设条件。3.根据权利要求2所述的语音识别模型构建方法，其特征在于，所述计算所述音素识别模型、所述发音识别模型及所述语言识别模型每次迭代的损失值的联合加权损失值步骤之后，还包括：将所述联合加权损失值进行梯度回传；基于回传的联合加权损失值，调整目标识别模型中参数。4.根据权利要求1所述的语音识别模型构建方法，其特征在于，所述音素识别模型包括级联的单因素识别模型和三音素识别模型，所述单因素识别模型的输出用于对所述三音素识别模型的训练。5.一种语音识别方法，其特征在于，包括：获取待识别音频数据；将所述待识别音频数据输入利用如权利要求1‑4中任一项所述的语音识别模型构建方法构建得到的目标识别模型；根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。6.根据权利要求5所述的语音识别方法，其特征在于，所述根据所述目标识别模型的输出结果确定所述待识别音频数据的内容，包括：获取所述目标识别模型的输出结果中对应每一种音频内容的概率；将最大概率对应的音频内容作为最终输出结果。7.一种语音识别模型构建装置，其特征在于，包括：第一获取模块，用于获取音频数据集；第一提取模块，用于对所述音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；第一训练模块，利用所述目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，所述目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，所述音素识别模型的输出为所述发音识别模型输入，所述发音识别模型的输出为所述语言识别模型输入。8.一种语音识别装置，其特征在于，包括：2CN116013256A权利要求书2/2页第二获取模块，用于获取待识别音频数据；第一输入模块，用于将所述待识别音频数据输入利用如权利要求1‑4中任一项所述的语音识别模型构建方法构建得到的目标识别模型；第一确定模块，用于根据所述目标识别模型的输出结果确定所述待识别音频数据的内容。9.一种计算机设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1‑4任一项所述的语音识别模型构建方法的步骤，或者实现权利要求5‑6任一项所述的语音识别方法的步骤。10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利

相关资料

一种语音识别模型构建及语音识别方法、装置及存储介质.pdf

本发明提供了一种语音识别模型构建及语音识别方法、装置及存储介质，其中，语音识别模型构建方法包括：获取音频数据集；对音频数据集中的每一音频数据进行特征提取，得到每一个音频数据的目标音频特征并构建得到目标音频特征数据集；利用目标音频特征数据集对目标识别模型中各组成模型进行联合训练直至训练结果满足预设条件，其中，目标识别模型由音素识别模型、发音识别模型及语言识别模型级联构成，音素识别模型的输出为发音识别模型输入，发音识别模型的输出为语言识别模型输入。本发明可实现在有限训练数据量条件下，提高语音识别准确率的目的。

2023-05-31

1.4MB

一种语音识别模型构建及语音识别方法、装置.pdf

本发明提供了一种语音识别模型构建及语音识别方法、装置，其中，语音识别模型构建方法包括：获取音频数据集；确定音频数据集中每一个音频数据的长度；当任一音频数据的长度大于预设长度则从音频数据中选取预设长度的音频数据作为训练样本，当任一音频数据的长度小于预设长度则将音频数据作为训练样本；对训练样本中的每一音频数据进行特征提取，得到每一个音频数据的目标语音特征并构建得到目标语音特征数据集；利用目标语音特征数据集对目标识别模型进行训练直至训练结果满足预设条件。本发明可解决现有技术中基于整条音频进行训练时速度慢及受静音

2023-06-07

534KB

语音识别方法、装置及存储介质.pdf

本公开是关于一种语音识别方法、装置及存储介质，属于机器学习技术领域。方法包括：获取待识别的音频帧；分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量；对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理，得到融合特征；基于目标声学模型对融合特征进行处理，得到音频帧的语音识别结果，目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量，之后，将二者进行特征融合并将融合后的特征输入声学模型，由于融合后的特征能够对说话人特征和信道特征进行有效表达，提高了语音识别的准确

2023-06-25

785KB

一种语音识别方法、语音识别装置、电子设备及存储介质.pdf

本申请公开了一种语音识别方法、语音识别装置，电子设备及存储介质，所述方法包括：获取当前语音识别场景下的多个语音数据；多个语音数据包括多个语音采集器采集的当前语音识别场景下的多个对象的语音数据；多个语音采集器位于当前语音识别场景中的不同位置；基于多个语音数据，生成与多个对象中的每一对象关联的目标语音数据；每一对象关联的目标语音数据来源于多个语音数据中的至少两个语音数据；基于多个目标语音数据生成语音识别结果，并输出语音识别结果；如此，无需人为的分析语音数据，减少了语音数据的计算量，保证了语音分析结果的准确度。

2023-07-24

799KB

语音识别方法、装置、设备及存储介质.pdf

本发明公开了一种语音识别方法、装置、设备及存储介质。该方法包括:将目标用户语音数据输入设定声学模型中,输出所述目标用户语音数据对应的声学特征序列;其中,所述目标用户语音数据携带有地域属性;所述声学特征序列包括多个声学特征;确定所述声学特征序列中各声学特征对应的至少一个目标词,获得多个目标词;将所述多个目标词输入领域语言模型中,输出目标语音识别结果;其中,所述目标语音识别结果由词序列表征。通过本发明的技术方案,可以提高语音识别的准确性。

2023-04-20

534KB