一种语音识别方法、终端设备及存储介质-豆柴文库

一种语音识别方法、终端设备及存储介质.pdf

2023-06-07

10金币

510KB

7页

猫巷****志敏

实名认证

内容提供者

1/7

2/7

3/7

4/7

5/7

6/7

7/7

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115862602A(43)申请公布日2023.03.28(21)申请号202111110547.3G10L25/24(2013.01)(22)申请日2021.09.23(71)申请人厦门快商通科技股份有限公司地址351200福建省厦门市软件园三期诚毅北大街63号1301单元(72)发明人徐敏肖龙源李稀敏叶志坚(74)专利代理机构厦门市精诚新创知识产权代理有限公司35218专利代理师何家富(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L15/07(2013.01)G10L15/14(2006.01)G10L15/16(2006.01)权利要求书1页说明书4页附图1页(54)发明名称一种语音识别方法、终端设备及存储介质(57)摘要本发明涉及一种语音识别方法、终端设备及存储介质，该方法中包括：S1：采集原始音频数据；S2：对原始音频数据进行转码和数据增强处理后，将三种音频合并组成训练集；S3：提取训练集中各音频的声学特征；S4：构建3‑gram语言模型并进行训练；S5：构建单音素声学模型，并基于单音素构建三音素声学模型，通过训练集中各音频的声学特征模型进行训练；S6：构建说话人识别模型；S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练；S8：通过发音词典、声学模型和语言模型共同构建语音识别模型；S9：通过语音识别模型进行语音识别。本发明增加信道的多样性，提升了系统的识别效果及鲁棒性。CN115862602ACN115862602A权利要求书1/1页1.一种语音识别方法，其特征在于，包括以下步骤：S1：采集待识别语种的原始音频数据，并对其进行说话人和文本的标注；S2：对原始音频数据进行转码处理为转码音频，并对转码音频进行数据增强处理为数据增强音频后，将三种音频合并组成训练集；S3：提取训练集中各音频的声学特征；S4：构建3‑gram语言模型，通过训练集中各音频对应的文本对3‑gram语言模型进行训练；S5：构建单音素声学模型，通过训练集中各音频的声学特征对单音素声学模型进行训练，并基于单音素声学模型的训练结果构建三音素声学模型，通过训练集中各音频的声学特征对三音素声学模型进行训练；S6：构建说话人识别模型，通过训练集中各音频的声学特征和对应的说话人对说话人识别模型进行训练；S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练；S8：将发音词典、TDNN声学模型和3‑gram语言模型共同构建为WFST图，并合并为HCLG图，将合并后的HCLG图作为语音识别模型；S9：通过语音识别模型对待识别语种的音频进行语音识别。2.根据权利要求1所述的语音识别方法，其特征在于：步骤S2中数据增强处理包括增加噪声和混响。3.根据权利要求1所述的语音识别方法，其特征在于：步骤S2中还包括：根据训练集中的音频构建音频‑路径列表、说话人‑音频列表和音频‑文本列表三种列表，用于模型训练时的数据提取。4.根据权利要求1所述的语音识别方法，其特征在于：步骤S3中提取的声学特征为梅尔倒谱系数，并进行一阶和二阶差分。5.根据权利要求1所述的语音识别方法，其特征在于：步骤S5中单音素声学模型和三音素声学模型均采用GMM‑HMM模型。6.根据权利要求1所述的语音识别方法，其特征在于：步骤S6中说话人识别模型采用I‑Vector模型。7.根据权利要求1所述的语音识别方法，其特征在于：步骤S8中发音词典的构建过程为：采用词作为建模单元构建音素集，根据词到音素和声调的映射构建发音词典。8.一种语音识别终端设备，其特征在于：包括处理器、存储器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1～7中任一所述方法的步骤。9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1～7中任一所述方法的步骤。2CN115862602A说明书1/4页一种语音识别方法、终端设备及存储介质技术领域[0001]本发明语音识别领域，尤其涉及一种语音识别方法、终端设备及存储介质。背景技术[0002]低资源语种的语音识别一直以来都是语音识别领域的难点，现有的针对低资源语种的语音识别方法主要有两种：一种为利用相近语种的资源做预训练或者混合训练，然后迁移到目标语种后进行微调；另一种为对数据本身进行处理，增加数据数量和多样性，目前主要采用的为增加加性噪声和增加混响。现有的低资源语种的语音识别方法存在一定局限性：1.需要收集相近语种

相关资料

一种语音识别方法、终端设备及存储介质.pdf

本发明涉及一种语音识别方法、终端设备及存储介质，该方法中包括：S1：采集原始音频数据；S2：对原始音频数据进行转码和数据增强处理后，将三种音频合并组成训练集；S3：提取训练集中各音频的声学特征；S4：构建3‑gram语言模型并进行训练；S5：构建单音素声学模型，并基于单音素构建三音素声学模型，通过训练集中各音频的声学特征模型进行训练；S6：构建说话人识别模型；S7：构建TDNN声学模型，通过说话人识别模型和三音素声学模型对训练集中各音频的声学特征的识别结果对TDNN声学模型进行训练；S8：通过发音词典、声

2023-06-07

510KB

语音识别方法、装置及存储介质.pdf

本公开是关于一种语音识别方法、装置及存储介质，属于机器学习技术领域。方法包括：获取待识别的音频帧；分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量；对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理，得到融合特征；基于目标声学模型对融合特征进行处理，得到音频帧的语音识别结果，目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量，之后，将二者进行特征融合并将融合后的特征输入声学模型，由于融合后的特征能够对说话人特征和信道特征进行有效表达，提高了语音识别的准确

2023-06-25

785KB

一种语音识别方法、装置、设备及存储介质.pdf

本申请提供了一种语音识别方法、装置、设备及存储介质，其中，方法包括：获取目标混合语音的语音特征以及指定说话人的说话人特征；以趋于目标语音特征为提取方向，根据目标混合语音的语音特征以及目标说话人的说话人特征，从目标混合语音的语音特征中提取目标说话人的语音特征，以得到目标说话人的提取语音特征，其中，目标语音特征为用于获得与目标说话人的真实语音内容一致的语音识别结果的语音特征；根据指定说话人的提取语音特征，获取指定说话人的语音识别结果。经由本申请提供的语音识别方法可从包含指定说话人语音的混合语音中较为准确的识别

2023-07-25

851KB

一种语音识别方法、装置、存储介质及设备.pdf

本申请公开了一种语音识别方法、装置、存储介质及设备，该方法包括：首先生成目标语音的音频特征，然后将其输入至预先构建的语音识别模型，识别得到目标语音的音素识别结果和初始文本识别结果中的第一实体词汇及其位置信息；接着利用预先构建的领域专业实体词汇列表，对目标语音的音素识别结果进行解码，得到第二实体词汇；确定第一实体词汇和第二实体词汇各自对应的相似实体词汇，并利用预设的语言模型对这些相似实体词汇、第一实体词汇、第二实体词汇进行打分，得到打分结果；再根据打分结果，判断是否需要利用第二实体词汇或任一相似实体词汇对第

2023-05-31

1.6MB

一种语音识别方法、装置、设备及存储介质.pdf

本发明实施例提供了一种语音识别方法、装置、设备及存储介质，该方法包括：获取语音识别结果的初始文本和上下文模板；根据所述上下文模板，确定所述初始文本中的第一单字和第一词语；根据所述第一单字的第一拼音结构和所述第一词语的第二拼音结构，确定所述第一单字对应的第二单字；根据所述第二单字修正所述初始文本，得到修正后的语音识别结果。采用本发明实施例的技术方案，通过第一拼音结构和第二拼音结构的使用，实现了语音识别结果的修正，从而克服了现有技术中训练语言模型较复杂且成效甚微的问题，实现简便，成本较低。

2023-06-01

1.3MB