一种语音识别方法及系统-豆柴文库

一种语音识别方法及系统.pdf

2023-07-25

10金币

752KB

16页

努力****星驰

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889099A(43)申请公布日2022.01.04(21)申请号202111170413.0G10L21/0232(2013.01)(22)申请日2021.10.08(71)申请人上海金仕达软件科技有限公司地址201203上海市浦东新区亮景路210号(72)发明人伍海华孙科瞿翊(74)专利代理机构北京集佳知识产权代理有限公司11227代理人钱娜(51)Int.Cl.G10L15/20(2006.01)G10L15/16(2006.01)G10L15/26(2006.01)G10L15/02(2006.01)G10L15/08(2006.01)G10L21/0208(2013.01)权利要求书2页说明书10页附图3页(54)发明名称一种语音识别方法及系统(57)摘要本申请公开了一种语音识别方法及系统，获取原始语音信号，利用预设深度残差收缩网络模型中的深度残差收缩网络对待识别的原始语音信号进行滤除处理，得到目标语音频谱，从目标语音频谱中提取语音时序特征，通过深度残差收缩网络的预设分类层对语音时序特征进行分类，得到目标语音频谱对应的字符概率，通过预设预测模型对字符概率进行预测得到文本信息。通过上述，由于预设深度残差收缩网络模型中融入了残差模块和软阈值函数，因此具有特征提取能力强和去除噪声的特性，利用预设深度残差收缩网络模型中的深度残差收缩网络去除原始语音频谱所包含的无关特征，使得在强噪声环境下得到无噪声等特征的文本信息，提高在强噪声环境下对语音信号的识别率。CN113889099ACN113889099A权利要求书1/2页1.一种语音识别方法，其特征在于，所述方法包括：获取待识别的原始语音信号；利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理，得到目标语音频谱；所述预设深度残差收缩网络模型为通过在深度神经网络中融入所述深度残差收缩网络所构建的模型；所述目标语音频谱用于指征未包含无关特征的语音频谱；所述无关特征至少包括噪声特征和环境特征；从所述目标语音频谱中提取语音时序特征；通过所述深度残差收缩网络的预设分类层对所述语音时序特征进行分类，得到所述目标语音频谱对应的字符概率；所述字符概率用于指示所述目标语音频谱对应的各个字符所出现的概率；通过预设预测模型对所述字符概率进行预测，得到文本信息。2.根据权利要求1所述的方法，其特征在于，所述利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理，得到目标语音频谱，包括：利用预设深度残差收缩网络模型中的深度残差收缩网络的频谱函数，对所述待识别的原始语音信号进行预处理，得到原始语音频谱；通过所述深度残差收缩网络的预设软阈值函数去除所述原始语音频谱所包含的无关特征，得到目标语音频谱。3.根据权利要求1所述的方法，其特征在于，所述从所述目标语音频谱中提取语音时序特征，包括：通过所述预设深度残差收缩网络模型的循环神经网络层，从所述目标语音频谱中提取语音时序特征；所述循环神经网络层包括单向循环神经网络层或双向循环神经网络层；若所述循环神经网络层为单向循环神经网络层，通过所述单向循环神经网络层，从所述目标语音频谱中提取语音时序特征；若所述循环神经网络层为双向循环神经网络层，通过所述双向循环神经网络层，从所述目标语音频谱中提取语音时序特征。4.根据权利要求1所述的方法，其特征在于，预设分类层包括全连接层和逻辑回归层，所述全连接层包括第一全连接层和第二全连接层，所述通过所述深度残差收缩网络的预设分类层对所述语音时序特征进行分类，得到所述目标语音频谱对应的字符概率，包括：将所述语音时序特征输入至所述第一全连接层和所述第二全连接层中，得到语音输出向量；将所述语音输出向量输入至所述逻辑回归层进行分类，得到所述目标语音频谱对应的第一字符概率和第二字符概率；所述第一字符概率用于指示在音频中文本信息出现的概率；所述第二字符概率用于指示在预设语音模型中文本信息出现的概率。5.根据权利要求4所述的方法，其特征在于，所述通过预设预测模型对所述字符概率进行预测，得到文本信息，包括：获取所述第一字符概率对应的第一字符和所述第二字符概率对应的第二字符；将所述第一字符和所述第二字符进行组合，得到字符串；通过预设函数和预设算法对所述字符串进行计算，得到文本信息。6.一种语音识别系统，其特征在于，所述系统包括：2CN113889099A权利要求书2/2页获取单元，用于获取待识别的原始语音信号；滤除单元，用于利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理，得到目标语音频谱；所述预设深度残差收缩网络模型为通过在深度神经网络中融入所述深度残差收缩网络所

相关资料

一种语音识别方法及系统.pdf

本发明涉及一种语音识别的技术领域，揭露了一种语音识别方法，包括：获取待识别语音信号，并计算待识别语音信号的能量密度谱；将能量密度谱进行伪彩色映射，得到待识别语音信号的彩色语谱图；利用自适应的时域滤波器对彩色语谱图中的语音信号进行回声消除；利用盲源分离算法估计待识别语音中目标语音信号的mask值；利用基于mask值的多通道增强算法对目标语音信号进行增强；利用预训练的DFSMN‑CTC模型对语音信号进行识别，得到语音识别结果。本发明还提出一种语音识别系统。本发明实现了语音的识别。

2023-06-27

985KB

一种语音识别方法及系统.pdf

本申请公开了一种语音识别方法及系统，获取原始语音信号，利用预设深度残差收缩网络模型中的深度残差收缩网络对待识别的原始语音信号进行滤除处理，得到目标语音频谱，从目标语音频谱中提取语音时序特征，通过深度残差收缩网络的预设分类层对语音时序特征进行分类，得到目标语音频谱对应的字符概率，通过预设预测模型对字符概率进行预测得到文本信息。通过上述，由于预设深度残差收缩网络模型中融入了残差模块和软阈值函数，因此具有特征提取能力强和去除噪声的特性，利用预设深度残差收缩网络模型中的深度残差收缩网络去除原始语音频谱所包含的无关

2023-07-25

752KB

一种风扇语音控制系统的语音识别方法.pdf

本发明公开了一种风扇语音控制系统的语音识别方法，包括以下步骤：S1：根据设定的电风扇扇叶转速临界值将电风扇的工作状态分为低风噪工作模式和高风噪工作模式；S2：采集电风扇在高风噪工作模式时收集到的语音数据，加以自适应降噪处理和机器训练学习，得到适用于电风扇在高风噪工作模式时的专用语音模型；S3：电风扇在高风噪工作模式下，语音控制系统采集到声音音频数据后，对声音音频数据进行自适应降噪处理，保留用户语音指令并采用专用语音模型进行识别；S4：电风扇语音控制系统根据用户语音指令的识别结果控制电风扇的工作状态。本发明

2023-11-15

147KB

一种用于语音识别方法及系统.pdf

本发明实施例公开了一种用于语音识别的方法及系统，包括：从监听的语音信号中截取第一语音片段，对所述第一语音片段进行分析确定能量谱；依据所述能量谱对所述第一语音片段进行特征提取，确定语音特征；依据所述语音特征对所述第一语音片段的能量谱进行分析，截取第二段语音片段；对所述第二段语音片段进行语音识别，得到语音识别结果。通过实施上述方法，解决了现有技术中在离线状态下，识别功能单一、识别率低的问题。

2023-12-07

887KB

一种控制语音识别方法、装置以及系统.pdf

本发明实施例公开了一种控制语音识别方法、装置以及系统，其中，方法包括：第一待识别设备接收目标语音信号，并根据所述目标语音信号生成本地语音属性信息，并接收至少一个第二待识别设备中各第二待识别设备分别发送的语音属性信息；根据所述本地语音属性信息和所述各第二待识别设备分别发送的语音属性信息，在所述第一待识别设备和所述至少一个第二待识别设备中选择出目标识别设备；发送识别命令到所述目标识别设备，以使所述目标识别设备根据所述识别命令对所述目标语音信号进行识别以得到识别结果。采用本发明，可以统一、有效地对无线音乐系统中

2023-12-07

845KB