预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889099A(43)申请公布日2022.01.04(21)申请号202111170413.0G10L21/0232(2013.01)(22)申请日2021.10.08(71)申请人上海金仕达软件科技有限公司地址201203上海市浦东新区亮景路210号(72)发明人伍海华孙科瞿翊(74)专利代理机构北京集佳知识产权代理有限公司11227代理人钱娜(51)Int.Cl.G10L15/20(2006.01)G10L15/16(2006.01)G10L15/26(2006.01)G10L15/02(2006.01)G10L15/08(2006.01)G10L21/0208(2013.01)权利要求书2页说明书10页附图3页(54)发明名称一种语音识别方法及系统(57)摘要本申请公开了一种语音识别方法及系统,获取原始语音信号,利用预设深度残差收缩网络模型中的深度残差收缩网络对待识别的原始语音信号进行滤除处理,得到目标语音频谱,从目标语音频谱中提取语音时序特征,通过深度残差收缩网络的预设分类层对语音时序特征进行分类,得到目标语音频谱对应的字符概率,通过预设预测模型对字符概率进行预测得到文本信息。通过上述,由于预设深度残差收缩网络模型中融入了残差模块和软阈值函数,因此具有特征提取能力强和去除噪声的特性,利用预设深度残差收缩网络模型中的深度残差收缩网络去除原始语音频谱所包含的无关特征,使得在强噪声环境下得到无噪声等特征的文本信息,提高在强噪声环境下对语音信号的识别率。CN113889099ACN113889099A权利要求书1/2页1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的原始语音信号;利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理,得到目标语音频谱;所述预设深度残差收缩网络模型为通过在深度神经网络中融入所述深度残差收缩网络所构建的模型;所述目标语音频谱用于指征未包含无关特征的语音频谱;所述无关特征至少包括噪声特征和环境特征;从所述目标语音频谱中提取语音时序特征;通过所述深度残差收缩网络的预设分类层对所述语音时序特征进行分类,得到所述目标语音频谱对应的字符概率;所述字符概率用于指示所述目标语音频谱对应的各个字符所出现的概率;通过预设预测模型对所述字符概率进行预测,得到文本信息。2.根据权利要求1所述的方法,其特征在于,所述利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理,得到目标语音频谱,包括:利用预设深度残差收缩网络模型中的深度残差收缩网络的频谱函数,对所述待识别的原始语音信号进行预处理,得到原始语音频谱;通过所述深度残差收缩网络的预设软阈值函数去除所述原始语音频谱所包含的无关特征,得到目标语音频谱。3.根据权利要求1所述的方法,其特征在于,所述从所述目标语音频谱中提取语音时序特征,包括:通过所述预设深度残差收缩网络模型的循环神经网络层,从所述目标语音频谱中提取语音时序特征;所述循环神经网络层包括单向循环神经网络层或双向循环神经网络层;若所述循环神经网络层为单向循环神经网络层,通过所述单向循环神经网络层,从所述目标语音频谱中提取语音时序特征;若所述循环神经网络层为双向循环神经网络层,通过所述双向循环神经网络层,从所述目标语音频谱中提取语音时序特征。4.根据权利要求1所述的方法,其特征在于,预设分类层包括全连接层和逻辑回归层,所述全连接层包括第一全连接层和第二全连接层,所述通过所述深度残差收缩网络的预设分类层对所述语音时序特征进行分类,得到所述目标语音频谱对应的字符概率,包括:将所述语音时序特征输入至所述第一全连接层和所述第二全连接层中,得到语音输出向量;将所述语音输出向量输入至所述逻辑回归层进行分类,得到所述目标语音频谱对应的第一字符概率和第二字符概率;所述第一字符概率用于指示在音频中文本信息出现的概率;所述第二字符概率用于指示在预设语音模型中文本信息出现的概率。5.根据权利要求4所述的方法,其特征在于,所述通过预设预测模型对所述字符概率进行预测,得到文本信息,包括:获取所述第一字符概率对应的第一字符和所述第二字符概率对应的第二字符;将所述第一字符和所述第二字符进行组合,得到字符串;通过预设函数和预设算法对所述字符串进行计算,得到文本信息。6.一种语音识别系统,其特征在于,所述系统包括:2CN113889099A权利要求书2/2页获取单元,用于获取待识别的原始语音信号;滤除单元,用于利用预设深度残差收缩网络模型中的深度残差收缩网络对所述待识别的原始语音信号进行滤除处理,得到目标语音频谱;所述预设深度残差收缩网络模型为通过在深度神经网络中融入所述深度残差收缩网络所