预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114299938A(43)申请公布日2022.04.08(21)申请号202210214027.5G06N3/04(2006.01)(22)申请日2022.03.07G06N3/08(2006.01)(71)申请人凯新创达(深圳)科技发展有限公司地址518000广东省深圳市宝安区石岩街道浪心社区塘头大道196号B座19层-20层(72)发明人任国斌(74)专利代理机构深圳市创富知识产权代理有限公司44367代理人曾敬(51)Int.Cl.G10L15/16(2006.01)G10L15/06(2013.01)G10L21/0208(2013.01)G10L25/87(2013.01)权利要求书3页说明书9页附图2页(54)发明名称一种基于深度学习的智能语音识别方法和系统(57)摘要本发明提出了一种基于深度学习的智能语音识别方法,首先获取语音信息;采用融合的噪声消除模型对获取的语音信息,进行噪声消除,得到消噪后的语音信息,所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到;将消噪后的语音信息,输入阶段式学习增强网络结构,得到增强后的语音信息;所述阶段式学习增强网络结构包括多个目标层,目标层采用线性激活函数,隐含层为LSTM‑RNN网络;将增强后的语音信息输输入语音模型中进行语音识别;本发明提供的方法,能够消除噪声的同时又能保留必要的目标语音,提升对各种复杂环境的语音增强的鲁棒性,运算量小。CN114299938ACN114299938A权利要求书1/3页1.一种基于深度学习的智能语音识别方法,其特征在于,包括如下步骤:获取语音信息;采用融合的噪声消除模型对获取的语音信息,进行噪声消除,得到消噪后的语音信息,所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到;将消噪后的语音信息,输入阶段式学习增强网络结构,得到增强后的语音信息;所述阶段式学习增强网络结构包括多个目标层,目标层采用线性激活函数,隐含层为LSTM‑RNN网络;将增强后的语音信息输入语音模型中进行语音识别。2.根据权利要求1所述的一种基于深度学习的智能语音识别方法,其特征在于,所述采用融合的噪声消除模型对获取的语音信息,进行噪声消除,得到消噪后的语音信息,所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到,还包括:利用语音训练集训练深度神经网络,得到基线神经网络模型;利用语音训练集训练语音端点检测网络,得到语音端点检测神经网络模型;采用语音端点检测算法将语音训练集中的非语音段去除,得到纯语音段训练集;利用纯语音段训练集训练深度神经网络,得到保真神经网络模型;所述基线神经网络模型和保真神经网络模型为两个噪声消除模型。3.根据权利要求2所述的一种基于深度学习的智能语音识别方法,其特征在于,所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到,具体为:其中,是融合后的目标估计,为基线神经网络模型的输出,为保真神经网络模型的输出,为语音端点检测神经网络模型对当前帧是语音的概率估计值。4.根据权利要求1所述的一种基于深度学习的智能语音识别方法,其特征在于,所述将消噪后的语音信息,输入阶段式学习增强网络结构,得到增强后的语音信息;所述阶段式学习增强网络结构包括多个目标层,目标层采用线性激活函数,隐含层为LSTM‑RNN网络,还包括:采用加权形式的最小均方误差准则对网络参数进行训练更新:其中,和分别是第k目标层的目标估计和训练目标,N表示样本数量大小;表示输入的特征,表示第K个目标的网络结构函数,其使用2CN114299938A权利要求书2/3页从到的目标估计作为输入,表示第K目标层之前的权重矩阵和偏置向量,网络参数使用基于时间的反向传播算法进行更新。5.根据权利要求4所述的一种基于深度学习的智能语音识别方法,其特征在于,所述将消噪后的语音信息,输入阶段式学习增强网络结构,得到增强后的语音信息;所述阶段式学习增强网络结构包括多个目标层,目标层采用线性激活函数,隐含层为LSTM‑RNN网络,还包括:后处理步骤,具体为:其中,,K是最后三个目标层的输出,表示后处理后的结果。6.一种基于深度学习的智能语音识别系统,其特征在于,包括:语音获取单元:获取语音信息;噪声消除单元:采用融合的噪声消除模型对获取的语音信息,进行噪声消除,得到消噪后的语音信息,所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到;语音增强单元:将消噪后的语音信息,输入阶段式学习增强网络结构,得到增强后的语音信息;所述阶段式学习增强网络结构包括多个目标层,目标层采用线性激活函数,隐含层为LSTM‑RNN网络;语音识别单元:将增强后的语音信息输入语音