一种基于深度学习的智能语音识别方法和系统-豆柴文库

一种基于深度学习的智能语音识别方法和系统.pdf

2023-07-24

10金币

705KB

15页

An****70

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114299938A(43)申请公布日2022.04.08(21)申请号202210214027.5G06N3/04(2006.01)(22)申请日2022.03.07G06N3/08(2006.01)(71)申请人凯新创达（深圳）科技发展有限公司地址518000广东省深圳市宝安区石岩街道浪心社区塘头大道196号B座19层-20层(72)发明人任国斌(74)专利代理机构深圳市创富知识产权代理有限公司44367代理人曾敬(51)Int.Cl.G10L15/16(2006.01)G10L15/06(2013.01)G10L21/0208(2013.01)G10L25/87(2013.01)权利要求书3页说明书9页附图2页(54)发明名称一种基于深度学习的智能语音识别方法和系统(57)摘要本发明提出了一种基于深度学习的智能语音识别方法，首先获取语音信息；采用融合的噪声消除模型对获取的语音信息，进行噪声消除，得到消噪后的语音信息，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到；将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络；将增强后的语音信息输输入语音模型中进行语音识别；本发明提供的方法，能够消除噪声的同时又能保留必要的目标语音，提升对各种复杂环境的语音增强的鲁棒性，运算量小。CN114299938ACN114299938A权利要求书1/3页1.一种基于深度学习的智能语音识别方法，其特征在于，包括如下步骤：获取语音信息；采用融合的噪声消除模型对获取的语音信息，进行噪声消除，得到消噪后的语音信息，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到；将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络；将增强后的语音信息输入语音模型中进行语音识别。2.根据权利要求1所述的一种基于深度学习的智能语音识别方法，其特征在于，所述采用融合的噪声消除模型对获取的语音信息，进行噪声消除，得到消噪后的语音信息，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到，还包括：利用语音训练集训练深度神经网络，得到基线神经网络模型；利用语音训练集训练语音端点检测网络，得到语音端点检测神经网络模型；采用语音端点检测算法将语音训练集中的非语音段去除，得到纯语音段训练集；利用纯语音段训练集训练深度神经网络，得到保真神经网络模型；所述基线神经网络模型和保真神经网络模型为两个噪声消除模型。3.根据权利要求2所述的一种基于深度学习的智能语音识别方法，其特征在于，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到，具体为：其中，是融合后的目标估计，为基线神经网络模型的输出，为保真神经网络模型的输出，为语音端点检测神经网络模型对当前帧是语音的概率估计值。4.根据权利要求1所述的一种基于深度学习的智能语音识别方法，其特征在于，所述将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络，还包括：采用加权形式的最小均方误差准则对网络参数进行训练更新：其中，和分别是第k目标层的目标估计和训练目标，N表示样本数量大小；表示输入的特征，表示第K个目标的网络结构函数，其使用2CN114299938A权利要求书2/3页从到的目标估计作为输入，表示第K目标层之前的权重矩阵和偏置向量，网络参数使用基于时间的反向传播算法进行更新。5.根据权利要求4所述的一种基于深度学习的智能语音识别方法，其特征在于，所述将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络，还包括：后处理步骤，具体为：其中，,K是最后三个目标层的输出，表示后处理后的结果。6.一种基于深度学习的智能语音识别系统，其特征在于，包括：语音获取单元：获取语音信息；噪声消除单元：采用融合的噪声消除模型对获取的语音信息，进行噪声消除，得到消噪后的语音信息，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到；语音增强单元：将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络；语音识别单元：将增强后的语音信息输入语音

相关资料

一种基于深度学习的智能语音识别方法和系统.pdf

本发明提出了一种基于深度学习的智能语音识别方法，首先获取语音信息；采用融合的噪声消除模型对获取的语音信息，进行噪声消除，得到消噪后的语音信息，所述融合的噪声消除模型为结合语音端点检测算法对两个噪声消除模型融合得到；将消噪后的语音信息，输入阶段式学习增强网络结构，得到增强后的语音信息；所述阶段式学习增强网络结构包括多个目标层，目标层采用线性激活函数，隐含层为LSTM‑RNN网络；将增强后的语音信息输输入语音模型中进行语音识别；本发明提供的方法，能够消除噪声的同时又能保留必要的目标语音，提升对各种复杂环境的语

2023-07-24

705KB

基于深度学习的语音情感识别方法和装置.pdf

本申请公开了一种基于深度学习的语音情感识别方法和装置，属于语音识别领域。该方法包括：使用梅尔倒谱系数法得到多个训练样本，逐一输入到SVM中进行训练，判断当前训练样本情感识别的准确率，当高于上一训练样本的准确率时，将当前的c和g输入到PSO的适应度函数中，采用迭代方式对PSO进行粒子更新并重新计算适应度函数，直到得到PSO的全局最优解；在多个训练样本全部完成训练后，SVM寻优得到最优化的c和g；当有语音数据待识别时，输入SVM中进行情感识别。该装置包括：获取模块、初始化模块、训练模块、寻优模块和识别模块。本

2023-06-25

850KB

一种基于深度学习的智能车牌识别方法及系统.pdf

本发明属于智能交通工程技术领域，具体提供一种基于深度学习的智能车牌识别方法及系统，其中方法包括：获取原始车辆图片，采用CenterNet对原始车辆图片进行车牌的目标位置的定位、检测与保存；提取车牌兴趣区域图像，输入已训练好的车牌识别模型中，判断车牌是否遮挡不清，若正常，则进一步提取车牌图片，若不正常，则提示报警；对车牌图片进行预处理得到车牌图像信息；将处理后的车牌字符传入卷积神经网络进行模型的训练与优化，最终预测得到车牌识别结果。通过选取CenterNet网络进行车牌定位与检测，选择直方图均衡化、倾斜度矫

2023-07-23

480KB

一种基于深度学习的安检物品识别方法和系统.pdf

本发明提出了一种基于深度学习的安检物品识别方法，包括如下步骤：S1，采集多角度安检图像，并进行分割，获取目标物品区域；S2，采集并统计目标物品区域及其周围环境区域的像素值，生成对应的像素分布特征直方图，并计算对应的像素分布特征直方图的方差；S3，利用方差确定独立物品，并逐一为各幅安检图像中独立物品的目标物品区域设定权重；S4，逐一对各幅安检图像中独立物品的目标物品区域进行特征提取，获取特征，并对特征与权重进行处理，生成融合特征；S5，利用融合特征，进行独立物品的物品类别的识别。有利于获取物品内部结构信息，

2023-08-26

386KB

一种基于声纹识别的智能锁及其语音识别方法和系统.pdf

本发明公开一种基于声纹识别的智能锁的语音识别方法，包括：提取待验证语音信号对应的梅尔倒谱系数；将梅尔倒谱系数作为输入层输入具有预设参数空间的区分深度置信网络，以获得区分深度置信网络的隐层输出，并将其作为所述梅尔倒谱系数的特征向量；将特征向量与各个注册语音信号预先构建的高斯混合模型进行对比，并计算特征向量分别与各个注册语音信号相匹配的后验概率；判断各后验概率中的最大值是否大于预设阈值，如果是，则待验证语音信号通过验证，并对锁具进行开锁操作；反之则使锁具保持锁定状态。本发明提高对目标说话人的识别率，降低错误接

2023-06-25

666KB