一种语音识别方法-豆柴文库

一种语音识别方法.pdf

2023-06-25

10金币

972KB

16页

骊英****bb

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109192200A(43)申请公布日2019.01.11(21)申请号201810514662.9(22)申请日2018.05.25(71)申请人华侨大学地址361000福建省厦门市集美区集美大道668号(72)发明人范文涛杜吉祥符江鹏(74)专利代理机构厦门智慧呈睿知识产权代理事务所(普通合伙)35222代理人郭福利(51)Int.Cl.G10L15/14(2006.01)G10L25/24(2013.01)G10L25/27(2013.01)权利要求书3页说明书9页附图3页(54)发明名称一种语音识别方法(57)摘要本发明涉及一种语音识别方法，其包括所述语音识别方法包括输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率，其中使用变分推断更新优化模型参数；将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM，使用隐马尔科夫模型对语音信号时间序列结构进行建模；根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上，提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模，同时使用变分推断实现模型参数的求解，谋求模型鲁棒性和提高准确率。CN109192200ACN109192200A权利要求书1/3页1.一种语音识别方法，其特征在于，所述语音识别方法包括：步骤S100：输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；步骤S200：将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率，其中使用变分推断来更新优化模型参数；步骤S300：将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模；步骤S400：根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。2.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S100：输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括：步骤S101：预加重所述语音信号，以补偿所述语音信号中受到压抑的高频部分；其具体包括s'n＝sn-k*sn-1其中：S表示语音信号，Sn＝{s0,…,sN-1},n＝0,…,n-1；S'表示处理之后的语音信号，Sn'＝{s'0,…,s'N-1},n＝0,…N-1；k∈[0.9,1]；步骤S102：使用汉明窗对所述语音信号进行加窗处理，用于平滑所述语音信号：其具体包括：步骤S103：将所述语音信号中的时域信号转换成频域信号，以进行频率分析；其中，幅度频：其中i表示第i帧,k表示傅里叶点数；功率谱：步骤S104：使用梅尔克度滤波组过滤经过频域信号；步骤S105：使用log非线性描述能量值；步骤S106：通过离散余弦变换获取频率普的低频信息；其中，步骤S107：通过差分增加语音信号的特征的时域连续性，其中，其中dt表示第t个一阶差分，ct表示第t个倒谱系数，θ表示一阶导数的时间间隔。步骤S108:倒谱均值归一化以获取语音信号的特征参数。3.根据权利要求1所述的语音识别方法，其特征在于，所述步骤S200：将提取的MFCC特2CN109192200A权利要求书2/3页征向量输入到狄利克雷分布混合模型中以计算观测概率，其中使用变分推断来更新优化模型参数的步骤进一步包括：狄利克雷混合模型模型式为：其中表示混合系数，是第j个混合分量的狄利克雷分布。4.根据权利要求1所述语音识别方法，其特征在于，所述步骤S300：将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括：步骤S301：初始化分布参数，选择混合分量的数量，使用K-means算法初始化超参数{ujl}和{vjl}的值，其中，M为混合分量数，N为输入样本数量，表示伽马分布，Z表示M维二元随机变量。其中：注：＜·＞表示期望，Γ表示伽马函数。超参数更新迭代式如下：3CN109192200A权利要求书3/3页其中Ψ和Ψ'分别表示digamma函数和trigamma函数。5.根据权利要求4所述的语音识别方法，其特征在于，所述步骤S300：将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括：步骤S302：变分推断求解模型参数；步骤S3进一步包括步骤S303：变分E步，更新Q(z)和计算其最大似然估计值；步骤S3进一步包括步骤S304：变分M步，最大化下界L(Q)，求得的最大似然值来计算参数的值；步骤S3进一步包括步骤S305：重

相关资料

一种语音识别方法.pdf

本发明公开了一种语音识别方法，包括：步骤一：用户对语音指令进行输入训练，打开语音上传网络端口，并将语音指令通过语音上传网络端口上传至网络服务器；步骤二：网络服务器对语音指令进行特征提取，提取成功后生成用户语音特征包，并将用户语音特征包下载到本地语音识别库；步骤三：断开语音上传网络端口；步骤四：根据本地语音识别库进行语音识别，识别成功后执行语音指令。本发明一种语音识别方法可以有效保护用户隐私的语音识别方法，在保证语音识别正确率前提下，杜绝用户隐私泄露问题。

2023-06-26

418KB

一种语音识别方法.pdf

本发明涉及一种语音识别方法，其包括所述语音识别方法包括输入语音信号，使用梅尔频率倒谱系数MFCC提取语音信号的特征向量；将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率，其中使用变分推断更新优化模型参数；将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM，使用隐马尔科夫模型对语音信号时间序列结构进行建模；根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率，判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上，提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概

2023-06-25

972KB

一种语音识别方法.pdf

本发明提供了一种语音识别方法，其包括以下步骤：对被识别的模拟语音信号进行数字化；对所述数字信息进行预处理；对预处理后的数字信息进行特征选择，选择需要识别的语音的特征值，在预处理后的数字信息中抽取包含所述特征值的信息；特征值提取过程将需要识别的特征值从对象空间映射到特征空间；将所述通过预处理后的数字信息中保留需要识别的特征值的数字信息，将其他数字信息剔除得到需要识别的数字信息；将所述需要识别的数字信息进行还原成模拟语音信号。本发明提供的基于计算机的语音识别方法通过将语音数字化，通过对数字化的语音进行特征选择

2023-11-20

142KB

一种语音识别方法及语音识别装置.pdf

本发明公开了一种语音识别方法及识别装置，具体包括以下步骤：S1：进行数据预处理，使用者首先根据其需求创建语音文件，所述语音文件包括语音数据预处理和文本数据预处理，其中所述语音数据预处理用于获取语音文件中的特征数据，所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典；S2：构建语音识别模型，其中所述语音识别模型基于CTC算法进行语音序列的切分。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息，同时该模型结构也采用了判断环境状态的技术，能够进一步简化语音识别的流程，

2023-06-11

285KB

一种语音识别方法和语音识别装置.pdf

本申请实施例提供一种语音识别方法和语音识别装置，该方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对目标语音段进行语音识别处理，得到目标识别结果。这样，在对语音数据流进行加窗处理时，根据对象识别处理的结果灵活调整窗口长度，以得到不同大小的目标语音段，能够兼顾识别速度和识别效果，从而综合改善端对端语音识别场景的语音识别性能。

2023-07-25

564KB