一种基于迁移神经网络声学模型的语音识别系统及方法-豆柴文库

一种基于迁移神经网络声学模型的语音识别系统及方法.pdf

2023-11-15

10金币

924KB

16页

努力****甲寅

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110070855A(43)申请公布日2019.07.30(21)申请号201810077556.9(22)申请日2018.01.23(71)申请人中国科学院声学研究所地址100190北京市海淀区北四环西路21号申请人北京中科信利技术有限公司(72)发明人张鹏远刘丹阳徐及颜永红(74)专利代理机构北京方安思达知识产权代理有限公司11472代理人陈琳琳杨青(51)Int.Cl.G10L15/02(2006.01)权利要求书3页说明书8页附图4页(54)发明名称一种基于迁移神经网络声学模型的语音识别系统及方法(57)摘要本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法，该系统包括：信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型；其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络；本系统通过对鲁棒神经网络模型的模型参数进行固定，同时通过神经网络间的层间横向连接，将鲁棒声学模型的信息传递到目标声学模型中，不仅保留了原鲁棒声学模型的性能，同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题，通过利用数据充分的语言的声学模型进行模型参数迁移的方式，来提升目标低资源语言的声学模型性能以及训练的收敛速度。CN110070855ACN110070855A权利要求书1/3页1.一种基于迁移神经网络声学模型的语音识别系统，其特征在于，包括：信号处理及特征提取模块，用于对待识别的音频信号进行增强，将所述待识别的音频信号从时域转化到频域，并提取声学特征；声学模型，用于以提取的声学特征为输入，生成声学模型得分；所述声学模型为迁移神经网络声学模型，包括：前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型；所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型，使用大量源语言数据进行训练；语言模型，用于估计通过重训练语料学习词之间的相互概率，输出语言模型得分；解码器，用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分，将总体输出分数较高的词序列作为识别结果。2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，所述迁移神经网络声学模型由下述步骤训练生成，包括：建立源语言训练集，根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型；将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合，建立目标语言神经网络声学模型；将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数；建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数；生成迁移神经网络声学模型。3.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，将所述定向神经网络的模型参数进行初始化，调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数，包括：将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加；将所述相加的结果送入所述定向神经网络的下一层进行前向计算，公式为：其中β为鲁棒神经网络的权重系数，和分别为鲁棒神经网络和定向神经网络的(2)第i-1层的输出，为定向神经网络第i层的输入，Wi为定向神经网络第i-1层和第i层之间的连接权重，f为激活函数。4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统，其特征在于，建立目标语言训练集，固定所述鲁棒神经网络模型参数，根据所述目标语言训练集优化所述融合后定向神经网络模型参数，包括：建立目标语言训练集，固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数，根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优；2CN110070855A权利要求书2/3页所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化，交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度：其中：上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率，当输出状态的序号i与标注状态的序号lable相同时，PL(si|xt)的概率值定义为1，其他声学状态的概率为0；L表示交叉熵损失函数的值，p(si|xt)表示，声学模型预测的t时刻的特征xt对应声学状态为si的概率值；所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分，输出目标语音特征的后验概率，用于解码，得到识别出的语音，与原始语音进行比较后，进行前向反馈，得到训练后的迁移神经网络声学模型。5.一种基于迁移神经网络声学模型的语音识别方法

相关资料

一种基于迁移神经网络声学模型的语音识别系统及方法.pdf

本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法，该系统包括：信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型；其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络；本系统通过对鲁棒神经网络模型的模型参数进行固定，同时通过神经网络间的层间横向连接，将鲁棒声学模型的信息传递到目标声学模型中，不仅保留了原鲁棒声学模型的性能，同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题，通过利用数据充分的语言的声学模型进行模型参数迁移的方式，来提升目标低资源语言的声学模

2023-11-15

924KB

一种基于神经网络模型的会议终端语音降噪方法.pdf

本发明提供一种基于神经网络模型的会议终端语音降噪方法，包括1、会议终端设备对音频文件进行采集，生成时域的数字音频信号；2、将数字音频信号分帧并进行短时傅里叶变换；3、将频域的幅度谱映射到频带中，进而求其梅尔倒谱系数；4、利用梅尔倒谱系数计算一阶和二阶差分系数，在每个频带上计算出基音相关系数，再提取基音周期特征和VAD特征；5、将音频的输入特征参数作为神经网络模型的输入，离线训练神经网络，使其学习到生成降噪语音的频带增益，训练好权重固化出来；6、使用神经网络模型学习后产生频带增益，将输出的频带增益映射到频谱

2023-06-25

454KB

一种基于迁移学习的神经网络模型复用方法.pdf

本发明公开了一种基于迁移学习的神经网络模型复用方法。根据MMD(最大平均差异)来度量目标域与源域两个分布的相似性。再根据假设检验来判断目标域与源域的分布是否相同。若假设检验判断为两分布相同，则对深度神经网络模型进行finetune调整，实现深度神经网络模型的复用。

2023-07-25

457KB

一种基于高维声学特征的语音识别方法及模型训练方法.pdf

本申请公开了一种基于高维声学特征的语音识别方法及模型训练方法，涉及语音识别技术领域。该方法包括：获取待识别音频；基于预先训练的声学特征提取模型，获取待识别音频对应的高维特征，作为待识别音频的高维声学特征；获取待识别音频对应的识别场景，作为目标识别场景；将高维声学特征输入至与目标识别场景对应的预先训练的语音识别模型，得到待识别音频对应的文本识别结果。如此，通过提取包含了更多有助于语音识别的特征信息，使得基于高维声学特征识别到的文本识别结果更准确，提高了语音识别的准确性；并且，调用与待识别音频的识别场景对应的

2023-07-24

1.1MB

基于端到端模型的混合语音识别系统及方法.pdf

本发明涉及一种基于端到端模型的混合语音识别系统及方法，包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术，对海量语音数据进行建模，并将端到端模型的编码网络作为声学模型，嵌入到混合语音识别系统中，不仅进一步提高了语音识别准确率，而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外，本发明在端到端模型的编码网络的基础上，继续做鉴别性声学模型训练(SMBR、MPE等)，可以进一步提高识别准确率。

2023-07-25

505KB