基于端到端模型的混合语音识别系统及方法-豆柴文库

基于端到端模型的混合语音识别系统及方法.pdf

2023-07-25

10金币

505KB

11页

东耀****哥哥

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113763939A(43)申请公布日2021.12.07(21)申请号202111041405.6(22)申请日2021.09.07(71)申请人普强时代（珠海横琴）信息技术有限公司地址519000广东省珠海市横琴新区宝华路6号105室-58115（集中办公区）(72)发明人司玉景李全忠何国涛蒲瑶(74)专利代理机构北京科亿知识产权代理事务所(普通合伙)11350代理人汤东凤(51)Int.Cl.G10L15/183(2013.01)G10L15/06(2013.01)G10L15/02(2006.01)权利要求书2页说明书6页附图2页(54)发明名称基于端到端模型的混合语音识别系统及方法(57)摘要本发明涉及一种基于端到端模型的混合语音识别系统及方法，包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术，对海量语音数据进行建模，并将端到端模型的编码网络作为声学模型，嵌入到混合语音识别系统中，不仅进一步提高了语音识别准确率，而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外，本发明在端到端模型的编码网络的基础上，继续做鉴别性声学模型训练(SMBR、MPE等)，可以进一步提高识别准确率。CN113763939ACN113763939A权利要求书1/2页1.一种基于端到端模型的混合语音识别系统，其特征在于，包括：特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块；所述特征提取模块用于提取音频数据中的声学特征；所述语言模型用于获取所述声学特征中对应的候选文本的语言模型分数；所述基于端到端模型的声学模型用于获取所述声学特征的每个建模单元的后验概率；其中，所述建模单元包括词、单字、带调或无调拼音、和音素；所述解码器用于对所述语言模型分数及对应建模单元的后验概率进行加权处理，然后根据加权处理后的得分进行搜索排序；所述词图重估模块用于对排序后的识别结果进行重估并重新排序；所述输出模块用于输出重新排序后的识别结果。2.根据权利要求1所述的系统，其特征在于，构建基于端到端模型的声学模型的方法，包括：在预先标注的音频数据中提取声学特征，将所述声学特征和对应的建模单元作为输入，采用连接时域分类和注意力结构的优化机制，对预构建的纯端到端模型进行训练，得到纯端到端模型的编码器；将训练集输入到所述编码器中，解码得到所述训练集对应的词图文件和强制对齐文件，通过所述词图文件和强制对齐文件对所述编码器进行鉴别性训练，得到最终的基于端到端模型的声学模型。3.根据权利要求1所述的系统，其特征在于，所述解码器采用Viterbi算法。4.根据权利要求1所述的系统，其特征在于，预先对所述语音数据对应的建模单元进行建模，生成多个建模单元；其中，所述建模单元包括词、单字、带调或无调拼音、和音素。5.根据权利要求1所述的系统，其特征在于，对预先标注的音频数据通过预处理、加窗、FFT变换、梅尔滤波器处理，得到声学特征，或者直接将音频数据作为声学特征。6.根据权利要求5所述的系统，其特征在于，对预先标注的音频数据进行预处理，包括：对预先标注的音频数据进行降噪处理，或者幅值调整。7.一种基于端到端模型的混合语音识别方法，其特征在于，包括：提取音频数据中的声学特征；获取所述声学特征对应的候选文本的语言模型分数；获取所述声学特征的每个建模单元的后验概率；其中，所述建模单元包括词、单字、带调或无调拼音、和音素；对所述语言模型分数及对应建模单元的后验概率进行加权处理，然后根据加权处理后的得分进行搜索排序；对排序后的识别结果进行重估并重新排序；输出重新排序后的识别结果。8.根据权利要求7所述的方法，其特征在于，构建基于端到端模型的声学模型的方法，包括：2CN113763939A权利要求书2/2页在预先标注的音频数据中提取声学特征，将所述声学特征和对应的建模单元作为输入，采用连接时域分类和注意力结构的优化机制，对预构建的纯端到端模型进行训练，得到纯端到端模型的编码器；将训练集输入到所述编码器中，解码得到所述训练集对应的词图文件和强制对齐文件，通过所述词图文件和强制对齐文件对所述编码器进行鉴别性训练，得到最终的基于端到端模型的声学模型。3CN113763939A说明书1/6页基于端到端模型的混合语音识别系统及方法技术领域[0001]本发明属于语音识别技术领域，具体涉及一种基于端到端模型的混合语音识别系统及方法。背景技术[0002]近年来，随着AI技术和计算机硬件的不断发展，语音识别领域取得了飞速发展。语音识别系统框架先后经历了三个阶段。第一个阶段为模版匹配系统，这个阶段最具代表性的算法为动态弯曲算法(Dyn

相关资料

基于端到端模型的混合语音识别系统及方法.pdf

本发明涉及一种基于端到端模型的混合语音识别系统及方法，包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术，对海量语音数据进行建模，并将端到端模型的编码网络作为声学模型，嵌入到混合语音识别系统中，不仅进一步提高了语音识别准确率，而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外，本发明在端到端模型的编码网络的基础上，继续做鉴别性声学模型训练(SMBR、MPE等)，可以进一步提高识别准确率。

2023-07-25

505KB

端到端语音识别系统.pptx

语音识别系统概述语音识别系统概述语音识别系统概述语音识别系统概述端到端识别原理简介端到端识别原理简介端到端识别原理简介端到端识别原理简介特征提取与预处理特征提取与预处理特征提取与预处理特征提取与预处理模型结构与训练模型结构与训练模型结构与训练模型结构与训练解码与后处理技术解码与后处理技术解码与后处理技术解码与后处理技术数据集与实验设置数据集与实验设置数据集与实验设置数据集与实验设置实验结果与分析实验结果与分析实验结果与分析实验结果与分析总结与未来工作展望总结与未来工作展望总结与未来工作展望总结与未来工作展

2024-05-03

161KB

基于端对端transformer模型的语音识别方法.pdf

本发明公开了基于端对端transformer模型的语音识别方法，该方法包括：对原始语音信息进行预处理，得到音频序列信息；结合噪声修剪技术，构建transformer语音识别网络模型；基于transformer语音识别网络模型对音频序列信息进行识别处理，得到语音识别结果。通过使用本发明，能够通过获取语音数据的全局～局部信息和高层～低层特征信息进而提高模型的语音识别准确度。本发明作为基于端对端transformer模型的语音识别方法，可广泛应用于深度学习语音识别技术领域。

2023-06-07

689KB

端到端语音识别模型处理方法、语音识别方法及相关装置.pdf

本发明提供的端到端语音识别模型处理方法、语音识别方法及相关装置，方法包括：获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；根据更新后的所述目标语言模型，生成端到端语音识别模型。由于在生成的目标语音识别模型中包含了直播领域中的热词的权重，因而使得模型能够实在语音

2023-07-24

832KB

端到端语音到语音翻译的优化方法综述.docx

端到端语音到语音翻译的优化方法综述目录一、内容综述................................................21.研究背景与意义........................................32.国内外研究现状........................................43.论文研究目的及内容....................................5二、端到端语音翻译系统概述....................

2024-10-12

33KB