语音合成和语音识别-豆柴文库

语音合成和语音识别.pdf

2023-07-24

10金币

763KB

22页

念珊****写意

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113948064A(43)申请公布日2022.01.18(21)申请号202010620533.5(22)申请日2020.06.30(71)申请人微软技术许可有限责任公司地址美国华盛顿州(72)发明人谭旭秦涛干俊伟赵晟刘铁岩(74)专利代理机构北京市金杜律师事务所11256代理人黄倩(51)Int.Cl.G10L15/06(2013.01)G10L15/02(2006.01)G10L13/02(2013.01)G10L13/08(2013.01)权利要求书4页说明书13页附图4页(54)发明名称语音合成和语音识别(57)摘要根据本公开的实现，提出了用于语音合成和语音识别的方案。根据该方案，支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型，以支持目标语言。然后，基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型，同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式，该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。CN113948064ACN113948064A权利要求书1/4页1.一种计算机实现的方法，包括：获取支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型；基于目标语言的第一组配对数据来调整所述TTS模型和所述ASR模型以支持所述目标语言，其中所述第一组配对数据包括来自多个说话者的所述目标语言的语音数据及其对应的文本数据；以及基于所述第一组配对数据和所述目标语言的第一组合成配对数据来优化所述TTS模型，同时基于所述第一组配对数据和所述目标语言的第二组合成配对数据来优化所述ASR模型，其中所述第一组合成配对数据包括来自多个说话者的第一组语音数据和由所述ASR模型基于所述第一组语音数据而生成的第一组文本数据，并且所述第二组合成配对数据包括第二组文本数据和由所述TTS模型基于所述第二组文本数据而生成的多个说话者的第二组语音数据。2.根据权利要求1所述的方法，其中获取所述TTS模型和所述ASR模型包括：基于所述至少一种语言的第二组配对数据来训练所述TTS模型和所述ASR模型，其中所述第二组配对数据包括来自多个说话者的所述至少一种语言的语音数据及其对应的文本数据。3.根据权利要求1所述的方法，还包括：基于所述第一组配对数据以及由经优化的所述TTS模型和所述ASR模型生成的所述目标语言的多组合成配对数据，训练目标TTS模型和目标ASR模型。4.根据权利要求3所述的方法，其中训练所述目标TTS模型包括：从所述第一组配对数据中获取与所述多个说话者中的目标说话者相关联的第三组配对数据，其中所述第三组配对数据包括来自所述目标说话者的所述目标语言的语音数据及其对应的文本数据；利用经优化的所述TTS模型来生成所述目标语言的第三组合成配对数据，其中所述第三组合成配对数据包括第三组文本数据和由经优化的所述TTS模型基于所述第三组文本数据而生成的所述目标说话者的第三组语音数据；以及基于所述第三组配对数据和所述第三组合成配对数据来训练目标TTS模型，以使得所述目标TTS模型能够基于所述目标语言的文本数据来生成与所述文本数据对应的所述目标说话者的语音数据。5.根据权利要求4所述的方法，其中基于所述第三组配对数据和所述第三组合成配对数据来训练所述目标TTS模型包括：过滤所述第三组语音数据中的不合格语音数据和所述第三组文本数据中与所述不合格语音数据对应的文本数据，以得到第四组合成配对数据；以及基于所述第三组配对数据和所述第四组合成配对数据来训练所述目标TTS模型。6.根据权利要求5所述的方法，其中所述不合格语音数据包括以下至少一项：出现词语遗漏的语音数据；出现词语重复的语音数据；以及无法理解的语音数据。7.根据权利要求5所述的方法，其中过滤所述不合格语音数据包括：过滤所述第三组语音数据中单词覆盖率(WCR)低于预定阈值的语音数据，其中所述WCR2CN113948064A权利要求书2/4页与所述语音数据出现词语遗漏或词语重复的可能性负相关。8.根据权利要求5所述的方法，其中过滤所述不合格语音数据包括：过滤所述第三组语音数据中注意力对角比(ADR)低于预定阈值的语音数据，其中所述ADR指示所述语音数据与所述第三组文本数据中用于生成所述语音数据的文本数据之间的对齐程度。9.根据权利要求3所述的方法，其中训练所述目标ASR模型包括：利用经优化的所述TTS模型来生成所述目标语言的第五组合成配对数据，其中所述第五组合成配对数据包括第三组文本数据和由经优化的所述TTS

相关资料

语音合成和语音识别.pdf

根据本公开的实现，提出了用于语音合成和语音识别的方案。根据该方案，支持至少一种语言的语音合成(TTS)模型和自动语音识别(ASR)模型被获取。基于目标语言的第一组配对数据来调整该TTS模型和ASR模型，以支持目标语言。然后，基于第一组配对数据和由ASR模型生成的该目标语言的第一组合成配对数据来优化该TTS模型，同时基于第一组配对数据和由TTS模型生成的该目标语言的第二组合成配对数据来优化该ASR模型。以此方式，该方案能够利用较少的训练数据为缺乏训练数据的语言提供具有较高准确性的TTS模型和ASR模型。

2023-07-24

763KB

语音识别装置、语音识别程序和语音识别方法.pdf

本发明的目的在于，提供一种便利性更高的语音识别装置的技术。本发明的语音识别装置的特征在于，具备：存储部，其存储使画面与该画面中的选项对应的画面定义信息和确定每个选项曾被选择的次数的选择履历信息；接触指示接受部，其通过接触的操作接受指示；语音指示接受部，其通过语音的操作接受指示；和选项朗读部，当在规定画面中限制接触指示接受部接受指示时，该选项朗读部将规定画面中的选项以与曾被选择的次数相应的顺序语音输出，语音指示接受部对通过选项朗读部输出的选项中的任一项接受指示。

2023-12-07

2.1MB

基于语音识别和语音合成的汉语语音转换技术研究的综述报告.docx

基于语音识别和语音合成的汉语语音转换技术研究的综述报告随着智能家居、智能移动设备等技术的不断发展，语音转换技术越来越受到关注。基于语音识别和语音合成的汉语语音转换技术，是其中的一个重要研究方向，本文将对其进行综述。一、语音识别技术语音识别技术（ASR）是将语音信号转化成相应的文本或命令的过程。在汉语语音转换中，语音识别技术是其中的核心部分。在汉语语音识别中，以Google为代表的商用语音识别技术是比较先进的，同时还有讯飞、百度等国内厂商推出的语音识别技术，它们的准确率和识别速度都有很大的提高。此外，汉语语

2024-09-20

10KB

人脸识别与语音合成融合系统.pdf

本发明涉及人脸识别与语音合成技术领域，是融合人脸识别与语音合成技术的人脸识别系统，包括：图像获取单元，用于采集人脸识别区域内的图像；样本训练单元，用于对采集到的样本数据并训练模型；动态识别单元，用于动态实时识别人脸；静态识别单元，用于静态识别人脸；语音合成单元，用于语音播报动态识别单元和静态识别单元识别的人脸标识；人脸识别和语音播报功能融合单元，用于实时播报识别出的人脸信息标志。本发明具有速度快，技术融合使得各项操作更加人性化和智能化。本发明直接语音播报识别结果，对于视力有问题的人，比如老人、盲人更加友好

2023-06-27

372KB

一种语音识别方法和语音识别装置.pdf

本申请实施例提供一种语音识别方法和语音识别装置，该方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对目标语音段进行语音识别处理，得到目标识别结果。这样，在对语音数据流进行加窗处理时，根据对象识别处理的结果灵活调整窗口长度，以得到不同大小的目标语音段，能够兼顾识别速度和识别效果，从而综合改善端对端语音识别场景的语音识别性能。

2023-07-25

564KB