语音转换方法、装置、计算机设备、存储介质和程序产品-豆柴文库

语音转换方法、装置、计算机设备、存储介质和程序产品.pdf

2023-07-23

10金币

1MB

20页

春兰****89

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共20页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114627898A(43)申请公布日2022.06.14(21)申请号202210203011.4G10L15/22(2006.01)(22)申请日2022.03.02(71)申请人游密科技（深圳）有限公司地址518051广东省深圳市南山区粤海街道科技园社区科苑路16号东方科技大厦2401(72)发明人崔洋洋余俊澎(74)专利代理机构华进联合专利商标代理有限公司44224专利代理师赖舒娴(51)Int.Cl.G10L25/63(2013.01)G06V40/16(2022.01)G06V40/20(2022.01)G10L13/02(2013.01)权利要求书2页说明书12页附图5页(54)发明名称语音转换方法、装置、计算机设备、存储介质和程序产品(57)摘要本申请涉及一种语音转换方法、装置、计算机设备、存储介质和程序产品。该方法包括：获取送话方的身体语言和目标语音信息，该目标语音信息表示通过特定发声态发出的语音信息；根据身体语言，确定送话方发出目标语音信息时的情绪状态；通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息，该情感语音信息表示携带情绪状态的语音。采用本方法能够使受话方正确理解送话方耳语表达的含义。CN114627898ACN114627898A权利要求书1/2页1.一种语音转换方法，其特征在于，所述方法包括：获取送话方的身体语言和目标语音信息；所述目标语音信息表示通过特定发声态发出的语音信息；根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态；通过所述情绪状态对应的情感语音声学模型，对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息；所述情感语音信息表示携带所述情绪状态的语音。2.根据权利要求1所述的方法，其特征在于，所述身体语言包括肢体动作和面部表情；则所述根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态，包括：获取所述送话方的面部图像和肢体关键点位置信息；通过所述面部图像提取所述送话方的面部表情，通过所述肢体关键点位置信息确定所述送话方的肢体动作；根据所述面部表情和所述肢体动作，确定所述送话方的情绪状态。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：获取所述情绪状态对应的情绪标签；将所述情绪标签与各情感语音声学模型中的标签进行匹配，将匹配成功的情感语音声学模型确定为所述情感语音声学模型。4.根据权利要求1或2所述的方法，其特征在于，所述对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息，包括：对所述目标语音信息进行文本信息提取，得到所述目标语音信息的文本信息；将所述文本信息输入至所述情感语音声学模型中，得到所述目标语音信息对应的情感语音信息。5.根据权利要求4所述的方法，其特征在于，所述对所述目标语音信息进行文本信息提取，得到所述目标语音信息的文本信息，包括：提取所述目标语音信息中的关键词文本；对所述关键词文本进行扩词处理，生成所述目标语音信息的文本信息。6.根据权利要求5所述的方法，其特征在于，所述对所述关键词文本进行扩词处理，生成所述目标语音信息的文本信息，包括：对所述关键词文本进行检索分析，获得多个候选检索文本信息；根据各所述候选检索文本信息中与所述关键词文本之间相似度最高的检索文本信息，对所述关键词文本进行词语融合处理，得到所述目标语音信息的文本信息。7.根据权利要求1或2所述的方法，其特征在于，所述情感语音声学模型的构建过程包括：获取多个样本文本信息，以及各所述样本文本信息对应的携带不同情绪状态的样本情感语音信息；对各所述样本文本信息进行文本分析处理，得到多个标注样本文本信息，对各所述样本情感语音信息进行参数提取，得到各所述样本情感语音信息的声学参数；根据各所述标注样本文本信息和各所述样本情感语音信息的声学参数，训练初始情感语音声学模型，直至满足预设的收敛条件，确定所述初始情感语音声学模型收敛，得到所述2CN114627898A权利要求书2/2页情感语音声学模型。8.根据权利要求7所述的方法，其特征在于，所述收敛条件为所述初始情感语音声学模型输出的情感语音信息与对应样本情感语音信息之间的相似度大于预设相似度阈值。9.一种语音转换装置，其特征在于，所述装置包括：第一获取模块，用于获取送话方的身体语言和目标语音信息；所述目标语音信息表示通过特定发声态发出的语音信息；第一确定模块，用于根据所述身体语言，确定所述送话方发出所述目标语音信息时的情绪状态；第一处理模块，用于通过所述情绪状态对应的情感语音声学模型，对所述目标语音信息进行语音转换处理，得到所述目标语音信息对应的情感语音信息；所述情感语音信息

相关资料

语音转换方法、装置、设备、存储介质和程序产品.pdf

本申请涉及一种语音转换方法、装置、设备、存储介质和程序产品。所述方法包括：获取待转换语音数据对应的原始语义特征；通过对齐信息将所述原始语义特征对应的语音长度进行调整，获得目标语义特征；所述对齐信息为根据多个原始语义特征和对应的标准语义特征之间的映射关系生成；通过所述目标语义特征确定所述待转换语音数据转换后的目标语音数据。采用本方法能够加快语音转换速度。

2023-07-24

703KB

语音转换方法、装置、计算机设备、存储介质和程序产品.pdf

本申请涉及一种语音转换方法、装置、计算机设备、存储介质和程序产品。该方法包括：获取送话方的身体语言和目标语音信息，该目标语音信息表示通过特定发声态发出的语音信息；根据身体语言，确定送话方发出目标语音信息时的情绪状态；通过情绪状态对应的情感语音声学模型，对目标语音信息进行语音转换处理，得到目标语音信息对应的情感语音信息，该情感语音信息表示携带情绪状态的语音。采用本方法能够使受话方正确理解送话方耳语表达的含义。

2023-07-23

1MB

语音增强方法、装置、设备、存储介质和程序产品.pdf

本申请涉及一种语音增强方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取目标语音数据并确定语音增强模型，语音增强模型包括第一增强模型和第二增强模型；将目标语音数据输入至第一增强模型，得到第一增强模型输出的说话者信息；根据目标语音数据、说话者信息以及第二增强模型，获取目标语音数据对应的增强语音数据。采用本方法能够提高语音质量。

2023-07-21

776KB

语音识别方法、装置、设备、存储介质和计算机程序产品.pdf

本申请公开了一种语音识别方法、装置、设备、存储介质和计算机程序产品。本申请实施例提供的语音识别方法包括：获取待识别的第一语音；根据目标语音识别模型，确定待识别的第一语音对应的第一文本信息，其中，目标语音识别模型是通过目标词集对训练好的初始语音识别模型更新得到的，目标词集包括在预设时间段内初始语音识别模型未识别的第一关键词和/或未识别的第一关键词组合。根据本申请实施例，能够解决语音识别系统识别效率和识别准确率相对较低，影响用户使用体验的问题。

2023-07-24

381KB

语音增强方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品，涉及语音技术处理领域。该方法包括：沿频域维度对待进行语音增强的目标音频进行频带切分，得到至少两个子频带；获取至少两个子频带分别对应的子带能量数据；沿时域维度对至少两个子频带分别对应的子带能量数据进行分析，得到至少两个子频带分别对应的子带能量分布数据；当指定子频带对应的子带能量分布数据符合调整条件的情况下，对指定子频带的子带能量数据进行调整，得到目标增强音频。通过以上方式，能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整，在充分考虑目

2023-07-21

1.3MB