语音生成方法、装置、电子设备及可读存储介质-豆柴文库

语音生成方法、装置、电子设备及可读存储介质.pdf

2023-07-25

10金币

1.2MB

37页

书生****瑞梦

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共37页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113628608A(43)申请公布日2021.11.09(21)申请号202010415450.2G10L25/30(2013.01)(22)申请日2020.05.15(66)本国优先权数据202010379398.X2020.05.07CN(71)申请人北京三星通信技术研究有限公司地址100028北京市朝阳区太阳宫中路12号楼15层1503申请人三星电子株式会社(72)发明人刘若澜卢春晖陈萧文学楼晓雁(74)专利代理机构北京市立方律师事务所11330代理人张筱宁张海秀(51)Int.Cl.G10L13/02(2013.01)权利要求书3页说明书24页附图9页(54)发明名称语音生成方法、装置、电子设备及可读存储介质(57)摘要本申请实施例提供了一种语音生成方法、装置、电子设备及可读存储介质，同时，由电子设备执行的上述语音生成方法可以使用人工智能模型来执行。而该语音生成方法包括：获取待处理信息；对待处理信息进行编码，得到信息编码结果；基于信息编码结果，生成目标用户对应于目标语言的语音信息。在本申请实施例中，由于在生成语音信息时，是基于目标用户的语音特征、信息编码结果以及目标语言特征来生成的，即在生成语音信息时，考虑到了目标用户的声音特色以及目标语言的语言特征，此时可以保证合成的语音信息与目标用户在说目标语言时的音色更加贴合，提升了语音合成的效果。CN113628608ACN113628608A权利要求书1/3页1.一种语音生成方法，其特征在于，包括：获取待处理信息；对所述待处理信息进行编码，得到信息编码结果；基于所述信息编码结果，生成目标用户对应于目标语言的语音信息。2.根据权利要求1所述的方法，其特征在于，若所述待处理信息为待处理文本，所述基于所述信息编码结果，生成目标用户对应于目标语言的语音信息，包括：获取所述待处理文本的音调特征；基于所述音调特征和所述信息编码结果，生成目标用户对应于目标语言的语音信息。3.根据权利要求1所述的方法，其特征在于，若所述待处理信息为待处理文本，所述对所述待处理信息进行编码，得到信息编码结果，包括：获取所述待处理文本对应的音素特征；对所述音素特征进行文本编码，得到文本编码结果。4.根据权利要求3所述的方法，其特征在于，所述对音素特征进行文本编码，得到文本编码结果，包括：获取所述待处理文本对应的音调特征；对所述音调特征和所述音素特征进行文本编码，得到所述文本编码结果。5.根据权利要求1所述的方法，其特征在于，若所述待处理信息为待处理语音信息，所述对所述待处理信息进行编码，得到信息编码结果，包括：获取所述待处理语音信息对应的音素后验概率；对所述音素后验概率进行编码，得到信息编码结果。6.根据权利要求5所述的方法，其特征在于，所述获取所述待处理语音信息对应的音素后验概率，包括：获取所述待处理语音信息对应于每种候选语言的音素后验概率；将对应于每种候选语言的音素后验概率进行拼接，得到所述待处理语音信息对应的音素后验概率。7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法是通过语音生成模型实现的，其中，所述语音生成模型是通过下列方式得到的：获取初始神经网络模型和训练数据，所述训练数据包括各训练样本对，所述训练样本对包括样本输入信息、该样本输入信息对应的样本输出语音信息和样本用户信息标签；其中，所述初始神经网络模型包括初始语音生成模型和初始用户信息分类模块，所述初始语音生成模型包括初始编码模块和初始语音生成模块，初始用户信息分类模块与初始编码模块连接，所述初始编码模块用于对输入信息进行编码，得到样本信息编码结果，所述初始语音生成模块用于基于样本信息编码结果，得到预测语音信息，所述初始用户信息分类模块用于基于样本信息编码结果，得到预测用户信息；基于所述训练数据对所述初始神经网络模型进行训练，直至所述初始神经网络对应的总损失函数收敛，得到训练后的初始神经网络模型，将训练后的初始语音生成模型作为所述语音生成模型；其中，所述总损失函数包括第一损失函数和第二损失函数，所述第一损失函数的值表征了所述输入信息所对应的预测语音信息和样本输出语音信息之间的差异，所述第二失函2CN113628608A权利要求书2/3页数的值表征了所述样本输入信息所对应的预测用户信息和样本用户信息标签之间的差异。8.根据权利要求7所述的方法，其特征在于，所述初始神经网络模型还包括与所述初始编码模块连接的音调分类器，对于所述训练样本对，所述训练样本对还包括样本输入信息对应的样本音调特征；所述音调分类器用于基于样本信息编码结果，得到预测音调特征；所述总损失函数还包括第三损失函数，所述第三损失函数的值表征了所述预测音调特征和所述样本音调特征之间的差异。9.根据

相关资料

语音生成方法、装置、电子设备及可读存储介质.pdf

本申请实施例提供了一种语音生成方法、装置、电子设备及可读存储介质，同时，由电子设备执行的上述语音生成方法可以使用人工智能模型来执行。而该语音生成方法包括：获取待处理信息；对待处理信息进行编码，得到信息编码结果；基于信息编码结果，生成目标用户对应于目标语言的语音信息。在本申请实施例中，由于在生成语音信息时，是基于目标用户的语音特征、信息编码结果以及目标语言特征来生成的，即在生成语音信息时，考虑到了目标用户的声音特色以及目标语言的语言特征，此时可以保证合成的语音信息与目标用户在说目标语言时的音色更加贴合，提升

2023-07-25

1.2MB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元；提取每个帧单元的梅尔倒谱特征和基频特征；将帧单元归类到相应的音素集合；根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数，计算得到输出梅尔倒谱特征；根据输入语音帧单元基频，原始音素集合的基频特征和目标语音素集合的基频特征，计算得到输出基频；根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点，还弥补整体训练的高斯混合模

2023-06-25

1MB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元；提取每个所述待转换帧单元的梅尔倒谱特征；根据音素字典及每个待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到目标帧单元；计算转换代价，得到最佳路径；对最佳路径上的目标帧单元进行处理，得到目标语音。该方法在音素字典中计算得到多个候选帧单元，相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度，同时将传统

2023-06-25

1.3MB

生成视频的方法、装置、电子设备及可读存储介质.pdf

本公开关于一种生成视频的方法、装置、电子设备及可读存储介质，属于多媒体技术领域。方法包括：获取视频模板的配置文件，配置文件用于描述视频模板的一个或多个参考素材，以及每个参考素材对应的动画特效。解析配置文件，根据解析后的配置文件获取一个或多个参考素材。获取目标素材，根据目标素材替换一个或多个参考素材，得到一个或多个替换后的参考素材。根据解析后的配置文件渲染一个或多个替换后的参考素材，生成具有动画特效的目标视频。本公开可基于用户上传的目标素材生成具有动画特效的目标视频，因而用户无需手动添加动画特效，从而简化了

2024-01-06

609KB

语音生成方法及装置、存储介质、电子设备.pdf

本公开属于语音处理技术领域，涉及一种语音生成方法及装置、存储介质、电子设备。该方法包括：获取待处理语音的语音特征向量，并将语音特征向量输入至语音生成模型得到语言单元向量；获取文本特征向量，并根据文本特征向量和语言单元向量确定待处理特征向量；将待处理特征向量输入至序列到序列模型中得到声学特征向量，并将声学特征向量输入至声码器得到与待处理语音或文本特征向量对应的目标语音。本公开接收语音和文本作为输入，将语音合成任务和语音音色转换任务融合起来，提升了语音合成任务和语音音色转换任务的性能，提供了多种音色克隆的策略

2023-07-21

1.2MB