语音克隆模型生成方法、装置及电子设备.pdf
雨巷****莺莺
在线预览结束,喜欢就下载吧,查找使用更方便
相关资料
语音克隆模型生成方法、装置及电子设备.pdf
本说明书实施例提供了一种语音克隆模型生成方法、装置及电子设备,其中,方法包括:构建包含多个说话人音色的语音合成音库;基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型;获取目标说话人的语音和标注,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID;在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型,利用目标说话人的语音和标注文本,进行自适应训练,得到所述目标说话人的语音合成模型。本发明可以避免由于预训练模型和目标说话人发音差异较大而导致的语音克隆效果差的现象,
语音生成方法、语音生成装置和电子设备.pdf
本申请公开了一种语音生成方法、语音生成装置和电子设备,属于通信技术领域。该语音生成方法,包括:获取第一目标对象,所述第一目标对象包括目标控件和目标标识中的至少一项;获取与所述第一目标对象关联的语音;将与所述第一目标对象关联的多段语音进行拼接,生成目标语音。
语音合成模型的生成方法、装置和电子设备.pdf
本申请实施例提供了一种语音合成模型的生成方法、装置和电子设备,方法包括:能够获取多个文本样本;对文本样本进行训练,获得第一语音合成模型,其中,第一语音合成模型包括多个卷积处理模块,每个卷积处理模块包括多个并行的卷积层;在i取1至n中的每一个整数时,确定与第i个卷积处理模块包括的多个并行卷积层等价的一个卷积层,以作为第i个目标卷积层;将第一语音合成模型的第i个卷积处理模块包括的多个并行卷积层,替换为第i个目标卷积层;当将第n个卷积处理模块包括的多个并行卷积层,替换为第n个目标卷积层时,得到第二语音合成模型。
语音生成方法、装置、电子设备.pdf
本公开提供一种语音生成方法、装置及电子设备,包括:根据目标视频的视频数据,确定视觉特征,并根据目标视频的音频数据,确定语音特征与语音特征的隐变量特征,根据视觉特征、语音特征、隐变量特征,确定目标视频的增益特征,并根据视觉特征、增益特征,确定目标视频的合成语音。本公开可以提高合成语音的生动性、自然性,以达到提升语音合成质量的效果。
语音增强模型生成方法和装置、语音增强方法和装置.pdf
本申请公开了一种语音增强模型生成方法和装置,涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括:获取样本语音信号的样本时频域谱图集,样本时频域谱图集包括至少一个样本时频域谱图;获取预先建立的深度神经网络,深度神经网络包括:平滑模块、网络模块,平滑模块用于对输入的图像进行平滑处理,得到平滑特征图;执行以下训练步骤:从样本时频域谱图集中选取样本时频域谱图,并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块;响应于确定深度神经网络满足训练完成条件,则将深度神