模型的训练方法、语音转换方法和装置、设备及存储介质.pdf
灵波****ng
亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
模型的训练方法、语音转换方法和装置、设备及存储介质.pdf
本申请提供了一种模型的训练方法、语音转换方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取样本说话对象的样本音频数据;将样本音频数据输入至包括编码网络和解码网络的神经网络模型;通过编码网络对样本音频数据进行重构处理,得到初始音频数据;对初始音频数据进行语音对齐,得到样本音频嵌入向量;通过解码网络对样本音频嵌入向量、预先获取的样本音调参数和样本音色特征向量进行解耦处理,得到合成音频数据;通过损失函数对合成音频数据和样本语音数据进行损失计算,得到模型损失值;根据模型损失值对神经网络模型进行参数
模型的训练方法、装置、语音转换方法、设备及存储介质.pdf
本申请涉及语音处理领域,并公开了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质,所述方法包括:获取样本音频,将所述样本音频转换为样本梅尔频谱,所述样本音频包括无标签音频和有标签音频;采集噪声音频,并将所述噪声音频和所述样本梅尔频谱共同输入生成网络,得到输出梅尔频谱,所述噪声音频为无标签音频;将所述输出梅尔频谱输入判别网络,得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签;根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练,并将训练完成的
图像转换方法、模型训练方法、装置、设备和存储介质.pdf
本发明实施例提供一种图像转换方法、模型训练方法、装置、设备和存储介质,该图像转换方法包括:获取包含目标对象的第一图像,并将此图像输入图像编码网络中。将图像编码网络中的特征提取层提取出的第一图像特征作为随机噪声输入生成网络,同时将图像编码网络中的特征映射层提取出的第二图像特征作为随机潜码输入生成网络。生成网络可以根据输入的两图像特征生成包含目标对象的第二图像,且两图像的分辨率不同。通过该方案,可以实现生成的第二图像具有较高的清晰度,且其中包含的目标对象与第一图像中的目标对象具有一致性,也即是实现了图像由低分
语音识别、网络模型的训练方法、装置、设备和存储介质.pdf
本申请提供了一种语音识别、网络模型的训练方法、装置、设备和存储介质,解决了现有技术中语音识别系统识别效果较差的问题。基于初始说话人波束和多路语音信号确定第一目标说话人波束,初始说话人波束基于多路语音信号的波束成形过程得到,第一目标说话人波束指示多路语音信号各自在初始说话人波束所在方向上的声音信息;基于第一目标说话人波束和多路语音信号确定噪声波束,噪声波束指示多路语音信号中除了第一目标说话人波束之外的声音信息;基于噪声波束和唤醒波束对第一目标说话人波束进行滤波,得到第二目标说话人波束,唤醒波束指示包含唤醒词
语音识别模型的训练方法、装置、设备及存储介质.pdf
本申请实施例提供一种语音识别模型的训练方法、装置、设备及存储介质,获取多个样本语音数据;根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,每个声学特征包含多个信号帧;利用多个样本语音数据对初始声学模型进行训练,得到目标声学模型;根据目标声学模型构建语音识别模型。本申请通过关键词对应的帧级别的声学特征来构建声学模型,无需对样本语音数据进行对齐处理,训练过程相对简单,可以提升训练效率。