预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114648974A(43)申请公布日2022.06.21(21)申请号202011492591.0G01S7/41(2006.01)(22)申请日2020.12.17(71)申请人南京理工大学地址210094江苏省南京市玄武区孝陵卫200号(72)发明人孙理韦益民薛彪洪弘李彧晟顾陈朱晓华(74)专利代理机构南京理工大学专利中心32203专利代理师朱炳斐(51)Int.Cl.G10L13/02(2013.01)G10L25/30(2013.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书7页附图3页(54)发明名称基于语音雷达和深度学习的语音合成方法及系统(57)摘要本发明公开了一种基于语音雷达和深度学习的语音合成方法及系统,方法包括:由雷达获得声带振动回波信号;将雷达回波信号经过模式分解获取基波,然后对基波进行中心削波作为语音激励源;由发音者发音时嘴唇区域视频通过深度学习方法训练共振峰估计模型;将测试者发音的视频作为输入,获得共振峰参数;最后基于雷达回波激励源模型和共振峰参数进行语音合成。本发明方法可以获得保留基频连续变化特性的语音激励源和更加准确的共振峰参数估计,通过语音合成器,可以获得自然度更高的合成语音。CN114648974ACN114648974A权利要求书1/3页1.一种基于语音雷达和深度学习的语音合成方法,其特征在于,所述方法包括以下步骤:步骤1,由雷达获得声带振动回波信号,依据该回波信号获取语音合成激励源;步骤2,从发音者发音时的视频中提取唇区视频和对应音频,选取从发声者张口到闭口的连续M帧视频图像作为一包输入,并提取对应音频的共振峰参数,将多个视频输入,对应共振峰参数作为标签,利用深度学习方法对嘴唇运动特征与共振峰映射关系进行训练,获得共振峰参数估计模型;步骤3,将被测试的发音者唇区视频信息作为共振峰参数估计模型的输入,获得该发音者语音的N组共振峰参数;步骤4,对步骤1获得的语音合成激励源和步骤3获得的N组共振峰参数进行语音合成,得到高自然度的合成语音信号。2.根据权利要求1所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤1所述依据雷达回波信号获取语音激励源,具体过程包括:步骤1‑1,语音雷达发送正弦连续波,接收天线接收包含声带振动信息的回波信号;步骤1‑2,对雷达回波信号进行高通滤波,去除低频直流分量及体动信息,获得信号S;步骤1‑3,利用经验小波变换算法对信号S进行模式分解,分解后的第k个模式fk(t)表示为:式中,为第k个模式经验小波变换的系数,ψk(t)为第k个模式经验小波子函数,根据合成需求,选取第一个模式f1(t),获得基波X=f1(t);步骤1‑4,根据合成需求,将基波分为m帧,对第i帧的信号X(i)进行中心削波,获得语音合成激励源;其中,中心削波的公式为:式中,C为削波电平。3.根据权利要求2所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2中深度学习方法采用改进的3D卷积神经网络,该网络包括依次设置的大小为1×1×1的点状卷积滤波器,之后是三个相并列的大小为1×3×3的卷积核、大小为3×1×1的卷积核和大小为3×3×3的卷积核,最后是一个全连接层。4.根据权利要求3所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2的具体过程包括:步骤2‑1,录制发声视频,之后进行唇区分割获得唇区视频;步骤2‑2,提取视频中麦克风录取的发音者发音时对应的语音信号,提取N组时变共振峰参数,每组包括n个共振峰参数;步骤2‑3,基于改进的3D卷积神经网络构建共振峰参数估计模型,具体为:基于步骤2‑1获得多个唇区视频数据,作为3D卷积神经网络的输入,N组共振峰参数作为对应唇区视频在3D卷积神经网络中的输出;2CN114648974A权利要求书2/3页唇区视频数据首先经过大小为1×1×1的点状卷积滤波器进行卷积,然后分为三组,分别与大小为1×3×3的卷积核卷积提取空间特征、与大小为3×1×1的卷积核卷积提取时间特征、与大小为3×3×3的卷积核进行卷积提取时空特征,接着进行通道混洗融合唇区发声视频的时空特征,最后经过一个全连接层输出N组共振峰参数;步骤2‑4,训练共振峰参数估计模型,具体为:神经网络选用Adam优化器,采用poly学习率策略更新学习率,损失函数采用RMSE函数,对不同标签损失进行综合,计算最终的损失函数为:L=(L1+L2+…+LN)/N,其中L为模型综合损失,L1、L2、…、LN分别为N组共振峰对应标签的损失。5.根据权利要求4所述的基于语音雷达和深度学习的语音合成方法,其特征在于,步骤2‑1的具体过程包括:步骤2‑1‑1,录制发音者发音时的视频,利用dli