预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109308731A(43)申请公布日2019.02.05(21)申请号201810972946.2(22)申请日2018.08.24(71)申请人浙江大学地址310058浙江省杭州市西湖区余杭塘路866号(72)发明人朱建科江泽胤子(74)专利代理机构杭州求是专利事务所有限公司33200代理人林超(51)Int.Cl.G06T13/40(2011.01)G10L21/10(2013.01)G10L21/0356(2013.01)权利要求书2页说明书4页附图3页(54)发明名称级联卷积LSTM的语音驱动唇形同步人脸视频合成算法(57)摘要本发明公开了一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法。采集目标人物的说话视频作为底板视频,对图像序列进行三维人脸重建获得目标三维人脸模型,获得底板视频的面部动画向量序列;音频信号提取出滤波器组的语音特征;将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练测试;用音频信号的面部动画向量序列替换目标三维人脸模型的面部动画向量序列生成新三维人脸模型并渲染人脸图像合成唇形同步人脸视频。本发明保留更多的声纹信息,创新通过二维卷积神经网络获取滤波器组的语音特征,扩大了卷积神经网络的感受野,增加了网络深度,获得了准确的唇形同步人脸视频。CN109308731ACN109308731A权利要求书1/2页1.一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于包括如下步骤:1)采集目标人物的说话视频作为底板视频,从对底板视频提取出图像序列和音频信号,对底板视频的图像序列进行三维人脸重建,获得目标三维人脸模型,再从目标三维人脸模型中获得对应于该底板视频的面部动画向量序列;2)针对底板视频的音频信号以及用户输入语音的音频信号或文本合成语音的音频信号,均采用特征提取方法提取出滤波器组的语音特征;3)将滤波器组的语音特征作为级联卷积长短时记忆网络的输入,以面部动画向量序列作为输出进行训练和测试;训练阶段使用从底板视频的音频信号提取的滤波器组的语音特征作为训练输入数据,底板视频的面部动画向量序列作为训练输入标签;测试阶段使用从用户输入语音的音频信号或文本合成语音的音频信号提取的滤波器组的语音特征作为测试输入数据,预测获得用户输入语音或文本合成语音的面部动画向量序列;4)用用户输入语音或文本合成语音的面部动画向量序列替换目标三维人脸模型中的面部动画向量序列,再结合三维人脸追踪方式生成新的三维人脸模型;5)使用新的三维人脸模型,渲染出人脸图像并嵌入到底板视频的图像序列中,最终合成唇形同步人脸视频。2.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤1)中的目标三维人脸模型使用了三维形变模型三维人脸重建。3.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤2)中的特征提取方法为基于滤波器组的语音特征提取方法。4.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤3)中的级联卷积长短时记忆网络结构,主要是由输入层、二维卷积层、两个级联的卷积长短时记忆网络、四个级联的全连接长短时记忆网络、三个级联的全连接层网络和输出层依次顺序连接而成;其中二维卷积层的卷积核大小为5*5且卷积核个数为32,两个级联的卷积长短时记忆网络的卷积核大小均为3*3且内部单元数分别为64和100,四个级联的全连接长短时记忆网络的单元数分别为60、100、200、300,三个级联的全连接层网络的卷积核大小分别为200、100、29;所述的级联卷积长短时记忆网络结构采用以下公式的三元组损失函数,如下:Ltri=max(0,p-α×n)其中,y是指训练时的预测面部动画向量序列,是指底板视频的面部动画向量序列,是指经随机打乱的面部动画向量序列,是将底板视频的面部动画向量序列中的各的面部动画向量随机打乱后重新排序获得的面部动画向量序列,p是指训练时的预测面部动画向量序列y和底板视频的面部动画向量序列之间的距离,n是指锚样例和负样例之间2CN109308731A权利要求书2/2页的距离,Ltri是所求的三元组损失,α是权重系数,i表示从底板视频的音频信号提取的滤波器组的语音特征的帧序数,N表示从底板视频的音频信号提取的滤波器组的语音特征的帧总数。5.根据权利要求1所述的一种级联卷积LSTM的语音驱动唇形同步人脸视频合成算法,其特征在于:所述步骤4)使用三维人脸追踪方法获得目标人物的头部姿态和光照系数,头部姿态和光照系数组成构建新的三维人脸模型。6.根据权利要求1所述级联卷积LSTM的语音驱