预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113934890A(43)申请公布日2022.01.14(21)申请号202111538104.4(22)申请日2021.12.16(71)申请人之江实验室地址311100浙江省杭州市余杭区中泰街道之江实验室新园区一期西区8号楼(72)发明人马诗洁王俊彦(74)专利代理机构杭州浙科专利事务所(普通合伙)33213代理人孙孟辉(51)Int.Cl.G06F16/783(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)H04N19/124(2014.01)权利要求书3页说明书8页附图5页(54)发明名称一种自动文字生成场景视频的方法及系统(57)摘要本发明涉及视频制作领域,尤其涉及一种自动文字生成场景视频的方法及系统,该系统包括:构图逻辑生成模块,用于根据输入的文本描述,生成构图的构图模板图像;图像内容生成模块,输入为构图逻辑生成模块生成的构图模板图像,输出为渲染后的实景图;图像动态化模块,将图像内容生成模块输出的实景图,变换为连续的多帧图像,生成动态视频。本发明基于自然语言预训练模型和计算机视觉技术,通过给定的语言输入自动生成短视频,而不需要第三方人工干预,大大提高了短视频制作的效率,同时生成的短视频具有真实性和多样性,保证了生成视频的质量和视频素材的新颖。CN113934890ACN113934890A权利要求书1/3页1.一种自动文字生成场景视频的方法,其特征在于,包括以下步骤:步骤一:通过矢量量化变分自动编码器VQ‑VAE,将构图模板图像进行压缩和量化操作,生成图像编码向量和图像token;步骤二:对输入的语言描述通过预训练神经网络语言模型进行编码,得到词向量和token;步骤三:将步骤一中的图像编码向量展平后与步骤二中的词向量进行拼接后输入GPT模型中进行自回归训练,建立语言和构图模板图像直接的关系,建模关系后输入一句语言描述,生成对应的构图模板图像;步骤四:基于风格迁移GAN网络将步骤三生成的语构图模板图像生成实景图;步骤五:基于图像动态化GAN网络将步骤四生成的实景图生成后续的一系列图像帧,生成视频。2.如权利要求1所述的一种自动文字生成场景视频的方法,其特征在于,所述步骤一,具体为:将构图模板图像送入训练好的矢量量化变分自动编码器VQ‑VAE中,转换为离散隐性空间的序列,离散编码后为个维度为d的图像编码向量和图像编码token,。3.如权利要求2所述的一种自动文字生成场景视频的方法,其特征在于,所述矢量量化变分自动编码器VQ‑VAE主要分为三个模块,Encoder,codebook和Decoder模块,其中,Encoder模块对输入的构图模板图像进行编码,Decoder模块将构图模板图像进行解码,两者共用codebook模块,具体的,Encoder将图像编码成,中的向量根据它和coodbook向量之间的欧式距离进行量化,即通过最近邻查表的方法在codebook中找到最近的向量,将转化成距离它最近的离散编码e,即输出为个维度为d的图像编码向量及对应的token,,并将送入Decoder模块,解码生成构图模板图像。4.如权利要求3所述的一种自动文字生成场景视频的方法,其特征在于,所述矢量量化变分自动编码器VQ‑VAE的训练方式为:采用语义分割图像作为训练数据集,通过Adam随机梯度反向传播算法降低VQ‑VAE训练损失函数值,得到模型最优参数。5.如权利要求3所述的一种自动文字生成场景视频的方法,其特征在于,所述步骤二,具体为:对输入的语言描述通过预训练神经网络语言模型进行编码,生成k个词向量,,和k个词token,。6.如权利要求5所述的一种自动文字生成场景视频的方法,其特征在于,所述步骤三,具体为包括以下步骤:(3.1)将个图像编码向量展平,生成g个图像编码向量,其中,g为固定值,对g个图像编码向量加上positionembedding;2CN113934890A权利要求书2/3页(3.2)将k个词向量和g个图像编码向量进行拼接操作,将文本和图像也进行拼接操作,生成个嵌入表示向量;(3.4)将f个向量,送入GPT模型中进行自回归训练,建立文本词向量和图像编码向量之间的关系,其中,GPT模型的训练具体为:训练集为f个编码向量及其对应的图像及词token,将f个编码向量送入GPT模型中,GPT模型根据前面输入的向量来预测下一个应该出现的token,通过随机梯度下降反向传播算法降低softmax分类损失函数;预测时,将语言输入的词向量输入GPT模型,逐步预测构图图像压缩编码token,将生成的token送入codebook中找到对应的向量,再将形成的压缩编码向量图送入Decoder模块中生成构图模板图像。7.