预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113905177A(43)申请公布日2022.01.07(21)申请号202111154001.8H04N21/44(2011.01)(22)申请日2021.09.29(71)申请人北京字跳网络技术有限公司地址100190北京市海淀区紫金数码园4号楼2层0207(72)发明人黄佳斌(74)专利代理机构北京远智汇知识产权代理有限公司11659代理人范坤坤(51)Int.Cl.H04N5/232(2006.01)H04N5/262(2006.01)H04N5/265(2006.01)H04N5/272(2006.01)H04N21/439(2011.01)权利要求书2页说明书11页附图4页(54)发明名称视频生成方法、装置、设备及存储介质(57)摘要本公开实施例公开了一种视频生成方法、装置、设备及存储介质。获取原始图像及与原始图像相匹配的原始音频;对原始图像进行目标对象的分割,获得目标对象图像和背景图像;对原始音频进行重音识别,获得重音音频;对目标对象图像的尺寸按照不同的调整比例进行调整,获得多个调整后的目标对象图像;将多个调整后的目标对象图像分别与背景图像进行融合,获得多个目标图像;将多个目标图像与重音音频进行音视频编码,获得目标视频。本公开实施例提供的视频生成方法,将调整尺寸后的目标对象图像与重音音频进行音视频编码,获得目标视频,不仅可以提高视频生成的效率,且可以丰富生成视频的呈现效果。CN113905177ACN113905177A权利要求书1/2页1.一种视频生成方法,其特征在于,包括:获取原始图像及与所述原始图像相匹配的原始音频;对所述原始图像进行目标对象的分割,获得目标对象图像和背景图像;对所述原始音频进行重音识别,获得重音音频;对所述目标对象图像的尺寸按照不同的调整比例进行调整,获得多个调整后的目标对象图像;将所述多个调整后的目标对象图像分别与所述背景图像进行融合,获得多个目标图像;将所述多个目标图像与所述重音音频进行音视频编码,获得目标视频。2.根据权利要求1所述的方法,其特征在于,获取与所述原始图像相匹配的原始音频,包括:根据用户的选择操作获取与所述原始图像相匹配的原始音频;或者,识别所述原始图像的类型信息;基于所述类型信息获取与所述原始图像相匹配的原始音频。3.根据权利要求1所述的方法,其特征在于,对所述原始图像进行目标对象的分割,获得目标对象图像和背景图像,包括:对所述原始图像进行人像识别;若识别到人像,则将识别到的人像确定为目标对象;若未识别到人像,则对所述原始图像进行主体物体的识别,将识别到的主体物体确定为目标对象;将所述目标对象与背景进行分割,获得目标对象图像和背景图像。4.根据权利要求1所述的方法,其特征在于,对所述原始音频进行重音识别,获得重音音频,包括:对所述原始音频进行去噪处理;对去噪后的原始音频进行音符起始点检测,获得音符起始点;采用峰值检测算法对去噪后的原始音频的峰值进行检测,获得满足设定条件的峰值点;根据所述峰值点和所述音符起始点确定重音音频。5.根据权利要求1所述的方法,其特征在于,对所述目标对象图像的尺寸按照不同的调整比例进行调整,获得多个调整后的目标对象图像,包括:根据所述重音音频的时长确定所需的图像数量;根据所述图像数量确定调整比例的变化方式,获得多个不同的调整比例;其中,变化方式包括变化趋势以及变化步长;根据所述多个不同的调整比例分别对所述目标对象图像的尺寸进行调整,获得所述图像数量的调整后的目标对象图像。6.根据权利要求1所述的方法,其特征在于,所述重音音频包括重音起始点和重音终止点,将所述多个目标图像与所述重音音频进行编码,获得目标视频,包括:将所述多个目标图像中的首帧与所述重音起始点对齐,将所述多个目标图像中的尾帧与所述重音终止点对齐;2CN113905177A权利要求书2/2页基于对齐后的目标图像和重音音频进行音视频编码,获得目标视频。7.根据权利要求1所述的方法,其特征在于,在将所述多个目标图像与所述重音音频进行音视频编码之前,还包括:从所述多个目标图像中提取目标区域;其中,所述目标区域包含所述目标对象的部分或者全部像素点,且所述目标区域的中心点为所述目标对象的像素点;对所述目标区域执行如下至少一项处理:随机放大所述目标区域、随机缩小所述目标区域或者对所述目标区域进行镜像旋转。8.根据权利要求1所述的方法,其特征在于,对所述原始图像进行目标对象的分割,获得目标对象图像和背景图像,包括:将所述原始图像输入图像分割模型中,获得目标对象图像和背景图像;其中,所述图像分割模型包括:通道交换网络、通道切分网络及深度可分卷积网络;其中,所述深度可分卷积网络包括第一通道卷积子网络、深度卷积子网络、第二通道