预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115883869A(43)申请公布日2023.03.31(21)申请号202211502343.9G06N3/08(2023.01)(22)申请日2022.11.28H04N21/234(2011.01)H04N21/2343(2011.01)(71)申请人江汉大学H04N21/439(2011.01)地址430056湖北省武汉市沌口经济技术H04N21/44(2011.01)开发区新江大路8号H04N21/4402(2011.01)(72)发明人李登实王前瑞陈澳雷高雨宋昊薛童朱晨倚(74)专利代理机构北京众达德权知识产权代理有限公司11570专利代理师代春茹(51)Int.Cl.H04N21/233(2011.01)G06N3/0464(2023.01)G06N3/0455(2023.01)G06N3/047(2023.01)权利要求书3页说明书13页附图3页(54)发明名称基于SwinTransformer的视频帧插帧模型的处理方法、装置及处理设备(57)摘要本申请提供了基于SwinTransformer的视频帧插帧模型的处理方法、装置以及处理设备,用于对视频帧插帧模型的训练提供一种新颖的训练架构,如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧,显著降低突兀感,可以获得更加丝滑流畅的视频播放体验。CN115883869ACN115883869A权利要求书1/3页1.一种基于SwinTransformer的视频帧插帧模型的处理方法,其特征在于,所述方法包括:获取样本集合,其中,所述样本集合包括不同的样本视频,所述样本集合还包括不同的样本音频,所述不同的样本视频与所述不同的样本音频一一对应;提取所述不同的样本音频的音频特征,其中,所述音频特征包括频谱包络MFCC、频域特征FBANK、基频pitch和清音特征;对所述音频特征进行编码,得到高阶音频特征;通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征,其中,每一层所述神经网络输出一层所述视频帧时空特征;以所述不同的样本视频中的相邻奇数视频帧为基础,结合对应三层的所述视频帧时空特征以及所述高阶音频特征,训练神经网络模型预测所述相邻奇数视频帧之间的中间帧,完成模型训练后得到视频帧插帧模型,其中,所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧,以实现预设帧数的视频插帧效果。2.根据权利要求1所述的方法,其特征在于,所述对所述音频特征进行编码,得到高阶音频特征,包括:使用1D卷积层对所述不同的样本音频进行卷积处理,得到卷积结果;对所述卷积结果通过5层的Transformer编码器进行编码,并使用全连接层进行特征映射,得到所述高阶音频特征。3.根据权利要求1所述的方法,其特征在于,所述通过三层基于SwinTransformer的神经网络提取所述样本视频三层的视频帧时空特征,包括:在基于所述SwinTransformer的编码器中,对所述不同样本视频中的相邻奇数视频帧进行卷积处理,得到图片特征;将所述图片特征沿中间切分为大小相同的四个部分,对所述四个部分分别计算注意力以得到包含局部空间信息的第一空间特征,再将所述四个部分进一步拆分并交换位置,得到新的大小相同的四个部分,重新计算新的局部注意力特征,以得到包含所述局部空间信息和全局空间信息的第二空间特征;对所述不同样本视频中的相邻奇数视频帧按照时间维度进行拼接,根据像素点个数对拼接结果进行拆分,计算所述第一特征和所述第二特征对应像素点之间的时间注意力特征;将通过所述基于SwinTransformer的编码器四次同样处理得到的四层的时空特征,使用三层基于所述SwinTransformer的解码器进行解码,得到三层的所述视频帧时空特征,其中,所述时空特征包括所述第一空间特征、所述第二空间特征和所述时间注意力特征,第一层的所述时间特征通过第一层的解码器进行解码,第二层的所述时间特征通过第二层的解码器进行解码,第三层的所述时间特征和第四层的所述时空特征通过第三层的解码器进行解码。4.根据权利要求3所述的方法,其特征在于,所述视频帧插帧模型预测所述相邻奇数视频帧之间的中间帧的过程中,包括:针对所述相邻奇数视频帧对应的每一层的所述视频帧时空特征,使用全连接层进行特2CN115883869A权利要求书2/3页征映射,得到特征映射结果;将所述特征映射结果和对应层的所述高阶音频特征进行相加,并用另外的全连接层进行特征映射,继续用softmax层进行归一化,得到新的特征映射结果,将所述新的特征映射结果与所述特征映射结果相乘再加所述特征映射结果,得到融合特征,每一层的融合特征作为对应层预测的中间