预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115866332A(43)申请公布日2023.03.28(21)申请号202211503076.7(22)申请日2022.11.28(71)申请人江汉大学地址430056湖北省武汉市沌口经济技术开发区新江大路8号(72)发明人李登实王前瑞陈澳雷高雨宋昊薛童朱晨倚(74)专利代理机构北京众达德权知识产权代理有限公司11570专利代理师代春茹(51)Int.Cl.H04N21/44(2011.01)H04N21/4402(2011.01)H04N21/439(2011.01)H04N21/466(2011.01)权利要求书2页说明书12页附图3页(54)发明名称一种视频帧插帧模型的处理方法、装置以及处理设备(57)摘要本申请提供了一种视频帧插帧模型的处理方法、装置以及处理设备,用于对视频帧插帧模型的训练提供一种新的训练架构,如此训练得到的视频帧插帧模型可以更为精确地实现对待插帧视频的视频帧插帧,显著降低突兀感,可以获得更佳的滑流畅的视频播放体验。方法包括:获取样本集合,包括不同的样本视频,还包括不同的样本音频,不同的样本视频根据图像内容标注有对应的第一界标;提取不同的样本音频的MFCC;将MFCC送入BLSTM进行编码,以结合第一界标预测第二界标;提取界标差异特征;以不同的样本视频中的相邻奇数视频帧为基础,结合对应的视频特征以及对应的界标差异特征,训练神经网络模型预测相邻奇数视频帧之间的中间帧,得到视频帧插帧模型。CN115866332ACN115866332A权利要求书1/2页1.一种视频帧插帧模型的处理方法,其特征在于,所述方法包括:获取样本集合,其中,所述样本集合包括不同的样本视频,所述样本集合还包括不同的样本音频,所述不同的样本视频与所述不同的样本音频一一对应,所述不同的样本视频根据图像内容标注有对应的第一界标;提取所述不同的样本音频的音频特征频谱包络MFCC;将所述音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM进行编码,以结合所述第一界标预测第二界标;提取所述第一界标与所述第二界标之间的差异,得到界标差异特征;以所述不同的样本视频中的相邻奇数视频帧为基础,结合对应的视频特征以及对应的所述界标差异特征,训练神经网络模型预测所述相邻奇数视频帧之间的中间帧,完成模型训练后得到视频帧插帧模型,其中,所述视频帧插帧模型用于在输入的待插帧视频的基础上结合对应音频来预测所述待插帧视频中的中间帧,以实现预设帧数的视频插帧效果。2.根据权利要求1所述的方法,其特征在于,所述第一界标具体通过视频中的人脸图像特征进行配置。3.根据权利要求1所述的方法,其特征在于,所述将所述音频特征频谱包络MFCC送入双向长短时记忆网络BLSTM,以结合所述第一界标预测第二界标,包括:将所述音频特征频谱包络MFCC送入所述双向长短时记忆网络BLSTM,以提取包含上下文信息的音频特征;将所述包含上下文信息的音频特征与所述第一界标进行拼接,得到音频界标拼接结果;将所述音频界标拼接结果送入多层感知器MLP中,以预测所述第二界标,其中,所述第二界标以预测的中间帧及其两个相邻帧的三个界标为单位进行配置。4.根据权利要求1所述的方法,其特征在于,所述提取所述第一界标与所述第二界标之间的差异,得到界标差异特征,包括:通过卷积处理,提取所述第一界标以及所述第二界标的界标特征;将所述第一界标的界标特征与所述第二界标的界标特征进行拼接,得到界标特征拼接结果;对所述界标特征拼接结果使用反卷积以及Sigmoid激活函数进行处理,得到所述界标差异特征。5.根据权利要求1所述的方法,其特征在于,所述视频帧插帧模型在训练过程中采用的损失函数包括图片损失函数,具体为:其中,It为真实的中间帧图片,为预测的中间帧图片;所述视频帧插帧模型在训练过程中采用的损失函数还包括界标损失函数,具体为:其中,pi,t为已知界标,为预测的界标,N为界标点的总数,N=68,T为根据音频预测2CN115866332A权利要求书2/2页界标的总数,T=3。6.根据权利要求1所述的方法,其特征在于,所述神经网络模型的训练过程,包括:将所述相邻奇数视频帧、所述相邻奇数视频帧对应的视频特征以及所述相邻奇数视频帧对应的所述界标差异特征按照通道进行拼接,并利用三个不同的子网络估计卷积核以及偏移量;基于所述卷积核以及所述偏移量,对所述相邻奇数视频帧使用可变形卷积,其中,所述可变形卷积是指卷积核在每一个元素上额外增加一个参数方向参数;使用另一个子网络,并使用Sigmoid激活函数得到权重;根据所述权重,将两个预测的中间帧进行结合,得到最终预测的所述相邻奇数视频帧的中间帧,表示如下:其中,It为最终预测的所述相邻奇数视频帧的中间帧,为根据所述相邻奇数视频帧