预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116030392A(43)申请公布日2023.04.28(21)申请号202310039882.1(22)申请日2023.01.13(71)申请人杭州小影创新科技股份有限公司地址310000浙江省杭州市西湖区文三路478号华星时代广场A座22(72)发明人孔德冕(74)专利代理机构杭州裕阳联合专利代理有限公司33289专利代理师吴文杰(51)Int.Cl.G06V20/40(2022.01)G06V10/74(2022.01)G06V10/774(2022.01)权利要求书2页说明书7页附图4页(54)发明名称一种移动端实时视频目标分割方法、系统及存储介质(57)摘要本申请涉及视频数据处理技术领域,公开了一种移动端实时视频目标分割方法、系统及存储介质,该方法包括:通过构建用于分割视频帧画面中指定目标掩膜图的网络模型,并对网络模型进行预训练和精度提升训练,结合特征存储器,以栈的形式将上述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储,通过解码器解码特征,输出当前帧中指定的目标掩膜图,该方法能够在移动端实时运行并对视频进行目标分割,快速稳定的提取视频中的目标分割掩膜,有效的降低了运算过程中的内存或显存的消耗,能够直接通过智能手机对视频中的目标进行分割掩膜提取,从而能够大幅降低用户的视频制作成本和业务厂商的算法运行成本。CN116030392ACN116030392A权利要求书1/2页1.一种移动端实时视频目标分割方法,其特征在于,包括:构建骨干网络、查询编码器EQ和记忆编码器EM;将当前视频帧输入查询编码器EQ得到当前视频帧特征,将先前帧和对应的预测结果输入记忆编码器EM得到指定目标的特征;1×128×H×W用两个卷积核对记忆编码器EM输出的特征进行重构,得到键值特征KM∈R和真1×128×H×W值特征VM∈R,并用两个卷积核对查询编码器EQ输出的特征进行重构,得到键值特征1×320×H×W1×320×H×WKQ∈R和真值特征VQ∈R;构建三阶段解码器D,将查询编码器EQ的第二阶段和三阶段输出的特征分别输入到三阶段解码器D的第一阶段和第二阶段中,以形成一个U型结构;获取训练数据集,并利用训练数据集对由查询编码器EQ、记忆编码器EM、三阶段解码器D和特征读取器构成的网络模型进行预训练;采用两阶段端到端的方法对所述网络模型进行精度提升训练;间隔性的使用记忆编码器EM进行目标特征提取;构建特征存储器,以栈的形式将上述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储;1×128×2×H×W1将特征存储器中存储的特征按照通道进行拼接,以得到KS∈R和VS∈R×320×2×H×W,将KS和VS输入到特征读取器中与记忆编码器特征进行匹配,以获取当前帧中的指定目标特征F;将指定目标特征F和VQ按照通道维度进行拼接,接着输入到解码器D的最后一阶段;通过解码器解码特征,输出当前帧中指定的目标掩膜图。2.根据权利要求1所述的移动端实时视频目标分割方法,其特征在于,构建骨干网络、查询编码器EQ和记忆编码器EM包括以下步骤:采用两个MobileNetv2网络去除全局池化层和全连接层后作为骨干网络;将两个MobileNetv2网络的最后一层卷积核修改为膨胀系数为2的卷积核,使查询编码器EQ和记忆编码器EM的下采样从32倍变为16倍,从而形成四阶段编码器。3.根据权利要求1所述的移动端实时视频目标分割方法,其特征在于,所述训练数据集包括图片数据和视频数据,其中,所述图片数据是利用随机仿射变换、旋转以及裁切中的一种或多种操作将图片打造成的伪视频数据。4.根据权利要求1所述的移动端实时视频目标分割方法,其特征在于,所述精度提升训练包括以下步骤:第一阶段使用若干张伪视频数据对模型进行监督训练,第二阶段使用视频数据中随机抽取间隔为N帧的若干张图片对模型进行微调,其中,N为正整数。5.根据权利要求4所述的移动端实时视频目标分割方法,其特征在于,在精度提升训练过程中全程使用交叉熵函数作为监督损失函数,即:其中,N是类别数量,yic是样本类别,pic是样本预测概率。6.根据权利要求1所述的移动端实时视频目标分割方法,其特征在于,以栈的形式将上2CN116030392A权利要求书2/2页述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储具体为:MMMM以栈的形式将记忆编码器EM提取的第一帧特征K0、V0和上一次提取的特征KT‑3、VT‑3按MMMMM照编码的先后顺序分别入栈,进行存储,当得到新的K和V后,将KT‑3和VT‑3出栈,最新的KTM和VT入栈,以始终保持栈内的特征长度为2。7.根据权利要求1所述的移动端实时视频目标分割方法,其特征在于,将KS和V