一种移动端实时视频目标分割方法、系统及存储介质-豆柴文库

一种移动端实时视频目标分割方法、系统及存储介质.pdf

2023-05-25

10金币

1.7MB

14页

是雁****找我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116030392A(43)申请公布日2023.04.28(21)申请号202310039882.1(22)申请日2023.01.13(71)申请人杭州小影创新科技股份有限公司地址310000浙江省杭州市西湖区文三路478号华星时代广场A座22(72)发明人孔德冕(74)专利代理机构杭州裕阳联合专利代理有限公司33289专利代理师吴文杰(51)Int.Cl.G06V20/40(2022.01)G06V10/74(2022.01)G06V10/774(2022.01)权利要求书2页说明书7页附图4页(54)发明名称一种移动端实时视频目标分割方法、系统及存储介质(57)摘要本申请涉及视频数据处理技术领域，公开了一种移动端实时视频目标分割方法、系统及存储介质，该方法包括：通过构建用于分割视频帧画面中指定目标掩膜图的网络模型，并对网络模型进行预训练和精度提升训练，结合特征存储器，以栈的形式将上述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储，通过解码器解码特征，输出当前帧中指定的目标掩膜图，该方法能够在移动端实时运行并对视频进行目标分割，快速稳定的提取视频中的目标分割掩膜，有效的降低了运算过程中的内存或显存的消耗，能够直接通过智能手机对视频中的目标进行分割掩膜提取，从而能够大幅降低用户的视频制作成本和业务厂商的算法运行成本。CN116030392ACN116030392A权利要求书1/2页1.一种移动端实时视频目标分割方法，其特征在于，包括：构建骨干网络、查询编码器EQ和记忆编码器EM；将当前视频帧输入查询编码器EQ得到当前视频帧特征，将先前帧和对应的预测结果输入记忆编码器EM得到指定目标的特征；1×128×H×W用两个卷积核对记忆编码器EM输出的特征进行重构，得到键值特征KM∈R和真1×128×H×W值特征VM∈R，并用两个卷积核对查询编码器EQ输出的特征进行重构，得到键值特征1×320×H×W1×320×H×WKQ∈R和真值特征VQ∈R；构建三阶段解码器D，将查询编码器EQ的第二阶段和三阶段输出的特征分别输入到三阶段解码器D的第一阶段和第二阶段中，以形成一个U型结构；获取训练数据集，并利用训练数据集对由查询编码器EQ、记忆编码器EM、三阶段解码器D和特征读取器构成的网络模型进行预训练；采用两阶段端到端的方法对所述网络模型进行精度提升训练；间隔性的使用记忆编码器EM进行目标特征提取；构建特征存储器，以栈的形式将上述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储；1×128×2×H×W1将特征存储器中存储的特征按照通道进行拼接，以得到KS∈R和VS∈R×320×2×H×W，将KS和VS输入到特征读取器中与记忆编码器特征进行匹配，以获取当前帧中的指定目标特征F；将指定目标特征F和VQ按照通道维度进行拼接，接着输入到解码器D的最后一阶段；通过解码器解码特征，输出当前帧中指定的目标掩膜图。2.根据权利要求1所述的移动端实时视频目标分割方法，其特征在于，构建骨干网络、查询编码器EQ和记忆编码器EM包括以下步骤：采用两个MobileNetv2网络去除全局池化层和全连接层后作为骨干网络；将两个MobileNetv2网络的最后一层卷积核修改为膨胀系数为2的卷积核，使查询编码器EQ和记忆编码器EM的下采样从32倍变为16倍，从而形成四阶段编码器。3.根据权利要求1所述的移动端实时视频目标分割方法，其特征在于，所述训练数据集包括图片数据和视频数据，其中，所述图片数据是利用随机仿射变换、旋转以及裁切中的一种或多种操作将图片打造成的伪视频数据。4.根据权利要求1所述的移动端实时视频目标分割方法，其特征在于，所述精度提升训练包括以下步骤：第一阶段使用若干张伪视频数据对模型进行监督训练，第二阶段使用视频数据中随机抽取间隔为N帧的若干张图片对模型进行微调，其中，N为正整数。5.根据权利要求4所述的移动端实时视频目标分割方法，其特征在于，在精度提升训练过程中全程使用交叉熵函数作为监督损失函数，即：其中，N是类别数量，yic是样本类别，pic是样本预测概率。6.根据权利要求1所述的移动端实时视频目标分割方法，其特征在于，以栈的形式将上2CN116030392A权利要求书2/2页述记忆编码器EM连续提取的两次特征按照编码的先后顺序分别入栈进行存储具体为：MMMM以栈的形式将记忆编码器EM提取的第一帧特征K0、V0和上一次提取的特征KT‑3、VT‑3按MMMMM照编码的先后顺序分别入栈，进行存储，当得到新的K和V后，将KT‑3和VT‑3出栈，最新的KTM和VT入栈，以始终保持栈内的特征长度为2。7.根据权利要求1所述的移动端实时视频目标分割方法，其特征在于，将KS和V

相关资料

一种移动端实时视频目标分割方法、系统及存储介质.pdf

本申请涉及视频数据处理技术领域，公开了一种移动端实时视频目标分割方法、系统及存储介质，该方法包括：通过构建用于分割视频帧画面中指定目标掩膜图的网络模型，并对网络模型进行预训练和精度提升训练，结合特征存储器，以栈的形式将上述记忆编码器E

2023-05-25

1.7MB

视频的目标分割方法、系统、终端及存储介质.pdf

本发明公开了视频的目标分割方法、系统、终端及存储介质，该方法包括：根据过往分割结果确定待分割视频帧关联的过往帧特征；根据所述过往分割结果，以及时序处于所述待分割视频帧之后的未分割视频帧，确定所述待分割视频帧关联的时空全局特征；基于所述时空全局特征以及所述过往帧特征，生成所述待分割视频帧对应的分割结果。通过本申请的技术方案提高视频分割效果。

2023-07-22

592KB

一种移动播放端实时视频画质增强方法及系统.pdf

本发明公开了一种移动播放端实时视频画质增强方法及系统，解码视频流数据，得到RGB图像数据；对RGB图像数据进行图像分区，将图像分成四类区域：边缘区域且在保护区域内、非边缘区域且在保护区域内、边缘区域且在非保护区域内、非边缘区域且在非保护区域内，分别标记为P

2023-12-04

941KB

一种图像快速校准与实时渲染方法、系统、介质及移动端.pdf

本发明属于地理信息技术与图像处理技术领域，公开了一种图像快速校准与实时渲染方法、系统、介质及移动端。移动端将本地图像与遥感影像底图进行同时显示以及非同步缩放叠加渲染；服务端接收到移动端上传的本地图像及连接点匹配文件的坐标后，进行本地图像的配准；本地图像配准后在服务器端进行瓦片切图与服务发布；发布后的服务在移动端设备上实时渲染。本发明具有简易的操作性，很强的实用性。仅需移动端设备，不需要其他的工具，就能够完成自动图像校正、瓦片切图、服务发布的过程。本发明在野外调查时将本地图像的上传后立刻就能在移动端查看校正

2024-01-06

767KB

视频目标分割方法、装置、服务器及存储介质.pdf

本公开提供了一种视频目标分割方法、装置、服务器及存储介质，属于人工智能技术领域。所述方法包括：根据第一时间特征图、第一单词特征图及第一空间特征图，对第一时间特征图和第一空间特征图进行更新，得到第二时间特征图和第二空间特征图；对第二空间特征图和第二时间特征图进行解码，得到解码时间特征图和解码空间特征图；基于解码时间特征图、解码空间特征图及文本描述信息的语句特征图，生成以目标对象为主体的目标图像。本公开以文本描述信息为桥接，对第一空间特征图和第一时间特征图进行更新，使得更新后的第二空间特征图和第二时间特征图能

2023-07-21

980KB