一种基于视频上下文信息融合的多模态密集视频描述方法-豆柴文库

一种基于视频上下文信息融合的多模态密集视频描述方法.pdf

2023-05-25

10金币

794KB

16页

一吃****书竹

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

相关资料

一种基于视频上下文信息融合的多模态密集视频描述方法.pdf

本发明公开了一种基于视频上下文信息融合的多模态密集视频描述方法,用于处理密集视频描述任务。本发明步骤如下:步骤(1)、数据预处理,提取视频多模态数据特征;步骤(2)、建立多模态密集视频描述网络,并引入时间?语义关系模块;步骤(3)、模型训练,优化描述生成器,得到模型在视频上的文本描述;模型通过采用稀疏采样和引入时间?语义关系模块,解决了视频描述任务中普遍存在的视频信息冗余以及视频事件与事件之间关系的引入问题,从而减少了模型的计算量,提高了生成句子的连贯性与一致性。在数据集上的实验表明,通过使用这两种方法,

2023-05-25

794KB

基于多模态信息的视频描述算法.pptx

,目录PartOnePartTwo定义和作用算法原理算法流程PartThree视觉信息音频信息文本信息信息融合方法PartFour语义理解描述语言选择描述生成算法描述优化PartFive评估指标实验设置结果分析性能对比PartSix应用场景算法优势潜在应用领域未来发展方向THANKS

2024-10-07

4.5MB

一种基于多模态信息融合的视频镜头自动挑选组合方法.pdf

本发明涉及一种基于多模态信息融合的视频镜头自动挑选组合方法，属于音视频处理技术领域，首先对多机位多视频流的多模态信息进行实时的识别标记，其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选，最终通过对应策略模型的特技图文渲染来自动完成视频的生成。本发明，可以实现多机位多流的实时自动化视频生产，对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合，可以极大的提升视频内容生产效率以及减少人力资源的投入。

2024-01-06

385KB

一种融合多粒度视频语义信息的视频文本描述方法.pdf

本发明提出了一种融合多粒度视频语义信息的视频文本描述方法,主要解决现有技术中视频语义信息不全、语义信息融合不充分和当多种语义信息存在时的信息冗余的问题。其实现方案为:1)建立数据集,并利用三种神经网络预训练模型分别提取其视频样本三层级的空间时序特征;2)搭建融合多粒度视频语义信息的视频文本描述网络,并构建其损失函数;3)对融合多粒度视频语义信息的视频文本描述网络进行训练;4)将待描述视频输入到训练好的网络中生成视频的文本描述。本发明增加了提取的视频特征种类,充分融合特征,选择合适融合特征生成文本,不仅能有

2023-05-10

508KB

一种基于门的视频上下文多模态感知特征优化方法.pdf

一种基于门的视频上下文多模态感知特征优化方法，具体步骤为，步骤一：输入RGB视频序列和光流序列；步骤二：通过外观特征提取器和运动特征提取器提取得到双模态的基础特征；步骤三：输入双流特征优化结构；步骤四：通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化，得到对应的记忆流保留优化特征；步骤五：对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联，得到对应模态的优化特征；步骤六：对RGB特征优化特征和光流特征优化特征进行通道融合，形成视频级的特征表征。

2023-11-13

744KB