一种基于多模态信息融合的视频镜头自动挑选组合方法-豆柴文库

一种基于多模态信息融合的视频镜头自动挑选组合方法.pdf

2024-01-06

10金币

385KB

12页

一条****88

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共12页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115695852A(43)申请公布日2023.02.03(21)申请号202211718926.5H04N21/233(2011.01)(22)申请日2022.12.30H04N21/231(2011.01)H04N21/2187(2011.01)(71)申请人成都华栖云科技有限公司G06V10/80(2022.01)地址610000四川省成都市中国（四川）自G06V20/40(2022.01)由贸易试验区成都高新区天府五街G06V40/16(2022.01)200号4号楼A区9楼(72)发明人唐学怡余军刘盾程煜袁渊刘婷婷何翔宇(74)专利代理机构成都立新致创知识产权代理事务所(特殊普通合伙)51277专利代理师刘俊(51)Int.Cl.H04N21/234(2011.01)H04N21/2343(2011.01)权利要求书3页说明书7页附图1页(54)发明名称一种基于多模态信息融合的视频镜头自动挑选组合方法(57)摘要本发明涉及一种基于多模态信息融合的视频镜头自动挑选组合方法，属于音视频处理技术领域，首先对多机位多视频流的多模态信息进行实时的识别标记，其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选，最终通过对应策略模型的特技图文渲染来自动完成视频的生成。本发明，可以实现多机位多流的实时自动化视频生产，对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合，可以极大的提升视频内容生产效率以及减少人力资源的投入。CN115695852ACN115695852A权利要求书1/3页1.一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述自动挑选组合方法包括：步骤S1、多机位直播流注册到任务管理引擎，在注册时定义多机位直播流的多模态信息，并对多机位直播流的多模态信息进行实时识别标记；步骤S2、任务管理引擎根据每个机位直播流驱动对应的实时流录制服务，实时流录制服务将对应的直播流视频以ts分片的方式进行存储，同时生成对应的文件来记录每一个分片的GMT时间信息；步骤S3、任务管理引擎分别驱动各个模态信息分析服务，对存储的ts分片视音频文件进行分析，并将分析结果绑定上对应机位直播流的ID和GMT时间后存储到数据库中；步骤S4、当任务管理引擎接收任务时，将任务以及选择的意境模型提交给多模态信息融合策略模型管理服务，多模态信息融合策略模型管理服务中多模态信息融合策略模型通过不同意境下的策略挑选方法从数据库中选择出匹配度最高的视频分片和模型对应的特技和图文生成时间线；步骤S5、多模态信息融合策略模型管理服务将时间线提交给特技图文渲染合成服务生成成品的视频文件。2.根据权利要求1所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述步骤S1中定义多机位直播流的多模态信息包括：位置维度模态信息：通过主视角机位、背视角机位、俯视视角机位和全景视角机位来确定多机位直播流在空间位置中的布局关系；时间维度模态信息：表示多机位直播流在实时处理过程中记录下每个视频分片的GMT时间；人物模态信息：通过调用人脸检测服务来进行含有或无人物、人脸大小的检测，并通过获取到的坐标信息确定人脸在视频画面中的位置与人物方位；表情模态信息：基于人物表示识别服务获取表情识别的结果，并对特定表情进行标记，将开心和惊讶两种表情作为特定表情进行标记；文字模态信息：基于文字识别服务实现对于视频画面中的文字进行识别；动作模态信息：基于动作识别服务对直播流中的人物特定动作进行识别；语音模态信息：基于语音识别服务实现对直播流中的语音进行识别。3.根据权利要求2所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述对多机位直播流的多模态信息进行实时识别标记包括：对多机位直播流的多模态信息的待选视频片段单位进行设置：设置n秒视频片段为一个标准片段单位，两个标准片段单位组合为一个中片段单位，3n秒以上视频片段和三个相邻的标准片段单位组合为一个长片段单位；对每个待选视频片段单位的每秒视频抽一帧进行智能识别，按照投票规则进行判断，以满足3/5比例匹配模态信息特征的方式判断某视频片段满足对应的模态特征来识别待选视频片段。4.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法，其特征在于：所述满足3/5比例匹配模态信息特征的方式包括：从一个标准片段单位中以每秒抽一帧的方式抽出n张视频画面；2CN115695852A权利要求书2/3页对n张视频画面依次进行位置维度模态信息、时间维度模态信息、人物模态信息、表情模态信息、文字模态信息、动作模态信息和语音模态信息的识别，当n张视频画面中至少有3/5比例以上的画面出现了相应模态信息，则判断该标准片段

相关资料

一种基于多模态信息融合的视频镜头自动挑选组合方法.pdf

本发明涉及一种基于多模态信息融合的视频镜头自动挑选组合方法，属于音视频处理技术领域，首先对多机位多视频流的多模态信息进行实时的识别标记，其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选，最终通过对应策略模型的特技图文渲染来自动完成视频的生成。本发明，可以实现多机位多流的实时自动化视频生产，对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合，可以极大的提升视频内容生产效率以及减少人力资源的投入。

2024-01-06

385KB

一种基于视频上下文信息融合的多模态密集视频描述方法.pdf

本发明公开了一种基于视频上下文信息融合的多模态密集视频描述方法,用于处理密集视频描述任务。本发明步骤如下:步骤(1)、数据预处理,提取视频多模态数据特征;步骤(2)、建立多模态密集视频描述网络,并引入时间?语义关系模块;步骤(3)、模型训练,优化描述生成器,得到模型在视频上的文本描述;模型通过采用稀疏采样和引入时间?语义关系模块,解决了视频描述任务中普遍存在的视频信息冗余以及视频事件与事件之间关系的引入问题,从而减少了模型的计算量,提高了生成句子的连贯性与一致性。在数据集上的实验表明,通过使用这两种方法,

2023-05-25

794KB

一种基于全局信息融合的多模态医学图像融合方法.pdf

本发明公开了一种基于全局信息融合的多模态医学图像融合方法,其步骤包括:1、对原始多个模态的医学图像进行色彩空间转换和图像剪切的预处理;2、建立在多个尺度通过融合模块进行交互的模态分支网络,并建立由Transformer构成的融合模块来合并多模态特征信息;3、建立重构模块,从多尺度的多模态特征合成融合图像;4、在公开数据集上训练并评估上述模型;4、利用训练好的模型实现医学图像融合任务。本发明通过Transformer融合模块和交互式模态分支网络能充分地融合多模态的语义信息,实现细粒度的融合效果,不仅很好地保

2023-05-23

基于多模态信息融合的图像情感标注方法.docx

基于多模态信息融合的图像情感标注方法基于多模态信息融合的图像情感标注方法摘要：随着图像和多媒体数据的兴起，图像情感分析的重要性逐渐凸显。然而，由于图像是一种非结构化的数据，图像情感分析存在一定的挑战。为了解决这个问题，本文提出了一种基于多模态信息融合的图像情感标注方法。首先，我们通过文本挖掘技术从社交媒体中提取情感词汇。接着，我们利用深度学习方法提取图像的视觉特征。最后，我们使用一种融合算法将文本和图像特征进行结合，得到最终的情感标注结果。实验结果表明，我们的方法在图像情感标注任务中具有良好的性能。关键词

2024-10-20

11KB

基于多模态融合的视频语义概念检测.docx

基于多模态融合的视频语义概念检测标题：基于多模态融合的视频语义概念检测摘要：随着大数据时代的到来，视频数据的规模和复杂性呈指数级增长，如何从海量的视频数据中快速准确地捕捉语义概念成为了研究的热点。传统的基于单一模态的视频语义概念检测方法在面对复杂多样的视频数据时存在一定的局限性。因此，本文提出了一种基于多模态融合的视频语义概念检测方法，通过整合视频的视觉和语义信息，提高了检测的准确性和鲁棒性，并在多个实验数据集上进行了验证。关键词：多模态融合；视频语义概念检测；视觉信息；语义信息1.引言随着数字媒体技术的

2024-11-10

11KB