预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115695852A(43)申请公布日2023.02.03(21)申请号202211718926.5H04N21/233(2011.01)(22)申请日2022.12.30H04N21/231(2011.01)H04N21/2187(2011.01)(71)申请人成都华栖云科技有限公司G06V10/80(2022.01)地址610000四川省成都市中国(四川)自G06V20/40(2022.01)由贸易试验区成都高新区天府五街G06V40/16(2022.01)200号4号楼A区9楼(72)发明人唐学怡余军刘盾程煜袁渊刘婷婷何翔宇(74)专利代理机构成都立新致创知识产权代理事务所(特殊普通合伙)51277专利代理师刘俊(51)Int.Cl.H04N21/234(2011.01)H04N21/2343(2011.01)权利要求书3页说明书7页附图1页(54)发明名称一种基于多模态信息融合的视频镜头自动挑选组合方法(57)摘要本发明涉及一种基于多模态信息融合的视频镜头自动挑选组合方法,属于音视频处理技术领域,首先对多机位多视频流的多模态信息进行实时的识别标记,其次构建了一套基于不同意境的多模态信息融合策略模型来决策视频片段的挑选,最终通过对应策略模型的特技图文渲染来自动完成视频的生成。本发明,可以实现多机位多流的实时自动化视频生产,对比原来需要通过非线性编辑软件对录制的视频文件进行人工的挑选和片段组合,可以极大的提升视频内容生产效率以及减少人力资源的投入。CN115695852ACN115695852A权利要求书1/3页1.一种基于多模态信息融合的视频镜头自动挑选组合方法,其特征在于:所述自动挑选组合方法包括:步骤S1、多机位直播流注册到任务管理引擎,在注册时定义多机位直播流的多模态信息,并对多机位直播流的多模态信息进行实时识别标记;步骤S2、任务管理引擎根据每个机位直播流驱动对应的实时流录制服务,实时流录制服务将对应的直播流视频以ts分片的方式进行存储,同时生成对应的文件来记录每一个分片的GMT时间信息;步骤S3、任务管理引擎分别驱动各个模态信息分析服务,对存储的ts分片视音频文件进行分析,并将分析结果绑定上对应机位直播流的ID和GMT时间后存储到数据库中;步骤S4、当任务管理引擎接收任务时,将任务以及选择的意境模型提交给多模态信息融合策略模型管理服务,多模态信息融合策略模型管理服务中多模态信息融合策略模型通过不同意境下的策略挑选方法从数据库中选择出匹配度最高的视频分片和模型对应的特技和图文生成时间线;步骤S5、多模态信息融合策略模型管理服务将时间线提交给特技图文渲染合成服务生成成品的视频文件。2.根据权利要求1所述的一种基于多模态信息融合的视频镜头自动挑选组合方法,其特征在于:所述步骤S1中定义多机位直播流的多模态信息包括:位置维度模态信息:通过主视角机位、背视角机位、俯视视角机位和全景视角机位来确定多机位直播流在空间位置中的布局关系;时间维度模态信息:表示多机位直播流在实时处理过程中记录下每个视频分片的GMT时间;人物模态信息:通过调用人脸检测服务来进行含有或无人物、人脸大小的检测,并通过获取到的坐标信息确定人脸在视频画面中的位置与人物方位;表情模态信息:基于人物表示识别服务获取表情识别的结果,并对特定表情进行标记,将开心和惊讶两种表情作为特定表情进行标记;文字模态信息:基于文字识别服务实现对于视频画面中的文字进行识别;动作模态信息:基于动作识别服务对直播流中的人物特定动作进行识别;语音模态信息:基于语音识别服务实现对直播流中的语音进行识别。3.根据权利要求2所述的一种基于多模态信息融合的视频镜头自动挑选组合方法,其特征在于:所述对多机位直播流的多模态信息进行实时识别标记包括:对多机位直播流的多模态信息的待选视频片段单位进行设置:设置n秒视频片段为一个标准片段单位,两个标准片段单位组合为一个中片段单位,3n秒以上视频片段和三个相邻的标准片段单位组合为一个长片段单位;对每个待选视频片段单位的每秒视频抽一帧进行智能识别,按照投票规则进行判断,以满足3/5比例匹配模态信息特征的方式判断某视频片段满足对应的模态特征来识别待选视频片段。4.根据权利要求3所述的一种基于多模态信息融合的视频镜头自动挑选组合方法,其特征在于:所述满足3/5比例匹配模态信息特征的方式包括:从一个标准片段单位中以每秒抽一帧的方式抽出n张视频画面;2CN115695852A权利要求书2/3页对n张视频画面依次进行位置维度模态信息、时间维度模态信息、人物模态信息、表情模态信息、文字模态信息、动作模态信息和语音模态信息的识别,当n张视频画面中至少有3/5比例以上的画面出现了相应模态信息,则判断该标准片段