预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109446990A(43)申请公布日2019.03.08(21)申请号201811273478.6(22)申请日2018.10.30(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人袁泽寰王长虎(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06K9/00(2006.01)G06N20/00(2019.01)权利要求书2页说明书13页附图5页(54)发明名称用于生成信息的方法和装置(57)摘要本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:获取目标视频;提取所述目标视频的视频特征向量,以及,提取所述目标视频的配乐的音频特征向量;将所述视频特征向量和所述音频特征向量进行融合,生成融合特征向量;将所述融合特征向量输入至预先训练的视频类别检测模型,得到目标视频的类别检测结果。该实施方式提高了视频类别检测的准确性。CN109446990ACN109446990A权利要求书1/2页1.一种用于生成信息的方法,包括:获取目标视频;提取所述目标视频中的帧的特征,生成视频特征向量,以及,提取所述目标视频的配乐的特征,生成音频特征向量;将所述视频特征向量和所述音频特征向量进行融合,生成融合特征向量;将所述融合特征向量输入至预先训练的视频类别检测模型,得到目标视频的类别检测结果,其中,所述视频类别检测模型用于表征视频的融合特征向量与视频类别的对应关系。2.根据权利要求1所述的用于生成信息的方法,其中,所述将所述视频特征向量和所述音频特征向量进行融合,生成融合特征向量,包括:分别将所述视频特征向量和所述音频特征向量升维至目标维数;确定升维后的视频特征向量与升维后的音频特征向量的向量积;将所述向量积作为音视频特征向量,将所述音视频特征向量中的特征值按照预设特征值数量切分为多组,确定各组的特征值之和;将各组的特征值之和进行汇总,生成融合特征向量。3.根据权利要求1所述的用于生成信息的方法,其中,所述将所述视频特征向量和所述音频特征向量进行融合,生成融合特征向量,包括:将所述视频特征向量和所述音频特征向量进行拼接,生成融合特征向量。4.根据权利要求1所述的用于生成信息的方法,其中,所述提取所述目标视频中的帧的特征,以生成视频特征向量,包括:提取所述目标视频中的至少一帧;将所述至少一帧输入至预先训练的视频特征提取模型,得到所述目标视频的视频特征向量,其中,所述视频特征提取模型用于提取视频特征。5.根据权利要求1所述的用于生成信息的方法,其中,所述视频类别检测模型通过如下步骤训练得到:提取样本集,其中,所述样本集中的样本包括样本视频和用于指示样本视频的类别的标注信息;对于样本集中的样本,提取该样本中的样本视频的样本视频特征向量,以及,提取该样本中的样本视频的配乐的样本音频特征向量,将所述样本视频特征向量和所述样本音频特征向量进行融合,生成样本融合特征向量;利用机器学习方法,将样本的样本融合特征向量作为输入,将所输入的样本融合特征向量对应的标注信息作为输出,训练得到视频类别检测模型。6.一种用于生成信息的装置,包括:获取单元,被配置成获取目标视频;提取单元,被配置成提取所述目标视频中的帧的特征,生成视频特征向量,以及,提取所述目标视频的配乐的特征,生成音频特征向量;融合单元,被配置成将所述视频特征向量和所述音频特征向量进行融合,生成融合特征向量;输入单元,被配置成将所述融合特征向量输入至预先训练的视频类别检测模型,得到目标视频的类别检测结果,其中,所述视频类别检测模型用于表征视频的融合特征向量与2CN109446990A权利要求书2/2页视频类别的对应关系。7.根据权利要求6所述的用于生成信息的装置,其中,所述融合单元,包括:升维模块,被配置成分别将所述视频特征向量和所述音频特征向量升维至目标维数;确定模块,被配置成确定升维后的视频特征向量与升维后的音频特征向量的向量积;切分模块,被配置成将所述向量积作为音视频特征向量,将所述音视频特征向量中的特征值按照预设特征值数量切分为多组,确定各组的特征值之和;汇总模块,被配置成将各组的特征值之和进行汇总,生成融合特征向量。8.根据权利要求6所述的用于生成信息的装置,其中,所述融合单元,包括:拼接模块,被配置成将所述视频特征向量和所述音频特征向量进行拼接,生成融合特征向量。9.根据权利要求6所述的用于生成信息的装置,其中,所述提取单元,进一步被配置成:提取所述目标视频中的至少一帧;将所述至少一帧输入至预先训练的视频特征提取模型,得到所述目标视频的视频特征向量,其中,所述视频特征提取模