预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113822382A(43)申请公布日2021.12.21(21)申请号202111386191.6(22)申请日2021.11.22(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人乔延柯栾雅理吴志成张茜李婧源(74)专利代理机构深圳市精英专利事务所44242代理人李翔宇(51)Int.Cl.G06K9/62(2006.01)G06Q50/20(2012.01)权利要求书4页说明书18页附图3页(54)发明名称基于多模态特征表示的课程分类方法、装置、设备及介质(57)摘要本发明涉及人工智能领域,提供一种基于多模态特征表示的课程分类方法、装置、设备及介质,能够在增强弱模态语义特征的同时,保留弱模态语义特征的特性,有效避免特征丢失,根据模态的语义强弱进行不同模态权重的自适应学习,在视频、音频、文本多个维度上根据权重对特征进行融合,使得到的特征同时具有三个维度的信息,优化了视频课程的特征表示方式,进而提升了课程类别预测的精度,利用每个样本的融合特征训练预设分类网络,得到视频课程分类模型,利用视频课程分类模型对待分类视频课程进行分类,得到分类结果,实现对课程的准确分类。本发明还涉及区块链技术,训练得到的模型可以存储于区块链节点上。CN113822382ACN113822382A权利要求书1/4页1.一种基于多模态特征表示的课程分类方法,其特征在于,包括:采集视频课程构建带有标签的训练样本集;利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络;根据所述视频模态特征网络生成每个样本的视频模态特征,及根据所述音频模态特征网络对每个样本的音频特征分量进行增强,得到每个样本的音频模态增强特征,及根据所述文本模态特征网络对每个样本的文本特征分量进行增强,得到每个样本的文本模态增强特征;根据每个样本的视频模态特征生成每个样本的视频权重,根据每个样本的音频模态增强特征生成每个样本的音频权重,及根据每个样本的文本模态增强特征生成每个样本的文本权重;根据每个样本的视频权重、每个样本的音频权重及每个样本的文本权重对每个样本进行特征融合,得到每个样本的融合特征;获取预设分类网络,并构建所述预设分类网络的损失函数;基于所述损失函数,利用每个样本的融合特征训练所述预设分类网络,得到视频课程分类模型;获取待分类视频课程,并利用所述视频课程分类模型对所述待分类视频课程进行分类,得到分类结果。2.根据权利要求1所述的基于多模态特征表示的课程分类方法,其特征在于,所述利用所述训练样本集训练得到视频模态特征网络、音频模态特征网络及文本模态特征网络包括:确定所述训练样本集中每个样本的标签;构建所述视频模态特征网络对应的视频判别损失,构建所述音频模态特征网络对应的音频判别损失,构建所述文本模态特征网络对应的文本判别损失,及构建语义距离函数;随机抽取每个样本的预设帧,得到每个样本的视频帧;采用VGG网络对每个样本的视频帧进行特征提取,得到每个视频帧的特征表示;计算每个样本的视频帧的特征表示的平均值,得到每个样本的视频特征表示;采用PCA算法对每个样本的视频特征表示进行降维处理,得到每个样本的视频特征分量;将每个样本的视频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述视频判别损失训练第一全连接神经网络;采用去噪自编码器提取每个样本的音频特征分量;将每个样本的音频特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述音频判别损失训练第二全连接神经网络;采用Sentence2vector提取每个样本的文本特征分量;将每个样本的文本特征分量确定为输入数据,将每个样本的标签确定为输出数据,并基于所述文本判别损失训练第三全连接神经网络;当所述视频判别损失、所述音频判别损失、所述文本判别损失及所述语义距离函数都不再减小时,停止训练;2CN113822382A权利要求书2/4页将当前的第一全连接神经网络确定为所述视频模态特征网络,将当前的第二全连接神经网络确定为所述音频模态特征网络,及将当前的第三全连接神经网络确定为所述文本模态特征网络。3.根据权利要求2所述的基于多模态特征表示的课程分类方法,其特征在于,所述视频判别损失、所述音频判别损失、所述文本判别损失,及所述语义距离函数的表示如下:其中,表示所述视频判别损失,表示所述预设帧的数量,C表示样本标签类别的数量,表示样本i的标签,表示样本i在所述视频模态特征网络中输出类别j的概率;其中,表示所述音频判别损失,表示样本i在所述音频模态特征网络中输出类别j的概率;其中,表示所述文本判别损失,表示样本i在所述文本模态特征网络中