预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953645A(43)申请公布日2023.04.11(21)申请号202211617637.6G06F16/783(2019.01)(22)申请日2022.12.15G06V10/40(2022.01)(71)申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦三层(72)发明人崔东林(74)专利代理机构北京易光知识产权代理有限公司11596专利代理师阎敏王姗姗(51)Int.Cl.G06V10/774(2022.01)G06V10/80(2022.01)G06V10/82(2022.01)G06V30/18(2022.01)G06V30/19(2022.01)权利要求书4页说明书11页附图5页(54)发明名称模型训练方法、装置、电子设备及存储介质(57)摘要本公开提供了一种模型训练方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及神经网络、大数据等技术领域。具体实现方案为:将视频样本输入待训练的多模态特征提取模型,得到视频特征和文本特征;采用同一视频样本的视频特征和文本特征构建正样本,不同视频样本的视频特征和文本特征构建负样本;基于正负样本训练多模态特征提取模型的;进而采用已训练的多模态特征提取模型提取视频特征和文本特征;采用文本特征和视频特征的融合特征微调目标任务的网络模型。本公开实施例中自动标注出正负样本,能够支持采用海量数据训练多模态特征提取模型,并对下游的目标任务的网络模型进行微调即可完成训练,能够提高训练效率,节约资源。CN115953645ACN115953645A权利要求书1/4页1.一种模型训练方法,包括:将多个视频样本分别输入待训练的多模态特征提取模型,得到各视频样本的视频特征和文本特征;采用同一视频样本的视频特征和文本特征构建正样本,采用不同视频样本的视频特征和文本特征构建负样本,得到样本集;基于所述样本集,调整所述待训练的多模态特征提取模型的模型参数,在满足训练收敛条件的情况下,得到已训练的多模态特征提取模型;针对目标任务,采用所述已训练的多模态特征提取模型提取所述目标任务的训练样本的视频特征和文本特征;对所述训练样本的文本特征和所述训练样本的视频特征进行融合处理,得到融合特征;基于所述融合特征训练所述目标任务的网络模型。2.根据权利要求1所述的方法,所述待训练的多模态特征提取模型包括图片编码器和视频编码器,其中,所述将多个视频样本分别输入待训练的多模态特征提取模型,得到各视频样本的视频特征,包括:针对每个视频样本,对所述视频样本的视频进行下采样,获取帧序列;对所述帧序列中每一帧采用所述图片编码器提取图片特征;将所述帧序列的图片特征输入所述视频编码器,得到所述视频样本的视频特征。3.根据权利要求1或2所述的方法,所述待训练的多模态特征提取模型包括语音识别模型、文本摘要提取器和文本编码器,其中,所述将多个视频样本分别输入待训练的多模态特征提取模型,得到各视频样本的文本特征,包括:获取所述多个视频样本中每个视频样本的音频;将每个视频样本的音频分别输入所述语音识别模型,得到各视频样本的音频文本;将每个视频样本的音频文本分别输入所述文本摘要提取器,得到各视频样本的视频摘要文本;将每个视频样本的视频摘要文本分别输入所述文本编码器,得到各视频样本的文本特征。4.根据权利要求1‑3中任一项所述的方法,其中,所述基于所述样本集,调整所述待训练的多模态特征提取模型的模型参数,在满足训练收敛条件的情况下,得到已训练的多模态特征提取模型,包括:针对所述训练样本集中每个待处理样本,确定所述待处理样本的视频特征和文本特征之间的特征相似度;基于各待处理样本对应的特征相似度和各待处理样本的样本标签确定交叉熵损失;所述样本标签为正样本或负样本;基于所述交叉熵损失调整所述待训练的多模态特征提取模型的模型参数;在满足训练收敛条件的情况下,结束训练,得到所述已训练的多模态特征提取模型;在不满足训练收敛条件的情况下,返回执行所述将多个视频样本分别输入待训练的多模态特征提取模型,得到各视频样本的视频特征和文本特征的步骤。5.根据权利要求1‑4中任一项所述的方法,其中,所述对所述训练样本的文本特征和所2CN115953645A权利要求书2/4页述训练样本的视频特征进行融合处理,得到融合特征,包括:将所述训练样本的文本特征和所述训练样本的视频特征进行加权平均,得到所述融合特征;或者,将所述训练样本的文本特征和所述训练样本的视频特征进行拼接,得到所述融合特征。6.根据权利要求1‑5中任一项所述的方法,其中,所述基于所述融合特征训练所述目标任务的网络模型,包括:在所述目标任务为分类任务的情况下,将多层感知器作为所述目标任务的网络模型,基于分