模型训练方法、装置、电子设备及存储介质-豆柴文库

模型训练方法、装置、电子设备及存储介质.pdf

2023-06-02

10金币

924KB

21页

志信****pp

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953645A(43)申请公布日2023.04.11(21)申请号202211617637.6G06F16/783(2019.01)(22)申请日2022.12.15G06V10/40(2022.01)(71)申请人百度在线网络技术(北京)有限公司地址100085北京市海淀区上地十街10号百度大厦三层(72)发明人崔东林(74)专利代理机构北京易光知识产权代理有限公司11596专利代理师阎敏王姗姗(51)Int.Cl.G06V10/774(2022.01)G06V10/80(2022.01)G06V10/82(2022.01)G06V30/18(2022.01)G06V30/19(2022.01)权利要求书4页说明书11页附图5页(54)发明名称模型训练方法、装置、电子设备及存储介质(57)摘要本公开提供了一种模型训练方法、装置、电子设备及存储介质，涉及人工智能领域，尤其涉及神经网络、大数据等技术领域。具体实现方案为：将视频样本输入待训练的多模态特征提取模型，得到视频特征和文本特征；采用同一视频样本的视频特征和文本特征构建正样本，不同视频样本的视频特征和文本特征构建负样本；基于正负样本训练多模态特征提取模型的；进而采用已训练的多模态特征提取模型提取视频特征和文本特征；采用文本特征和视频特征的融合特征微调目标任务的网络模型。本公开实施例中自动标注出正负样本，能够支持采用海量数据训练多模态特征提取模型，并对下游的目标任务的网络模型进行微调即可完成训练，能够提高训练效率，节约资源。CN115953645ACN115953645A权利要求书1/4页1.一种模型训练方法，包括：将多个视频样本分别输入待训练的多模态特征提取模型，得到各视频样本的视频特征和文本特征；采用同一视频样本的视频特征和文本特征构建正样本，采用不同视频样本的视频特征和文本特征构建负样本，得到样本集；基于所述样本集，调整所述待训练的多模态特征提取模型的模型参数，在满足训练收敛条件的情况下，得到已训练的多模态特征提取模型；针对目标任务，采用所述已训练的多模态特征提取模型提取所述目标任务的训练样本的视频特征和文本特征；对所述训练样本的文本特征和所述训练样本的视频特征进行融合处理，得到融合特征；基于所述融合特征训练所述目标任务的网络模型。2.根据权利要求1所述的方法，所述待训练的多模态特征提取模型包括图片编码器和视频编码器，其中，所述将多个视频样本分别输入待训练的多模态特征提取模型，得到各视频样本的视频特征，包括：针对每个视频样本，对所述视频样本的视频进行下采样，获取帧序列；对所述帧序列中每一帧采用所述图片编码器提取图片特征；将所述帧序列的图片特征输入所述视频编码器，得到所述视频样本的视频特征。3.根据权利要求1或2所述的方法，所述待训练的多模态特征提取模型包括语音识别模型、文本摘要提取器和文本编码器，其中，所述将多个视频样本分别输入待训练的多模态特征提取模型，得到各视频样本的文本特征，包括：获取所述多个视频样本中每个视频样本的音频；将每个视频样本的音频分别输入所述语音识别模型，得到各视频样本的音频文本；将每个视频样本的音频文本分别输入所述文本摘要提取器，得到各视频样本的视频摘要文本；将每个视频样本的视频摘要文本分别输入所述文本编码器，得到各视频样本的文本特征。4.根据权利要求1‑3中任一项所述的方法，其中，所述基于所述样本集，调整所述待训练的多模态特征提取模型的模型参数，在满足训练收敛条件的情况下，得到已训练的多模态特征提取模型，包括：针对所述训练样本集中每个待处理样本，确定所述待处理样本的视频特征和文本特征之间的特征相似度；基于各待处理样本对应的特征相似度和各待处理样本的样本标签确定交叉熵损失；所述样本标签为正样本或负样本；基于所述交叉熵损失调整所述待训练的多模态特征提取模型的模型参数；在满足训练收敛条件的情况下，结束训练，得到所述已训练的多模态特征提取模型；在不满足训练收敛条件的情况下，返回执行所述将多个视频样本分别输入待训练的多模态特征提取模型，得到各视频样本的视频特征和文本特征的步骤。5.根据权利要求1‑4中任一项所述的方法，其中，所述对所述训练样本的文本特征和所2CN115953645A权利要求书2/4页述训练样本的视频特征进行融合处理，得到融合特征，包括：将所述训练样本的文本特征和所述训练样本的视频特征进行加权平均，得到所述融合特征；或者，将所述训练样本的文本特征和所述训练样本的视频特征进行拼接，得到所述融合特征。6.根据权利要求1‑5中任一项所述的方法，其中，所述基于所述融合特征训练所述目标任务的网络模型，包括：在所述目标任务为分类任务的情况下，将多层感知器作为所述目标任务的网络模型，基于分

相关资料

模型训练方法、装置、电子设备及存储介质.pdf

本申请提供一种模型训练方法和装置,该方法包括:获取原始数据集和多个样本集;获取每个样本集中的训练节点关系图以及训练节点及其邻接节点的训练特征向量作为输入值;将输入值输入多层感知器,并利用多层感知器卷积公式聚合,使得在第k次聚合中利用每个训练节点及其邻接节点在第k?1次聚合得到的向量表示,获得每个训练节点在第k次聚合后的向量表示,并且将预定次数聚合后的向量表示输出为每个训练节点的输出值;针对每个样本集,利用输入值和输出值进行模型修正,获得每个样本集的子模型;以及对子模型进行模型融合以获得图神经网络模型。本申

2023-05-18

1.3MB

模型训练方法、装置、电子设备及存储介质.pdf

2023-05-24

1.3MB

模型训练方法、装置、电子设备及存储介质.pdf

本申请提供一种模型训练方法、装置、电子设备及存储介质，涉及信息处理技术领域，用于提高神经网络模型预测多个出行指标的预测准确度。该方法包括：获取目标用户的样本数据；将样本数据输入预设神经网络模型中，预测目标用户在第二时间段的多个出行指标中每个出行指标的预测准确度；第二时间段为第一时间段后的时间段；根据每个出行指标的预测准确度，以及每个出行指标的预测准确度对应的第一权重值，确定预设神经网络模型的预测准确度；根据预设神经网络模型的预测准确度，确定用户出行预测模型。这样，依据每个出行指标的预测准确度和权重值调整神

2023-07-25

1.2MB

模型训练方法、装置、电子设备及存储介质.pdf

本公开提供了一种模型训练方法、装置、电子设备及存储介质，涉及人工智能领域，尤其涉及神经网络、大数据等技术领域。具体实现方案为：将视频样本输入待训练的多模态特征提取模型，得到视频特征和文本特征；采用同一视频样本的视频特征和文本特征构建正样本，不同视频样本的视频特征和文本特征构建负样本；基于正负样本训练多模态特征提取模型的；进而采用已训练的多模态特征提取模型提取视频特征和文本特征；采用文本特征和视频特征的融合特征微调目标任务的网络模型。本公开实施例中自动标注出正负样本，能够支持采用海量数据训练多模态特征提取模

2023-06-02

924KB

模型训练方法、装置、电子设备及存储介质.pdf

本发明公开了一种模型训练方法、装置、电子设备及存储介质，该方法包括：接收筛选命令对预设数据库中存储的原始数据集进行筛选，得到多个目标数据集；原始数据集中包含元数据和资源数据，元数据用于在存储所述资源数据时作为引用信息及标注集以指向对应的资源数据；将多个所述目标数据集按照预设策略进行合并，并根据合并结果确定出结果数据集；利用所述结果数据集对待训练模型进行训练，并在满足预设终止条件时，终止训练输出所述模型。使用户不需要对数据集格式进行修改，提升了数据集的整体可用性以及可靠性，提升产出数据模型的效率，使数据模型

2023-07-24

761KB