基于预训练模型的模型改进方法及装置-豆柴文库

基于预训练模型的模型改进方法及装置.pdf

2023-06-14

10金币

666KB

16页

一吃****书竹

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112308205A(43)申请公布日2021.02.02(21)申请号202010597363.3(22)申请日2020.06.28(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室(72)发明人金均生齐浩李健熊汉韬董志平(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)G06N20/00(2019.01)权利要求书2页说明书9页附图4页(54)发明名称基于预训练模型的模型改进方法及装置(57)摘要本申请公开了一种基于预训练模型的模型改进方法及装置。方法的一具体实施方式包括：获取相匹配的主体模型、至少一个拆分模型的拆分配置信息，其中，主体模型、至少一个拆分模型基于预训练模型拆分得到，被分布式部署于不同的预设设备，拆分配置信息表征主体模型和至少一个拆分模型的属性信息；根据拆分配置信息，建立主体模型与至少一个拆分模型之间的联系，以供主体模型在运行过程中与至少一个拆分模型进行数据交互。本实施方式可以将原有的大规模的预训练模型拆分为较小规模的主体模型和至少一个拆分模型，降低主体模型和至少一个拆分模型对设备的部署要求，提高了大规模的预训练模型的实用性。CN112308205ACN112308205A权利要求书1/2页1.一种基于预训练模型的模型改进方法，包括：获取相匹配的主体模型、至少一个拆分模型的拆分配置信息，其中，所述主体模型、所述至少一个拆分模型基于预训练模型拆分得到，被分布式部署于不同的预设设备，所述拆分配置信息表征所述主体模型和所述至少一个拆分模型的属性信息；根据所述拆分配置信息，建立所述主体模型与所述至少一个拆分模型之间的联系，以供所述主体模型在运行过程中与所述至少一个拆分模型进行数据交互。2.根据权利要求1所述的方法，其中，所述主体模型和/或所述至少一个拆分模型中的每个拆分模型，被集群部署于预设设备集群中。3.根据权利要求2所述的方法，其中，所述方法还包括：在所述至少一个拆分模型中的每个拆分模型的运行过程中，基于该拆分模型在预设设备集群中的各个预设设备中的负载数据，确定对应于该拆分模型的目标预设设备，并将该目标预设设备中的拆分模型确定为部署于预设设备集群中的该拆分模型的目标拆分模型。4.根据权利要求1所述的方法，其中，所述至少一个拆分模型为基于模型计算要求和/或模型存储要求进行拆分得到的拆分模型。5.根据权利要求1所述的方法，其中，根据所述拆分配置信息，建立所述主体模型与所述至少一个拆分模型之间的联系，包括：针对于所述至少一个拆分模型中的每个拆分模型，执行如下操作：根据所述拆分配置信息，获取该拆分模型对应的网络地址和连接端口；通过所述网络地址和所述连接端口，建立所述主体模型与该拆分模型之间的联系。6.根据权利要求3所述的方法，其中，所述根据所述拆分配置信息，建立所述主体模型与所述至少一个拆分模型之间的联系，包括：针对于所述至少一个拆分模型中的每个拆分模型，执行如下操作：根据所述拆分配置信息，获取该拆分模型中部署于目标预设设备的目标拆分模型的网络地址和连接端口；通过所述网络地址和所述连接端口，建立所述主体模型与该目标拆分模型中的目标拆分模型之间的联系。7.根据权利要求1-6任一所述的方法，其中，所述方法还包括：将输入数据输入所述主体模型，基于所述主体模型与所述至少一个拆分模型的配合运行，得到所述输入数据对应的输出数据。8.一种基于预训练模型的模型改进装置，包括：获取单元，被配置成获取相匹配的主体模型、至少一个拆分模型的拆分配置信息，其中，所述主体模型、所述至少一个拆分模型基于预训练模型拆分得到，被分布式部署于不同的预设设备，所述拆分配置信息表征所述主体模型和所述至少一个拆分模型的属性信息；联系单元，被配置成根据所述拆分配置信息，建立所述主体模型与所述至少一个拆分模型之间的联系，以供所述主体模型在运行过程中与所述至少一个拆分模型进行数据交互。9.根据权利要求8所述的装置，其中，所述主体模型和/或所述至少一个拆分模型中的每个拆分模型，被集群部署于预设设备集群中。10.根据权利要求9所述的装置，其中，所述装置还包括：2CN112308205A权利要求书2/2页确定单元，被配置成在所述至少一个拆分模型中的每个拆分模型的运行过程中，基于该拆分模型在预设设备集群中的各个预设设备中的负载数据，确定对应于该拆分模型的目标预设设备，并将该目标预设设备中的拆分模型确定为部署于预设设备集群中的该拆分模型的目标拆分模型。11.根据权利要求8所述的装置，其中，所述至少一个拆分模型

相关资料

基于预训练模型的模型改进方法及装置.pdf

本申请公开了一种基于预训练模型的模型改进方法及装置。方法的一具体实施方式包括：获取相匹配的主体模型、至少一个拆分模型的拆分配置信息，其中，主体模型、至少一个拆分模型基于预训练模型拆分得到，被分布式部署于不同的预设设备，拆分配置信息表征主体模型和至少一个拆分模型的属性信息；根据拆分配置信息，建立主体模型与至少一个拆分模型之间的联系，以供主体模型在运行过程中与至少一个拆分模型进行数据交互。本实施方式可以将原有的大规模的预训练模型拆分为较小规模的主体模型和至少一个拆分模型，降低主体模型和至少一个拆分模型对设备的

2023-06-14

666KB

基于预训练模型的分布式文本模型训练方法、装置、终端设备.pdf

本公开的实施例公开了基于预训练模型的分布式文本模型训练方法、装置、终端设备。该方法的一具体实施方式包括：获取训练数据集；生成输入适配参数集和输入适配数据集；将输入适配数据集发送至第一终端；接收第一终端发回的输出适配数据集；基于输出适配数据集和训练数据集，生成输出适配参数集；将输入适配参数集和输出适配参数集的集合确定为初始目标模型；基于训练数据集和初始目标模型，生成目标模型，其中，目标模型包括目标输入适配参数集和目标输出适配参数集。该实施方式训练输入适配数据集和输出适配数据集以得到目标模型，训练结构简单、参

2023-07-25

668KB

预训练语言模型的方法和装置.pdf

本说明书实施例提供一种预训练语言模型的方法和装置，方法包括：获取历史对话记录中的第一角色的第一语句，以及第二角色的第二语句；历史对话记录包括多轮对话中各轮对话的语句；将第一语句和第二语句拼接成第一样本；将第一样本中预设比例的字进行遮蔽，得到第二样本；对第二样本中任意一个字的字嵌入向量、字类型嵌入向量、位置嵌入向量和附加嵌入向量进行叠加，得到该字的初始字表达向量；将第二样本中各个字的初始字表达向量输入语言模型，基于包括第一任务在内的至少一项预训练任务对语言模型进行预训练，第一任务用于预测第二样本中被遮蔽的字

2023-05-25

634KB

基于多模态预训练模型的主题标签分类方法与装置.pdf

本申请提供了一种基于多模态预训练模型的主题标签分类方法与装置，所述方法包括：获取训练数据集，所述训练数据集为基于标签聚类和泛化程度排序得到的主题标签数据；基于所述训练数据集对初始多模态预训练模型进行训练，得到训练好的多模态预训练模型；将所述训练好的多模态预训练模型转化为ONNX模型，并将所述ONNX模型部署到目标应用程序，实现主题标签的分类。通过构建高准确率的训练数据集，并在文本侧进行序列化处理、并行化处理、FFN处理，以及提前进行图片侧的特征向量和文本侧的特征向量的融合，加快模型的训练速度和后续推理速度

2023-06-03

446KB

基于预训练模型和联合调参的改进训练算法.docx

基于预训练模型和联合调参的改进训练算法基于预训练模型和联合调参的改进训练算法摘要：深度学习在计算机视觉、自然语言处理和推荐系统等领域取得了显著的进展，但是深度神经网络的训练过程通常需要大量的数据和计算资源。预训练模型的使用可以显著减少模型训练所需的数据量，提高模型的表达能力。然而，预训练模型在不同任务上的表现可能受到模型架构和超参数的限制。本文提出了一种基于预训练模型和联合调参的改进训练算法，用于提高深度学习模型的性能。具体而言，本文首先介绍了预训练模型的基本原理和优势；然后，提出了一种联合调参的方法，通

2024-10-20

11KB