预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113947196A(43)申请公布日2022.01.18(21)申请号202111239621.1(22)申请日2021.10.25(71)申请人中兴通讯股份有限公司地址518057广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦(72)发明人栗伟清韩炳涛屠要峰王永成刘涛(74)专利代理机构广州嘉权专利商标事务所有限公司44205代理人梁国平(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)G06V10/774(2022.01)权利要求书2页说明书9页附图6页(54)发明名称网络模型训练方法、装置和计算机可读存储介质(57)摘要本发明公开了网络模型训练方法、装置和计算机可读存储介质,通过对预训练模型依次进行自监督预训练、领域数据微调和知识蒸馏,即使用海量数据无监督预训练超大规模神经网络模型,利用有限标注样本对预训练模型进行微调,使用知识蒸馏方法将微调后的超大模型压缩为目标模型,即满足目标设备的部署要求。基于此,可以减少对标注数据的依赖,降低人工标注的成本,可以解决人工标注数据成本高的问题,并可以提高模型的通用性和泛化性,使得本发明输出的目标模型在目标任务上的精度超越了原定制化模型。CN113947196ACN113947196A权利要求书1/2页1.一种网络模型训练方法,其特征在于,包括:获取无标签数据对预训练模型进行训练;修改所述预训练模型的输出层为目标任务对应的输出层,生成微调模型;获取所述目标任务的有标签数据对所述微调模型进行训练,生成教师网络;根据所述目标任务构建学生网络;利用多个所述教师网络对所述学生网络进行知识蒸馏,以确定蒸馏损失函数;基于所述蒸馏损失函数对所述学生网络进行迭代训练,生成所述目标任务的目标网络模型。2.根据权利要求1所述的方法,其特征在于,所述获取无标签数据对预训练模型进行训练,包括:从原始图像中随机采样;对采样的每张图像做两种不同的数据增强,得到第一样本和第二样本;将第一样本和第二样本分别进行特征表达提取以及非线性变换,得到所述第一样本的特征表示和所述第二样本的特征表示;根据所述第一样本的特征表示和所述第二样本的特征表示确定所述第一样本和所述第二样本之间的对比损失函数;基于所述对比损失函数对所述预训练模型进行训练。3.根据权利要求2所述的方法,其特征在于,所述将第一样本和第二样本分别进行特征表达提取以及非线性变换,得到所述第一样本的特征表示和所述第二样本的特征表示,包括:将第一样本和第二样本分别输入至编码器网络进行特征表达提取,得到第一特征表示和第二特征表示;将所述第一特征表示和所述第二特征表示输入至投影头进行非线性变换投影成所述第一样本的特征表示和所述第二样本的特征表示,其中,所述投影头由Dense层和ReLU层组成。4.根据权利要求3所述的方法,其特征在于,所述编码器网络为视觉Transformer编码器网络。5.根据权利要求1所述的方法,其特征在于,所述修改所述预训练模型的输出层为目标任务对应的输出层,生成微调模型,包括:将所述预训练模型除了输出层以外的所有参数对应复制到所述微调模型;除去所述预训练模型的输出层,根据所述目标任务的特性添加新的输出层;对新的输出层的参数随机初始化。6.根据权利要求1所述的方法,其特征在于,所述利用多个所述教师网络对所述学生网络进行知识蒸馏,以确定蒸馏损失函数,包括:对多个所述教师网络按照权重进行集成并融合输出;基于所述教师网络的融合输出和所述学生网络反向传播误差的对应关系确定蒸馏损失函数。7.根据权利要求6所述的方法,其特征在于,所述教师网络执行前向传播,并执行数据增强。2CN113947196A权利要求书2/2页8.一种网络模型训练装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的网络模型训练方法。9.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的网络模型训练方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行程序,所述计算机可执行程序用于使计算机执行如权利要求1至7任意一项所述的网络模型训练方法。3CN113947196A说明书1/9页网络模型训练方法、装置和计算机可读存储介质技术领域[0001]本发明实施例涉及但不限于深度学习技术领域,特别是涉及一种网络模型训练方法、装置和计算机可读存储介质。背景技术[0002]目前,人工智能(AI)技术以机器学习特别是深度学习为核心,在计算机视觉、语