预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114627331A(43)申请公布日2022.06.14(21)申请号202210223406.0G06N3/04(2006.01)(22)申请日2022.03.07G06N3/08(2006.01)G06K9/62(2022.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人杨一博陈亚鑫马本腾陶大程(74)专利代理机构中原信达知识产权代理有限责任公司11219专利代理师王志远张一军(51)Int.Cl.G06V10/764(2022.01)G06V10/778(2022.01)G06V10/26(2022.01)G06V10/82(2022.01)权利要求书3页说明书13页附图4页(54)发明名称模型训练方法和装置(57)摘要本发明公开了一种模型训练方法和装置,涉及人工智能技术领域。该方法的一具体实施方式包括:将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型,将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异;使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型。该实施方式能够增强模型对小众类别和/或图像细节信息的表达能力。CN114627331ACN114627331A权利要求书1/3页1.一种模型训练方法,其特征在于,包括:将样本集中预先标注语义分割标签的多幅训练图像分别输入训练完成的教师模型和待训练的学生模型,将所述学生模型对所述训练图像中像素所属类别的预测结果与所述语义分割标签之间的概率分布差异确定为第一差异;以及,所述学生模型和所述教师模型都包括主体网络和连接在所述主体网络之后的广义归一化层;对于所述学生模型和所述教师模型的主体网络输出的、对应于所述多幅训练图像的特征图:转换为所述类别的联合特征后进入所述广义归一化层,和/或,基于预设的切分规则在高度和宽度维度被切分为多个分离特征后进入所述广义归一化层;其中,每一类别的联合特征包括对应于所述多幅训练图像的特征图中的像素属于该类别的概率数据;每一分离特征包括该特征图处在同一切分空间的像素属于所述类别的概率数据;使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数来训练所述学生模型;其中,第二差异是基于所述学生模型和所述教师模型的所述联合特征确定的,第三差异是基于所述学生模型和所述教师模型的所述分离特征确定的。2.根据权利要求1所述的方法,其特征在于,任一类别的联合特征根据以下步骤确定:获取相应主体网络输出的、对应于所述多幅训练图像的多通道特征图中各像素属于该类别的概率数据;将各像素属于该类别的概率数据合并为该类别的联合特征。3.根据权利要求1所述的方法,其特征在于,所述分离特征进一步由所述特征图执行通道维度的切分、并经类别维度的聚合而形成;经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征包括:该切分空间的像素属于该类别的概率数据。4.根据权利要求1所述的方法,其特征在于,在所述学生模型形成联合特征的情况下,所述教师模型形成联合特征;在所述教师模型形成联合特征的情况下,所述学生模型形成联合特征;在所述学生模型形成分离特征的情况下,所述教师模型形成分离特征;在所述教师模型形成分离特征的情况下,所述学生模型形成分离特征;以及,所述使用第一差异结合第二差异和/或第三差异构造所述学生模型的损失函数,包括:将第一差异和第二差异的加权和确定为所述损失函数;或者,将第一差异和第三差异的加权和确定为所述损失函数;或者,将第一差异、第二差异和第三差异的加权和确定为所述损失函数。5.根据权利要求2所述的方法,其特征在于,每一类别的联合特征在进入所述广义归一化层之后,执行该联合特征内部的归一化,形成该类别的第一归一化特征;以及,第二差异根据以下步骤确定:计算所述学生模型与所述教师模型对应于同一类别的第一归一化特征的KL散度;将各类别的KL散度的平均值确定为第二差异。6.根据权利要求3所述的方法,其特征在于,经通道、高度和宽度维度切分形成的任一切分空间对应于任一类别的分离特征在进入所述广义归一化层之后,执行该分离特征内部的归一化,形成该切分空间和该类别的第二归一化特征;以及,第三差异根据以下步骤确定:计算所述学生模型与所述教师模型对应于同一位置切分空间以及同一类别的第二归2CN114627331A权利要求书2/3页一化特征的KL散度;将各位置切分空间以及各类别的KL散度的平均值确定为第三差异。7.根据权利要求1‑6任一所述的方法,其特征在于,所述学生模型的特征