预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111612134A(43)申请公布日2020.09.01(21)申请号202010433942.4(22)申请日2020.05.20(71)申请人鼎富智能科技有限公司地址230000安徽省合肥市高新区习友路3333号A1楼19层-B区(72)发明人刘小康李健铨(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463代理人唐正瑜(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书13页附图5页(54)发明名称神经网络结构搜索方法、装置、电子设备及存储介质(57)摘要本申请提供一种神经网络结构搜索方法、装置、电子设备及存储介质,该方法包括:从待搜索网络结构中获得多个任务对应的结构参数,待搜索网络结构由多个基础单元构成,基础单元包括多个节点,结构参数表征对应的任务在节点之间的连接概率;针对多个任务中的每个任务保留连接概率最大的结构参数,获得每个任务对应的预训练模型;对每个任务对应的预训练模型进行训练,获得搜索后的神经网络模型。在上述的实现过程中,通过结合神经网络架构搜索和多任务学习来有效地提高了搜索到有效地神经网络结构模型的速度。CN111612134ACN111612134A权利要求书1/2页1.一种神经网络结构搜索方法,其特征在于,包括:从待搜索网络结构中获得多个任务对应的结构参数,所述待搜索网络结构由多个基础单元构成,所述基础单元包括多个节点,所述结构参数表征对应的任务在节点之间的连接概率;针对所述多个任务中的每个任务保留所述连接概率最大的结构参数,获得所述每个任务对应的预训练模型;对所述每个任务对应的预训练模型进行训练,获得搜索后的神经网络模型。2.根据权利要求1所述的方法,其特征在于,所述针对所述多个任务中的每个任务保留所述连接概率最大的结构参数,包括:计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率;根据所述多个节点之间的连接概率从所述多个任务对应的结构参数中筛选出连接概率最大的结构参数。3.根据权利要求2所述的方法,其特征在于,所述计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率,包括:根据计算所述多个任务中的每个任务运行时所述多个节点之间的连接概率;其中,i表示第i个基础单元,j表示第j个节点,O表示每个节点中的操作集合,o表示每个节点的操作集合中的具体操作,α表示所述结构参数。4.根据权利要求1所述的方法,其特征在于,所述对所述每个任务对应的预训练模型进行训练,包括:获得训练数据和预先训练的指导网络模型,所述训练数据包括:训练样本和训练标签,所述指导网络模型是使用所述训练数据对神经网络进行训练获得的,所述指导网络模型的网络结构比所述预训练模型的网络结构复杂;使用所述指导网络模型对所述训练样本进行计算,获得第一输出标签,并使用所述预训练模型对所述训练样本进行计算,获得第二输出标签;根据所述训练标签、所述第一输出标签和所述第二输出标签计算所述预训练模型的综合损失;根据所述综合损失对所述每个任务对应的预训练模型进行训练。5.根据权利要求4所述的方法,其特征在于,所述根据所述训练标签、所述第一输出标签和所述第二输出标签计算所述预训练模型的综合损失,包括:分别计算所述第一输出标签和所述第二输出标签的第一交叉熵,以及所述训练标签和所述第二输出标签的第二交叉熵;对所述第一交叉熵和所述第二交叉熵进行加权融合,获得所述综合损失。6.根据权利要求4所述的方法,其特征在于,所述根据所述综合损失对所述每个任务对应的预训练模型进行训练,包括:保持所述每个任务对应的预训练模型的结构参数不变;根据所述综合损失更新所述每个任务对应的预训练模型的网络参数,所述网络参数表2CN111612134A权利要求书2/2页征所述预训练模型的输入数据的权重。7.根据权利要求1-6任一所述的方法,其特征在于,在所述获得搜索后的神经网络模型之后,还包括:获得预设任务对应的训练数据;使用所述预设任务对应的训练数据对所述搜索后的神经网络模型进行微调,获得微调后的神经网络模型。8.一种神经网络结构搜索装置,其特征在于,包括:结构参数获得模块,用于从待搜索网络结构中获得多个任务对应的结构参数,所述待搜索网络结构由多个基础单元构成,所述基础单元包括多个节点,所述结构参数表征对应的任务在节点之间的连接概率;结构参数保留模块,用于针对所述多个任务中的每个任务保留所述连接概率最大的结构参数,获得所述每个任务对应的预训练模型;网络模型获得模块,用于对所述每个任务对应的预训练模型进行训练,获得搜索后的神经网络模型。9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指