预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115756846A(43)申请公布日2023.03.07(21)申请号202211441517.5(22)申请日2022.11.17(71)申请人抖音视界有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人贺培轩林宇王伟力张尧吴烨(74)专利代理机构北京中知法苑知识产权代理有限公司11226专利代理师赵吉阳(51)Int.Cl.G06F9/50(2006.01)G06F9/54(2019.01)G06F21/60(2006.01)G06N20/00(2013.01)权利要求书3页说明书16页附图7页(54)发明名称模型训练方法、装置、电子设备及存储介质(57)摘要本公开提供了一种模型训练方法、装置、电子设备及存储介质,该模型训练方法包括:通过宿主机进程获取训练数据,并针对采用主从结构的训练节点集群对训练数据进行划分得到多个子训练数据;训练节点集群包括主节点和多个工作节点,宿主机进程运行于非可信执行环境内,训练节点集群运行于可信执行环境内;通过宿主机进程对每个子训练数据进行加密,并将加密后的子训练数据存储至宿主机进程的共享内存中;控制主节点及各个工作节点分别根据对应的数据存储地址从共享内存中获取对应的加密的子训练数据,并使用各自对应的解密的子训练数据分别对预设模型进行训练,得到训练好的模型。本申请实施例,通过分布式结构及共享内存可以提升模型的训练效率。CN115756846ACN115756846A权利要求书1/3页1.一种模型训练方法,其特征在于,包括:通过宿主机进程获取训练数据,并针对采用主从结构的训练节点集群对所述训练数据进行划分得到多个子训练数据;所述训练节点集群包括主节点和多个工作节点,所述主节点与所述多个工作节点用于协同进行模型训练;其中,所述宿主机进程运行于非可信执行环境内,所述训练节点集群运行于可信执行环境内;通过所述宿主机进程对每个子训练数据进行加密,并将加密后的子训练数据存储至宿主机进程的共享内存中;所述宿主机进程的共享内存用于供所述宿主机进程和所述训练节点集群共享;通过所述宿主机进程记录每个加密的子训练数据在所述共享内存中的数据存储地址,并将各个数据存储地址分别发送至对应的主节点以及工作节点;其中,每个数据存储地址对应一个训练节点;控制所述主节点以及各个所述工作节点分别根据对应的数据存储地址从所述共享内存中获取对应的加密的子训练数据,并对所述加密的子训练数据进行解密后得到解密的子训练数据;控制所述主节点以及各个所述工作节点使用各自对应的解密的子训练数据分别对预设模型进行训练,得到训练好的模型;在训练过程中,所述主节点用于向各个所述工作节点发送训练任务,并汇总各个所述工作节点发送的子训练结果。2.根据权利要求1所述的方法,其特征在于,所述得到与所述训练节点数量对应的多个子训练数据之后,所述方法还包括:通过所述宿主机进程启动所述主节点以及各个所述工作节点,并控制所述主节点以及各个所述工作节点分别根据对应的子训练数据的数据量大小,生成与所述数据量匹配的可信内存,所述可信内存用于存储所述子训练数据。3.根据权利要求1所述的方法,其特征在于,所述主节点与每个工作节点上分别配置有所述预设模型;所述控制所述主节点以及各个所述工作节点使用各自对应的解密的子训练数据分别对预设模型进行训练,得到训练好的模型,包括:控制所述主节点基于各个工作节点分别对应的解密的子训练数据,为所述各个工作节点分配相应的训练任务,并控制所述主节点将各个训练任务发送至对应的工作节点;控制每个工作节点根据对应的训练任务以及对应的解密的子训练数据对所述预设模型进行训练,得到对应的子训练结果;控制每个工作节点将所述对应的子训练结果发送至所述主节点;控制所述主节点将所述主节点的子训练结果以及所述各个工作节点的子训练结果汇总,得到总的训练结果;重复上述步骤,直到所述总的训练结果符合预设条件。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过所述宿主机进程基于所述工作节点的数量创建目标数量的队列,所述目标数量为工作节点的数量的两倍;所述目标数量的队列用于所述主节点与所述多个工作节点之间进行双向通信。5.根据权利要求4所述的方法,其特征在于,所述目标数量的队列中两两队列为一对,每一对所述队列用于所述主节点与其中一个工作节点之间进行双向通信;所述通过所述宿2CN115756846A权利要求书2/3页主机进程基于所述工作节点的数量创建目标数量的队列之后,所述方法还包括:通过所述宿主机进程将所述目标数量的队列存放于共享内存中,并生成每个队列的队列存储地址;通过所述宿主机进程将所述目标数量队列中的每个队列的队列存储地址发送至所述主节点,并将每对所述队列的