预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114723012A(43)申请公布日2022.07.08(21)申请号202210390305.2(22)申请日2022.04.14(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人郑龙飞张本宇林懿伦王力(74)专利代理机构北京布瑞知识产权代理有限公司11505专利代理师武甜(51)Int.Cl.G06N3/04(2006.01)G06N3/08(2006.01)权利要求书4页说明书16页附图5页(54)发明名称基于分布式训练系统的计算方法和装置(57)摘要本公开提供了一种基于分布式训练系统的计算方法和装置。分布式训练系统包括多个训练成员,多个训练成员包括多种角色,多种角色中的不同角色的训练成员在机器学习模型的训练过程中执行不同的操作,该方法应用于多个训练成员中的第一训练成员,该方法包括:获取多个模型,多个模型分别用于定义与机器学习模型的训练相关的多种计算操作;将多个模型输入至分布式模型,以对分布式模型进行初始化,分布式模型具有第一函数,第一函数用于定义多种角色在训练过程中各自需要执行的计算操作和通信操作;在训练过程中,根据分布式模型,执行第一训练成员的角色对应的计算操作和通信操作。CN114723012ACN114723012A权利要求书1/4页1.一种基于分布式训练系统的计算方法,所述分布式训练系统包括多个训练成员,所述多个训练成员包括多种角色,所述多种角色中的不同角色的训练成员在机器学习模型的训练过程中执行不同的操作,所述方法应用于所述多个训练成员中的第一训练成员,所述方法包括:获取多个模型,所述多个模型分别用于定义与所述机器学习模型的训练相关的多种计算操作;将所述多个模型输入至分布式模型,以对所述分布式模型进行初始化,所述分布式模型具有第一函数,所述第一函数用于定义所述多种角色在所述训练过程中各自需要执行的计算操作和通信操作;在所述训练过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作。2.根据权利要求1所述的方法,所述多个模型包括第一模型、第二模型和第三模型,所述第一模型的输入为特征数据,所述第一模型的输出结果为所述第二模型的输入,所述第二模型的输出结果为所述第三模型的输入,所述第三模型包括所述机器学习模型的损失函数计算模型。3.根据权利要求2所述的方法,所述机器学习模型为神经网络模型,所述第一模型为所述神经网络模型的前N层,所述第二模型为所述神经网络模型的除所述前N层之外的剩余层,所述第三模型为所述神经网络模型的损失函数计算模型。4.根据权利要求2所述的方法,所述多种角色包括第一角色、第二角色和第三角色,所述第一角色的训练成员的本地训练数据包括特征数据,所述第二角色的训练成员的本地训练数据不包括特征数据,且不包括标签数据,所述第三角色的训练成员的本地训练数据包括标签数据,所述在所述训练过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作,包括:如果所述第一训练成员的本地训练数据包括特征数据,则所述第一训练成员:执行所述第一模型,并将所述第一模型的执行结果发送至所述第二角色的训练成员;如果所述第一训练成员的本地训练数据不包括特征数据,且不包括标签数据,则所述第一训练成员:接收第一模型的执行结果,根据第一模型的执行结果执行第二模型,并将所述第二模型的执行结果发送至所述第三角色的训练成员;如果所述第一训练成员的本地数据包括标签数据,则所述第一训练成员:接收所述第二模型的执行结果,根据第二模型的执行结果执行第三模型,确定所述第三模型的执行结果;如果所述第一训练成员的本地数据包括标签数据,则所述第一训练成员:根据所述第三模型的执行结果和所述标签数据,更新所述第三模型,得到所述第二模型的输出层的梯度,将所述第二模型的输出层的梯度发送至所述第二角色的训练成员;如果所述第一训练成员的本地训练数据不包括特征数据,且不包括标签数据,则所述第一训练成员:接收所述第二模型的输出层的梯度,根据所述第二模型的输出层的梯度,更新所述第二模型,确定所述第一模型的输出层的梯度,将所述第一模型的输出层的梯度发送至所述第一角色的训练成员;2CN114723012A权利要求书2/4页如果所述第一训练成员的本地训练数据包括特征数据,且不包括标签数据,则所述第一训练成员:接收所述第一模型的输出层的梯度,更新所述第一模型。5.根据权利要求2所述的方法,所述分布式模型具有第二函数,所述第二函数用于定义所述多种角色在所述机器学习模型的评估过程中各自需要执行的计算操作和通信操作;所述方法还包括:在所述评估过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和