预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110929887A(43)申请公布日2020.03.27(21)申请号202010096283.X(22)申请日2020.02.17(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈超超王力周俊(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人林锦辉刘景峰(51)Int.Cl.G06N20/00(2019.01)权利要求书5页说明书18页附图7页(54)发明名称逻辑回归模型训练方法、装置及系统(57)摘要本说明书实施例提供用于经由多个训练参与方来训练逻辑回归模型的方法和装置。在该方法中,逻辑回归模型被垂直切分为多个子模型,每个训练参与方具有一个子模型以及经过垂直切分后得到的特征数据子集。在训练时,第一训练参与方将标记值分解为多个部分标记值,并分别向各个第二训练参与方发送一个部分标记值。在各个训练参与方处,基于各自的当前子模型、特征数据子集以及部分标记值,确定该训练参与方处的预测差值。基于各个训练参与方的预测差值确定总预测差值。然后,各个训练参与方基于总预测差值和各自的特征数据子集,确定出对应的模型更新量并进行子模型更新。利用该方法,能够保证各个模型训练参与方处的私有数据的数据安全。CN110929887ACN110929887A权利要求书1/5页1.一种用于经由第一数目个训练参与方来训练逻辑回归模型的方法,所述训练参与方包括第一训练参与方和第二数目个第二训练参与方,所述逻辑回归模型被垂直切分为第一数目个子模型,第一训练参与方具有子模型,各个第二训练参与方具有子模型,所述第一训练参与方具有第一特征数据子集和标记值,每个第二训练参与方具有第二特征数据子集,所述第一和第二特征数据子集通过对用于模型训练的特征数据集进行垂直切分而获得,所述第二数目等于所述第一数目减一,所述方法由所述第一训练参与方执行,所述方法包括:将所述标记值分解为部分标记值和第二数目个部分标记值,并分别向各个第二训练参与方发送所述第二数目个部分标记值中的一个部分标记值;执行下述循环过程,直到满足循环结束条件:计算所述第一训练参与方处的当前子模型和所述第一特征数据子集的第一矩阵乘积;根据所述第一矩阵乘积和部分标记值,使用第一差值确定公式确定所述第一训练参与方处的第一预测差值;基于所述第一预测差值和各个第二训练参与方处的第二预测差值,确定当前循环过程的总预测差值E,各个第二训练参与方处的第二预测差值按照各自的第二差值确定公式确定;基于所述总预测差值E和所述第一特征数据子集,确定所述第一训练参与方处的模型更新量;以及使用所述第一训练参与方处的模型更新量来更新所述第一训练参与方处的当前子模型,其中,在循环过程未结束时,所述更新后的各个训练参与方的子模型用作下一循环过程的当前子模型,其中,所述第一差值确定公式和各个第二差值确定公式基于针对激活函数的多阶多项式公式展开进行分割后得到的分割结果确定,各个分割结果包括与各自的子模型和特征样本子集相关的展开项。2.如权利要求1所述的方法,其中,所述多阶多项式公式展开是泰勒公式展开。3.如权利要求2所述的方法,其中,所述泰勒公式展开是二阶泰勒公式展开。4.如权利要求1所述的方法,其中,基于所述第一预测差值和各个第二训练参与方处的第二预测差值,确定当前循环过程的总预测差值包括:对所述第一预测差值和各个第二训练参与方处的第二预测差值进行求和计算,以确定当前循环过程的总预测差值。5.如权利要求4所述的方法,其中,所述求和计算包括安全求和计算。6.如权利要求5所述的方法,其中,所述安全求和计算包括:基于秘密共享的安全求和计算;基于同态加密的安全求和计算;或者2CN110929887A权利要求书2/5页基于可信执行环境的安全求和计算。7.如权利要求1所述的方法,其中,使用所述第一训练参与方处的模型更新量来更新所述第一训练参与方的当前子模型包括:按照以下等式更新所述第一训练参与方处的当前子模型,其中,表示所述第一训练参与方处的更新后的子模型,表示所述第一训练参与方处的当前子模型,表示学习率,以及表示所述第一训练参与方处的模型更新量。8.如权利要求1到7中任一所述的方法,其中,所述循环结束条件包括:预定循环次数;或者所确定出的总预测差值位于预定范围内。9.如权利要求1到7中任一所述的方法,其中,所述特征数据包括基于图像数据、语音数据或文本数据的特征数据,或者所述特征数据包括用户特征数据。10.一种用于经由第一数目个训练参与方来训练逻辑回归模型的方法,所述训练参与方包括第一训练参与方和第二数目个第二训练参与方,所述逻辑回归模型被垂直切分为第一数目个子模型,第一训练参与方具有子模型