预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114239860A(43)申请公布日2022.03.25(21)申请号202111489067.2(22)申请日2021.12.07(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人吴慧雯陈岑王力(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06N20/20(2019.01)G06F21/62(2013.01)权利要求书3页说明书14页附图3页(54)发明名称基于隐私保护的模型训练方法及装置(57)摘要本说明书实施例提供一种基于隐私保护的模型训练方法及装置,通过本说明书实施例提供的方法和装置,在安全计算过程中,利用高斯差分隐私和(ε,δ)差分隐私之间形成的对偶关系,以及在训练周期达到一定阈值的极限情况下高斯差分隐私空间中用于衡量累积隐私损失的参数μ与所添加的高斯噪声的方差σ2之间满足的关系,建立(ε,δ)差分隐私与所添加高斯噪声的方差σ2之间的关联关系。从而,一方面,可以根据高斯机制中的参数确定多次迭代累积的隐私损失,对模型性能进行衡量和管控,另一方面,根据给定的隐私预算,反向指导单次迭代过程中应该添加的高斯噪声的方差σ2,以加入适当的噪声。CN114239860ACN114239860A权利要求书1/3页1.一种基于隐私保护的模型训练方法,用于训练预定的业务模型,在当前训练周期,所述方法包括:通过基于采样概率进行采样的第一采样方式,获取当前批次的若干条训练样本;利用所述业务模型处理所述若干条训练样本,从而得到所述业务模型的r个待定参数对应的第一梯度数据;为所述第一梯度数据添加符合高斯差分隐私的第一高斯噪声,得到第二梯度数据以用于r个待定参数的更新,其中,所述第一高斯噪声满足由第一方差σ2确定的高斯分布;基于所述第一采样方式在各个训练周期的隐私累积作用,利用第一关系确定添加第一高斯噪声后在高斯差分隐私空间中用于衡量当前累积隐私损失的第一参数μ,其中,所述第一关系为所述第一方差σ2与所述第一参数μ之间在基于周期数的复合损失的中心极限定理下满足的关系;利用高斯差分隐私和(ε,δ)差分隐私之间的第二关系,将第一参数μ转换为(ε,δ)差分隐私空间中用于衡量当前累积隐私损失的第二参数ε,从而,在所述第二参数ε满足预定条件的情况下,停止训练模型。2.根据权利要求1所述的方法,其中,所述第一方差σ2基于所述第一梯度数据对应的第一敏感度确定。3.根据权利要求2所述的方法,其中,所述第一敏感度与所述第一梯度数据中各条梯度数据二范数的上界正相关,与当前批次所包含的样本数量负相关。4.根据权利要求1所述的方法,其中,所述高斯差分隐私使得,对相邻的梯度数据集添加噪声后得到的分布之间的区分难度大于或等于平衡函数的函数值,所述平衡函数用于衡量方差相同、均值分别为0和μ的两个高斯分布之间的区分难度。5.根据权利要求4所述的方法,其中,所述隐私累积作用为,所述第一采样方式对应的采样算子累积作用于所述平衡函数的复合损失;所述采样算子作用于所述平衡函数的结果是,所述平衡函数及其反函数中的最小者的两次凸共轭函数。6.根据权利要求1所述的方法,其中,所述第一关系示出,所述第一参数μ正比于第一常数ν,且依赖于所述第一常数ν为周期数达到一定阈值后,所述采样概率与周期数的平方根的乘积所逼近的常数。7.根据权利要求1所述的方法,其中,所述方法还包括,通过以下方式利用第二梯度数据更新r个待定参数:通过所述第二梯度数据,确定各个待定参数分别对应的各个噪声梯度;按照各个噪声梯度更新各个待定参数。8.根据权利要求1所述的方法,其中,所述业务模型为联邦学习的模型,所述方法的执行主体为第一训练成员;所述方法还包括,通过以下方式利用第二梯度数据更新r个待定参数:将所述第二梯度数据发送至服务方,以供所述服务方根据其他训练成员发送的其他梯度数据,对各个待定参数的梯度进行聚合,得到各个聚合梯度;按照各个聚合梯度更新各个待定参数。9.一种基于隐私保护的模型训练方法,用于训练预先确定的业务模型,所述方法包括:2CN114239860A权利要求书2/3页通过基于采样概率进行采样的第一采样方式,获取当前批次的若干条训练样本;利用所述业务模型处理所述若干条训练样本,从而得到业务模型的r个待定参数对应的第一梯度数据;为第一梯度数据添加符合高斯差分隐私的第一高斯噪声,得到第二梯度数据,其中,所述第一高斯噪声满足方差由第一方差σ2确定的高斯分布,σ2通过给定的隐私预算ε、δ经由以下关系确定:所述第一方差σ2与高斯差分隐私的第一参数μ之间在基于周期数的复合损失的中心极限定理下满足的第一关系,以及高