预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共30页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111079939A(43)申请公布日2020.04.28(21)申请号201911194023.X(22)申请日2019.11.28(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈超超王力周俊(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人林锦辉(51)Int.Cl.G06N20/00(2019.01)G06F21/62(2013.01)权利要求书3页说明书17页附图9页(54)发明名称基于数据隐私保护的机器学习模型特征筛选方法及装置(57)摘要本说明书实施例提供用于基于数据隐私保护的机器学习模型特征筛选的方法。机器学习模型具有模型特征集,并且机器学习模型的特征数据被水平切分地分布在第一数据拥有方和至少一个第二数据拥有方处,每个数据拥有方具有与模型特征集对应的特征数据。第一数据拥有方和至少一个第二数据拥有方协同来使用第一数据拥有方的特征数据进行多方安全计算,以训练出待筛选模型特征的预测模型。在第一数据拥有方处,基于待筛选模型特征的预测差值确定待筛选模型特征的方差膨胀因子,以用于对待筛选模型特征进行模型特征筛选处理。CN111079939ACN111079939A权利要求书1/3页1.一种用于基于数据隐私保护的机器学习模型特征筛选的方法,所述机器学习模型具有模型特征集,所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处,所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方,所述方法由第一数据拥有方执行,所述方法包括:使用第一数据拥有方的特征数据,经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型,其中,所述预测模型是线性回归模型,所述预测模型的输出是所述待筛选模型特征的预测值,以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征,所述预测模型被水平切分为多个预测子模型,每个数据拥有方具有一个预测子模型,所述第一数据拥有方是预测模型训练的训练发起方,以及所述第二数据拥有方是预测模型训练的训练协同方;以及基于所述待筛选模型特征的预测差值,确定所述待筛选模型特征的方差膨胀因子,以用于模型特征筛选处理。2.如权利要求1所述的方法,还包括:根据所述待筛选模型特征的方差膨胀因子,对所述待筛选模型特征进行模型特征筛选处理。3.如权利要求2所述的方法,其中,根据所确定出的待筛选模型特征的方差膨胀因子,对所述待筛选模型特征进行模型特征筛选处理包括:在所述待筛选模型特征的方差膨胀因子大于预定阈值时,从所述模型特征集中筛除所述待筛选模型特征。4.如权利要求1所述的方法,还包括:将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。5.如权利要求1所述的方法,其中,所述待筛选模型特征的预测差值是所述预测模型的训练过程中的最后一次循环过程中得到的预测差值。6.如权利要求1所述的方法,还包括:根据所述第一数据拥有方的第一特征数据以及各个数据拥有方的预测子模型进行多方安全计算,以得到所述待筛选模型特征的预测值以及预测差值,所述第一特征数据是从所述第一数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。7.如权利要求1所述的方法,其中,所述第一数据拥有方和所述第二数据拥有方由所述多个数据拥有方协商确定。8.如权利要求1所述的方法,其中,所述多方安全计算包括秘密共享矩阵乘法、混淆电路和同态加密中的一种。9.如权利要求8所述的方法,其中,所述秘密共享矩阵乘法包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。10.如权利要求1到9中任一所述的方法,其中,所述机器学习模型的特征数据包括基于图像数据、语音数据或文本数据确定的特征数据,或者所述机器学习模型的特征数据包括用户特征数据。11.一种用于基于数据隐私保护的机器学习模型特征筛选的方法,所述机器学习模型具有模型特征集,所述机器学习模型的特征数据被水平切分地分布在多个数据拥有方处,2CN111079939A权利要求书2/3页所述多个数据拥有方包括第一数据拥有方和至少一个第二数据拥有方,所述方法由第二数据拥有方执行,所述方法包括:使用第一数据拥有方的特征数据,经由各个数据拥有方协同进行多方安全计算来训练出待筛选模型特征的预测模型,其中,所述预测模型是线性回归模型,所述预测模型的输出是所述待筛选模型特征的预测值,以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征,所述预测模型被水平切分为多个预测子模型,每个数据拥有方具有一个预测子模型,所述第一数据拥有方是预测模型训练的训练发起方,以及所述第二数据拥有方是预测模型训练的训练协同方,其中,