预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共40页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111062487A(43)申请公布日2020.04.24(21)申请号201911195304.7(22)申请日2019.11.28(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈超超王力周俊(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人林锦辉(51)Int.Cl.G06N20/00(2019.01)G06K9/62(2006.01)G06F17/18(2006.01)权利要求书3页说明书23页附图13页(54)发明名称基于数据隐私保护的机器学习模型特征筛选方法及装置(57)摘要本说明书实施例提供用于基于数据隐私保护的机器学习模型特征筛选的方法。机器学习模型具有模型特征集,并且机器学习模型的特征数据被垂直切分地分布在第一数据拥有方和至少一个第二数据拥有方处,每个数据拥有方具有与模型特征集的模型特征子集对应的特征数据。第一数据拥有方具有待筛选模型特征的特征数据,第二数据拥有方不具有待筛选模型特征的特征数据。第一数据拥有方和至少一个第二数据拥有方协同来使用各自的特征数据进行多方安全计算,以训练出待筛选模型特征的预测模型。在第一数据拥有方处,基于待筛选模型特征的预测差值确定待筛选模型特征的方差膨胀因子,以进行模型特征筛选处理。CN111062487ACN111062487A权利要求书1/3页1.一种用于基于数据隐私保护的机器学习模型特征筛选的方法,所述机器学习模型具有模型特征集,所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处,每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据,所述数据拥有方包括第一数据拥有方和第二数目个第二数据拥有方,第二数目等于第一数目减一,第一数据拥有方具有待筛选模型特征的特征数据,第二数据拥有方不具有所述待筛选模型特征的特征数据,所述方法由第一数据拥有方执行,所述方法包括:使用各个数据拥有方的特征数据,利用多方安全计算来训练出待筛选模型特征的预测模型,其中,所述预测模型是线性回归模型,所述预测模型的输出是所述待筛选模型特征的预测值,以及所述预测模型的输入特征是所述模型特征集中的剩余模型特征,所述预测模型被垂直切分为多个预测子模型,每个数据拥有方具有一个预测子模型;以及基于所述待筛选模型特征的预测差值,确定所述待筛选模型特征的方差膨胀因子,以用于模型特征筛选处理。2.如权利要求1所述的方法,还包括:根据所述待筛选模型特征的方差膨胀因子,对所述待筛选模型特征进行模型特征筛选处理。3.如权利要求2所述的方法,其中,根据所确定出的待筛选模型特征的方差膨胀因子,对所述待筛选模型特征进行模型特征筛选处理包括:在所述待筛选模型特征的方差膨胀因子大于预定阈值时,从所述模型特征集中筛除所述待筛选模型特征。4.如权利要求1所述的方法,还包括:将所述待筛选模型特征的方差膨胀因子提供给模型特征筛选方来进行模型特征筛选。5.如权利要求1所述的方法,其中,所述待筛选模型特征的预测差值是所述预测模型的训练过程中的最后一次循环过程中得到的预测差值。6.如权利要求1所述的方法,还包括:根据各个数据拥有方的第一特征数据以及预测子模型进行多方安全计算,以得到所述待筛选模型特征的预测值以及预测差值,所述第一特征数据是从各个数据拥有方的特征数据中去除与所述待筛选模型特征对应的特征值后的特征数据。7.如权利要求1或6所述的方法,其中,所述多方安全计算包括秘密共享、混淆电路和同态加密中的一种。8.如权利要求7所述的方法,其中,所述秘密共享包括秘密共享矩阵乘法和秘密共享矩阵加法。9.如权利要求8所述的方法,其中,所述多方安全计算所采用的秘密共享的类型是根据第二数据拥有方的数目确定的。10.如权利要求8所述的方法,其中,所述秘密共享矩阵乘法包括有可信初始化方秘密共享矩阵乘法或者无可信初始化方秘密共享矩阵乘法。11.如权利要求1到10中任一所述的方法,其中,所述机器学习模型的特征数据包括基于图像数据、语音数据或文本数据确定的特征数据,或者所述机器学习模型的特征数据包括用户特征数据。12.一种用于基于数据隐私保护的机器学习模型特征筛选的方法,所述机器学习模型2CN111062487A权利要求书2/3页具有模型特征集,所述机器学习模型的特征数据被垂直切分地分布在第一数目个数据拥有方处,每个数据拥有方具有与所述模型特征集的模型特征子集对应的特征数据,所述数据拥有方包括第一数据拥有方和第二数目个第二数据拥有方,第二数目等于第一数目减一,第一数据拥有方具有待筛选模型特征的特征数据,第二数据拥有方不具有所述待筛选模型特征的特征数据,所述方法由第二数据拥有方执行,