预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111475852A(43)申请公布日2020.07.31(21)申请号202010567562.X(22)申请日2020.06.19(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人李龙飞周俊(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06F21/62(2013.01)G06N20/10(2019.01)权利要求书2页说明书10页附图2页(54)发明名称基于隐私保护针对业务模型进行数据预处理的方法及装置(57)摘要本说明书实施例提供一种基于隐私保护针对业务模型进行数据预处理的方法,在对业务模型进行数据预处理过程中,从各个业务方接收扰动后的隐私数据,并基于隐私数据统一训练业务模型,从而向各个业务方提供训练好的业务模型。其中,各个业务方对隐私数据进行扰动过程中,采用预先确定分布的扰动数据,并利用这种分布一致的扰动数据可以由一份通用扰动数据代替的特性,将样本距离近似为通用扰动数据的数值计算。基于这种原理计算损失,并采取特定的技术特征,使得各个业务方在基于隐私保护的业务模型的数据预处理过程中,减少通信量以及计算量,提高数据处理效率。CN111475852ACN111475852A权利要求书1/2页1.一种基于隐私保护针对业务模型进行数据预处理的方法,用于基于至少一个业务方的隐私数据,对所述业务模型进行数据预处理,以分别向各个业务方提供业务模型,所述业务模型用于对相应业务数据进行处理,得到业务处理结果,所述方法包括:获取经过第一扰动数据扰动的第一业务数据,和第一业务数据对应的第一标签,以及经过第二扰动数据扰动的第二业务数据,和第二业务数据对应的第二标签,其中,第一扰动数据、第二扰动数据分别是提供第一业务数据的业务方、提供第二业务数据的业务方,按照预定分布随机生成的扰动数据;检测第一业务数据和第二业务数据的样本距离,其中,第一业务数据和第二业务数据的样本距离,利用基于第一扰动数据和第二扰动数据确定的辅助扰动数据确定,所述辅助扰动数据通过以下方式确定:随机生成参考向量并分别发送给各个业务方,以由单个业务方基于相应扰动数据对参考向量进行扰动并反馈相应的辅助向量;基于所述参考向量与各个辅助向量,确定统一描述参考向量与各个辅助向量之间关系的辅助扰动数据;根据所述样本距离,以及所述第一标签、第二标签之间的关系,调整所述业务模型的模型参数;将调整模型参数后的业务模型提供给各个业务方,从而使得各个业务方按照所提供的业务模型处理本地业务数据。2.根据权利要求1所述的方法,所述预定分布为均值为0、方差为1的高斯分布。3.根据权利要求1所述的方法,其中,所述检测第一业务数据和第二业务数据的样本距离包括:分别用所述辅助扰动数据中与所述第一业务数据对应的第一向量、与所述第二业务数据对应的第二向量,代替所述第一业务数据、所述第二业务数据,确定所述第一业务数据和第二业务数据的样本距离。4.根据权利要求1所述的方法,其中,所述根据所述样本距离,以及所述第一标签、第二标签之间的关系,调整所述业务模型的模型参数包括:根据所述样本距离,以及所述第一标签、第二标签之间的关系,确定所述业务模型的损失;向所述损失减小的方向调整所述业务模型的模型参数。5.根据权利要求4所述的方法,所述损失与所述样本距离负相关。6.根据权利要求1所述的方法,其中,所述业务数据包括以下中的至少一项:图片、字符、音频、动画、视频。7.一种基于隐私保护针对业务模型进行数据预处理的装置,用于基于至少一个业务方的隐私数据,对所述业务模型进行数据预处理,以分别向各个业务方提供业务模型,所述业务模型用于对相应业务数据进行处理,得到业务处理结果,所述装置包括:获取单元,配置为获取经过第一扰动数据扰动的第一业务数据,和第一业务数据对应的第一标签,以及经过第二扰动数据扰动的第二业务数据,和第二业务数据对应的第二标签,其中,第一扰动数据、第二扰动数据分别是提供第一业务数据的业务方、提供第二业务数据的业务方,按照预定分布随机生成的扰动数据;检测单元,配置为检测第一业务数据和第二业务数据的样本距离,其中,第一业务数据和第二业务数据的样本距离,利用基于第一扰动数据和第二扰动数据确定的辅助扰动数据2CN111475852A权利要求书2/2页确定,所述辅助扰动数据通过以下方式确定:随机生成参考向量并分别发送给各个业务方,以由单个业务方基于相应扰动数据对参考向量进行扰动并反馈相应的辅助向量;基于所述参考向量与各个辅助向量,确定统一描述参考向量与各个辅助向量之间关系的辅助扰动数据;处理单元,配置为根据所述样本距离,以及