预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共44页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113221747A(43)申请公布日2021.08.06(21)申请号202110521370.X(22)申请日2021.05.13(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人曹佳炯丁菁汀(74)专利代理机构北京国昊天诚知识产权代理有限公司11315代理人朱文杰(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06F21/62(2013.01)权利要求书7页说明书29页附图7页(54)发明名称一种基于隐私保护的隐私数据处理方法、装置及设备(57)摘要本说明书实施例公开了一种基于隐私保护的隐私数据处理方法、装置及设备,该方法包括:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;对脱敏后的目标数据进行数据分布分析,得到脱敏后的目标数据对应的数据分布差异信息;如果数据分布差异信息指示脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型;基于训练后的主动学习模型和预先获取的第二样本数据对隐私识别模型进行训练,以更新隐私识别模型,并基于更新后的隐私识别模型和训练后的主动学习模型进行用户隐私数据的识别处理。CN113221747ACN113221747A权利要求书1/7页1.一种基于隐私保护的隐私数据处理方法,所述方法包括:获取对包括用户隐私数据的目标数据进行脱敏处理后得到的脱敏后的目标数据;对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息;如果所述数据分布差异信息指示所述脱敏后的目标数据对应的数据分布差异概率大于预定阈值,则基于所述脱敏后的目标数据对隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,所述主动学习模型用于对所述脱敏后的目标数据进行数据优化处理,以得到被所述隐私识别模型进行隐私数据识别处理的准确性高于预设准确性阈值的优化脱敏数据,所述隐私识别模型是基于包括用户隐私数据的第一样本数据进行模型训练得到,所述第一样本数据对应的数据分布差异概率小于所述预定阈值;基于所述训练后的主动学习模型和预先获取的第二样本数据对所述隐私识别模型进行训练,以更新所述隐私识别模型,并基于更新后的隐私识别模型和所述训练后的主动学习模型进行隐私数据的识别处理,所述第二样本数据中包括数据分布差异概率大于所述预定阈值的样本数据。2.根据权利要求1所述的方法,所述对所述脱敏后的目标数据进行数据分布分析,得到所述脱敏后的目标数据对应的数据分布差异信息,包括:基于预设的时间间隔,从所述脱敏后的目标数据中分别抽取预设数量的脱敏后的目标数据,得到两个时间点的数据集合;分别获取每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值;基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,确定每个时间点的数据集合对应的识别分值的分布特征;基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,将两个时间点的数据集合对应的数据分布差异信息确定为所述脱敏后的目标数据对应的数据分布差异信息。3.根据权利要求2所述的方法,所述基于每个时间点的数据集合对应的识别分值的分布特征,使用预先训练的分布分类模型,确定两个时间点的数据集合对应的数据分布差异信息,包括:基于预设的聚类算法分别对所述两个时间点的数据集合进行聚类,得到每个时间点的数据集合对应的聚类中心特征;将每个时间点的数据集合对应的识别分值的分布特征和所述每个时间点的数据集合对应的聚类中心特征输入到预先训练的分布分类模型中,得到两个时间点的数据集合对应的数据分布差异信息。4.根据权利要求3所述的方法,所述聚类算法包括K‑Means聚类算法。5.根据权利要求2所述的方法,所述基于所述脱敏后的目标数据对所述隐私识别模型对应的主动学习模型进行模型训练,得到训练后的主动学习模型,包括:基于每个时间点的数据集合中包含的所述脱敏后的目标数据对应的用户隐私数据的识别分值,生成每个时间点的数据集合中包含的所述脱敏后的目标数据对应的类别;从所述两个时间点的数据集合中包含的所述脱敏后的目标数据中选取识别分值大于2CN113221747A权利要求书2/7页第一预设识别阈值的脱敏后的目标数据,并获取选取的脱敏后的目标数据对应的类别;基于选取的脱敏后的目标数据和选取的脱敏后的目标数据对应的类别,以及Margin‑Softmax损失函数,对所述隐私识别模型对应的主动学习模