预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112560105A(43)申请公布日2021.03.26(21)申请号202110188950.1(22)申请日2021.02.19(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人黄诤杰谭潇陈帅(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06F21/62(2013.01)G06N20/00(2019.01)权利要求书3页说明书10页附图2页(54)发明名称保护多方数据隐私的联合建模方法及装置(57)摘要本说明书实施例提供一种保护多方数据隐私的联合建模方法,所述多方各自存储训练样本集,其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值;该方法应用于任一的第一方,包括:基于第一训练样本集,确定该多个特征项与该标签项之间的多个第一关联度,并获取第二方确定的多个第二关联度,进而针对该各个特征项,确定其所对应的第一关联度和第二关联度之间的差异度,得到多个差异度;确定该多个特征项在利用第一训练样本集构建的第一树模型中的多个第一重要性权重,并利用其对上述多个差异度进行加权处理,得到特征分布差异分数;在此特征分布差异分数符合预定条件的情况下,将第二方归为与第一方进行联合建模的参与方。CN112560105ACN112560105A权利要求书1/3页1.一种保护多方数据隐私的联合建模方法,所述多方各自存储训练样本集,其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值;所述方法应用于任一的第一方,包括:基于第一训练样本集,确定所述多个特征项中各个特征项与所述标签项之间的关联度,得到多个第一关联度;获取第二方基于第二训练样本集确定的多个第二关联度;针对所述各个特征项,确定其所对应的第一关联度和第二关联度之间的差异度,得到所述多个特征项对应的多个差异度;利用所述第一训练样本集,构建第一树模型;确定所述多个特征项在所述第一树模型中的多个第一重要性权重;利用所述多个第一重要性权重,对所述多个差异度进行加权处理,得到特征分布差异分数;在所述特征分布差异分数符合预定条件的情况下,将所述第二方归为与所述第一方进行联合建模的参与方。2.根据权利要求1所述的方法,其中,基于第一训练样本集,确定所述多个特征项中各个特征项与所述标签项之间的关联度,得到多个第一关联度,包括:针对各个特征项,对其在所述第一训练样本集中对应的多个特征值进行分箱处理,得到分箱结果,其中包括所述多个特征值与多个分箱类别之间的映射关系;针对所述多个分箱类别中的各个分箱类别,确定其在所述第一训练样本集中对应不同标签值的样本分布;根据所述多个分箱类别对应的多个样本分布,计算对应特征项的卡方检验值,作为第一关联度。3.根据权利要求1所述的方法,其中,针对所述各个特征项,确定其所对应的第一关联度和第二关联度之间的差异度,得到所述多个特征项对应的多个差异度,包括:针对所述各个特征项,确定其所对应的第一关联度和第二关联度之间的绝对差值,作为差异度。4.根据权利要求1所述的方法,其中,确定所述多个特征项在所述第一树模型中的多个第一重要性权重,包括:确定所述各个特征项在所述第一树模型中被作为分裂特征的次数;对所述多个特征项对应的多个次数进行归一化处理,得到所述多个第一重要性权重。5.根据权利要求1所述的方法,其中,在所述特征分布差异分数符合预定条件的情况下,将所述第二方归为与所述第一方进行联合建模的参与方,包括:在所述特征分布差异分数大于预定阈值的情况下,将所述第二方归为与所述第一方进行联合建模的参与方。6.根据权利要求1所述的方法,其中,所述方法还包括:获取若干第三方各自基于本地训练样本集所确定的,针对所述多个特征项的重要性权重;基于获取的重要性权重和所述多个第一重要性权重,确定所述各个特征项的综合重要性权重;2CN112560105A权利要求书2/3页基于所述综合重要性权重,从所述多个特征项中选取部分特征项;将所述部分特征项发送给所述参与方,以使得所述参与方基于所述部分特征项与所述第一方进行联合建模。7.根据权利要求6所述的方法,其中,基于所述综合重要性权重,从所述多个特征项中选取部分特征项,包括:基于所述综合重要性权重,对所述多个特征项进行排名;将名次在预定范围内的特征项作为所述部分特征项。8.一种保护多方数据隐私的联合建模装置,所述多方各自存储训练样本集,其中各个训练样本具有对应多个特征项的特征值以及对应标签项的标签值;所述装置集成于任一的第一方,包括:关联度确定单元,配置为基于第一训练样本集,确定所述多个特征项中各个特征项与所述标签项之间的关联度,得到多个