预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112580826A(43)申请公布日2021.03.30(21)申请号202110160640.9(22)申请日2021.02.05(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人郑龙飞陈超超王力周俊(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人林锦辉刘景峰(51)Int.Cl.G06N20/20(2019.01)G06N3/08(2006.01)权利要求书4页说明书16页附图7页(54)发明名称业务模型训练方法、装置及系统(57)摘要本说明书实施例提供用于经由第一成员设备和至少两个第二成员设备训练业务模型的方法、装置和系统。各个第二成员设备具有本地业务模型和本地样本数据,并且所具有的本地样本数据是非独立同分布数据。各个第二成员设备将本地样本数据分布信息提供给第一成员设备。第一成员设备根据各个第二成员设备的本地样本数据分布信息确定整体样本数据概率分布,并发送给各个第二成员设备。各个第二成员设备根据整体样本数据概率分布和超参数,从本地样本数据中确定各类样本数据的扩充样本数据,所述扩充样本数据用于扩充业务模型的训练样本数据。CN112580826ACN112580826A权利要求书1/4页1.一种用于经由第一成员设备和至少两个第二成员设备训练业务模型的方法,各个第二成员设备具有本地业务模型和本地样本数据,并且各个第二成员设备具有的本地样本数据是非独立同分布数据,所述方法应用于第二成员设备,所述方法包括:将本地样本数据分布信息提供给第一成员设备;从第一成员设备接收整体样本数据概率分布,所述整体样本数据概率分布由第一成员设备根据从各个第二成员设备接收的本地样本数据分布信息确定;以及根据所述整体样本数据概率分布和超参数,从本地样本数据中确定各类样本数据的扩充样本数据,所述扩充样本数据用于扩充业务模型的训练样本数据,所述超参数至少包括样本数据扩充比例。2.如权利要求1所述的方法,还包括:至少与其它第二成员设备一起使用各自的本地样本数据和扩充样本数据进行联邦学习,得到各个第二成员设备的更新后的本地业务模型。3.如权利要求2所述的方法,其中,至少与其它第二成员设备一起使用各自的本地样本数据和扩充样本数据进行联邦学习,得到各个第二成员设备的更新后的本地业务模型包括:至少与其它第二成员设备一起使用各自经过乱序处理后的本地样本数据和扩充样本数据进行联邦学习,得到各个第二成员设备的更新后的本地业务模型。4.如权利要求1所述的方法,其中,根据所述整体样本数据概率分布和超参数,从本地样本数据中确定各类样本数据的扩充样本数据包括:根据本地样本数据总数、所述整体样本数据概率分布和超参数,确定各类样本数据的样本数据扩充数目;以及根据所确定的各类样本数据的样本数据扩充数目,从本地样本数据中提取各类样本数据的扩充样本数据。5.如权利要求4所述的方法,其中,根据所确定的各类样本数据的样本数据扩充数目,从本地样本数据中提取各类样本数据的扩充样本数据包括:根据所确定的各类样本数据的样本数据扩充数目,从本地样本数据中随机提取各类样本数据的扩充样本数据。6.如权利要求2所述的方法,还包括:确定所述第二成员设备处的更新后的本地业务模型的模型性能参数;将所确定出的模型性能参数发送给第一成员设备;从第一成员设备接收调整后的超参数,所述调整后的超参数由第一成员设备根据业务模型的整体模型性能参数确定,所述整体模型性能参数根据各个第二成员设备的模型性能参数确定,其中,所述扩充样本数据确定步骤、所述联邦学习步骤、所述模型性能参数确定步骤、所述模型性能参数发送步骤和所述超参数接收步骤循环执行,直到达到目标整体模型性能参数。7.如权利要求6所述的方法,其中,所述整体模型性能参数是平均模型性能参数。8.如权利要求1所述的方法,其中,将本地样本数据分布信息提供给第一成员设备包括:2CN112580826A权利要求书2/4页将本地样本数据分布信息通过安全聚合的方式提供给第一成员设备。9.如权利要求8所述的方法,其中,所述安全聚合包括:基于秘密共享的安全聚合;基于同态加密的安全聚合;基于不经意传输的安全聚合;基于混淆电路的安全聚合;或者基于可信执行环境的安全聚合。10.如权利要求1到9中任一所述的方法,其中,所述整体样本数据概率分布包括:基于标签的整体样本数据概率分布;基于特征的整体样本数据概率分布;或者基于连接边数的整体样本数据概率分布。11.一种用于经由第一成员设备和至少两个第二成员设备训练业务模型的方法,各个第二成员设备具有本地业务模型和本地样本数据,并且各个第二成员设备具有的本地样本数据是非独立同分布数据,所述方法