预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111046394A(43)申请公布日2020.04.21(21)申请号201911289070.2(22)申请日2019.12.12(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人郇兆鑫张晓露简伟健(74)专利代理机构成都七星天知识产权代理有限公司51253代理人杨永梅(51)Int.Cl.G06F21/57(2013.01)G06N3/04(2006.01)权利要求书2页说明书10页附图3页(54)发明名称一种基于对抗样本增强模型抗攻击能力的方法和系统(57)摘要本说明书实施例公开了一种基于对抗样本增强模型抗攻击能力的方法和系统,所述方法包括:获取目标样本的集合;将所述集合中的每一所述目标样本输入目标模型,得到与所述目标样本对应的第一输出;在所述第一输出大于或等于输出阈值时,将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签;利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型;将候选样本输入所述替代模型,得到对应于所述候选样本的第二输出,并基于该第二输出调整所述候选样本以得到对抗样本;基于该对抗样本,调整所述目标模型。其中,目标模型可以为用于对图片进行识别的神经网络模型,所述图片包括个人信息图片。CN111046394ACN111046394A权利要求书1/2页1.一种基于对抗样本增强模型抗攻击能力的方法,其中,所述方法包括:获取目标样本的集合;将所述集合中的每一所述目标样本输入目标模型,得到与所述目标样本对应的第一输出,所述第一输出用于表征该第一输出对应的标签的置信度;在所述第一输出大于或等于输出阈值时,将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签;利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型;将候选样本输入所述替代模型,得到对应于所述候选样本的第二输出,并基于该第二输出调整所述候选样本以得到对抗样本;基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力。2.如权利要求1所述的方法,其中,所述将所述集合中的每一所述目标样本输入所述目标模型之后,所述方法还包括:在所述第一输出小于所述输出阈值时,从所述集合中删除该第一输出对应的所述目标样本。3.如权利要求1所述的方法,其中,所述第一输出为所述目标模型的logits层的输出,或所述目标模型的激活层的输出,其中,所述激活层的输出与所述激活层的输入正相关。4.如权利要求1所述的方法,其中,所述将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签,包括:在同一所述目标样本对应的所有所述第一输出中,将所述置信度最大的所述第一输出作为目标输出;将所述目标输出对应的标签作为所述目标样本的所述目标标签。5.如权利要求1所述的方法,其中,所述基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力,包括:将所述对抗样本输入所述目标模型,得到与所述对抗样本对应的输出,该输出用于表征所述对抗样本属于该输出对应类别的概率;针对同一所述对抗样本,若该对抗样本的所有该输出中的最大值对应的标签与所述对抗样本的真实标签不同,则判定该对抗样本对所述目标模型攻击成功;针对多个所述对抗样本,统计对应于该多个所述目标样本的所述攻击的成功次数在所述攻击的总次数中的比例,并基于该比例调整所述目标模型,以增强所述目标模型的抗攻击能力。6.如权利要求1所述的方法,其中,所述候选样本为图像样本;所述调整所述候选样本包括:调整所述候选样本中若干像素的值,其中被调整的每个像素的值的变化范围小于像素阈值。7.如权利要求1所述的方法,其中,所述目标模型为用于对图片进行识别的模型,所述目标样本为图片。8.一种基于对抗样本增强模型抗攻击能力的系统,其中,所述系统包括:获取模块,用于获取目标样本的集合;输入模块,将所述集合中的每一所述目标样本输入目标模型,得到与所述目标样本对应的第一输出,所述第一输出用于表征该第一输出对应的标签的置信度;2CN111046394A权利要求书2/2页标签调整模块,用于在所述第一输出大于或等于输出阈值时,将所述目标模型的所述第一输出对应的标签作为所述目标样本的目标标签;训练模块,用于利用所述目标样本的集合和所述目标样本对应的所述目标标签训练替代模型;对抗样本生成模块,用于将候选样本输入所述替代模型,得到对应于所述候选样本的第二输出,并基于该第二输出调整所述候选样本以得到对抗样本;增强模块,用于基于该对抗样本,调整所述目标模型,以增强所述目标模型的抗攻击能力。9.如权利要求8所述的系统,所述系统还包括:删除模块,用于在所述输入模块将所述集合中的每一所述目