预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115936107A(43)申请公布日2023.04.07(21)申请号202211562636.6(22)申请日2022.12.05(71)申请人广州图灵科技有限公司地址510000广东省广州市天河区高普路1033号501室(72)发明人张越何兴国赖春媚(51)Int.Cl.G06N3/094(2023.01)G06N3/0455(2023.01)G06N3/0475(2023.01)G06N3/047(2023.01)G06N3/048(2023.01)G06F21/62(2013.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于生成对抗网络的隐私保护数据生成方法(57)摘要本发明公开了一种基于生成对抗网络的隐私保护数据生成方法,涉及数据生成领域,包括如下步骤:构建前置自编码器;构建生成对抗网络模型;将自编码器应用于生成对抗网络模型的数据生成。该方法使用预训练的自编码器将给定数据集映射到低维连续空间,通过低维空间中的生成器和原始数据空间中的鉴别器进行对抗学习从而获得具有模拟真实数据的生成模型。该方法可以有效解决在隐私保护政策下,在获取训练数据时经常收到限制而导致训练数据集匮乏问题。CN115936107ACN115936107A权利要求书1/1页1.一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所述的基于生成对抗网络的隐私保护数据生成方法,包括:步骤1、构建前置自编码器;步骤2、构建生成对抗网络模型;步骤3、将自编码器应用于生成对抗网络模型的数据生成。2.根据权利要求1所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所述构建前置自编码器的过程具体为:对自编码器的解码输出层进行修改,将混合层的数据进行切割输出,在其后放置N+1个并行的属性输出层。3.根据权利要求2所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,构建前置自编码器过程中,自编码器的编码器网络由两层全连接网络NN构成,解码器网络从编码空间获得输入,通过两层全连接网络NN后进入N+1个并行的数据类型分离网络;自编码器通过解码器网络将编码空间数据投影回原始数据空间,完成数据重建。4.根据权利要求1所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所构构建生成对抗网络模型的过程具体为:生成器学习训练数据的分布,并将输入的随机先验分布转化为和训练数据相似分布的生成样本;鉴别器判断所输入数据集是真实样本还是生成的假样本;训练过程中使生成器与鉴别器互相博弈对抗,直到生成器生成的数据可以骗过鉴别器。5.根据权利要求1所述的一种基于生成对抗网络的隐私保护数据生成方法,其特征在于,所述将自编码器应用于生成对抗网络模型的数据生成过程具体为:利用自编码器的解码器将低维连续的编码空间数据投影回原始空间。2CN115936107A说明书1/4页一种基于生成对抗网络的隐私保护数据生成方法技术领域[0001]本发明涉及数据生成领域,具体是一种基于生成对抗网络的隐私保护数据生成方法。背景技术[0002]随着大数据技术的发展和进步,大数据对经济发展、社会治理和人民生活产生了巨大影响,给人们带来精确、便捷服务端同时,也潜在着泄露用户隐私信息的风险。为了降低隐私泄露造成的负面影响,有关部门不断通过完善隐私保护法律法规对企业及个人进行监管,以此减少或限制数据的共享和开放。[0003]在这样的背景下,大数据分析时常常会遇到数据匮乏、训练样本过少等问题。为了解决该问题,基于深度学习的数据生成方法应运而生。深度生成模型是一种高度灵活和可表达的无监督学习方法,能够捕捉复杂高维数据的潜在结构。训练好的深度生成模型可以有效模拟高维数据复杂分布,生成与原始数据相似的合成数据。[0004]传统的隐私保护数据生成方法采用对用户隐私信息进行移除或匿名化的方式以达到隐私保护的效果,该方法存在着明显的弊端:可通过匿名数据集与其他公开的数据集结合起来,重新识别到用户的隐私保护数据,且该方法随着更多信息被匿名化,会导致数据集的效用降低。[0005]为此,如何在安全、高效用性的前提下,设计一种用于隐私保护数据生成的方法是目前数据生成领域亟需解决的问题。发明内容[0006]本发明的目的在于提供一种基于生成对抗网络的隐私保护数据生成方法,以解决数据生成领域隐私保护数据样本少、数据效用性低的问题。[0007]本发明的创新之处在于:提出了一种隐私保护数据生成方法,适用于数据生成领域对隐私保护类型数据的生成需求,本方法将成功改进的自编码器应用于生成对抗网络模型中,提升了模型的离散特征学习能力。[0008]本发明的优势在于:与现有的隐私保护数据生成方法相比,本方法能捕捉到复杂的高维数据的基本结构并有效模仿大型高维数据集