预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115935405A(43)申请公布日2023.04.07(21)申请号202211119838.3(22)申请日2022.09.15(71)申请人广州大学地址510006广东省广州市大学城外环西路230号(72)发明人孙哲殷丽华林思昕王滨张美范李然(74)专利代理机构广州高炬知识产权代理有限公司44376专利代理师孙明科(51)Int.Cl.G06F21/62(2013.01)G06F40/30(2020.01)G06F40/216(2020.01)G06F16/35(2019.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于差分隐私的文本内容保护方法(57)摘要本发明涉及文本数据隐私保护中的差分隐私方法和深度学习技术领域,公开了一种基于差分隐私的文本内容保护方法,包括如下步骤:客户端对差分隐私和文本分析任务的阈值进行设定;客户端根据敏感信息内容,按照内容类型和字符长度进行分类和标记,构建敏感属性字典;根据具有相同标签的敏感属性内容集合,在语料库中查询到满足相似度阈值范围的语料内容;利用基于本地化差分隐私的广义随机响应机制,将敏感信息内容替换为在语料库中查询到的语料内容;由服务器聚合当前所有文本数据,并将其配置到文本分析任务模型中计算文本分析任务的准确率;服务器将文本分析任务的准确率发送给所有客户端,并由其判断是否在可接受的文本准确率阈值范围内。CN115935405ACN115935405A权利要求书1/2页1.一种基于差分隐私的文本内容保护方法,其特征在于,包括如下步骤:步骤1,客户端对差分隐私和文本分析任务的阈值范围进行设定;步骤2,客户端根据敏感信息内容Si,按照敏感内容类型Ti、敏感内容字符长度Ci进行分类和标记,构建敏感属性字典Dicti;步骤3,客户端设定语料相似度阈值范围[Slow,Shigh],根据具有相同标签Lit的敏感属性内容集合Ait,在语料库合集中查询到满足相似度阈值范围的语料内容;其中敏感属性内容集合Ait={W1,W2,W3,…,WZ},WZ表示标签为Lit的敏感属性内容,Z表示标签为Lit的敏感属性内容数量;步骤4,利用ε‑本地化差分隐私思想和广义随机响应机制,将敏感信息内容替换为在语料库中查询到的语料内容,其中替换后的敏感属性内容集合Rit={W1',W2',W3',…,WZ'},WZ'表示标签为Lit的敏感属性替换内容,Z'表示标签为Lit的敏感属性替换内容数量;步骤5,由服务器聚合当前替换后的所有文本数据,并将其配置到文本分析任务模型中计算文本分析任务的准确率AccT;步骤6,服务器将文本分析任务的准确率AccT发送给所有客户端,并由其判断是否在可接受的文本准确率阈值范围内,可接受的文本准确率阈值范围为[Acclow,Acchigh],Acclow表示可接受的文本准确率的最小值,Acchigh表示可接受的文本准确率的最大值。2.根据权利要求1的基于差分隐私的文本内容保护方法,其特征在于,于步骤1中,要设定的阈值范围具体包括客户端可接受的隐私预算阈值范围[εlow,εhigh],其中εlow表示可接受的隐私预算的最小值,εhigh表示可接受的隐私预算的最大值,以及客户端可接受的文本准确率阈值范围[Acclow,Acchigh],除此之外还有客户端需要保护的敏感信息内容Si。3.根据权利要求1的基于差分隐私的文本内容保护方法,其特征在于,于步骤2中,构建敏感属性字典的步骤包括:步骤21,输入文本数据Di,将文本数据Di划分为由Ns个词语组成的句子序列;步骤22,根据敏感内容类型Ti、敏感内容字符长度Ci对由Ns个词语组成的句子序列进行分类,并得到文本数据Di中所有词语的敏感标签合集Li;步骤23,根据敏感标签合集Li得到具有相同标签Lit的敏感属性内容集合Ait,其中Ait={W1,W2,W3,…,WZ},并且构建出包含所有敏感属性的字典Dicti,其中Dicti={Ai1,Ai2,…,Ait}。4.根据权利要求1的基于差分隐私的文本内容保护方法,其特征在于,于步骤3中,按照敏感内容字符长度Ci和敏感内容类型Ti对查询到的语料库进行处理。5.根据权利要求2的基于差分隐私的文本内容保护方法,其特征在于,于步骤4中,在可接受的文本准确率阈值范围[εlow,εhigh]内确定隐私预算ε;同时对具有相同标签Lit的敏感属性内容进行替换。6.根据权利要求5的基于差分隐私的文本内容保护方法,其特征在于,以概率保持原有敏感属性,以概率替换为语料库中的属性;其中,p和q满足的条件,ε表示隐私预算,d为替换语料数据域的范围。7.根据权利要求6的基于差分隐私的文本内容保护方法,其特征在于,于步骤6中,若文2CN115935405A权利