预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111709052A(43)申请公布日2020.09.25(21)申请号202010485005.3(22)申请日2020.06.01(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王德胜贾茜刘洋章鹏刘佳伟张谦(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人王戈(51)Int.Cl.G06F21/62(2013.01)权利要求书5页说明书17页附图5页(54)发明名称一种隐私数据识别和处理方法、装置、设备和可读介质(57)摘要本说明书实施例公开了隐私数据识别和处理方法、装置、设备及计算机可读介质。方案包括:采用预先训练的命名实体识别模型,确定目标字段的多条数据中的隐私序列的位置信息和序列隐私类型信息;从而得到所述多条数据的隐私结构类型,所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型;进而确定所述目标字段的隐私结构类型;然后对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签,所述标签可以用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。CN111709052ACN111709052A权利要求书1/5页1.一种隐私数据识别方法,包括:获取目标字段对应的多条数据;采用预先训练的命名实体识别模型,确定所述多条数据中隐私序列的位置信息和序列隐私类型信息;基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息,确定所述多条数据的隐私结构类型;所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型;其中,所述非隐私结构类型的数据为不包含隐私序列的数据,所述单序列隐私结构类型的数据为包含一个隐私序列的数据,所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据;基于所述多条数据的隐私结构类型,确定所述目标字段的隐私结构类型;对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签;所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。2.如权利要求1所述的方法,所述采用预先训练的命名实体识别模型,确定所述多条数据中隐私序列的位置信息和序列隐私类型信息之前,还包括:判断所述多条数据是否为结构复合型数据,得到第一判断结果,其中,所述结构复合型数据为包含用于分隔语义元素的标记的半结构化数据;若所述第一判断结果为是,则将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据。3.如权利要求2所述的方法,所述结构复合型数据包括JSON格式数据,所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据,具体包括:将所述JSON格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据;或,所述结构复合型数据包括XML格式数据,所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据,具体包括:将所述XML格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据;或,所述结构复合型数据包括URL格式数据,所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据,具体包括:将所述URL格式数据中的域名和请求参数确定为所述预先训练的命名实体识别模型的输入数据。4.如权利要求1所述的方法,基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息,确定所述多条数据的隐私结构类型,具体包括:根据所述隐私序列的所述序列隐私类型信息,确定与所述序列隐私类型信息表示的序列隐私类型对应的隐私序列检测规则;判断所述隐私序列是否符合所述隐私序列检测规则,得到第二判断结果;若所述第二判断结果为是,将所述序列隐私类型信息表示的序列隐私类型确定为所述隐私序列的实际序列隐私类型;基于所述多条数据中隐私序列的位置信息和所述实际序列隐私类型,确定所述多条数据的隐私结构类型。5.如权利要求4所述的方法,所述隐私序列检测规则具体包括正则表达式和数字校验2CN111709052A权利要求书2/5页规则中的至少一种。6.如权利要求1所述的方法,所述基于所述多条数据的隐私结构类型,确定所述目标字段的隐私结构类型,具体包括:基于所述多条数据中各条数据的隐私结构类型,确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值,以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值;根据所述第一比值、所述第二比值和所述第三比值,确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型;判断是