预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111783126A(43)申请公布日2020.10.16(21)申请号202010706285.6(22)申请日2020.07.21(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人刘佳伟章鹏王德胜贾茜刘洋张谦(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人王戈(51)Int.Cl.G06F21/60(2013.01)G06F21/62(2013.01)G06F16/903(2019.01)G06K9/62(2006.01)权利要求书4页说明书17页附图4页(54)发明名称一种隐私数据识别方法、装置、设备和可读介质(57)摘要本说明书实施例公开了一种隐私数据识别方法、装置、设备和可读介质。方案包括:获取第一数据集的第一长度分布向量和第一字符分布统计信息,所述第一数据集为隐私数据样本的集合;获取第二数据集的第二长度分布向量和第二字符分布统计信息,所述第二数据集为待识别字段对应的至少部分数据样本的集合;计算所述第一数据集与所述第二数据集的长度分布相似度、字符分布相似度,并基于所述长度分布相似度和字符分布相似度确定所述待识别字段对应的数据是否为与所述第一数据集同类型的隐私数据。CN111783126ACN111783126A权利要求书1/4页1.一种隐私数据识别方法,包括:获取第一数据集的第一统计量信息;所述第一数据集为隐私数据样本的集合;所述第一统计量信息包括所述第一数据集的第一长度分布向量和第一字符分布统计信息;获取第二数据集的第二统计量信息;所述第二数据集为待识别字段对应的至少部分数据样本的集合;所述第二统计量信息包括所述第二数据集的第二长度分布向量和第二字符分布统计信息;基于所述第一长度分布向量和所述第二长度分布向量,确定所述第一数据集与所述第二数据集的长度分布相似度;若确定所述长度分布相似度满足第一预设条件,则基于所述第一字符分布统计信息和所述第二字符分布统计信息,确定所述第一数据集与所述第二数据集的字符分布相似度;若确定所述字符分布相似度满足第二预设条件,则将所述待识别字段对应的数据确定为与所述第一数据集同类型的隐私数据。2.如权利要求1所述的方法,所述获取第一数据集的第一统计量信息之前,还包括:获取用户选定的第一数据集;确定所述第一数据集的第一统计量信息。3.如权利要求1所述的方法,所述获取第二数据集的第二统计量信息之前,还包括:获取待识别字段对应的至少部分数据样本构成的第二数据集;确定所述第二数据集的第二统计量信息。4.如权利要求3所述的方法,所述确定所述第二数据集的第二统计量信息,包括确定所述第二数据集的所述第二长度分布向量,具体包括:初始化第二长度分布向量;所述第二长度分布向量中第i个位置的值表示长度为i的数据样本的数量;其中,i为小于或等于所述第二长度分布向量的长度的正整数;遍历所述第二数据集中的数据样本,获取各数据样本的长度信息;根据所述各数据样本的长度信息,确定所述第二长度分布向量。5.如权利要求3所述的方法,所述确定所述第二数据集的第二统计量信息,包括确定所述第二数据集的第二字符分布统计信息,具体包括:根据所述第二数据集中数据样本的长度,从所述第二数据集中确定至少一个子数据集;其中,同一子数据集中的数据样本具有相同的长度;对于各个子数据集,确定所述子数据集中数据样本的第二字符分布统计信息。6.如权利要求5所述的方法,所述确定所述子数据集中数据样本的第二字符分布统计信息,具体包括:基于所述子数据集中数据样本包含的字符,对于所述子数据集中数据样本的各个长度位置,确定与所述长度位置对应的字符分布向量;基于与各个所述长度位置对应的所述字符分布向量,得到所述子数据集中数据样本的第二字符分布统计信息。7.如权利要求6所述的方法,所述确定与所述长度位置对应的字符分布向量,具体包括:初始化第二字符分布向量;所述字符分布向量中的各值表示所述子数据集中数据样本在对应的所述长度位置处包含有预设字符的数量;2CN111783126A权利要求书2/4页确定所述子数据集中各数据样本在所述长度位置处的字符;根据所述子数据集中各数据样本在所述长度位置处的字符,确定所述第二字符分布向量。8.如权利要求1所述的方法,所述基于所述第一长度分布向量和所述第二长度分布向量,确定所述第一数据集与所述第二数据集的长度分布相似度,具体包括:计算所述第一长度分布向量与所述第二长度分布向量之间的第一KL距离;所述确定所述长度分布相似度满足第一预设条件,具体包括:确定所述第一KL距离小于或等于第一KL阈值。9.如权利要求1所述的方法,所述基于所述第一字符分布统计信息和所述第二字符分布统