预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112948646A(43)申请公布日2021.06.11(21)申请号202110354012.4(22)申请日2021.04.01(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人林博(74)专利代理机构济南信达专利事务所有限公司37100代理人李世喆(51)Int.Cl.G06F16/903(2019.01)G06F16/906(2019.01)权利要求书3页说明书10页附图3页(54)发明名称数据识别方法和装置(57)摘要本说明书实施例提供了一种数据识别方法和装置。根据该实施例的方法,获取待识别数据集;然后从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;再将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。CN112948646ACN112948646A权利要求书1/3页1.数据识别方法,包括:获取待识别数据集;从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。2.根据权利要求1所述的方法,其中,所述获取待识别数据集包括:从结构化数据的同一列数据中抽取多于一个的待识别数据构成待识别数据集;或者,从非结构化数据的表格中抽取同一列的多于一个的待识别数据构成待识别数据集。3.根据权利要求1所述的方法,其中,从所述待识别数据集中提取各待识别数据的前缀数据包括:提取所述待识别数据中前M位的数据作为前缀数据,所述M为预设的正整数。4.根据权利要求1所述的方法,其中,所述预设类型数据的前缀分布采用如下方式预先得到:获取所述预设类型数据的第一训练样本集;从所述第一训练样本集中提取各训练样本的前缀数据;依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分。5.根据权利要求4所述的方法,其中,所述依据各前缀数据在所述第一训练样本集中的分布,确定各前缀数据的分布得分包括:依据各前缀数据的区分度、命中所述第一训练样本集的训练样本数、所述第一训练样本集的训练样本总数以及前缀长度,确定各前缀数据的分布得分。6.根据权利要求4所述的方法,其中,将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分:依据所述各待识别数据的前缀数据与所述各训练样本的前缀数据的重合程度以及重合的前缀数据的分布得分,得到所述待识别数据集针对所述预设类型数据的前缀匹配得分。7.根据权利要求1所述的方法,其中,所述预设类型数据的分类模型采用以下方式预先训练得到:获取多于一个的第二训练样本集,并标注各第二训练样本集是否属于所述预设类型数据;确定所述第二训练样本集针对所述预设类型数据的前缀匹配得分和所述第二训练样本集的统计特征;将所述第二训练样本集的前缀匹配得分和统计特征作为分类模型的输入,将所述第二训练样本集对应的标注作为分类模型的目标输出,训练所述分类模型。8.根据权利要求1所述的方法,其中,所述待识别数据集的统计特征包括distinct值和柯尔莫哥洛夫‑斯摩洛夫ks值中的至少一种;其中所述distinct值为对所述待识别数据集进行去重后包含的数据数量:所述ks值为待识别数据集的累计分布与所述预设类型数据对应的标准分布之间的差2CN112948646A权利要求书2/3页值。9.根据权利要求1所述的方法,还包括:判断所述待识别数据集的元meta信息是否包含不属于所述预设类型数据的meta信息,如果是,则确定所述待识别数据集不属于所述预设类型数据。10.根据权利要求1至9中任一项所述的方法,其中,所述预设类型数据包括:工号、信用评分或发票号码。11.数据识别装置,包括:第一获取单元,被配置为获取待识别数据集;前缀处理单元,被配置为从所述待识别数据集中提取各待识别数据的前缀数据;将所述前缀数据与预设类型数据的前缀分布进行匹配,确定所述待识别数据集针对所述预设类型数据的前缀匹配得分;分类处理单元,被配置为将所述前缀匹配得分与所述待识别数据集的统计特征输入所述预设类型数据的分类模型,得到所述待识别数据集是否属于所述预设类型数据的分类结果。12.根据权利要求11所述的装置,其中,所述第一获取单元,具体被配置为:从结构化数据的同一列数据中抽取多于一个的待识别数据