预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111738358A(43)申请公布日2020.10.02(21)申请号202010722262.4(22)申请日2020.07.24(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人刘佳伟王德胜章鹏张谦贾茜刘洋(74)专利代理机构北京晋德允升知识产权代理有限公司11623代理人王戈(51)Int.Cl.G06K9/62(2006.01)权利要求书4页说明书15页附图3页(54)发明名称一种数据识别方法、装置、设备和可读介质(57)摘要本说明书实施例公开了一种数据识别方法、装置、设备和计算机可读介质。方案包括:获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合,所述第二数据集中数据样本的数据类型是已知的;基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率;确定所述第一数据集中所述样本状态转移概率大于第一阈值的数据样本的数量相对所述第一数据集中数据样本的总数量的比例;若所述比例大于第二阈值,则将所述待识别字段对应的数据确定为与所述第二数据集中的数据样本具有相同的数据类型。CN111738358ACN111738358A权利要求书1/4页1.一种数据识别方法,包括:获取第一数据集,所述第一数据集中的数据样本为待识别字段的至少部分数据;获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合;所述第二数据集中数据样本的数据类型是已知的;所述状态转移矩阵集合中包含多个状态转移矩阵,其中,一个状态转移矩阵用于表示,所述第二数据集中的数据样本中的一个字符位置处的第一字符取值,相对所述一个字符位置的下一字符位置处的第二字符取值的各种状态转移情况的概率;基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率;所述样本状态转移概率表示对应的所述数据样本的数据类型与所述第二数据集中数据样本的数据类型的相似程度;确定所述第一数据集中所述样本状态转移概率大于第一阈值的数据样本的数量相对所述第一数据集中数据样本的总数量的比例;若所述比例大于第二阈值,则将所述待识别字段对应的数据确定为与所述第二数据集中的数据样本具有相同的数据类型。2.如权利要求1所述的方法,所述获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合之前,还包括:基于所述第二数据集中的数据样本,确定各字符位置对应的状态转移矩阵,得到状态转移矩阵集合。3.如权利要求2所述的方法,所述基于所述第二数据集中的数据样本,确定各字符位置对应的状态转移矩阵之前,还包括:获取给定数据集;所述给定数据集中数据样本的数据类型是已知的;从所述给定数据集中确定至少一个第二数据集;同一第二数据集中的数据样本具有相同的长度。4.如权利要求3所述的方法,所述获取基于第二数据集中的数据样本统计得到的状态转移矩阵集合,具体包括:根据所述第一数据集中数据样本的长度,获取相应的状态转移矩阵集合;其中,所述相应的状态转移矩阵集合对应的第二数据集中的数据样本的长度与所述第一数据集中数据样本的长度相同。5.如权利要求1所述的方法,所述基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率之前,还包括:确定所述第一数据集中数据样本的样本长度与所述第二数据集中数据样本的样本长度相同。6.如权利要求1所述的方法,所述基于所述状态转移矩阵集合,确定所述第一数据集中各数据样本对应的样本状态转移概率,具体包括:对于所述第一数据集中的数据样本,基于所述状态转移矩阵集合,获取所述数据样本中各字符位置对应的字符状态转移概率;基于所述数据样本中各字符位置对应的字符状态转移概率,计算所述数据样本对应的样本状态转移概率。7.如权利要求6所述的方法,所述基于所述状态转移矩阵集合,获取所述数据样本中各2CN111738358A权利要求书2/4页字符位置对应的字符状态转移概率,具体包括:确定所述数据样本的第一字符位置处的第一字符取值;确定所述第一字符位置的下一字符位置处的第二字符取值;从所述状态转移矩阵集合中,确定与所述第一字符位置对应的第一状态转移矩阵;根据所述第一字符取值与所述第二字符取值,从所述第一状态转移矩阵中获取与所述第一字符位置对应的第一状态转移概率。8.如权利要求6所述的方法,所述基于所述数据样本中各字符位置对应的字符状态转移概率,计算所述数据样本对应的样本状态转移概率,具体包括:计算所述数据样本中各字符位置对应的字符状态转移概率的乘积,作为所述数据样本对应的样本状态转移概率。9.如权利要求1所述的方法,所述确定所述第一数据集中所述样本状态转