预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108681493A(43)申请公布日2018.10.19(21)申请号201810530324.4(22)申请日2018.05.29(71)申请人深圳乐信软件技术有限公司地址518000广东省深圳市南山区粤海街道科苑南路3099号中国储能大厦第24层(72)发明人吴佳东(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F11/07(2006.01)G06F17/30(2006.01)权利要求书2页说明书9页附图3页(54)发明名称数据异常检测方法、装置、服务器和存储介质(57)摘要本发明实施例公开了一种数据异常检测方法、装置、服务器和存储介质,其中,该方法包括:获取待检测的数据源信息,其中,数据源信息包括至少一种数据库的地址;利用自适应优化后的聚类模型对数据源信息中的不同数据进行检测;根据检测的结果发送异常提示信息。本发明实施例解决了现有技术中数据异常检测比较被动和滞后的问题,实现了从数据源头对数据进行主动与及时地检测,改善了数据质量管理的被动局面,减轻了数据纠错难度,并且该方法对于不同的数据库具有通用性。CN108681493ACN108681493A权利要求书1/2页1.一种数据异常检测方法,其特征在于,包括:获取待检测的数据源信息,其中,所述数据源信息包括至少一种数据库的地址;利用自适应优化后的聚类模型对所述数据源信息中的不同数据进行检测;根据所述检测的结果发送异常提示信息。2.根据权利要求1中所述的方法,其特征在于,所述聚类模型包括基于密度的聚类算法模型。3.根据权利要求1或2中所述的方法,其特征在于,利用自适应优化后的聚类模型对所述数据源信息中的不同数据进行检测,包括:根据所述数据源信息中数据对象的不同,利用粒子群算法对所述聚类模型进行自适应地优化,得到优化的聚类参数;将所述优化的聚类参数应用于所述聚类模型中,对所述数据源信息中的不同数据进行检测。4.根据权利要求3中所述的方法,其特征在于,利用粒子群算法对所述聚类模型进行自适应地优化,包括:基于粒子群算法,利用如下适应度函数对所述聚类模型进行自适应的优化,其中,m表示簇的个数,ni表示簇Ci中的数据点个数,a(xi)表示数据点xi和与其属于同一类的数据点之间的平均不相似度,b(xi)表示数据点xi和与其属于同一类的数据点之间的平均不相似度的最小值。5.根据权利要求4中所述的方法,其特征在于,所述平均不相似度基于余弦函数得到。6.根据权利要求1所述的方法,其特征在于,所述数据源信息还包括数据表名;相应的,利用自适应优化后的聚类模型对所述数据源信息中的不同数据进行检测,包括:利用自适应优化后的聚类模型对所述数据源信息中的不同数据表逐一进行检测。7.根据权利要求1所述的方法,其特征在于,所述数据源信息还包括图表名;相应的,利用自适应优化后的聚类模型对所述数据源信息中的不同数据进行检测,包括:利用自适应优化后的聚类模型,对所述数据源信息中的不同类型的图表进行检测,其中,对所述图表的检测包括:获取同一图表类型中的每个图表所占用的空间大小,对所述每个图表占用的空间大小进行检测。8.一种数据异常检测装置,其特征在于,包括:信息获取模块,用于获取待检测的数据源信息,其中,所述数据源信息包括至少一种数据库的地址;数据检测模块,用于利用自适应优化后的聚类模型对所述数据源信息中的不同数据进行检测;结果反馈模块,用于根据所述检测的结果发送异常提示信息。2CN108681493A权利要求书2/2页9.一种服务器,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~7中任一所述的数据异常检测方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~7中任一所述的数据异常检测方法。3CN108681493A说明书1/9页数据异常检测方法、装置、服务器和存储介质技术领域[0001]本发明实施例涉及数据处理技术领域,尤其涉及一种数据异常检测方法、装置、服务器和存储介质。背景技术[0002]随着信息技术的不断发展,数据挖掘已经被广泛应用于各种电子商务平台中,其中,高质量的数据是数据挖掘有效性的基本保证。企业的数据质量与业务绩效之间存在着直接联系,质量较差的数据往往会对数据分析产生误导作用,从而影响重大商业决策的正确性。[0003]然而,期望完美的数据是不现实的。由于人的错误输入、IT系统的快速迭代以及业务的不断变化都可能导致数据异常问题。此外,数据挖掘用户作为数据的使用方,往往不能对数据质量进行控制,只能为了某一使用目的进行