预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘中的数据预处理方法研究* 摘要:从初始数据源出发,强调了要结合专业知识来进行初始数据的获取,总结了目前数据预处理的常规流程 方法,同时认为应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预 处理的过程中,提出了数据的循环预处理模式。为数据挖掘的进一步研究提供了较好的参考模式,对数据质量 的提高提供了更好的分析方法,对预测结果的质量起到了重要保证。 关键词:数据挖掘;数据预处理;数据分析 中图法分类号:TP391文献标识码:A文章编号: ResearchonDataPreprocessinDataMining (CollegeofMathematicsandInformathionScience,NorthChinaInstituteofWaterConservancyand HydroelectricPower,Zhengzhou450011,China,) Abstract:Beginfromtheinitialdatasource,emphasizedgaininginitialdataneedingtocompose combiningwithprofessionalknowledge,andsummedupdatapreprocessroutinetechnologicalprocess method,andatthesametime,gainingsourcedatashouldbeasastepofdatapreprocess.Havebrought datafusionintodatapreprocessandbringforwardthedatacirculationpreprocesspattern.provided afairlygoodreferencepatternforfurtherstudiesindatamining,andprovidedmuchbetteranalysis methodtoraisethedatamass,andgaveanimportantguaranteetoforecastingtheresultmass. Keywords:DataMining;DataPreprocess;DataAnalysis 2005年8月,在第11届ACMSIGKDD国际会了解任务所涉及到的原始数据的属性和数据 议上,新西兰怀卡托大学的Weka系统荣获了数结构及所代表的意义,确定所需要的数据项和 据挖掘和知识探索领域的最高服务奖,被誉为数据提取原则,使用合适的手段和严格的操作 数据挖掘和机器学习历史上的里程碑。统计发规范来完成相关数据的获取,由于这一步骤涉 现在整个数据挖掘过程中,数据预处理要花费及较多相关专业知识,可以结合专家和用户论 60%左右的时间,而后的挖掘工作仅占总工作证的方式尽量获取有较高含金量(预测能力) 量的10%左右[1]。经过预处理的数据,不但的变量因子。获取过程中若涉及到多源数据的 可以节约大量的空间和时间,而且得到的挖掘抽取,由于运行的软硬件平台不同,对这些异 结果能更好地起到决策和预测作用。质异构数据库要注意数据源的连接和数据格 一般的,数据预处理分为4个步骤,本文式的转换。若涉及到数据的保密,则在处理时 把对初始数据源的选择作为数据预处理过程应多注意此类相关数据的操作且对相关数据 中的一个步骤,即共分为5个步骤。因为,如作备注说明以备查用。 果在数据获得初期就有一定的指导,则可以减2数据清理 少数据获取的盲目性以及不必要噪声的引入数据清理是数据准备过程中最花费时间、最 且对后期的工作也可节约大量的时间和空间。乏味,但也是最重要的步骤。该步骤可以有效 整个预处理过程见图1。减少学习过程中可能出现相互矛盾情况的问 ,题。初始获得的数据主要有以下几种情况需要 初数处理: 始数据数据1)含噪声数据。处理此类数据,目前最 据数数挖掘挖 数集 据据掘 据清成知识广泛的是应用数据平滑技术。1999年,Pyle 变规结 的理和评价系统归纳了利用数据平滑技术处理噪声数据 换约等等果 获融的方法,主要有:①分箱技术,检测周围相 取合 应属性值进行局部数据平滑。②利用聚类技 术,根据要求选择包括模糊聚类分析或灰色聚 二次预处理 类分析技术检测孤立点数据,并进行修正,还 图1.数据预处理流程 可结合使用灰色数学或粗糙集等数学方法进 行相应检测。③利用回归函数或时间序列分析 1初始源数据的获取的方法进行修正。④计算机和人工相结合的方 研究发现,通过对挖掘的错误结果去寻找式等。 原因,多半是由数据源的质量引起的。因此,对此类数据,尤其对于孤立点或异常数 原始数据的获取,从源头尽量减少错误和误据,是不可以随便以删除方式进行处理的。如 差,尤其是减少人为误