预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

SPSSModeler的数据理解和数据处理本文详细介绍了如何使用IBMSPSSModeler来进行数据挖掘工作中的数据理解工作,其中主要包括对缺失值的理解和处理,对异常值的理解和处理,以及如何利用Modeler来观察和分析数据项之间的内在关系前言在数据挖掘项目中,数据理解常常不被重视。但其实数据理解在整个数据挖掘项目中扮演着非常重要的角色,可以说是整个项目的基石。在计算机领域有一句话,“Garbagein,garbageout.”意思就是说,如果你的输入数据没有经过科学的预处理,你所得到的结果必将是错误的。通过数据理解,我们可以理解数据的特性和不足,进而对数据进行预处理,使得将来得到的模型更加稳定和精确。其次通过理解数据项之间的关系,我们可以为建模时输入数据项和模型的选择提供重要的信息首先,我们需要了解CRISP-DM模型,从而了解数据理解在数据挖掘工作的位置和作用。接着我们利用一个例子,分三个章节来介绍如何利用Modeler来理解和处理原始数据中的缺失值,异常值和各个数据项之间的内在关系。CRISP-DM模型数据挖掘是一项复杂的工程,为了让整个项目便于控制和管理,我们必须遵从一定的标准流程。而CRISP-DM模型就是数据挖掘业界比较流行的一种模型。图1.CRISP-DM模型图CRISP-DM,即跨行业数据挖掘标准流程,这是一种业界认可的用于指导数据挖掘工作的方法。作为一种方法,它包含工程中各个典型阶段的说明、每个阶段所包含的任务以及这些任务之间的关系的说明;作为一种流程模型,CRISP-DM概述了数据挖掘的生命周期。图1展示了CRISP-DM中定义的数据挖掘生命周期中的六个阶段。商业理解:了解进行数据挖掘的业务原因和数据挖掘的目标数据理解:深入了解可用于挖掘的数据数据准备:对待挖掘数据进行合并,汇总,排序,样本选取等操作建立模型:根据前期准备的数据选取合适的模型模型评估:使用在商业理解阶段设立的业务成功标准对模型进行评估结果部署:使用挖掘后的结果提升业务的过程下面,我们以某超市的市场推广活动为例,从商业理解开始,一起来学习如何利用Modeler的强大功能来进行数据理解。商业理解:现状:某超市新增加了体育服饰用品营业部。开业一段时间,由于体育服饰用品地处二楼,很多顾客还不知道,营业额没有达到预期。商业目标:经理决定进行一次促销活动,具体活动是向会员中的部分用户邮寄打折优惠卡。考虑到优惠卡制作费用,邮寄费用,经理希望能够向那些最有购买潜力的客户邮寄优惠卡。使这些潜在用户了解本超市的体育品牌和刺激他们进行消费。活动计划:首先调取自体育用品部营业来的所有销售记录,得到购买体育用品的会员记录,建立模型,对本超市所有会员进行预测,对那些最有可能购买体育用品且尚未购买的客户邮寄优惠卡。以刺激这些潜在客户的消费。验证条件:产生潜在客户名单信息后,随机抽取100名进行电话调查,表示愿意接受优惠券并且表示会来消费的顾客比例高于70%.数据理解经理将这个任务交给小王来负责,小王首先对超市内现有的数据进行分析:1.会员基本信息:会员申请会员卡时登记的信息,其中包含了会员年龄,职业,学历,电话,工作,收入,住址等信息。2.消费信息:会员消费的明细记录。了解了现有数据后,小王发现有以下问题:1.会员基本信息是会员提供的,里边有很多值是缺失的,有的看起来是错误的。2.而消费信息由于是每次消费后电脑生成,信息是完整的,但是信息却很庞杂,不利于分析。3.可用的数据项非常多,到底用哪些数据项来进行数据预测呢?这几个问题都是数据理解需要解决的问题,下边我们就来看一下如何利用Modeler来帮助我们进行数据理解:使用Modeler进行缺失值分析什么是缺失值?缺失值就是指数据文件中的某些数据项是未知的值。几乎所有的商业数据挖掘中,都要遇到缺失值的问题,有可能是数据采集中的失误,有可能客户不愿意提供某些信息,面对这样的数据,我们该如何是好?使用这样的数据可能会对我们后期的建模产生不可预料的影响。如果丢弃,这些数据中可能包含着宝贵的信息。下边我们就来看一下如何利用Modeler来进行缺失值分析:缺失值示例第一步我们需要利用Modeler来确定数据文件中缺失值的类型和数量。然后才能做进一步的处理。首先我们看一下我们例子中需要用到的数据:图2.缺失值分析示例数据从上图中我们可以看到编号有些记录的值是缺失的。接下来我们打开Modeler,新建Stream,拖入一个“可变文件”节点到工作区。双击节点。选择示例数据文件作为输入。然后我们点击“可变文件”节点的预览按钮。得到结果如图:图3.原始数据预览图从预览图里我们可以看出记录002的年龄为null,性别为空,这两个值都可以被Modeler自动识别为缺失值。这是Modeler针对不同类型的数据做了不同的处理。这里年龄被