预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

XI`ANTECHNOLOGICALUNIVERSITY 实验报告 实验课程名称数据集成、变换、归约和离散化 专业:数学与应用数学 班级: 姓名: 学号: 实验学时: 指导教师:刘建伟 成绩: 2016年5月5日 西安工业大学实验报告 专业数学与应用数学班级131003姓名学号 实验课程数据挖掘指导教师刘建伟实验日期2016-5-5同实验者实验项目数据集成、变换、归约和离散化实验设备及器材计算机一台 一实验目的 掌握数据集成、变换、归约和离散化 二实验分析 从初始数据源出发,总结了目前数据预处理的常规流程方法,提出应把源数据的获取作为数据预处理的一个步骤,并且创新性地把数据融合的方法引入到数据预处理的过程中,提出了数据的循环预处理模式,为提高数据质量提供了更好的分析方法,保证了预测结果的质量,为进一步研究挖掘提供了较好的参考模式。 三实验步骤 1数据分析任务多半涉及数据集成。数据集成是指将多个数据源中的数据合并并存放到一个一致的数据存储(如数据仓库)中。这些数据源可能包括多个数据库、数据立方体或一般文件。在数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。 2数据变换是指将数据转换或统一成适合于挖掘的形式。(1)数据泛化:使用概念分层,用高层概念替换低层或“原始”数据。例如,分类的属性,如街道,可以泛化为较高层的概念,如城市或国家。类似地,数值属性如年龄,可以映射到较高层概念如青年、中年和老年。(2)规范化:将属性数据按比例缩放,使之落入一个小的特定区间。大致可分三种:最小最大规范化、z-score规范化和按小数定标规范化。(3)属性构造:可以构造新的属性并添加到属性集中,以帮助挖掘过程。例如,可能希望根据属性height和width添加属性area。通过属性构造可以发现关于数据属性间联系的丢失信息,这对知识发现是有用的。 3数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理.数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得多的数据。 4数据离散化就是一种数据变换形式。主要有①光滑②属性构造③聚集④规范化⑤离散化⑥有标称数据产生概念分层。 一、卡方检验 对于标称数据,两个属性A和B之间的相关联系可以通过χ2(卡方)检验发现。假设A有c个不同值a1,a2,…,ac,B有r个不同值b1,b2,…,br。用A和B描述的数据元组可以用一个相依表显示,其中A的c个值构成列,B的r个值构成行。令(Ai,Bj)表示属性A取值ai、属性B取值bj的联合事件,即(A=ai,B=bj)。每个可能的(Ai,Bj)联合事件都在表中有自己的单元。χ2值(又称Pearsonχ2统计量)可以用下式计算: 其中,oij是联合事件(Ai,Bj)的观测频度(即实际计数),而eij是(Ai,Bj)的期望频度,可以用下式计算: 其中,n是数据元组的个数,count(A=ai)是A上具有值ai的元组个数,而count(B=bj)是B上具有值bj的元组个数。式中的和在所有r×c个单元上计算。注意,对χ2值贡献最大的单元是其实际计数与期望计数很不相同的单元。 χ2统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)×(c-1)。我如果可以拒绝该假设,则我们说A和B是统计相关的。 最小-最大规范化。假设属性income的最小值和最大值分别为12000美元和98000美元。把income映射到区间[0.0,0.1].根据最小最大规范化,income值73600美元将转变为。 三、Z分数规范化。假设属性income的均值和标准差分别为54000美元和16000美元.使用Z分数规范化,值73600美元被转换为 四、小波变换 离散小波变换是一种线信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量。两个向量具有相同的长度。当这种技术用于数据规约时,每个元组看做一个n维数据向量,即X=(),描述n个数据库属性在元组上的n个测量值。 五、直方图 等宽度直方图 对数据进行分箱。假设按等宽度的方法进行分箱(宽度w=1),则对于N个数据,按其值分别放入到相应的箱中,箱子的数目k=。设每个箱中的统计数据为(i=1,2...),按照坐标值/频率对()表示在二维坐标上,则可以得到该组数据的单桶直方图.其中,。 一般情况下,为了进一步压缩数据,通常进行数据分箱时,每一个桶代表的是连续的属性值,即取宽度w=q(0<q<)。在这种分箱方法下,分箱数目K=。则按照公式,其中j=1,2...k,令所得到的值/频率对(q(j-1)~qj/),j=1,2...,k的宽度为q的直方图,即为常见的等宽度直方图。 实验心得 预处理后,若挖掘结果显示和实际差异较大,在排除源数据的问题后则有必要需要考虑数据的二次预处理,以