预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共143页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第二讲数据仓库技术与联机分析处理本章主要内容1.多数据源问题数据质量的多维度量2.数据预处理数据预处理的形式数据清理——空缺值如何处理空缺值数据清理——噪声数据如何处理噪声数据数据平滑的分箱方法数据平滑的分箱方法边界值平滑时,先确定两个边界,然后依次计算除边界值外的其它值与两个边界的距离,与之距离最小的边界确定为平滑边界值。具体如下计算: -箱1: |8-4|=4;|15-8|=7;故选4做为平滑边界值。 |9-4|=5;|15-9|=6;故选4做为平滑边界值。 -箱2: |21-21|=0;|25-21|=4;故选21做为平滑边界值。 |24-21|=3;|25-24|=1;故选25做为平滑边界值。 -箱3: |28-26|=2;|34-28|=6;故选26做为平滑边界值。 |29-26|=3;|34-29|=5;故选26做为平滑边界值。聚类回归数据预处理数据集成处理数据集成中的冗余数据重复应当在元组级检测。它是指同一数据,存在两个或多个相同的元组。 数据值冲突的检测与处理。对于现实世界的同一实体,来自不同数据源的属性值可能不同。如表示、比例或编码的不同。 仔细将多个数据源中的数据集成起来,能够减少或避免结果数据中的冗余与不一致性,从而可以提高挖掘的速度和质量。数据预处理数据变换数据变换——规范化数据预处理数据归约策略数据立方体聚集维归约启发式的(探索性的)方法数据压缩数值归约直方图等宽:桶的宽度区间是常数 等深:桶的频率粗略地为常数(每个桶包含大致相同个数的临近数据样本) V-最优:具有最小方差的直方图(直方图的方差是每个桶代表的原数据的加权和,其中权等于桶加值的个数。 MaxDiff:考虑每对相邻值之间的差. 聚类聚类与分类的区别选样数据预处理离散化离散化和概念分层数据数值的离散化和概念分层生成通过自然划分分段自然划分的3-4-5规则分类数据的概念分层生成属性集的规格数据预处理3.数据仓库数据处理大致可以分成两大类:操作处理与分析处理数据库处理的两大应用操作型系统与分析型系统数据仓库的定义数据仓库和数据库数据仓库发展历史数据仓库的4大特点数据仓库数据仓库——面向主题数据仓库-集成的数据仓库——集成数据仓库数据仓库的特点——数据不可更改数据仓库数据仓库的特点——随时间变化数据仓库的结构数据仓库的结构数据仓库建立的过程数据的粒度数据的分割 数据组织形式数据组织形式(简单堆积)每日由数据库中提取并加工的数据逐天积累堆积数据组织形式(轮转综合)数据按一定的格式进行轮转的累加数据组织形式简单堆积与轮转综合的比较数据组织形式(简化直接)按一定的时间间隔,对数据进行提取,是操作型数据的一个快照数据组织形式(连续)把新的快照追加到以前的连续数据上去数据追加数据库的体系化环境数据库的体系化环境数据库的体系化环境数据仓库的开发生命周期数据仓库的基本数据模式1CustSales数据仓库的基本数据模式2CustSales数据仓库系统数据仓库系统数据仓库系统数据分析模型数据分析模型数据仓库系统的工具层联机分析处理——OLAP联机分析处理——OLAPOLAP的12条准则OLAP的简要准则——FASMI数据仓库的多维数据模型联机分析处理-基本概念多维数据集(即多维数组) 当多维模型的每个维度都指定了确定的维成员,且每个变量对应于每个给定的维成员都赋予了具体的数值,它就构成一个多维数据集。 可以表示为(维1,维2,……,变量1,变量2,……),如(地区,时间,销售渠道,销售额) 多维数组每个维的维成员对应变量的一个取值称为数据单元(单元格),每个单元格描述了一个确定的实事。 可以理解为交叉表的数据格 联机分析处理-基本操作目的:方便用户从不同的层次观察多维数据 上卷:(rollup)——对多维数据选定的维度成员,按照其上层次维度对数据进行求和计算并展示的操作。 将较低层次的细节数据概况为较高层次的汇总数据,增加数据的粒度,减少了数据单元格的个数或数据集的维度。 下钻:(drilldown)——对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作。OLAP系统的分类基于多维数据库的OLAP——MOLAP基于关系数据库的OLAP——ROLAPMOLAP.vs.ROLAP混合OLAP系统—HLOAPOLAP工具数据挖掘与OLAP数据仓库的新发展数据仓库知名厂商列表知名数据仓库信息用户所面临的变化 “从10%的人花100%的时间使用工具到 100%的人花10%的时间使用工具.”信息生产者业务用户希望得到的不仅是一个含有正确信息的报表,并且需要能进一步分析及格式化报表的基本的功能,以满足其特定的需要。 高级用户希望能直接访问数据,进行特别查询、分析及报表。 IT人员希望能为企业中的任何人、在任何地方提供对数据的访问,或向他们进行发布,同时减少