预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据仓库与数据挖掘试题一、什么是数据仓库数据仓库的主要特征有哪些它与传统的关系数据库系统有什么区别二、关系模型和多维模型在数据仓库设计中各有什么优缺点三、数据仓库上的代数操作有哪些如何定义的,举例说明。四、什么是知识发现,知识发现的过程包括那几个步骤五、什么是关联规则如何利用Apriori算法在给定的数据集合上找出关联规则六、什么是分类什么是聚类二者的区别是什么常用的分类和聚类方法有哪些1、数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。数据仓库的主要特征:面向主题的、集成的、时变的、非易失的数据仓库与数据库的区别数据库是面向事务的设计,数据仓库是面向主题设计的。数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。2、关系模型先建立企业级数据仓库,再在其上开发具体的应用。企业级数据仓库固然是我们所追求的目标,但在缺乏足够的技术力量和数据仓库建设经验的情况下,按照这种模型设计的系统建设过程长,周期长,难度大,风险大,容易失败。这种模型的优点是信息全面、系统灵活。由于采用了第三范式,数据存储冗余度低、数据组织结构性好、反映的业务主题能力强以及具有较好的业务扩展性等,但同时会存在大量的数据表,表之间的联系比较多,也比较复杂,跨表操作多,查询效率较低,对数据仓库系统的硬件性能要求高等问题。另一方面,数据模式复杂,不容易理解,对于一般计算机用户来说,增加了理解数据表的困难。多维模型降低了范式化,以分析主题为基本框架来组织数据。以维模型开发分析主题,这样能够快速实施,迅速获得投资回报,在取得实际效果的基础上,再逐渐增加应用主题,循序渐进,积累经验,逐步建成企业级数据仓库。这也可以说是采用总线型结构先建立数据集市,使所有的数据集市具有统一的维定义和一致的业务事实,这种方法融合了自下而上和自上而下两种设计方法的思想。这种模型的优点是查询速度快,做报表也快;缺点是由于存在大量的预处理,其建模过程相对来说就比较慢。当业务问题发生变化,原来的维不能满足要求时,需要增加新的维。由于事实表的主码由所有维表的主码组成,所以这种维的变动将是非常复杂、非常耗时的。而且信息不够全面、系统欠灵活、数据冗余多。3、切片(Slice)、切块(Dice)、聚集(aggregation)、幂聚集(Cube)、上卷(roll-up)、下钻(drill-down)、集合操作、类似于关系代数的操作等。切片(Slice)给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…,Mk),在MDS的第i维上的切片是一个条件为Di=c选择操作,c是常量。切片的结果是一个n-1维的数据集合切块(Dice)给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…,Mk),在MDS的第i维上的切块是一个条件为c1?Di?c2选择操作,c1和c2是常值。切块的结果是一个n维的数据集合?聚集(Aggregation)给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…,Mk)及一个维属性Di(1?i?n),MDS在Di上的聚集操作表示为Agg(MDS,Di,F),其中F={f1,f2,…,fk},fj是Mj上聚集函数,如求最大值、最小值、均值、和、计数等。幂聚集(Cube)给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…,Mk)及一个维属性集合S?{Di|1?i?n},MDS在S上的幂聚集操作表示为Cube(MDS,S,F),其中F={f1,f2,…,fk},fj是Mj上聚集函数,如求最大值、最小值、均值、和、计数等。上卷(roll-up)给定一个多维数据集合MDS(D1,D2,…,Dn;M1,M2,…,Mk),MDS上的上卷操作的功能是从MDS开始沿着计算下钻(drill-down)下钻是上卷的逆操作,从宏观数据到微观数据。旋转数据旋转是改变维度的位置关系,使最终用户可以从其他视角来观察多维数据5、数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支