(完整word版)数据仓库与数据挖掘考试试题-豆柴文库

(完整word版)数据仓库与数据挖掘考试试题.doc

2024-06-03

10金币

121KB

4页

飞舟****文章

实名认证

内容提供者

1/4

2/4

3/4

4/4

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

填空题（15分）1.数据仓库的特点分别是面向主题、集成、相对稳定、反映历史变化。2.元数据是描述数据仓库内数据的结构和建立方法的数据。根据元数据用途的不同可将元数据分为技术元数据和业务元数据两类。3.OLAP技术多维分析过程中，多维分析操作包括切片、切块、钻取、旋转等。4.基于依赖型数据集市和操作型数据存储的数据仓库体系结构常常被称为“中心和辐射”架构，其中企业级数据仓库是中心，源数据系统和数据集市在输入和输出范围的两端。5.ODS实际上是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库，也叫运营数据存储。多项选择题（10分）6.在数据挖掘的分析方法中，直接数据挖掘包括（ＡＣＤ）A分类B关联C估值D预言7.数据仓库的数据ETL过程中，ETL软件的主要功能包括（ＡＢＣ）A数据抽取B数据转换C数据加载D数据稽核8.数据分类的评价准则包括（ABCD）A精确度B查全率和查准率CF-MeasureD几何均值9.层次聚类方法包括（BC）A划分聚类方法B凝聚型层次聚类方法C分解型层次聚类方法D基于密度聚类方法10.贝叶斯网络由两部分组成，分别是（AD）A网络结构B先验概率C后验概率D条件概率表计算题（30分）11.一个食品连锁店每周的事务记录如下表所示，其中每一条事务表示在一项收款机业务中卖出的项目，假定supmin=40%，confmin=40%，使用Apriori算法计算生成的关联规则，标明每趟数据库扫描时的候选集和大项目集。（15分）事务项目事务项目T1T2T3面包、果冻、花生酱面包、花生酱面包、牛奶、花生酱T4T5啤酒、面包啤酒、牛奶解：（1）由I={面包、果冻、花生酱、牛奶、啤酒}的所有项目直接产生1-候选C1，计算其支持度，取出支持度小于supmin的项集，形成1-频繁集L1，如下表所示：项集C1支持度项集L1支持度{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5{面包}{花生酱}{牛奶}{啤酒}4/53/52/52/5(2)组合连接L1中的各项目，产生2-候选集C2，计算其支持度，取出支持度小于supmin的项集，形成2-频繁集L2，如下表所示：项集C2支持度项集L2支持度{面包、花生酱}3/5{面包、花生酱}3/5至此，所有频繁集都被找到，算法结束，所以，confidence（{面包}→{花生酱}）=（4/5）/（3/5）=4/3>confminconfidence（{花生酱}→{面包}）=（3/5）/（4/5）=3/4>confmin所以，关联规则{面包}→{花生酱}、{花生酱}→{面包}均是强关联规则。12.给定以下数据集（2，4，10，12，15，3，21），进行K-Means聚类，设定聚类数为2个，相似度按照欧式距离计算。（15分）解：（1）从数据集X中随机地选择k个数据样本作为聚类的出示代表点，每一个代表点表示一个类别，由题可知k=2，则可设m1=2，m2=4：（2）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为2，8，10，13，1，19。当m2=4时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-2，6，8，11，-1，17。最小距离是1或者-1将该元素放入m1=2的聚类中，则该聚类为（2，3），另一个聚类m2=4为（4，10，12，15，21）。（3）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=2.5，m2=12：（4）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=2.5时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-0.5，0.5，1.5，7.5，9.5，12.5，18.5。当m2=12时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-10，-9，-8，2，3，9。最小距离是1.5将该元素放入m1=2.5的聚类中，则该聚类为（2，3，4），另一个聚类m2=12为（10，12，15，21）。（5）完成数据样本的划分之后，对于每一个聚类，计算其中所有数据样本的均值，并且将其作为该聚类的新的代表点，由此得到k个均值代表点：m1=3，m2=14.5：（6）对于X中的任意数据样本xm（1<xm<total），计算它与k个初始代表点的距离，并且将它划分到距离最近的初始代表点所表示的类别中：当m1=3时，样本（2，4，10，12，15，3，21）距离该代表点的距离分别为-1，1，7，9，

相关资料

(完整word版)数据仓库与数据挖掘考试试题.doc

2024-06-03

121KB

(完整word版)数据仓库与数据挖掘考试试题.doc

2024-04-13

121KB

(完整word版)数据仓库与数据挖掘期末综合复习.doc

数据仓库与数据挖掘期末综合复习第一章1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个信息目录，根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。3、数据处理通常分成两大类：联机事务处理和联机分析处理。4、多维分析是指以“维”形式组织起来的数据（多维数据集）采取切片、切块、钻取和旋转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据，从而深入理解多维数据

2024-06-03

2MB

(完整word版)数据仓库与数据挖掘实验二-OLAP.doc

数据仓库与数据挖掘实验实验2、创建多维数据集。■创建多维数据集（WindowsXP）◆在“AnalysisManager”窗口中→选择“Sample”→选择“多维数据集”→右击◆选择“新建多维数据库”→向导（W）…◆单击“下一步”◆建立事实表。选择“FoodMart2000”→展开“默认构架”→选择“Sales_fact_1998”◆单击“浏览数据(R)...”◆浏览数据后，关闭浏览数据窗口，单击“下一步”◆选择销售金额、销售成本和销售数量为事实表的度量值。双击“store_sales”、“store_c

2024-09-18

8.2MB

(完整word版)数据仓库与数据挖掘期末综合复习.doc

2024-04-13

2MB