(完整word版)数据挖掘课后答案-豆柴文库

(完整word版)数据挖掘课后答案.doc

2024-09-18

10金币

322KB

14页

一条****淑淑

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共14页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

第一章 1．6 （1）数据特征化是目标类数据的一般特性或特征的汇总。例如，在某商店花费1000元以上的顾客特征的汇总描述是：年龄在40—50岁、有工作和很好的信誉等级。（2）数据区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如，高平均分数的学生的一般特点，可与低平均分数的学生的一般特点进行比较。由此产生的可能是一个相当普遍的描述，如平均分高达75％的学生是大四的计算机科学专业的学生，而平均分低于65%的学生则不是。（3）关联和相关分析是指在给定的频繁项集中寻找相关联的规则。例如，一个数据挖掘系统可能会发现这样的规则：专业（X，“计算机科学”）=>拥有（X，”个人电脑“）[support=12％，confidence=98％]，其中X是一个变量，代表一个学生，该规则表明，98%的置信度或可信性表示，如果一个学生是属于计算机科学专业的，则拥有个人电脑的可能性是98%。12%的支持度意味着所研究的所有事务的12%显示属于计算机科学专业的学生都会拥有个人电脑。（4）分类和预测的不同之处在于前者是构建了一个模型（或函数），描述和区分数据类或概念，而后者则建立了一个模型来预测一些丢失或不可用的数据，而且往往是数值，数据集的预测。它们的相似之处是它们都是为预测工具：分类是用于预测的数据和预测对象的类标签，预测通常用于预测缺失值的数值数据。例如：某银行需要根据顾客的基本特征将顾客的信誉度区分为优良中差几个类别，此时用到的则是分类；当研究某只股票的价格走势时，会根据股票的历史价格来预测股票的未来价格，此时用到的则是预测。（5）聚类分析数据对象是根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类和分组。聚类还便于分类法组织形式，将观测组织成类分层结构，把类似的事件组织在一起。例如：世界上有很多种鸟，我们可以根据鸟之间的相似性，聚集成n类，其中n可以认为规定。（6）数据演变分析描述行为随时间变化的对象的规律或趋势，并对其建模。这可能包括时间相关数据的特征化、区分、关联和相关分、分类、预测和聚类，这类分析的不同特点包括时间序列数据分析、序列或周期模式匹配和基于相似性的数据分析。例如：假设你有纽约股票交易所过去几年的主要股票市场（时间序列）数据，并希望投资高科技产业公司的股票。股票交易数据挖掘研究可以识别整个股票市场和特定的公司的股票的演变规律。这种规律可以帮助预测股票市场价格的未来走向，帮助你对股票投资做决策。 1．11一种是聚类的方法，另一种是预测或回归的方法。（1）聚类方法：聚类后，不同的聚类代表着不同的集群数据。这些数据的离群点，是不属于任何集群。在各种各样的聚类方法当中，基于密度的聚类可能是最有效的。（2）使用预测或回归技术：构建一个基于所有数据的概率（回归）模型，如果一个数据点的预测值有很大的不同给定值，然后给定值可考虑是异常的。HYPERLINK"javascript:;" 用聚类的方法来检查离群点更为可靠，因为聚类后，不同的聚类代表着不同的集群数据，离群点是不属于任何集群的，这是根据原来的真实数据所检查出来的离群点。而用预测或回归方法，是通过构建一个基于所有数据的（回归）模型，然后根据预测值与原始数据的值比较，当二者相差很大时，就将改点作为离群点处理，这对所建立的模型有很大的依赖性，另外所建立的模型并不一定可以很好地拟合原来的数据，因此一个点在可能某个模型下可能被当作离群点来处理，而在另外一个模型下就是正常点。所以用聚类的方法来检查离群点更为可靠 1．15 挖掘海量数据的主要挑战是：第一个挑战是关于数据挖掘算法的有效性、可伸缩性问题，即数据挖掘算法在大型数据库中运行时间必须是可预计的和可接受的，且算法必须是高效率和可扩展的。另一个挑战是并行处理的问题，数据库的巨大规模、数据的广泛分布、数据挖掘过程的高开销和一些数据挖掘算法的计算复杂性要求数据挖掘算法必须具有并行处理的能力，即算法可以将数据划分成若干部分，并行处理，然后合并每一个部分的结果。第二章 2．11三种规范化方法：（1）最小—最大规范化（min-max规范化）：对原始数据进行线性变换，将原始数据映射到一个指定的区间。（2）z-score规范化（零均值规范化）：将某组数据的值基于它的均值和标准差规范化，是其规范化后的均值为0方差为1。 ,其中是均值，是标准差（3）小数定标规范化：通过移动属性A的小数点位置进行规范化。 (a)min-max规范化其中v是原始数据，min和max是原始数据的最小和最大值，new_max和new_min是要规范化到的区间的上下限原始数据2003004006001000[0,1]规范化00.1250.250.51(b)z-score规范化

相关资料

(完整word版)数据挖掘课后答案.doc

2024-09-18

322KB

(完整word版)数据挖掘课后习题(word文档良心出品).doc

(实验项目)DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中，很多作者都有合著关系。(a)提出一种方法，挖掘密切相关的(即，经常一起合写文章)合著者关系。解决问题的大致过程:DBLP数据集是一个XML文件，先对XML文件解析，得到一个超过1G的TXT文件，处理文件数据格式，并截取前20000行数据，格式如下图：使用FP-Tree算法，设置支持度为3，得到的满足条件的频繁项集如下图：说明：以上结果只是一部分，由于数据集很庞大，限于篇幅，不便全部展示。(b)根据挖掘结果和本章讨论的

2024-06-12

206KB

(完整word版)数据仓库与数据挖掘教程(第2版)-陈文伟版课后习题答案(非常全).doc

第一章作业数据库与数据仓库的本质差别是什么？书P2（1）数据库用于事务处理，数据仓库用于决策分析。（2）数据库保持事物处理的当前状态，数据仓库即保存过去的数据又保存当前的数据。（3）数据仓库的数据是大量数据库的集成。（4）对数据库的操作比较明确，操作数量较小。对数据仓库操作不明确，操作数据量大。2．从数据库发展到数据仓库的原因是什么？书P1（1）数据库数据太多，信息贫乏。如何将大量的数据转化为辅助决策信息成为了研究热点。（2）异构环境数据的转换和共享。随着各类数据库产品的增加，异构环境的数据也逐渐增加，如

2024-06-12

1.1MB

(完整word版)数据挖掘实验1.doc

《物联网智能信息处理》实验报告学院：计算机科学技术学院专业班级：物联网工程1101学号：2011001557姓名：孙泽东日期：2014年11月25日实验一数据预处理实验(2个学时)一、实验目的：熟悉数据预处理的一般流程，重点掌握异常点检测算法，为进一步挖掘数据做准备。二、实验内容：1.了解数据特点，熟悉2-3种数据集数据格式；2.掌握1种以上异常点检测原理；3.验证某种异常点检测算法；4.分析异常点检测算法检测结果。三、实验要求：在熟悉2-3种数据集数据格式的基础上，选择Dev-C++等开发环境打开异常点

2024-04-13

147KB

(完整word版)数据挖掘实验4.doc

《物联网智能信息处理》实验报告学院：计算机科学技术学院专业班级：物联网工程1101学号：2011001557姓名：孙泽东日期：2014年11月25日实验四智能决策实验（2个学时）一、实验目的：通过分析一个智能决策应用实例，了解物联网智能决策应用模式，为日后基于物联网数据进行智能决策打下良好基础。二、实验内容：1.了解物联网系统智能决策应用特点与模式；2.根据特定应用分析其智能决策模式；3.总结分析特定应用采用的智能信息处理方法。三、实验要求：在收集、整理某种物联网智能决策应用的基础上，重点分析该应用的数据

2024-04-13

383KB