预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

. .页脚. 关联规则数据挖掘 学习报告 目录 引言2 案例2 关联规则3 (一)关联规则定义 (二)相关概念 (三)关联规则分类 数据6 (一)小型数据 (二)大型数据 应用软件7 (一)WEKA (二)IBMSPSSModeler 数据挖掘12 总结27 引言 数据库与互联网技术在日益发展壮大,人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘大致分为以下几类:分类(Classification)、估计(Estimation)、预测(HYPERLINK"http://baike.baidu.com/item/Prediction"\t"http://baike.baidu.com/_blank"Prediction)、相关性分组或HYPERLINK"http://baike.baidu.com/view/1076817.htm"\t"http://baike.baidu.com/_blank"关联规则(Affinitygroupingorassociationrules)、聚类(Clustering)、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。 案例 "尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的HYPERLINK"http://baike.baidu.com/view/19711.htm"\t"http://baike.baidu.com/_blank"数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按HYPERLINK"http://baike.baidu.com/view/2734543.htm"\t"http://baike.baidu.com/_blank"常规思维,尿布与啤酒HYPERLINK"http://baike.baidu.com/view/94934.htm"\t"http://baike.baidu.com/_blank"风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 在这个案例中使用了数据挖掘中的关联规则分析。关联分析是发现交易数据库中不同项之间的联系。毫无疑问,关联分析中发现的规则为超市带来了更多的收益。如果我们能在生活中对关联分析进行应用,一定可以解决更多的问题。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。HYPERLINK"http://baike.baidu.com/view/1489522.htm"\t"http://baike.baidu.com/_blank"关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库HYPERLINK"http://baike.baidu.com/view/2069760.htm"\t"http://baike.baidu.com/_blank"中数据的HYPERLINK"http://baike.baidu.com/view/5372952.htm"\t"http://baike.baidu.com/_blank"关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易