预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

....word..关联规那么数据挖掘学习报告....word..目录引言2案例2关联规那么3〔一〕关联规那么定义〔二〕相关概念〔三〕关联规那么分类数据6〔一〕小型数据〔二〕大型数据应用软件7〔一〕WEKA〔二〕IBMSPSSModeler数据挖掘12总结27引言数据库与互联网技术在日益开展壮大,人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其XX息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统〔依靠过去的经历法那么〕和模式识别等诸多方法来实现上述目标。数据挖掘大致分为以下几类:分类〔Classification〕、估计〔Estimation〕、预测〔Prediction〕、相关性分组或关联规那么〔Affinitygroupingorassociationrules〕、聚类〔Clustering〕、复杂数据类型挖掘(Text,Web,图形图像,视频,音频等)。案例"尿布与啤酒"的故事。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购置习惯,沃尔玛对其顾客的购物行为进展购物篮分析,想知道顾客经常一起购置的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的根底上,沃尔玛利用数据挖掘方法对这些数据进展分析和挖掘。一个意外的发现是:"跟尿布一起购置最多的商品竟是啤酒!经过大量实际调查和分析,提醒了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。按常规思维,尿布与啤酒风马牛不相及,假设不是借助数据挖掘技术对大量交易数据进展挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。在这个案例中使用了数据挖掘中的关联规那么分析。关联分析是发现交易数据库中不同项之间的联系。毫无疑问,关联分析中发现的规那么为超市带来了更多的收益。如果我们能在生活中对关联分析进展应用,一定可以解决更多的问题。数据关联是数据库中存在的一类重要的可被发现的知识。假设两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规那么带有可信度。关联规那么挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规那么问题,以后诸多的研究人员对关联规那么的挖掘问题进展了大量的研究。他们的工作包括对原有的算法进展优化,如引入随机采样、并行的思想等,以提高算法挖掘规那么的效率;对关联规那么的应用进展推广。关联规那么挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规那么〔一〕关联规那么定义关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之间的联系,分析顾客的购置习惯。通过了解哪些商品频繁地被顾客同时购置,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购置模式的顾客划分。〔二〕相关概念1.关联规那么关联规那么是指数据之间的简单的使用规那么,是指数据之间的相互依赖关系。关联规那么形如:XY;其中XI,YI,并且X∩Y=。X为先决条件,Y为结果;关联规那么反映了工程集X出现的同时工程集Y也会跟着出现。2.支持度〔Support〕设X属于数据工程集,为事务数据库中包含X的记录条数,为事务数据库中记录的总个数,那么工程集X的支持度=/支持度表示工程集在事物集中出现的频率的是多少。3.置信度〔Confidence〕有关联规那么XY,其中XI,YI,并且X∩Y=,那么XY的置信度为:Conf〔XY〕=*100%=P〔Y|X〕。置信度是反映在事物X中出现事物Y的条件概率。4.强关联规那么如果某条规那么同时满足最小支持度和最小置信度那么称为强关联规