预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘技术中基于关联规则算法的研究摘要数据挖掘的主要目的在于能够从大型的数据库中挖掘出对用户有价值的信息以便为决策者地决策提供有用的数据依据本文对数据挖掘技术的概念和内容做出了描述同时也对基于关联规则的数据挖掘技术进行比较全面的概括和分析并提出解决相应问题的基于关联规则挖掘算法。关键词数据挖掘;关联规则;算法中图分类号TP392文献标识码A文章编号1674-6708(2011)45-0223-031概述1.1课题的研究背景现代计算机科学技术发展的历史同时也是数据和信息加工手段不断更新和改善的历史。随着计算机硬件和软件不断的发展尤其是数据库技术与应用的广泛推广摆在人们面前的问题出现了这些急剧膨胀的信息数据如何有效利用这一丰富数据海洋的宝藏为人类服务也已成为广大信息技术工作者所重点关注的焦点之一。传统的收集数据技术可以在一定程度上对收集来的数据信息进行统计分析能够获得一定的数据价值这种传统的收集数据技术具有一定的效果但当这种方法在面对海量的数据并从中进行数据分析时却没有一个比较好的解决方案。无论是数据的统计、数据的查询、数据的报表等这些传统的数据处理方式都是对收集来的数据简单的进行处理而不能对这些数据内部所隐含的价值信息进行有效的提取和分析。在这些大量数据的背后隐藏了很多具有决策意义的信息如何得到这些能够为我们提供决策依据的数据依据已经成为当前的一个热点的研究方向。1.2研究目的和意义数据挖掘技术是面向应用型的。目前在很多重要的领域数据挖掘都可以发挥积极促进的作用尤其是在如保险、交通、零售、银行、电信等商业应用领域。数据挖掘能够帮助用户解决许多典型的商业性的问题其中包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为以及客户流失性分析、客户信用评分、欺诈发现等等。数据挖掘技术已经广泛的在企业市场的营销中得到了应用它以市场营销学的市场细分原理为基础通过对涉及到消费者消费行为的信息进行收集、加工和处理得出结论以确定目标消费者地兴趣、消费倾向、习惯以及消费需求从而能够推出目标消费者下一步的消费方向然后以得出来的结论为基础对目标消费者和消费群体进行定向的营销这与传统的盲目营销的方式相比可以在很大程度上节省因营销而产生的开支能够提高营销的成功率从而可以为企业带来更大的利润也能够帮助企业树立起好的口碑。2数据挖掘技术的理论基础2.1数据挖掘技术概述数据挖掘的定义是能够从大量、有噪声、模糊、随机、不完全、实际应用数据中提取出隐含在其中的又不为人们所知的同时具有潜在价值的知识和信息的过程又被称为从数据库中的知识发现。数据挖掘不同于传统的数据分析二者有着本质的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。通过挖掘所得到的信息应该具有未知、有效和实用等3个特征。整个KDD通常会有若干个挖掘的步骤组成通常数据挖掘是其中最重要的一个步骤。通常情况来讲数据挖掘与知识发现这两个概念很容易被人们所混淆其主要原因是它们有相似性以及共同点并且究其表面信息来讲似乎如出一辙。但是就其实质来讲两者是有显著不同的[1]。2.2数据挖掘的任务数据挖掘的任务主要是关联分析、聚类分析、分类、预测、偏差分析和时序模式。2.2.1关联分析关联规则挖掘是由2个或2个以上变量来取值的。这些变量之间假如存在着某种关系就可以称这些变量之间相互关联。数据的关联在数据库中可以把分为简单、时序和因果的关联同时也是目前对数据关联的一个热门的研究方向。2.2.2聚类分析聚类分析就是把数据按其相似性进行分类分为不同的类别同一类别中的数据是相似的不同类中的数据是不相同的。通过聚类分析我们可以发现数据的分布模式通过数据的分布模式找出可能的数据属性之间的关系。2.2.3分类分类就是在数据的分析过程中找到一个分类的概念然后对这个分类的概念进行详细的概述不同的分类代表不同类别数据的信息并用对这种分类的详细定义来构造相应的模型这种构造的模型一般用决策树的模式或者规则模式进行详细的描述。2.2.4预测分析预测就是希望通过对数据的系统分析以找到数据变化的趋势和发展的规律并依照这种趋势和发展的规律建立对应的数学模型然后用这种数学模型对数据的未来走势和发展进行对应的预测。对预测结果关心的是预测的准确度这个准确度通常可以用预测的方差进行度量。2.2.5偏差分析在对偏差的分析过程中能够用到很多的知识而数据库中的数据多多少少有着异常的情况通过对数据使用偏差分析来发现数据库中数据存在的异常状况这对对于数据挖掘来说是非常重要的。2.2.6时序模式时序模式是指通过时间序列的方法来找出的发生概率比较高的数据模式。这种数据模式与