Apriori数据挖掘算法-豆柴文库

Apriori数据挖掘算法.doc

2024-09-01

16金币

32KB

2页

yy****24

实名认证

内容提供者

1/2

2/2

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

1关联规则的基本概念假设I={i1,i2,…,im}是所有项的集合,相当于商品的所有种类的集合,D是所有事务的集合,也即数据库中记录的集合,事务T={t1,t2,…,tn},ti∈I,相当于交易中的商品列表.若X、Y是数据项集,X中含有的项数目为K,则称为K-数据项集. 事务集D中的规则XY(其中XI,YI,X∩Y=Φ)是由支持度(support)和确信度(confidence)约束的,支持度表示规则的频度,确信度表示规则的强度. 规则XY在交易数据库D中的支持度是交易集中同时包含XY的交易数与所有交易数之比,记为support(XY)=|{T:X∪YT,T∈D}|/|D|。规则XY在交易数据库D中的可信度是交易集中同时包含XY的交易数与包含X的交易数之比,记为confidence(XY)=|{T:X∪YT,T∈D}|/|{T:XT,T∈D}|。给定一个交易集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度(minsupp)和最小确信度(minconf)的关联规则.当规则的确信度和支持度分别大于minsupp、minconf时,我们认为规则是有效的,称为强关联规则.当数据项集X的支持度大于minsupp时,称X为高频数据项集. 2Apriori算法 ???Agrawal等在1993年设计了一个基本算法Apriori[4]，为生成所有频繁项集，Apriori使用了递推的方法,其核心思想是：（1）L1=find_frequent_1-itemsets(D); （2）for(k=2;Lk-1≠Φ;k++){ （3）Ck=apriori_gen(Lk-1,min_sup); （4）foreachtransactiont∈D{//scanDforcounts （5）Ct=subset(Ck,t);//getthesubsetsoftthatarecandidates （6）foreachcandidatec∈Ct （7）c.count++; （8）} （9）??Lk={c∈Ck|c.count≥min_sup} （10）} （11）returnL=∪kLk; 首先扫描一次数据库，产生频繁1项集L1；然后进行循环，在第k次循环中，首先由频繁k-1项集进行自连接和剪枝产生候选频繁k项集Ck，然后使用Hash函数把Ck存储到一棵树上，扫描数据库，对每一个交易T使用同样的Hash函数，计算出该交易T内包含哪些候选频繁k项集，并对这些候选频繁k项集的支持数加1，如果某个候选频繁k项集的支持数大于或等于最小支持数，则该候选频繁k项集为频繁k项集；该循环直到不再产生候选频繁k项集结束。 Apriori算法的缺点：(1)由频繁k-1项集进行自连接生成的候选频繁k项集数量巨大。(2)在验证候选频繁k项集的时候需要对整个数据库进行扫描，非常耗时。 3几种改进的算法思想虽然Apriori算法自身已经进行了一定的优化，但是在实际的应用中，仍存在不尽人意之处，于是相继出现了一些优化的方法，例如： a.基于划分的方法.Savasere等提出了一种基于划分(partition)算法,该算法首先将数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度. b.基于Hash的方法.通过实验可以发现寻找频集主要的计算是在生成频繁2_项集LK上, Park等利用这一性质引入Hash技术来改进产生频繁2_项集的方法. c.基于采样的方法.对上一遍扫描得到的信息进行仔细的组合分析,可以得到改进的算法.Toivonen进一步发展了这个思想,他首先使用从数据库中抽取出来的、由采样得到的一些在整个数据库中可能成立的规则,然后用数据库的剩余部分验证这些规则. d.减少交易的个数.减少用于未来扫描的事务集的大小,其基本原理是：若一个事务不包含长度为k的大项集,则必然不包含长度为k+1的大项集.因此可以将这些事务移去,这样就减少了下一遍扫描中扫描的事务集的个数,这就是Apriori-Tid的基本思想. 下面介绍几个改进算法的思想： 3.1减少数据库内事务的方法 HYPERLINK"http://binaries.spaces.live.com/blog/cns!43D878273D4AB350!136.entry"\t"_blank"从Apriori算法可以看出,对每一Ci均对数据库扫描一次,而这时有些事务已经对频繁项集的生成不产生作用,减少数据库D内不起作用的事务对于算法来说是很有必要的,本算法的基本思想就基于此。文[6]中对此进行了刻划,文[6]的算法是在每次计算Ci支持记数的过程中,给不包含Ci中的任何项集的事务打上删除标记,在以后的扫描计数中不加考虑。其实在C

相关资料

Apriori数据挖掘算法.doc

2024-09-01

32KB

数据挖掘Apriori算法.docx

实验报告实验课程名称：数据挖掘实验项目名称：Apriori算法理学院实验时间：2014年11月11日学生所在学院：理学院专业：统计学班级：姓名学号实验组实验时间指导教师成绩实验项目名称Apriori算法实验目的及要求：加强对Apriori算法的理解锻炼分析问题、解决问题以及动手能力编程实现Apriori算法实验（或算法）原理：Apriori算法是一种找频繁项目集的基本算法。其基本原理是逐层搜索的迭代：频繁K项Lk集用于搜索频繁(K+1)项集Lk+1，如此下去，直到不能找到维度更高的频繁项集为止。这种方法依

2024-11-06

130KB

数据挖掘Apriori算法论文.docx

《数据挖掘》课程作业题目基于关联规则Apriori算法的事务数据挖掘班级学号姓名日期目录TOC\o"1-3"\h\z\uHYPERLINK\l"_Toc264019406"一、引言2HYPERLINK\l"_Toc264019407"二、正文2HYPERLINK\l"_Toc264019408"1.背景2HYPERLINK\l"_Toc264019409"2.算法思想2HYPERLINK\l"_Toc264019410"3.数据集3HYPERLINK\l"_Toc264

2024-11-05

61KB

改进的Apriori数据挖掘算法的应用.docx

改进的Apriori数据挖掘算法的应用数据挖掘已经成为了许多行业非常重要的工具，它帮助企业从大量的数据中，提取有效的信息，以便更好地进行决策。Apriori数据挖掘算法作为最经典的数据挖掘算法之一，在许多行业广泛应用。但是，随着数据量和数据维度的不断增加，Apriori算法在效率和准确性上都有较大的局限性。因此，在此基础上，研究人员提出了改进的Apriori算法，以提高其在大规模数据环境下的效率和准确性。改进的Apriori算法可以理解为一种算法优化，它优化了传统的Apriori算法中候选集的生成和剪枝策

2024-11-14

10KB

基于Apriori数据挖掘算法的应用与实践.docx

基于Apriori数据挖掘算法的应用与实践数据挖掘是一种从大量数据中提取有用信息的过程，它不仅是探索数据之间的相关性和规律性的关键方法，也是解决实际问题和决策问题的重要工具。Apriori算法是数据挖掘领域最为经典的关联规则挖掘算法，本文将探讨基于Apriori算法的应用与实践。一、Apriori算法Apriori算法发明于1994年，是由Agrawal和Srikant提出的一种基于频繁项集的关联规则挖掘算法。这个算法利用了关联规则原理，通过对给定数据集进行遍历和扫描，从中分离出项集间的相互关系，进而得出

2024-10-18

11KB