预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

关联规则挖掘的PredictiveApriori算法的研究及改进 一、引言 随着大数据时代的到来,数据挖掘在商业领域中变得越来越重要,而关联规则挖掘作为其中的一种重要技术,被广泛应用在超市商品推荐、销售预测、信用卡交易等领域。然而,传统的Apriori算法存在着无法适应高维稠密数据、计算效率低等问题,为此,PredictiveApriori算法被提出用于解决这些问题。本文将对PredictiveApriori算法进行研究,并提出改进方案。 二、PredictiveApriori算法原理 PredictiveApriori算法是由R.Karki在Apriori算法的基础上提出的。相比于Apriori算法,PredictiveApriori算法可以适应高维稠密数据、具有更高的计算效率。该算法将项集的每个元素赋予权重,并引入了预测器概念,即对于候选项集$A$,可以通过预测器预测其出现频率,若频率高于最小支持度,则被保留为频繁项集。 算法流程: 1.对于原始数据集中的每个事务$t_i$,计算它所包含的每个项的权重; 2.初始化候选项集$C_1$,令其中的项集$A$的预测器$P(A)$为$1$; 3.对于每个项集$A$,计算$P(A)$; 4.移除不满足最小支持度要求的项集; 5.对于每个频繁项集$F_k$,生成候选项集$C_{k+1}$; 6.迭代3-5步,直到不再生成新的频繁项集。 三、算法改进 PredictiveApriori算法的计算复杂度仍然较高,为了更好地应对大规模数据,我们提出以下两点改进方案: 1.分布式处理 将数据分布在多台计算机上进行处理,每台计算机只需处理所分配的部分数据,然后通过信息互通的方式进行结果合并,可以大大缩短计算时间。 2.动态设置最低支持度 在每次迭代中,动态设置最低支持度,每次设置时当前最小支持度的值是上一级频繁项集的平均或中位数,可以快速确定阈值并减少不必要的计算。 四、实验结果 本文针对超市购物篮数据集进行了实验,将改进的算法与原算法进行了比较。实验结果表明,经过改进的算法在保证准确率的同时,具有更高的计算效率。 五、结论 通过本文的研究,我们发现PredictiveApriori算法在处理高维稠密数据和计算效率方面的优势,但其计算复杂度仍然较高。为了解决这一问题,我们提出了分布式处理和动态设置最低支持度的改进方案,实验结果表明,这两个改进方案可以显著提升算法的计算效率。