预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于区别度概念格的关联规则的挖掘 一、引言 数据挖掘(objectivelearning)不仅是一门新兴的交叉学科,而且是未来信息化社会的核心技术之一。关联规则挖掘是数据挖掘的一种常用方法,其主要是从数据集中探索出数据之间的关联关系。本文提出了一种新的关联规则挖掘方法,即基于区别度概念格的关联规则挖掘方法。 二、相关概念 1.区别度 区别度是指具有同一属性值的对象在其他属性上的不同程度。区别度越大,说明该属性具有更好地刻画对象特征的能力。 2.概念格 概念格是形成于概念分析理论之基础上的概念结构,它是指一个包含有一个概念体系中所有概念的有向无环图。 3.关联规则 关联规则是指在一个数据集中,发现数据项之间的关联关系,可以表示为{A,B}→C,即A和B同时发生,会导致C的发生。 三、方法描述 本文提出的基于区别度概念格的关联规则挖掘方法主要分为三个步骤:概念格构建、规则生成和规则评价。 1.概念格构建 对于给定的数据集,我们可以通过求得每个属性上的区别度,来构建概念格。具体地,我们首先针对每个属性,将数据集根据该属性分成若干个子集。接着,我们计算每个子集在其他属性上的均值和方差,以此作为区别度的度量。然后,对于每个属性,我们可以采用信息熵来度量概念格的信息量。 2.规则生成 在概念格构建完成后,我们可以通过概念格中的上下位关系来生成关联规则。具体地,我们从概念格的最通用概念出发,逐渐向下推导出所有的上位概念和下位概念,并将每个概念的属性值作为规则的前提条件,将它的下位概念的属性值作为规则的结论。 3.规则评价 在规则生成后,我们需要对规则进行评价,从中筛选出与分析对象最相关的规则。具体地,我们可以采用支持度和置信度两个指标来评估规则的优劣。其中,支持度是指在整个数据集中,规则中前提条件和结论同时出现的次数占总次数的比例;置信度是指在出现前提条件的情况下,结论出现的概率。 四、实验结果与分析 本文在一个真实的销售数据集上进行了实验,比较了本文的方法和传统的Apriori算法在关联规则挖掘上的效果。实验结果表明,本文提出的基于区别度概念格的关联规则挖掘方法具有更好的精度和效率,能够挖掘出更多有意义的规则。 五、总结与展望 本文提出了一种基于区别度概念格的关联规则挖掘方法,将区别度的概念引入到关联规则挖掘中,能够更好地挖掘出数据之间的关联关系。实验结果显示,该方法具有更好的精度和效率,可以为实际应用提供更加准确的决策支持。未来,我们将进一步研究如何将区别度概念格更好地应用于大规模数据集的关联规则挖掘中。