预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于相似联系度不完备区间值信息系统的属性约简 摘要 本文研究基于相似联系度不完备区间值信息系统的属性约简问题。首先介绍了不完备区间值信息系统的定义和相似联系度的概念,接着提出了一种基于相似联系度的属性重要度度量方法,将其应用到属性约简中。最后通过实例验证了该方法的可行性和有效性,并分析了该方法的优缺点。 关键词:不完备区间值信息系统;相似联系度;属性约简 1.引言 属性约简是数据挖掘领域的重要问题之一,目的是从大量属性中找出具有决策能力的重要属性,减少决策树的深度和复杂度。在不完备区间值信息系统中,属性值可能不是精确值,而是区间值,因此传统的属性约简方法难以处理这种不确定性。相似联系度方法是处理不完备信息的有效方法,因此将其应用于不完备区间值信息系统中的属性约简是具有研究价值的问题。 2.不完备区间值信息系统 不完备区间值信息系统是指属性值为区间值的信息系统,其定义如下: 定义1.1:一个不完备区间值信息系统R是二元组(R,A,C),其中R={x1,x2…xn}为样本集合,A={a1,a2…am}为属性集合,C为决策类别。 对于属性ai,其可能的取值为区间[ai↓,ai↑],其中ai↓和ai↑分别表示ai属性的下限和上限。由此可以定义数据对象的判别式: 定义1.2:数据对象x属于决策类别C的充分必要条件是x满足所有条件属性的约束关系。 3.相似联系度 相似联系度是刻画两个区间相似度的度量标准。其相关概念定义如下: 定义2.1:包含关系(A包含B)表示A完全包含于B,即A的下限大于等于B的下限,A的上限小于等于B的上限。 定义2.2:交集关系(A交B)表示A和B存在交集,即A的上限大于等于B的下限,A的下限小于等于B的上限。 定义2.3:相似联系度(Sim(A,B))表示两个区间A和B的相似程度。 其中相似联系度的计算公式如下: 其中AB表示A包含B或B包含A,A∩B表示A交B的区间,A∪B表示A和B的并集。 4.基于相似联系度的属性约简 属性重要度是属性约简中的关键概念,通常用信息增益或者基尼指数等方法来计算。然而,当属性值为区间值时,传统方法已经无法适用,因此本文提出一种基于相似联系度的属性重要度计算方法。 定义3.1:属性ai对R的分类能力是指R在属性ai的条件下进行分类的能力,可以用信息熵来度量。 结合相似联系度的概念,可以得到属性ai的分类能力计算公式如下: 其中Si,j表示属性ai在条件Ci下,Cj出现的概率,相应的,条件信息熵可以定义如下: 将信息增益和条件信息熵带入公式,可以得到基于相似联系度的属性重要度计算公式如下: 其中BC表示属性集合A的区间边界,f(Sim(BC,ai))表示BC和ai的相似度,K表示类别数。 根据属性重要度,可以通过贪心算法将冗余属性删除,得到属性集合的最小约简属性集,即属性集合的约简形式。 5.实例分析 考虑以下样本集合: 其中属性集合为A={a1,a2,a3},类别C为D或N,属性值为区间值。使用基于相似联系度的属性约简方法,可以得到如下结果: 有以下几点值得注意: 1.相对于区间长度逐个统计的方法,该方法将相似度考虑在内,更加精确,能够更好地应对不完备信息。 2.相似联系度转化成了权重,避免了直接将区间值做算术平均的误差。 3.该方法具有一定的局限性,只能处理属性值为区间值的不完备信息系统,并且对于属性集合较大的系统,计算量会相应地增加。 6.总结和展望 本文研究了基于相似联系度的属性约简方法。该方法将相似度考虑在内,更加精确,能够更好地应对不完备信息。通过实例分析,表明该方法具有一定的可行性和有效性。未来,还可以进一步研究基于相似联系度的约简算法在大数据处理中的应用,以及对于计算量较大的系统,如何进行优化等问题。