预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于粗糙集理论的数值型决策表的属性约简方法研究的中期报告 一、研究背景 随着数据收集技术的不断发展,数据集越来越大,特征属性也越来越多。在进行有监督学习时,属性约简是一个十分重要的问题。传统的属性约简方法有决策树、PCA、LDA等,但这些方法只适用于特征属性为离散值的情况,对于数值型属性则不适用。 粗糙集理论是一种用于处理不确定信息的典型工具,在属性约简问题中也有广泛应用。通过运用粗集约简方法,能够削减属性数量,帮助获得更加高效的数据预测模型。目前,研究者们不断提出新的粗糙集约简方法,以适应不同的应用场景。 本研究致力于研究基于粗糙集理论的数值型决策表的属性约简方法,提高数据预测精度和计算效率。本文报告研究的中期进展情况及下一步工作计划。 二、研究方法 1.数值型决策表构建 使用UCIMachineLearningRepository中的数据进行实验,将数据集按照属性类型划分为离散型及连续型,针对连续型属性,对每一个连续属性提取不同的离散值集合,建立数值型决策表,为下一步研究提供数据基础。 2.属性约简实现 在建立了数值型决策表之后,通过提取等价类、求正域和约简思想,提出了属性约简算法,对连续型及混合型的决策表进行分析和实验。这里的等价类定义是:对于连续属性,当且仅当其相邻两个值具有相同的分类信息时,将这两个值看成一个等价类。 3.实验分析和对比 使用UCIMachineLearningRepository中的数据集进行实验,对比该算法与主流的基于信息熵的特征选择方法和主成分分析法的结果进行对比,分析此研究所提出方法的属性约简效果,并对比其它方法获得了更好的属性约简结果。 三、中期成果 1.完成了数值型决策表的构建。 对于连续属性,我们提出了基于等价类划分的方法,将连续属性进行了离散化处理;对于离散属性,使用信息增益法进行特征选择,将原始数据划分成不同的决策表,并构建了数值型决策表。 2.提出了基于粗糙集理论的属性约简算法。 在建立数值型决策表之后,我们提出了一种基于等价类、正域和约简思想的属性约简算法,该算法可以有效地缩减属性集大小,同时保持数据在分类任务上的表现。 3.进行了实验验证。 实验结果表明,所提出的算法在不同数据集上都取得了比其他方法更好的属性约简效果,也证明了我们方法的有效性和实用性。 四、下一步工作 1.研究数值型决策表的属性约简问题。 本研究的重点在属性约简,但是对于数值型决策表,仍会受到噪声等影响,会对预测精度造成一定的影响,下一步工作将针对此问题进行研究。 2.继续对算法进行优化。 在算法使用过程中,发现还有一些细节需要进一步优化,下一步将针对算法的一些细节进行进一步的优化和改进。 3.进行更多实验验证。 为了更加全面地考察所提出的算法在不同数据集上的表现效果,下一步工作将进一步扩大实验数据规模,进行更多的对比实验。