预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共53页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

中山大学 硕士学位论文 基于遗传算法的高维数据特征选择和特征子集的组合分析 姓名:黄焕宇 申请学位级别:硕士 专业:计算机软件与理论 指导教师:印鉴 20060601 摘要基于遗传算法的高维数据特征选择和特征子集的组合分析计算机软件与理论硕士生:黄焕宇指导教师:印鉴教授生物信息学、信息检索以及图像挖掘等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战。人们迫切需要适应大规模数据集的特征选择算法和机器学习算法,并且对它们的准确性和运行效率等综合性能都有较高的要求。本文在高维数据的特征选择算法和基于特征选择的组合分类器构建问题上开展了研究。文章提出了一种综合了Filter模型及Wrapper模型的特征选择算法FSRAGA。该算法首先利用特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选的精简特征子集采用遗传算法进行随机搜索,用分类错误率作为评价标准。实验比较表明,该算法能发现更好的特征子集从而实现降维并提高分类精度。本文在FSRAGA算法的基础上,查找出一系列分类性能较优的候选特征子集,引用特征子集的稳定性概念作为评价标准,利用差异性较大的特征子集组合来构造组合分类器,实验表明该评价标准有助于提高组合分类器的性关键词:特征选择;数据挖掘;遗传算法:特征子集稳定性;组合分类器能。 AbstractAlgorithm;WrapperbyperformanceSelectionBasedGAandAnalysisSubsetsEnsembleanalysis.andStability基于遗传算法的高维数据特征选择和特征子集的组合分析FeatureofCompmerSoftwareName:HuangYineme唱encehigh-dimensionalmachinefieldsbioinformatics,informationimagee五stingalgorithms.Thismainlyselectionensemble.methodFSRAGAproposed,whichcombiningmodels.Itfeaturesnearthecompactalgorithm;andbv山einaccuracy.Theexperimentsalgorithmprovidesfcaturesubsets.whichlOW.dimensionaldatagoodFSRAGA,asubsetswithbeRerprovided.Stabilitycriteria,toensemblefeaturediversity.ThethatcriteriaefficientlyimproveKeywords:Featuremining;GeneticofFeaturesubsets;EnsembleofclassifiersTheoryHuanyuSupervisor:ProfessorJianThelearningsuchretrievalprocessingposedchallengespaperstudiesAnewiSFilterfirstfiltersrelevancerealizesoptimalfeattiresubsetsearchgeneticisevaluatedclassificationshowsproposedbeaerresults.maccuracy.seriesaccuracyusedconstructclassifierssearchinglargershowclassifiers.selection;DataonseveretoareⅡascan 第1章引言1.1数据挖掘的产生与发展在过去的三十年,随着计算机硬件技术、数据收集技术和数据存储技术的快速发展,各行各业都逐步建立起各自的数据库体系。在这些数据库中存放着大量的数据,人们所关注的问题是如何有效地利用这些信息使之能够应用到生产实践当中。收集和存储数据的轻松简便,已经完全改变人们对数据分析的态度:尽可能地收集各种数据。不管收集目的是否明确,人们相信收集的数据肯定会有价值。然而对于堆积成山的丰富的数据而言,人们缺乏强而有力的分析手段和分析工具,因而造成“数据丰富而信息缺乏”的状况。显然数据库的检索和查询难以满足人们需要,虽然伴随着数据仓库出现的OLAP(联机分析处理)技术具有总结、概化和聚集的功能,可以从不同角度来观察数据,支持多维分析和决策支持,但它不能进行更深层次的分析,挖掘出大量数据背后所蕴藏的知识。在这种情况下,数据挖掘技术便应运而生。数据挖掘是指从大量的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、并且潜藏起来的有用信息“3。数据挖掘是目前国际上数据