预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于遗传算法的核支持向量机研究 理学院数学系:宋丽妍指导教师:张池平 摘要:针对传统支持向量机识别能力的缺陷,本文重点研究了基于支持向量机和遗传算法的混合算法,并就适定性函数做了深入研究。该算法的主要思想是在分类建模时使用支持向量机模型,但在求解决策超平面的最优化问题时使用遗传算法。混合算法能够直接得到分类超平面的系数,这在经典的支持向量机分类技术中很难实现。根据具体的数学模型、染色体及适定性函数的不同,分别建立了三种混合算法。仿真结果显示了这一算法广阔的发展前景。 关键词:支持向量机;核方法;遗传算法;分类问题 Abstract:Concerningtheshortcomingsofrecognitionoftraditionalsupportvectormachines,thispaperfocusesonthehybridizationbetweensupportvectormachinesandgeneticalgorithmanddoesanin-depthqualitativeresearchonfitnessfunction.ThemainideaofthealgorithmisconsideringtheclassificationtaskasinSVMbutusingangeneticalgorithmtosolvetheoptimizationproblemofdeterminingthedecisionfunction.Theycanexplicitlyacquirethecoefficientsoftheseparatinghyperplane,whichisoftennotpossiblewithintheclassicaltechnique.Accordingtothespecificchoiceofmathematicalmodel,chromosomeandfitnessfunction,wehaveestablishedthreetypesofhybridalgorithms.theobtainedresultsshowthepromiseofthisnewapproach. Keywords:supportvectormachinekernelmethodsgeneticalgorithmclassificationproblem 引言 核支持向量机(KSVMs)[1]是近几年发展起来的主要用于解决分类问题的新算法,它基于严密的统计学习理论,通过巧妙地引入核函数,将低维问题通过非线性映射投射到高维特征空间,并在特征空间中采用线性可分支持向量机解决分类问题。KSVMs也是数据挖掘技术的新方法,在模式分类、函数逼近、概率密度估计及回归分析等理论领域,支持向量机取得了良好的效果,并已成功应用到诸如手写数字识别、文本分类、语音识别、人脸检测等技术领域。遗传算法(GA)[2]是模拟生物在自然环境下的遗传和进化过程而形成的一种自适应全局优化概率搜索方法,与其他寻优算法相比,遗传算法有许多独特的优点。因此,若我们能将KSVM和GA两种方法有机整合到一起,可能得到一个具有更好分类效果、更高灵活性的混合算法[3]。 基于遗传算法的核支持向量机新算法 2.1新算法总说 图2-1展示了新算法的基本步骤。 准备数据集 矩阵形式 核函数的选择: 简单内积;2.RBF核 3.多项式核;4.Sigmoid核 用GA进化 求最优w和b 适定性函数 作为判断标准 最优w和b 训练样本 进行预测 数据集合的预处理 支持向量机数学模型 训练样本 训练样本 图2-1新算法基本步骤 2.2基于遗传算法的核支持向量机新算法 1.混合算法一 (1)数学模型 (2-1) 其中为训练样本总数。求解上面最优化问题,得到最优解,则分类函数为 (2-2) (2)适定性函数 设定适定性函数为: (2-3) 函数为 (2-3) 其中为(2-1)中模型对“软边界”的惩罚因子,为(2-1)中对不满足“约束条件”样本的惩罚。我们可以很容易理解式(2-3)适定性函数设置的理由。 下面说明如上定义适定性函数的原因:式(2-3)中式(1)的最小化就是分类边界的最大化,目的是增强算法的鲁棒性,提高预测正确率;式(2)最小化就是降低训练样本分类边界的模糊程度,目的是提高训练样本分类正确性;式(3)最小化目的是使种群中个体尽可能满足模型(2-1)中的限制条件。 (3)算法具体步骤 1)编码方案及染色体设置 由于和都是实数,所以我们采用浮点编码方式("doublevector")。由于松弛变量在适定性函数中出现,我们也将它体现在染色体的结构中。和人工设定它的值(如10,100,1000等),值的大小体现了对约束条件的重视程度。在本模型的仿真中