预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于商空间理论的非平衡数据集分类算法 文章编号:1001-9081(2012)01-0210-03doi:10.3724/sp.j.1087.2012.00210 摘要:在机器学习及其分类问题时经常会遇到非平衡数据集,为了提高非平衡数据集分类的有效性,提出了基于商空间理论的过采样分类算法,即qmsvm算法。对训练集中多数类样本进行聚类结构划分,所得划分结果和少数类样本合并进行线性支持向量机(svm)学习,从而获取多数类样本的支持向量和错分的样本粒;另一方面,获取少数类样本的支持向量和错分的样本,进行smote采样,最后把上述得到的两类样本合并进行svm学习,这样来实现学习数据集的再平衡处理,从而得到更加合理的分类超平面。实验结果表明,和其他几种算法相比,所提算法虽在正确分类率上有所降低,但较大改善了g_means值和acc+值,且对非平衡率较大的数据集效果会更好。 关键词:非平衡数据集;商空间理论;支持向量机;过采样;qmsvm算法 中图分类号:tp311.13文献标志码:a abstract:theapplicationofdataclassificationisusuallyconfrontedwithaproblemnamedimbalanceddatasetinthemachinelearning.toimprovetheperformanceofimbalanceddatasetclassification,theover-samplingclassificationalgorithmbasedonquotientspacetheory(qmsvm)wasproposed.thealgorithmpartitionedmajoritydataonclusteringstructure,andcombinedtheresultsandminoritydataforlinearsupportvectormachine(svm)learning.supportvectorsandsampleoffaultofmajoritydatawereobtainedfromthosegranules.ontheotherhand,supportvectorsandsampleoffaultofminoritydatawereobtainedandthesyntheticminorityover-samplingtechnique(smote)wasadopted.thus,twonewkindsofsamplesweremergedforsvmlearning,soastorebalancethetrainingsetandgetamorereasonableclassificationofhyperplanes.theexperimentalresultsshowthat,incomparisonwithseveralotheralgorithms,theaccuracyoftheproposedalgorithmdecreases,butitsignificantlyimprovestheg_meansvalueandclassificationaccuracyofpositivesandtheeffectisbetterontheimbalancerateoflargerdatasets. keywords:imbalanceddataset;quotientspacetheory;supportvectormachine(svm);over-sampling;qmsvmalgorithm 0引言 非平衡数据集的分类问题是机器学习和模式识别领域中新的研究热点,是对传统算法的极大考验,解决它对于完善机器学习体系、提出新的机器学习思想具有很高的理论和应用价值。非平衡数据集是指数据集中某些类的样本比其他类多很多,样本多的类为多数类(即负类),样本少的类为少数类(即正类)[1]。然而,现实世界中非平衡数据集分类问题随处可见,如疾病诊断、医疗图像中肿瘤识别、信用卡欺诈检测等。这些问题中的少数类样本信息比多数类样本信息还要重要得多,但传统分类器往往把少数样本忽略导致重要信息丢失。 目前国内外学者对非平衡数据集问题的研究已取得大量成果,提出了不同的处理方法,其主要成果表现在两大方面,那就是算法层面和数据处理层面。算法层面上主要是改进算法提高性能,如文献[2]在支持向量机(supportvectormachine,svm)基础上,通过优化参数改进svm在非平衡数据集上的性能;wu等也对支持向量机方法进行了改进[3];文献[4]在mpm(minimaxprobabilitymachine)模型基础上