预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

DOI:10.13546/j.cnki.tjyjc.2012.01.013 方法应用 基于粗糙集支持向量机的个人信用评估模型 杜婷 (深圳大学经济学院,深圳518060) 摘要:文章改变了过去个人信用评估模型多使用统计方法或者主观分析方法精简数据集属性个数的做法, 将粗糙集与支持向量机结合的粗糙集支持向量机方法引入个人信用评估实践。以包括个统计样本的德国信 1000 用数据作为个人信用评估模型的数据来源,应用粗糙集分析系统进行数据预处理,运用遗传算法计算约简, RSES 得出以不同的缩减率得到的约简集;然后使用支持向量机分析工具逐步处理已经进行过属性约简的数据 LIBSVM 集,并在处理过程中应用了交叉验证和网格搜索技术。 关键词:信用评估;分类模型;支持向量机;粗糙集 中图分类号:文献标识码:A文章编号:1002-6487(2012)01-0094-03 F224 小,而这正是粗糙集理论的长处。另外,支持向量机处理信 息一般不能将输入信息空间维数化,所以当输入信息空间 1粗糙集支持向量机的原理维数较大时就会导致支持向量机训练时间较长,而粗糙集 理论方法却能够通过发现数据间的关系,既可以去掉数据 1.1支持向量机理论与粗糙集理论中的冗余信息,又可以简化输入信息的数据空间维数。 支持向量机从统计学习理论发展而来,概括地说,支持 向量机就是首先通过内积函数定义的非线性变换将输入空2模型的构建与应用 间变换到一个高维空间,在这个空间中求出广义最优分类 面。支持向量机形式上类似一个神经网络,输出的是中间2.1数据来源和描述性分析 结点的线性组合,每个中间结点对应一个支持向量。核函本文所使用的个人信贷原始数据来自美国加州大学 数是支持向量机算法的关键,选择不同的核函数就可以产Irvine分校建立的机器学习资料库的德国信用数据集。该 生不同的支持向量机。支持向量机方法有着显著的优点。数据集的原始数据由Dr.HansHofmann提供,总的样本个数 支持向量机区别于以往的以均方最小误差为基础的分类方为1000条。数据的质量非常好,不存在数据缺失的情况。 法,如K近邻算法和神经网络算法等,它着重最小化训练每条数据都有20个属性,其中7个属于数值属性,13个属于 集的结构误差,即通过解一个一次规划问题,来达到在最小类别属性。 化误识率的基础上给出一个误判率的上界,从而取得很好可以看到,20个属性中,7个属性属于个人基本信息,6 的推广能力。个属性属于财务状况,另外7个属性属于信用状况的范畴。 粗糙集理论是一种刻划不完整性和不确定性的数学工2.1模型的建立和参数的选择 具,能有效地分析和处理不精确、不一致、不完整等各种不支持向量机原理涉及到比较深奥的数学知识,对一般应 完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙用科学的研究人员来说自己编程实现是比较难的。LIBSVM 集理论是由波兰学者Pawlak在1982年提出的。1991年是台湾大学林智仁(LinChih-Jen)教授等开发设计的一个简 Pawlak出版了专著,系统全面地阐述了粗糙集理论,较好地单、易于使用和快速有效的SVM模式识别与回归工具包,本 总结了这一时期粗糙集理论与实践的研究成果,奠定了其文使用的是最新的2.86版,于2008年4月1日发布。 严密的数学基础,促进了理论的进一步发展。(1)核函数的选择 1.2粗糙集和支持向量机的结合在四种常用的核函数中,对于一般的支持向量机应用 粗糙集理论的缺点是容错能力与泛化能力相对较弱,研究,选择RBF(径向基函数)核的比较多。首先,RBF核是 且只能处理离散数据等问题,而这恰好是支持向量机方法非线性核,和线性核和多项式核不同的是,它是以非线性映 的长处。支持向量机实现了SRM原则,他最小化泛化误差射将输入空间转化为高维空间,可以处理属性与分类值是 的上界,而不是最小化训练误差,这就保证了支持向量机具非线性的情况。另外,有研究表明线性核其实是RBF核的 有良好的泛化性能。支持向量机的缺点是不能确定数据中一个特例,因此只要选择一定的参数,RBF核一般能够实现 哪些知识是冗余的,哪些是有用的,哪些作用大,哪些作用线性核和多项式核的分类精度。因此RBF核一般可以替代 基金项目:年度国家社会科学基金项目() 200808CJL020 作者简介:杜婷(),女,四川绵阳人,博士,副教授,研究方向:消费信贷与风险管理。 1977- 统计与决策2012年第1期总第349期 94· 方法应用 表1原始数据的属性归类Attribute12}所对应的数据集上训练分类正确率和测试分 Attribute7(在职时间)类正确率分别为84.2857%和77%,不但高于作为对照组的 Attribute9(性别及婚姻状况) 未属性约简的数据集的78.8