预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于数据挖掘技术的车险反欺诈系统构建引言公安部交管局通报数据显示,截止到2011年底,中国汽车保有量已达2.25亿辆。从保费收入来看,2012年《中国保险年鉴》数据显示,2011年车辆保险(以下简称车险)占据财产保险保费收入的70%以上,是我国财产保险业务的龙头险种。因此,车险经营的好坏决定着保险机构的经营稳定性以及偿付能力。国内外的保险调查表明,车险市场存在着严重的保险欺诈。美国保险反欺诈联盟(CAIF,coalitionagainstinsurancefraud)2011年调查显示,美国车险约有20%的欺诈率。我国尚无针对保险欺诈专门统计的官方或民间机构,没有就全国保险欺诈状况发布的统计信息,但相关保险监管机构认为,在我国的车险市场上已发生众多的欺诈案例,并且呈逐年上升态势。2009年广东省保监局关于保险欺诈问卷调查结果显示,40%的保险公司认为车险欺诈十分严重。鉴于此,本文以车辆保险欺诈作为研究对象,对车险数据采用支持向量机算法进行行为识别与实时监控,并用关联规则Apriori算法发现欺诈规律,从而构建车险反欺诈监控系统,提高保险公司对车险索赔的审核能力,提高审核效率,降低欺诈风险。一、支持向量机对车险索赔数据的识别(一)车险欺诈检测问题的描述车险欺诈的监测问题实际上是对欺诈可能性的一种判断及量化。首先在保险索赔数据中构造一个监测模型,然后用该模型对被保险人的索赔申请进行分析和处理,从而识别该申请是否为保险欺诈。采用车险欺诈分析指标来描述样本特征,那么第i个样本属性集合为i=(xi1,xi2,L,xim),i=1,2,L,n表示有n个样本,m个属性。样本的类别为Y=yi,yi=1,2,其中1为欺诈索赔,2为正常索赔。假设整个车险索赔数据库数据为V,输入检测的索赔数据为v,车险欺诈检测问题就是根据V来确定v是否为欺诈索赔,得:由此可见,车险欺诈检测问题是一个分类问题,即将被保险人的索赔分为正常行为和欺诈行为。由于当前车险检测方法无法较好区别索赔数据样本特征中的冗余特征,并且索赔样本数量巨大,计算复杂度高,而数据挖掘技术中的支持向量机能够很好地解决该难题,能够直接应用稀疏样本集建模得到很好的检测结果,因此文本采用支持向量机进行建模并检测。(二)车险欺诈检测建模1.索赔数据样本属性的选择本文采用Logit二元选择模型对所收集到的数据属性进行显著性因子强弱检验,如表1所示。剔除弱显著性因子和无效因子,可得出车辆使用程度、维修厂类别、肇事地点和出险记录4项属性属于强显著性因子。因此,本文选取这4个具有代表性的指标用于检测实验。(1)车辆使用程度。①新车:1年以下;②较新:1~3年;③较旧:4~6年;④旧车:7年以上。(2)维修厂类别。①4S店;②非4S店。(3)肇事地点。①街巷:繁华巷街、街道;②偏僻地区:农村、城市郊区、工厂区;③公共场所:医院、银行、学校、旅游景点、旅馆酒店、停车场;④小区:住宅小区;⑤公路:一般公路、高速公路、省道、国道。(4)出险记录。①少:3次以下;②较多:3~6次;③较多:7~10次;④很多:10次以上2.数据预处理(1)数据清洗由于车险索赔数据中存在许多与欺诈检测不相关的数据,并且常常存在不完整、不一致和重复的“脏数据”。这些“脏数据”会对数据挖掘工程产生误导。因此,要对数据进行清洗,从中选择所需要的数据,改善数据质量,提高欺诈检测的准确率。(2)数据离散化处理支持向量机只能处理数值型的数据,而在车险索赔数据特征属性中,有属于数值型的,也有属于枚举型的,需要对其进行离散化处理,将其转换成数值属性。处理方法举例可见表2所示。(3)数据归一化处理数据归一化处理是把所有数据都转化为(0,1)之间的数,取消各维数据间数量级差别,避免因为输入、输出数据数量级差别较大而造成支持向量机误差较大,影响模型性能。因此,本文为保证模型学习效果,对数据进行归一化处理,同时还可以消除因属性取值范围不同而影响欺诈检测结果。本文采用最大最小法进行归一化处理。3.支持向量机原理支持向量机(SVM,SupportVectorMachine)是由Vapnik于1995年首先提出的,可用于模式分类与非线性回归。其主要思想是建立一个分类超平面作为决策曲面,使正例和反例之间隔离边缘最大化。支持向量机的理论基础是统计学理论。准确地说,支持向量机是结构风险最小化的近似实现。支持向量机拥有通用性、鲁棒性、有效性、计算简单等特点,广泛应用于数字识别、人脸识别、身份验证、入侵检测和信用卡欺诈检测等方面。设样本数据集为(xi,yi),xi是训练元祖,即属性特征;yi是类标号,可取值1或2,分别对应于欺诈索赔和正常索赔。找到最佳分离超平面,即要求间隔最大,这样最佳分离超平面的求解表达式可写成:(三)仿真实验1.实验环境本文以某保险公司的车险索赔数据为仿真