预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共42页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学一、评估(pínɡɡū)分类法的准确率2024/10/29K—折交叉(jiāochā)确认2、提高(tígāo)分类法的准确率2024/10/293、灵敏性和特效(tèxiào)性度量其中,t_pos是真正样本(被正确地按此分类(fēnlèi)的“cancer”样本)数,pos是正(“cancer”)样本数, t_neg是真负样本(被正确地按此分类(fēnlèi)的“non_cancer”样本)数,neg是负(“non_cancer”)样本数, 而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数二、数据挖掘模型(móxíng)评估的错误观念例:某家银行发行现金卡,风险控管部门主管决定建立DM模型(móxíng),利用申请人申请当时的所填的资料,建立违约预测模型(móxíng),来作为核发现金卡以及给予额度的标准。 该银行邀请两家DM公司来设计模型(móxíng),评比的标准是根据模型(móxíng)的“准确度”。 根据此标准,A公司所建模型(móxíng)的准确度92%,B公司的准确度是68%。 银行和A公司签约。利用A公司的模型后,结果(jiēguǒ)发现里面只有一条规则,那就是“所有的人都不会违约”。 为什么? A:所有的人都不会违约,因此它错误的只有8%的违约分类错误(违约误判为不违约),因此准确率是92%。 B:在根据评分由高至低筛选出来前40%的名单中,可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户,因此准确率只有68%。 哪一家的模型更好呢? 由上可以发现,不能使用准确率来评判模型的优劣。为什么会出现这样(zhèyàng)的结果?所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获利或严重损失的事件。 由于小概率事件发生概率很小,如果针对所有客户采取行动,就会形成浪费,因此,需要利用预测的技术将小概率事件找出来。那么,只针对预测的小概率事件采取行动就会避免浪费。 DM的价值就在于(zàiyú)能够利用历史资料找出“小概率事件”。H0为真对于DM来说,通常第二类错误的损失或收益(shōuyì)要比第一类高。 因此,我们需要确定哪一个状况是我们所关心的小概率事件。 把对这个事件的误判会造成极大损失的情况,作为第二类错误。 例,把一个好账的人当作呆账是第一类错误,把一个呆账的人当作好账是第二类错误。预测值该如何使用(shǐyòng)分类矩阵的信息呢?Responserate =预测会违约且实际会违约/所有预测会违约 =66/(66+28)=70.21% 预测模型回应(huíyīnɡ)率的高低须和总体回应(huíyīnɡ)率比较: 总体responserate =总体实际会违约/总体=(66+185)/(66+185+28+721)=25.1%可以发现,原始回应率为25.1%,运用数据挖掘模型提升为70.21%,因此回应率提升了2.8倍。 回应率讲究的是模型“宁缺勿滥(nìngquēwùlàn)”的能力。 回应率高并不代表一定是好模型,因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客,结果回应率是100%,但是却漏掉了大多数会买产品的顾客,因此,还得参考“反查率”这个指标。Recall =预测会违约(wéiyuē)且实际违约(wéiyuē)/所有实际会违约(wéiyuē) =66/(66+185)=26.29% 它的意义在于:预测出来会违约(wéiyuē)的人占了总体会违约(wéiyuē)的客户多少百分比。反查率越高,表明犯第二类错误的可能性越小,那么模型越好。完美的预测模型(móxíng)反查率是100%,但是反查率与回应率是互相矛盾的。 recall=67/(67+184)>66/(66+185) Responserate=67/(67+38)<66/(66+28)Rangereduce =预测会违约/总体(zǒngtǐ)=(66+28)/(66+28+721+185) =9.4% 间距缩减代表的是根据模型执行活动时的成本,当如果名单量没有有效缩减时,执行的总成本会很高,因此间距缩减越低越好。注意(zhùyì):四、增益(zēngyì)图(灵敏性分析)AUC(areaundercurve):模型曲线下面的阴影(yīnyǐng)面积与完美模型曲线下面阴影(yīnyǐng)面积的比值。 AUC越接近于1,表示模型的预测能力越高。 吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积 基尼系数? 吉尼系数越接近1,表示模型的预测能力越高。AUC与Gini系数对应(duìyìng)的模型分辨能力五、收益(shōuyì)图上述两个模型都没有包含整个公司的固定成本,不管成功案例多、少,都必须付出的成本。 收益图:首先