预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114638688A(43)申请公布日2022.06.17(21)申请号202210278143.3(22)申请日2022.03.21(71)申请人江苏城乡建设职业学院地址213147江苏省常州市殷村职教园和裕路1号(72)发明人季爽陈良顾志文李剑许磊磊(74)专利代理机构苏州国诚专利代理有限公司32293专利代理师陈松(51)Int.Cl.G06Q40/02(2012.01)G06F21/56(2013.01)G06K9/62(2022.01)权利要求书3页说明书10页附图3页(54)发明名称一种用于信贷反欺诈的拦截策略衍生方法、系统(57)摘要本发明提供了一种用于信贷反欺诈的拦截策略衍生方法、系统,其可以快速从海量的数据中衍生出有效的拦截策略,识别出具有高逾期风险的用户,包括步骤:获取样本数据,在样本数据中提取用户相关的特征变量,进行数据预处理,对特征变量进行分箱处理,获得变量分箱;计算特征变量在每个变量分箱下的WOE值及IV值;进行WOE编码,用WOE值替换变量分箱对应的特征变量的数值;建立并训练预测模型,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳预测模型;通过最佳预测模型计算所有变量分箱的评分,将评分不大于设定阈值的变量分箱进行交叉生成拦截策略;验证拦截策略是否满足上线条件,保留所有满足上线条件的拦截策略。CN114638688ACN114638688A权利要求书1/3页1.一种用于信贷反欺诈的拦截策略衍生方法,其特征在于,包括以下步骤:获取样本数据,在样本数据中提取用户相关的特征变量,进行数据预处理,对特征变量进行分箱处理,获得变量分箱;计算特征变量在每个变量分箱下的WOE值,根据计算得到WOE值,计算特征变量的IV值,剔除IV值小于设定值的特征变量;对保留的特征变量进行WOE编码,用计算得到的每个变量分箱的WOE值替换变量分箱对应的特征变量的数值;依据时间窗口将样本数据划分为训练集和测试集,基于逻辑回归模型建立预测模型,通过训练集训练预测模型,得到训练好的预测模型;通过测试集对训练好的预测模型进行测试,通过评价指标AUC对预测模型进行评估,调整模型参数,获得最佳预测模型;通过最佳预测模型计算所有变量分箱的评分,将评分不大于设定阈值的变量分箱进行交叉生成拦截策略;验证拦截策略是否满足上线条件,保留所有满足上线条件的拦截策略,所述拦截策略用于识别具有高逾期风险的用户。2.根据权利要求1所述的一种用于信贷反欺诈的拦截策略衍生方法,其特征在于,所述的获取样本数据,在样本数据中提取用户相关的特征变量,进行数据预处理,对特征变量进行分箱处理,获得变量分箱,具体包括:以信贷业务中的正常用户为白样本,逾期用户为黑样本,进行用户打标,获得样本数据;在样本数据中提取用户相关的特征变量,所述特征变量包括数值型特征变量和类别型特征变量;对样本数据中的异常值和缺失值进行处理;对预处理后的特征变量进行分箱处理,获得变量分箱。3.根据权利要求2所述的一种用于信贷反欺诈的拦截策略衍生方法,其特征在于:在进行分箱处理时,对于数值型特征变量,按照指定数量进行等频分箱,对类别型特征变量,每个类别各自为一个分箱,若类别数大于指定最大分箱数,合并占比较小的类别至一个分箱。4.根据权利要求1所述的一种用于信贷反欺诈的拦截策略衍生方法,其特征在于:特征变量在每个变量分箱下的WOE值,通过如下公式计算:其中,其中WOEi表示第i组分箱的WOE值,Badi表示第i组分箱中逾期用户数量,BadT是整体逾期用户数量,Goodi表示第i组分箱中正常用户数量,GoodT是整体正常用户数量;特征变量的IV值通过如下公式计算:2CN114638688A权利要求书2/3页其中,IVi在特征变量在第i组分箱中的IV值,IV表示特征变量的IV值。5.根据权利要求4所述的一种用于信贷反欺诈的拦截策略衍生方法,其特征在于:预测模型基于逻辑回归模型构建,通过如下公式表示:z=θ0+θ1*x1+θ2*x2+θ3*x3...θi*xi其中,h表示预测模型输出的概率值,表示预测为逾期用户的概率,θi表示预测模型拟合出的各特征变量的系数值,θ0单独表示为偏置项,xi表示各特征变量的具体值;评价指标AUC为ROC曲线下与坐标轴围成的面积,ROC曲线的横坐标是伪阳率,纵坐标是真阳率,采用如下公式计算:其中TPrate为真阳率,表示所有真实类别为1的样本中,预测类别为1的比例;FPrate为伪阳率,表示所有真实类别为0的样本中,预测类别为1的比例;TP表示预测为1,且预测正确,实际为1;P表示预测为1,预测错误,实际为0;FN表示预测为0,预测错误,实际为1;TN表示预测为0,预测正确,实际为0;通过在测试集上调整预测模