预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113240518A(43)申请公布日2021.08.10(21)申请号202110782247.3(22)申请日2021.07.12(71)申请人广州思迈特软件有限公司地址510630广东省广州市天河区高普路136号第三层05区A、B单元(72)发明人阮惠华张成刚黄浩(74)专利代理机构成都四合天行知识产权代理有限公司51274代理人郭受刚(51)Int.Cl.G06Q40/02(2012.01)G06K9/62(2006.01)G06F16/2458(2019.01)权利要求书3页说明书13页附图2页(54)发明名称基于机器学习的银行对公客户流失预测方法(57)摘要本发明公开了一种基于机器学习的银行对公客户流失预测方法,包括:在期限内收集银行的对公客户行为的原始数据,构建PostgreSQL源数据库;用所述PostgreSQL源数据库读取若干个报表的报表数据;将报表数据整合成为整体,并对报表数据中的所有特征进行全表统计;对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;建立随机森林模型,并将分类后的数据代入随机森林模型进行训练;计算随机森林模型中特征的重要性,并根据计算结果找出的重要性选择特征;根据特征得到模型预测结果并输出可视化结果;通过该模型实现银行客户精准分类,优化企业营销资源,保障客户流失率,从而实现企业利润最大化。CN113240518ACN113240518A权利要求书1/3页1.基于机器学习的银行对公客户流失预测方法,其特征在于,包括以下步骤:S1:设定期限,并在设定期限内收集银行对公客户行为的原始数据,采用所述原始数据构建PostgreSQL源数据库;S2:读取所述PostgreSQL源数据库中各报表的报表数据;S3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;S4:对统计得到的基本属性数据进行编码,对冗余和缺失的特征值进行编辑处理,得到纠正后的数据集;S5:计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,在PostgreSQL源数据库中聚合构造完成特征变换后的第二特征;S6:在纠正后的数据集中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;S7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;S8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;S9:得到模型预测结果并输出可视化结果。2.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4包括以下步骤:S4.1:以统计得到的基本属性数据为元数据,将元数据按照字符串类型编辑;S4.2:采用独热编码对不同类别的元数据进行标签编码,并对类别进行二进制化处理;S4.3:发现并纠正元数据中的可识别错误得到建模数据。3.根据权利要求2所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3包括以下步骤:S4.3.1:获取元数据中同一第一特征的两种表现形式,删除其一;S4.3.2:对元数据中的缺失值进行填充;S4.3.3:对填充后的数据进行单变量异常值检测,剔除单变量异常值得到建模数据。4.根据权利要求3所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S4.3.3中的单变量异常值检测过程包括以下步骤:A1:将变量按照其值从小到大进行顺序排列x1,x2.....xn;A2:计算平均值x拔和标准差S:计算偏离值,并确定一个可疑值,i为可疑值的序列号;A3:计算统计量gi,即残差与标准差的比值:将gi与格拉布斯表给出的临界值GP(n)比较,如果计算的gi值大于表中的临界值GP(n),则能判断该测量数据是异常值,可以剔除。2CN113240518A权利要求书2/3页5.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,在所述步骤S5中特征重要性计算包括以下步骤:S5.1:对于随机森林中的每一颗决策树,使用相应的OOB,即袋外数据,计算它的袋外数据误差,记为errOOB1;S5.2:随机地对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为errOOB2;S5.3:假设随机森林中有Ntree棵树,那么对于特征X的重要性=;在所述步骤S5中特征选择包括以下步骤:S5.4:通过特征重要性的计算,找到与因变量高度相关的特征变量;选择出数目较少的特征变量并且能够充分的预测因变量的结果。6.根据权利要求1所述的基于机器学习的银行对公客户流失预测方法,其特征在于,所述步骤S5中的重要性选择特征