预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113256409A(43)申请公布日2021.08.13(21)申请号202110782240.1(22)申请日2021.07.12(71)申请人广州思迈特软件有限公司地址510630广东省广州市天河区高普路136号第三层05区A、B单元(72)发明人阮惠华张成刚黄浩徐晓兰(74)专利代理机构成都四合天行知识产权代理有限公司51274代理人郭受刚(51)Int.Cl.G06Q40/02(2012.01)G06K9/62(2006.01)G06F16/2458(2019.01)权利要求书3页说明书11页附图2页(54)发明名称基于机器学习的银行零售客户流失预测方法(57)摘要本发明公开了一种基于机器学习的银行零售客户流失预测方法,在设定期限内收集银行零售客户行为的原始数据,将所述原始数据储存在CRM系统中;读取所述CRM系统中各报表的报表数据;将读取到的报表数据整合成为整体,并对报表数据中特征进行全表统计;通过过滤与映射节点将流失的数据进行过滤,进行特征重要性计算;通过相关性节点进行相关性分析;在报表数据中提取出实际已经流失客户数据集,并投票打分对新的数据进行分类;建立随机森林模型,对随机森林模型进行训练;选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;得到模型预测结果并输出可视化结果;建立客户流失预测模型,通过重要性选择特征来全面直观的得出客户流失预测结果。CN113256409ACN113256409A权利要求书1/3页1.基于机器学习的银行零售客户流失预测方法,其特征在于,包括以下步骤:S1:设定期限,并在设定期限内收集银行零售客户行为的原始数据,将所述原始数据储存在CRM系统中;S2:读取所述CRM系统中各报表的报表数据;S3:将读取到的报表数据整合成为整体,提取报表数据中的所有特征作为第一特征,并对报表数据中的第一特征进行全表统计;S4:通过过滤与映射节点将流失的数据进行过滤,并进行数据特征选择,根据特征重要性计算选择出第二特征;S5:通过相关性节点对各第一特征的指标数据进行相关性分析;S6:在报表数据中提取出实际已经流失客户数据集,并根据实际已经流失客户数据集通过投票打分对新的数据进行分类;S7:建立随机森林模型,将分类后的数据代入随机森林模型进行训练;S8:通过分析随机森林模型的偏差与方差选取随机森林模型,并通过格子搜索和交叉验证选取最优参数;S9:得到模型预测结果并输出可视化结果。2.根据权利要求1所述的基于机器学习的银行零售客户流失预测方法,其特征在于,所述步骤S3中通过聚合节点来针对客户流失数据进行探索分析,得到各特征分布情况以及相关性情况,并整合成为整体。3.根据权利要求1所述的基于机器学习的银行零售客户流失预测方法,其特征在于,在所述步骤S4包括以下步骤:S4.1:过滤与映射:对数据按照过滤表达式进行筛选;S4.2:特征工程:采用数据标准化的方式对步骤S4.1得到的数据进行处理,计算随机森林模型中特征的重要性,并根据计算结果找出重要性选择特征,根据重要性选择特征选出第二特征;S4.3:特征选择:根据自变量和因变量的相关系数大小判断两者相关度,相关性越高的特征对模型影响越大,选择相关系数为0.5以上的特征代入模型训练;S4.4:特征离散:根据特征选择出连续性特征字段进行特征离散。4.根据权利要求3所述的基于机器学习的银行零售客户流失预测方法,其特征在于,所述步骤S4.2中的数据标准化的方法采用min‑max标准化,公式如下:其中,x为结果值,max为样本数据的最大值,min为样本数据的最小值。5.根据权利要求1所述的基于机器学习的银行零售客户流失预测方法,其特征在于,在所述步骤S4.2中特征重要性计算包括以下步骤:S4.2.1:对于随机森林中的每一颗决策树,使用相应的OOB,即袋外数据,计算它的袋外数据误差,记为errOOB1;S4.2.2:随机地对袋外数据OOB所有样本的特征X加入噪声干扰,再次计算它的袋外数据误差,记为errOOB2;S4.2.3:假设随机森林算法中有N棵决策树,记作Ntree,那么对于特征X的重要性=2CN113256409A权利要求书2/3页。6.根据权利要求1所述的基于机器学习的银行零售客户流失预测方法,其特征在于,所述步骤S4中的重要性特征的选择步骤包括:P1:初步估计和排序:a)对随机森林中的特征变量按照变量重要性降序排序;b)确定删除比例,从当前的特征变量中剔除设定比例不重要的指标,从而得到一个新的特征集;c)用新的特征集建立新的随机森林,并计算新的特征集中每个特征的变量重要性,并排序;d)重复以上步骤,直到剩下m个特征;所述b步骤中的设定比例根据特征变量数量手动指定;P2:根据P1中得到