预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115860138A(43)申请公布日2023.03.28(21)申请号202211558143.5(22)申请日2022.12.06(71)申请人光大科技有限公司地址100040北京市石景山区石景山路乙18号院1号楼1206(72)发明人彭成霞毕光耀李琨田江向小佳丁永建李璠(74)专利代理机构北京康信知识产权代理有限责任公司11240专利代理师刘旺贵(51)Int.Cl.G06N20/00(2019.01)G06Q40/03(2023.01)权利要求书1页说明书7页附图3页(54)发明名称特征变量分箱方法及装置(57)摘要本发明提供了一种特征变量分箱方法及装置。该方法包括:将样本数据集中任一特征变量的每个特征值分别作为特征划分点进行F评分计算,以构建F评分决策树;将所述F评分决策树的各分裂节点作为所述特征变量各个分箱的边界,得到所述特征变量的多个分箱。通过本发明,解决了相关技术中已有的决策树分箱方法的决策树生成的方法和选择最优划分方式的准则是分离的,使得生成的决策树与分箱结果之间不具有相应的分箱评价意义最优的性质的问题。CN115860138ACN115860138A权利要求书1/1页1.一种特征变量分箱方法,其特征在于,包括:将样本数据集中任一特征变量的每个特征值分别作为特征划分点进行F评分计算,以构建F评分决策树;将所述F评分决策树的各分裂节点作为所述特征变量各个分箱的边界,得到所述特征变量的多个分箱。2.根据权利要求1所述的方法,其特征在于,构建F评分决策树,包括:通过所述F评分计算,基于最大F评分机制确定所述F评分决策树的每个分裂点,以根据所述分裂点对所述样本数据集进行分裂得到所述F评分决策树的各级子节点,直至满足分裂停止条件。3.根据权利要求2所述的方法,其特征在于,基于最大F评分机制对所述样本数据集进行逐级分裂,包括:对所述F评分决策树的当前子节点中的各特征划分点分别进行F评分计算,将最大F评分对应的所述特征划分点作为下一级子节点的分裂点;根据所述下一级子节点的分裂点对所述当前子节点进行分裂。4.根据权利要求1所述的方法,其特征在于,其中,所述分裂停止条件包括以下之一:所述F评分决策树的深度达到第一阈值;所述F评分决策树的子节点中的样本数小于第二阈值;所述F评分决策树的子节点中的最大F评分小于第三阈值。5.根据权利要求1所述的方法,其特征在于,其中,所述分箱的边界还包括:所述特征变量的最大特征值和所述特征变量中的缺失值,所述缺失值由预设数值代表。6.根据权利要求1所述的方法,其特征在于,得到所述特征变量的多个分箱之后,所述方法还包括:确定所述各个分箱的证据权重WOE值和信息价值IV值,其中,所述WOE值表示所述分箱结果的解释性,所述IV值表述所述特征变量的预测能力。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据应用场景调整所述F评分计算中的精确率和召回率。8.一种特征变量分箱装置,其特征在于,包括:构建模块,用于将样本数据集中任一特征变量的每个特征值分别作为特征划分点进行F评分计算,以构建F评分决策树;分箱模块,用于将所述F评分决策树的各分裂节点作为所述特征变量各个分箱的边界,得到所述特征变量的多个分箱。9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。2CN115860138A说明书1/7页特征变量分箱方法及装置技术领域[0001]本发明涉及机器学习技术领域,具体而言,涉及一种特征变量分箱方法及装置。背景技术[0002]随着计算机技术不断的发展进步,金融业信息化、数字化的进程日益加快,大数据、人工智能等技术与金融业务的结合也愈发紧密,传统金融业也逐渐转变为金融科技。在金融科技的众多技术应用中,需求十分强烈的一项就是利用人工智能技术建模从海量业务数据找出特定客群并对其需求和行为进行精准高效的预测。[0003]在金融风控领域,特别是在信贷业务建模过程中,业务特征中自变量的分箱效果对于后续模型预测的准确性和有效性具有至关重要的作用。一套智能、清晰的分箱方法,是一个区分用户优质与否模型的基石。具体而言,逻辑可靠的分箱能够在极大程度上帮助业务人员进行特征筛选工作,此外最终评分卡的分值评判也依赖于分箱的结果。因此,分箱的好坏对于业务特征的筛选和后续的建模工作有直接的影响。[0004]现有分箱方法包括决策树分箱和传统的等频分箱、等距分箱、卡方分箱。传统分箱方法一般是先将原始特征划分为多端数据