预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108984790A(43)申请公布日2018.12.11(21)申请号201810858624.5(22)申请日2018.07.31(71)申请人蜜小蜂智慧(北京)科技有限公司地址100082北京市西城区新街口外大街28号B座5层508号(72)发明人曾伟雄(74)专利代理机构北京同达信恒知识产权代理有限公司11291代理人黄志华(51)Int.Cl.G06F17/30(2006.01)权利要求书2页说明书9页附图2页(54)发明名称一种数据分箱方法及装置(57)摘要本发明公开了一种数据分箱方法及装置,所述方法包括:根据预设的排序规则及全量样本数据中每个正样本数据的属性值,对所述正样本数据进行排序;根据待分箱的目标数量,将排序后的所述正样本数据均分为多个组,其中,每个组的正样本数据归属于一个分箱,分组的数量与所述目标数量相同;针对每个分箱,根据该分箱中每个正样本数据的属性值,确定该分箱的目标属性值区间;根据确定的每个分箱的目标属性值区间,及全量样本数据中每个负样本数据的属性值,对所述负样本数据进行分箱。提供了一种保证每个分箱中正样本数据的数量基本一致,避免不同分箱中正样本数据的数量相差过大的数据分箱方案。CN108984790ACN108984790A权利要求书1/2页1.一种数据分箱方法,其特征在于,所述方法包括:根据预设的排序规则及全量样本数据中每个正样本数据的属性值,对所述正样本数据进行排序;根据待分箱的目标数量,将排序后的所述正样本数据均分为多个组,其中,每个组的正样本数据归属于一个分箱,分组的数量与所述目标数量相同;针对每个分箱,根据该分箱中每个正样本数据的属性值,确定该分箱的目标属性值区间;根据确定的每个分箱的目标属性值区间,及全量样本数据中每个负样本数据的属性值,对所述负样本数据进行分箱。2.如权利要求1所述的方法,其特征在于,所述根据待分箱的目标数量,将排序后的所述正样本数据均分为多个组包括:根据tagy_bin=1+int(mybinnum*(tagx_count/(fnum+beta))),确定每个正样本数据归属的分组,其中tagy_bin为正样本数据归属的分组的分组序号,mybinnum为待分箱的目标数量,tagx_count为正样本数据在排序后对应的排序序号,fnum为正样本数据的总数量,beta为一个不大于0且小于1的实数,int为向下取整函数。3.如权利要求1所述的方法,其特征在于,所述根据待分箱的目标数量,将排序后的所述正样本数据均分为多个组之后,针对每个分箱,根据该分箱中每个正样本数据的属性值,确定该分箱的目标属性值区间之前,所述方法还包括:针对任意相邻的两个分箱,识别所述相邻的两个分箱中正样本数据的最大属性值是否相同;如果是,将所述相邻的两个分箱合并为一个分箱;如果否,进行后续步骤。4.如权利要求1所述的方法,其特征在于,如果预设的排序规则为升序排序,所述针对每个分箱,根据该分箱中每个正样本数据的属性值,确定该分箱的目标属性值区间包括:针对每个分箱,识别该分箱是否为第一个分箱或最后一个分箱;如果否,将与该分箱相邻的上一分箱中正样本数据的最大属性值至该分箱中正样本数据的最大属性值构成的属性值区间,作为该分箱的目标属性值区间;如果是,判断该分箱是否为第一个分箱;如果该分箱为第一个分箱,将负无穷至该分箱中正样本数据的最大属性值构成的属性值区间,作为该分箱的目标属性值区间;如果该分箱不为第一个分箱,将与该分箱相邻的上一分箱中正样本数据的最大属性值至正无穷构成的属性值区间,作为该分箱的目标属性值区间。5.如权利要求1所述的方法,其特征在于,如果预设的排序规则为降序排序,所述针对每个分箱,根据该分箱中每个正样本数据的属性值,确定该分箱的目标属性值区间包括:针对每个分箱,识别该分箱是否为第一个分箱或最后一个分箱;如果否,将与该分箱相邻的下一分箱中正样本数据的最大属性值至该分箱中正样本数据的最大属性值构成的属性值区间,作为该分箱的目标属性值区间;如果是,判断该分箱是否为第一个分箱;如果该分箱为第一个分箱,将与该分箱相邻的下一分箱中正样本数据的最大属性值至正无穷构成的属性值区间,作为该分箱的目标属性值区间;如果该分箱不为第一个分箱,将负无穷至该分箱中正样本数据的最大属性值构成的属性值区间,作为该分箱的目标属性值区间。2CN108984790A权利要求书2/2页6.一种数据分箱装置,其特征在于,所述装置包括:排序模块,用于根据预设的排序规则及全量样本数据中每个正样本数据的属性值,对所述正样本数据进行排序;第一分箱模块,用于根据待分箱的目标数量,将排序后的所述正样本数据均分为多个组,其中,每个组的正样本数据归属于一个分箱,分组的数量与所