预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111984637A(43)申请公布日2020.11.24(21)申请号202010641389.3(22)申请日2020.07.06(71)申请人苏州研数信息科技有限公司地址100000北京市东城区光明西里10号楼2单元204(72)发明人王建刚(74)专利代理机构北京市鼎立东审知识产权代理有限公司11751代理人朱慧娟刘瑛(51)Int.Cl.G06F16/215(2019.01)G06K9/62(2006.01)G06F16/2458(2019.01)权利要求书2页说明书7页附图4页(54)发明名称数据建模中的缺失值处理方法和装置、设备及存储介质(57)摘要本申请公开了一种数据建模中的缺失值处理方法,通过获取样本数据集,将样本数据集中的缺失值替换为预设值,并基于样本数据集中的各数据构造多个变量;其中,每个变量中均包含有多个数据,将各变量中的数据进行分段得到多个数据段,其中,缺失值划分到同一数据段中,计算各变量的信息值,由多个变量中选择第一数量的变量,并基于所选择的第一数量的变量建立模型。由于没有对缺失值进行实质上的改变,因此保留了数据的真实性和准确性,并且将缺失值看作一种正常的属性值,与其他属性值一同参与到建模计算过程中,将会更清晰表现变量的缺失值对建模目标的趋势关系,有助于提升模型的分类能力并在后期模型评估过程中更好的解释模型。CN111984637ACN111984637A权利要求书1/2页1.一种数据建模中的缺失值处理方法,其特征在于,包括:获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有多个所述数据;将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。2.根据权利要求1所述的方法,其特征在于,基于所述样本数据集中的各数据构造多个变量,包括:获取所述样本数据集中的各所述数据和预先设置的各所述变量的变量名;根据各所述数据的属性和各所述变量名,将各所述数据归属到相应的所述变量中;其中,所述数据的属性与所述变量名相对应。3.根据权利要求1所述的方法,其特征在于,将各所述变量中的所述数据进行分段得到多个数据段,包括:将各所述变量中所包含的数据依据预设条件进行分段,得到多个初始数据段;依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,得到所述数据段。4.根据权利要求3所述的方法,其特征在于,依据同一变量中任意两个所述初始数据段之间的相似度,对各所述初始数据段进行合并或保留,包括:获取同一变量下各所述初始数据段在另一变量中所对应的权值;其中,所述权值为各所述初始数据段中各所述数据在另一变量所对应的数据的均值、众数中的任意一种;若两个所述初始数据段的权值的差值小于或等于设定值,则合并两个所述初始数据段;若两个所述初始数据段的权值的差值大于所述设定值,则保留两个所述初始数据段。5.根据权利要求4所述的方法,其特征在于,获取同一变量下各所述初始数据段在另一变量中所对应的权值包括:获取各所述初始数据段中各数据在另一变量中所对应的数据;基于所述初始数据段中各数据在另一变量中所对应的数据进行计算,得到所述初始数据段在另一变量中所对应的权值。6.根据权利要求1所述的方法,其特征在于,由多个所述变量中选择第一数量的变量包括:根据各所述信息值将多个所述变量进行排序,得到变量排序结果;依据所述变量排序结果,选择所述第一数量的变量。7.根据权利要求1所述的方法,其特征在于,由多个所述变量中选择第一数量的变量,并基于所述第一数量的变量建立模型时,采用递归算法进行所述变量的选择。8.一种数据建模中的缺失值处理装置,其特征在于,包括变量构造模块、变量分段模块和建模变量选择模块;所述变量构造模块,被配置为获取样本数据集,将所述样本数据集中的缺失值替换为预设值,并基于所述样本数据集中的各数据构造多个变量;其中,每个所述变量中均包含有2CN111984637A权利要求书2/2页多个所述数据;所述变量分段模块,被配置为将各所述变量中的所述数据进行分段得到多个数据段;其中,所述缺失值划分到同一所述数据段中;所述建模变量选择模块,被配置为计算各所述变量的信息值,由多个所述变量中选择第一数量的变量,并基于所选择的所述第一数量的变量建立模型。9.一种数据建模中的缺失值处理设备,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至7中任意一项所述的方法。10.一种非易失性计算机可读