预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114153815A(43)申请公布日2022.03.08(21)申请号202111398224.9(22)申请日2021.11.23(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人严巍许韩晨玺(74)专利代理机构北京博浩百睿知识产权代理有限责任公司11134代理人宫传芝(51)Int.Cl.G06F16/21(2019.01)G06F16/215(2019.01)G06F16/22(2019.01)权利要求书2页说明书11页附图3页(54)发明名称数据处理方法、装置、电子设备和存储介质(57)摘要本公开提供了一种数据处理方法、装置、电子设备和存储介质,涉及计算机领域,尤其涉及设备应用领域。具体实现方案为:对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个分箱结果用于表示第一原始数据集所对应的离散数据;基于多个分箱结果确定第一原始数据集中每个数据的目标指标,其中,每个数据的目标指标用于衡量对应的数据的非稳定性;基于每个数据的目标指标对第一原始数据集进行筛选,得到目标数据集。CN114153815ACN114153815A权利要求书1/2页1.一种数据处理方法,包括:对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个所述分箱结果用于表示所述第一原始数据集所对应的离散数据;基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标,其中,每个所述数据的目标指标用于衡量对应的所述数据的非稳定性;基于每个所述数据的目标指标对所述第一原始数据集进行筛选,得到目标数据集。2.根据权利要求1所述的方法,其中,基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指标包括:确定所述多个分箱结果之间的差异信息,其中,所述差异信息用于表示所述第一原始数据集的波动程度;基于所述差异信息确定每个所述数据的目标指标。3.根据权利要求2所述的方法,其中,确定所述多个分箱结果之间的差异信息包括:基于每个所述分箱结果的正样本率,确定所述差异信息,其中,所述正样本率为每个所述分箱结果中的正样本数占每个所述分箱结果中的总样本数的比例。4.根据权利要求3所述的方法,其中,所述差异信息包括所述多个分箱结果的正样本率在不同时间区间对应的数据集之间的对比信息。5.根据权利要求2所述的方法,其中,所述方法还包括:确定每个所述分箱结果的目标权重,其中,所述目标权重为每个所述分箱结果中的样本数占多个所述分箱结果中的样本数的比例;确定所述多个分箱结果之间的差异信息包括:确定每个所述分箱结果中的样本数小于第一阈值,则基于每个所述分箱结果的目标权重确定所述差异信息。6.根据权利要求1所述的方法,还包括:将第二原始数据集中重要度大于第二阈值的数据,确定为所述第一原始数据集中的数据。7.根据权利要求1所述的方法,基于每个所述数据的目标指标对所述第一原始数据集进行筛选,得到目标数据集包括:对每个所述数据的目标指标进行排序,得到多个所述目标指标;在所述第一原始数据集中,筛除掉位于多个所述目标指标中的目标排序位的所述目标指标对应的数据,得到所述目标数据集。8.根据权利要求1至7中任意一项所述的方法,还包括以下至少之一:基于所述目标数据中的训练集训练得到目标模型;基于所述目标数据中的验证集调整目标模型的模型参数;基于所述目标数据中的测试集测试目标模型的性能。9.根据权利要求1至7中任意一项所述的方法,所述第一原始数据集为用于得到目标模型的原始特征值。10.一种数据处理装置,包括:分箱单元,用于对第一原始数据集进行分箱处理,得到多个分箱结果,其中,每个所述分箱结果用于表示所述第一原始数据集所对应的离散数据;确定单元,用于基于所述多个分箱结果确定所述第一原始数据集中每个数据的目标指2CN114153815A权利要求书2/2页标,其中,每个所述数据的目标指标用于衡量对应的所述数据的非稳定性;筛选单元,用于基于每个所述数据的目标指标对所述第一原始数据集进行筛选,得到目标数据集。11.根据权利要求10所述的装置,其中,所述分箱单元包括:第一确定模块,用于确定所述多个分箱结果之间的差异信息,其中,所述差异信息用于表示所述原始数据的波动程度;第二确定模块,用于基于所述差异信息确定所每个所述数据的目标指标。12.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1‑9中任一项所述的方法。13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1‑9中