预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114091559A(43)申请公布日2022.02.25(21)申请号202010761792.X(22)申请日2020.07.31(71)申请人中移(苏州)软件技术有限公司地址215163江苏省苏州市高新区昆仑山路58号1幢申请人中国移动通信集团有限公司(72)发明人冯宪凯(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人刘鹤张颖玲(51)Int.Cl.G06K9/62(2022.01)G06F16/2458(2019.01)权利要求书2页说明书13页附图4页(54)发明名称数据填充方法及装置、设备、存储介质(57)摘要本申请公开了一种数据填充方法,包括:确定待处理数据集中的完整数据集和缺失数据集;根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集;如此利用可变的邻域集合替代传统固定的Eps邻域,自适应的根据数据的密集程度自动调整邻域大小,从而能够对非均匀数据集进行缺失值填充,提高了缺失值记录填充的准确性。本申请还同时提供了一种数据填充装置、设备及存储介质。CN114091559ACN114091559A权利要求书1/2页1.一种数据填充方法,其特征在于,所述方法包括:确定待处理数据集中的完整数据集和缺失数据集;根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象;根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合;根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集。2.如权利要求1所述的方法,其特征在于,所述最小对象数目为所述邻域半径内至少包括的数据对象的数目MinPts,所述根据特定的邻域半径和最小对象数目,为所述完整数据集中的第一数据对象,确定第二数据对象,包括:在以所述第一数据对象的邻域半径范围内,确定离所述第一数据对象第MinPts个最近的第二数据对象。3.如权利要求1或2所述的方法,其特征在于,所述根据所述邻域半径和所述第一数据对象与所述第二数据对象之间的第一距离,在所述完整数据集中,确定所述第一数据对象的邻域集合,包括:确定所述邻域半径和所述第一距离之间的最小值;在所述完整数据集中,将与所述第一数据对象的距离小于等于所述最小值的数据对象的集合,作为所述第一数据对象的邻域集合。4.如权利要求1所述的方法,其特征在于,所述根据所述第一数据对象的邻域集合,对所述缺失数据集进行缺失值填充,得到目标数据集,包括:根据所述第一数据对象的邻域集合,将所述完整数据集进行聚类,得到不同类别的数据子集;根据所述缺失数据集中的记录对象与所述不同类别的数据子集的中心之间的第二距离,对所述缺失数据集进行缺失值填充;将所述填充后的缺失数据集和所述完整数据集合并,得到所述目标数据集。5.如权利要求4所述的方法,其特征在于,所述根据所述第一数据对象的邻域集合,将所述完整数据集进行聚类,得到不同类别的数据子集,包括:根据所述第一数据对象的邻域集合,确定所述完整数据集中的至少一个强连通分量;根据所述至少一个强连通分量中,每个强连通分量所包括数据对象的个数,确定所述每个强连通分量的类别;按照所述每个强连通分量的类别,对所述完整数据集进行聚类,得到不同类别的数据子集。6.如权利要求5所述的方法,其特征在于,所述第一数据对象为核心对象,其中,所述核心对象的邻域集合中包括的数据对象的个数大于等于所述最小对象数目;所述根据所述第一数据对象的邻域集合,确定所述完整数据集中的至少一个强连通分量,包括:确定所述完整数据集中的至少两个核心对象;若所述至少两个核心对象中存在第一核心对象和第二核心对象关于所述核心对象的2CN114091559A权利要求书2/2页邻域集合密度互连,将包含所述第一核心对象和所述第二核心对象的数据集合,作为一个强连通分量;其中,所述第一核心对象为所述至少两个核心对象中的任一个,所述第二核心对象与所述第一核心对象不同。7.如权利要求5所述的方法,其特征在于,所述方法还包括:将所述完整数据集中不属于任何一个强连通分量的数据对象,加入类边界集;根据所述第一数据对象的邻域集合,确定所述类边界集中数据对象的邻域数据对象;以所述邻域数据对象的所属类别,确定所述类边界集中数据对象的类别。8.如权利要求4所述的方法,其特征在于,所述根据所述缺失数据集中的记录对象与所述不同类别的数据子集的中心之间的第二距离,