预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114298147A(43)申请公布日2022.04.08(21)申请号202111396617.6(22)申请日2021.11.23(71)申请人深圳无域科技技术有限公司地址518014广东省深圳市福田区梅林街道梅都社区中康路136号深圳新一代产业园5栋1406(72)发明人林建明杨懿宁(74)专利代理机构深圳智汇远见知识产权代理有限公司44481代理人蒋学超(51)Int.Cl.G06K9/62(2022.01)权利要求书2页说明书9页附图3页(54)发明名称异常样本的检测方法、装置、电子设备及存储介质(57)摘要本发明实施例提供了一种异常样本的检测方法、装置、电子设备及存储介质,所述方法包括:获取待检测的数据样本,利用预设的聚类算法预测待检测的数据样本对应的目标聚类类别;确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。通过预设的聚类算法预测待检测的数据样本对应的目标聚类类别,并确定待检测的数据样本与目标聚类类别中心点之间的目标距离,查找目标距离对应的目标分位数,将目标分位数与预设阈值进行比较,根据比较结果确定待检测的数据样本是否为异常样本,如此可以分离出异常样本。CN114298147ACN114298147A权利要求书1/2页1.一种异常样本的检测方法,其特征在于,所述方法包括:获取待检测的数据样本,利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别;确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数;将所述目标分位数与预设阈值进行比较,根据比较结果确定所述待检测的数据样本是否为异常样本。2.根据权利要求1所述的方法,其特征在于,在执行所述方法之前,还包括:获取数据样本集,其中,所述数据样本集中至少包括一个数据样本;利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别;针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类别,确定所述数据样本与所述聚类类别中心点之间的距离;针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数。3.根据权利要求2所述的方法,其特征在于,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:获取用户指定的N个聚类类别,或者,按照肘部图的拐点确定N个聚类类别;利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别。4.根据权利要求2所述的方法,其特征在于,所述确定所述数据样本与所述聚类类别中心点之间的距离,包括:确定所述数据样本与所述聚类类别中心点之间的欧氏距离;所述针对任一所述聚类类别,确定所述聚类类别内部的所述距离的分布,以及确定所述聚类类别内部的所述距离对应的不同分位数,包括:针对任一所述聚类类别,确定所述聚类类别内部的所述欧氏距离的分布,以及确定所述聚类类别内部的所述欧氏距离对应的不同分位数;所述确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标距离,查找所述目标距离对应的目标分位数,包括:确定所述待检测的数据样本与所述目标聚类类别中心点之间的目标欧氏距离,查找所述目标欧氏距离对应的目标分位数。5.根据权利要求2至4任一项所述的方法,其特征在于,所述利用预设的聚类算法对所述数据样本集中的所有所述数据样本进行聚类,生成N个聚类类别,包括:对所述数据样本集中的所有所述数据样本均进行预处理,其中,所述预处理至少包括缺失值填充;对经过预处理的所述数据样本集中的所有所述数据样本均进行归一化处理,得到所有所述数据样本各自对应的标准化的数据样本;利用预设的聚类算法对所有所述标准化的数据样本进行聚类,生成N个聚类类别;所述针对所述数据样本集中任一所述数据样本,确定所述数据样本对应的所述聚类类2CN114298147A权利要求书2/2页别,确定所述数据样本与所述聚类类别中心点之间的距离,包括:针对任一所述标准化的数据样本,确定所述标准化的数据样本对应的所述聚类类别,以及与所述聚类类别中心点之间的距离。6.根据权利要求5所述的方法,其特征在于,所述利用预设的聚类算法预测所述待检测的数据样本对应的目标聚类类别,包括:对所述待检测的数据样本进行预处理,其中,所述预处理至少包括缺失值填充;对经过预处理的所述待检测的数据样本进行归一化处理,得到标准化的待检测数据样本;利用预设的聚类算法预测所述标准化的待检测数据样本对应的目标聚类类别;所述确定所述待检测的数据样本与所述目标聚