预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113723555A(43)申请公布日2021.11.30(21)申请号202111047033.8(22)申请日2021.09.07(71)申请人上海观安信息技术股份有限公司地址200000上海市浦东新区泥城镇云端路1412弄15号二层1室(72)发明人刘胜魏国富夏玉明周晓勇马影殷钱安梁淑云余贤喆陶景龙王启凡徐明(74)专利代理机构北京中强智尚知识产权代理有限公司11448代理人黄耀威(51)Int.Cl.G06K9/62(2006.01)权利要求书2页说明书12页附图3页(54)发明名称异常数据的检测方法及装置、存储介质、终端(57)摘要本发明公开了一种异常数据的检测方法及装置、存储介质、终端,涉及数据处理技术领域,主要目的在于解决现有异常数据的检测准确性低的问题。包括:获取待进行模型训练的训练样本数据集中至少一组训练样本数据;基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果;若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据。主要用于异常数据的检测。CN113723555ACN113723555A权利要求书1/2页1.一种异常数据的检测方法,其特征在于,包括:获取待进行模型训练的训练样本数据集中至少一组训练样本数据;基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果,其中,所述特征分类可以包括特征离散阈值和数据噪声比阈值,所述标签属性包括标签集中阈值和标签覆盖阈值,所述时间维度包括时间多样跨度数据和非时间多样跨度数据;若所述特征分类结果、所述标签属性结果、所述时间维度结果中至少一个匹配预设异常状态,则确定所述训练样本数据为异常数据;其中,所述基于特征分类、标签属性、以及时间维度分别对所述训练样本数据进行筛选处理,得到所述训练样本数据的特征分类结果、标签属性结果、以及时间维度结果包括:基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果;基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果;确定所述训练样本数据的时间标识,并解析带有时间标识的所述训练样本数据与所述时间维度的第三匹配状态,确定时间维度结果。2.根据权利要求1所述的方法,其特征在于,所述特征分类包括特征离散阈值、数据噪声比阈值,所述基于特征提取模型对所述训练样本数据进行特征提取,并解析特征提取后的样本特征与所述特征分类的第一匹配状态,确定特征分类结果包括:基于完成模型训练的特征提取模型对所述训练样本数据进行特征提取,得到所述训练样本数据的样本特征;基于所述样本特征的标准差、平均值计算所述训练样本数据的特征离散度,以及基于所述样本特征的分类概率计算所述训练样本数据的数据噪声比;若所述特征离散度大于所述特征离散阈值,则将所述训练样本数据确定为特征离散数据;和/或,若所述数据噪声比大于所述数据噪声比阈值,则将所述训练样本数据确定为特征噪声数据。3.根据权利要求1所述的方法,其特征在于,所述标签属性包括标签集中阈值、标签覆盖阈值,所述基于标签聚类算法对带有标签的所述训练样本数据进行标签聚类,并解析标签分类后的样本聚类标签与所述标签属性的第二匹配状态,确定标签属性结果包括:获取所述训练样本数据的标签,并基于已完成模型训练的标签聚类算法对所述标签对应的训练样本数据进行标签聚类,得到样本聚类标签;基于所述样本聚类标签的方差计算所述训练样本数据的标签集中比值,以及基于所述样本聚类标签的个数与标签需求个数计算所述训练样本数据的标签覆盖比值;若所述标签集中比值小于所述标签集中阈值,则将所述训练样本数据确定为标签离散数据;和/或,若所述标签覆盖比值小于所述标签覆盖阈值,则将所述训练样本数据确定为标签偏移数据。4.根据权利要求1所述的方法,其特征在于,所述解析带有时间标识的所述训练样本数2CN113723555A权利要求书2/2页据与所述时间维度的第三匹配状态,确定时间维度结果包括:基于所述时间标识确定所述训练样本数据的时间长度以及时间跨度;若所述时间长度与所述时间跨度的比值大于所述时间维度,则将所述训练样本数据确定为时间多样跨度数据。5.根据权利要求1所述的方法,其特征在于,所述确定所述训练样本数据为异常数据之后,所述方法还包括:基于所述特征分类、所述标签属性、所述时间维度从所述训练样本数据中查找异常目标,并删除所述异常