预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761076A(43)申请公布日2021.12.07(21)申请号202011027536.4(22)申请日2020.09.25(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈伯梁(74)专利代理机构北京品源专利代理有限公司11332代理人孟金喆(51)Int.Cl.G06F16/28(2019.01)G06F16/35(2019.01)权利要求书2页说明书12页附图10页(54)发明名称一种应用于数据仓库的聚类方法、装置、设备和存储介质(57)摘要本发明实施例公开了一种应用于数据仓库的聚类方法、装置、设备和存储介质。获取数据仓库中的各字段,确定各字段在向量空间的局部密度,根据局部密度确定各字段中作为簇中心点的字段,按照局部密度将簇中心点进行分箱处理,并将簇中心点之外的其他字段加入距离最近的簇中心点对应的簇中,可以得到局部密度均匀且每类簇中的数据量大小统一的分箱,进一步根据局部密度对每一分箱内的字段进行聚类,适用于任意聚类形状的字段,并对每个分箱内的相同字段完成聚类。解决了现有技术中因聚类大小不一、聚类形状非凸以及聚类密度不均降低聚类结果的准确性的问题,实现提高聚类结果的准确性的效果。CN113761076ACN113761076A权利要求书1/2页1.一种应用于数据仓库的聚类方法,其特征在于,包括:获取数据仓库中的各字段;确定各所述字段在向量空间的局部密度,根据所述局部密度确定各所述字段中作为簇中心点的字段;按照局部密度将所述簇中心点进行分箱处理,并将所述簇中心点之外的其他字段加入距离最近的簇中心点对应的簇中;分别对每一分箱内的字段进行聚类。2.根据权利要求1所述的方法,其特征在于,确定各所述字段在向量空间的局部密度,包括:对于各所述字段,确定当前字段对应的向量字符串,确定该向量字符串在向量空间中所对应的点,根据该点以及当前字段对应的预设截断距离确定当前字段在向量空间的局部密度。3.根据权利要求2所述的方法,其特征在于,确定当前字段对应的向量字符串,包括:获取当前字段对应的描述信息;将所述描述信息进行编码及哈希映射,得到当前字段对应的向量字符串;其中,所述描述信息包括字段描述符、类型、以及名称中的至少一个。4.根据权利要求2所述的方法,其特征在于,根据该点以及当前字段对应的预设截断距离确定当前字段在向量空间的局部密度,包括:确定在向量空间中与该点的距离小于或等于当前字段对应的预设截断距离的点的数量,根据所述数量确定当前字段在向量空间的局部密度。5.根据权利要求1所述的方法,其特征在于,根据所述局部密度确定各所述字段中作为簇中心点的字段,包括:根据所述局部密度对各所述字段进行排序;根据排序结果确定每两个相邻的字段在向量空间中所对应的两个点之间的斜率;根据所述斜率确定各所述字段中作为拐点的字段;将所述作为拐点的字段之前的各字段,确定为作为簇中心点的字段。6.根据权利要求5所述的方法,其特征在于,根据所述局部密度对各所述字段进行排序,包括:对于各所述字段,确定当前字段在向量空间的局部密度与当前字段对应的预设截断距离之间的乘积;根据各所述字段对应的乘积结果,对各所述字段进行排序。7.根据权利要求5所述的方法,其特征在于,根据所述斜率确定各所述字段中作为拐点的字段,包括:对于各所述字段,确定当前字段在向量空间中所对应的点与排序结果中最后一个字段在向量空间中所对应的点之间的第一平均斜率、以及排序结果中第一个字段在向量空间中所对应的点与当前字段在向量空间中所对应的点的第二平均斜率,确定第一平均斜率与第二平均斜率的比值;将比值最大的字段确定为各所述字段中作为拐点的字段。8.根据权利要求1-7中任一项所述的方法,其特征在于,在分别对每一分箱内的字段进2CN113761076A权利要求书2/2页行聚类之后,所述方法还包括:若根据聚类结果确定满足重新聚类条件,则在所述分箱中进行簇的合并处理,并再次分别对每一分箱内的字段进行聚类;或者,按照局部密度重新将所述簇中心点进行分箱处理,并分别对每一分箱内的字段重新进行聚类。9.根据权利要求8所述的方法,其特征在于,所述重新聚类条件包括:聚类结果对应的轮廓系数小于预设系数阈值和/或聚类结果中出现类间重叠。10.一种聚类装置,其特征在于,包括:字段获取模块,用于获取数据仓库中的各字段;簇中心点的字段确定模块,用于确定各所述字段在向量空间的局部密度,根据所述局部密度确定各所述字段中作为簇中心点的字段;分箱处理模块,用于按照局部密度将所述簇中心点进行分箱处理,并将所述簇中心点之外的其他字段加入距离最近的簇中心