预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113821630A(43)申请公布日2021.12.21(21)申请号202010567970.5(22)申请日2020.06.19(71)申请人菜鸟智能物流控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人侯晓坤林榆旺(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人赵娟(51)Int.Cl.G06F16/35(2019.01)G06F16/2455(2019.01)G06K9/62(2006.01)G06Q40/00(2012.01)权利要求书3页说明书14页附图9页(54)发明名称一种数据聚类的方法和装置(57)摘要本发明实施例提供了一种数据聚类的方法和装置,其中,所述方法包括:获取待聚类的目标日志数据;判断是否查找到与所述目标日志数据相似的第一日志数据;在查找到所述第一日志数据时,根据所述第一日志数据确定第一聚类信息;按照所述第一聚类信息,对所述目标日志数据进行聚类。通过本发明实施例,实现了对日志数据聚类的优化,由于设置了根据第一次查找到相似的日志数据进行聚类,保证了聚类结果的一致性,能够兼容于存在并发的分布式系统,且无需计算与得到的多个聚类簇之间的相似度,还能够减少数据聚类所需计算的次数,降低了算法的复杂度,节省了时间和资源,提升了数据聚类的实时性,提升了系统的吞吐量。CN113821630ACN113821630A权利要求书1/3页1.一种数据聚类的方法,其特征在于,所述方法包括:获取待聚类的目标日志数据;判断是否查找到与所述目标日志数据相似的第一日志数据;在查找到所述第一日志数据时,根据所述第一日志数据确定第一聚类信息;按照所述第一聚类信息,对所述目标日志数据进行聚类。2.根据权利要求1所述的方法,其特征在于,所述在查找到所述第一日志数据时,根据所述第一日志数据确定第一聚类信息,包括:在查找到所述第一日志数据时,确定所述第一日志数据对应的第二日志数据;判断所述目标日志数据是否与所述第二日志数据相似;在所述目标日志数据与所述第二日志数据相似时,确定所述第二日志数据所属的聚类簇的聚类信息为第一聚类信息。3.根据权利要求2所述的方法,其特征在于,还包括:在所述目标日志数据与所述第二日志数据相似时,建立所述目标日志数据和所述第二日志数据之间的相似关系。4.根据权利要求3所述的方法,其特征在于,还包括:建立所述目标日志数据对应的节点;按照所述目标日志数据和所述第二日志数据之间的相似关系,建立以所述目标日志数据对应的节点为起点的相似边。5.根据权利要求2或3或4所述的方法,其特征在于,所述在查找到所述第一日志数据时,确定所述第一日志数据对应的第二日志数据,包括:在查找到所述第一日志数据时,按照预先建立的所述第一日志数据与其他日志数据之间的相似关系进行递归查找,得到第二日志数据;其中,所述第二日志数据为所述递归查找的路径中的根节点对应的数据。6.根据权利要求5所述的方法,其特征在于,还包括:在所述递归查找的过程中,若检测到存在环结构,则从所述递归查找的路径中,确定目标节点;将所述目标节点设置为所述递归查找的路径中的根节点。7.根据权利要求6所述的方法,其特征在于,在所述将所述目标节点设置为所述递归查找的路径中的根节点之后,还包括:删除以所述目标节点作为起点的相似边。8.根据权利要求6或7所述的方法,其特征在于,所述目标节点为最小的字典序对应的节点。9.根据权利要求1所述的方法,其特征在于,在所述判断是否查找到与所述目标日志数据相似的第一日志数据之前,还包括:生成所述目标日志数据对应的指纹信息;按照所述指纹信息,对所述目标日志数据分段存储在多个分桶表中。10.根据权利要求9所述的方法,其特征在于,所述判断是否查找到与所述目标日志数据相似的第一日志数据,包括:按照数据写入时间的顺序,对所述分桶表中的日志数据进行遍历;2CN113821630A权利要求书2/3页判断所述遍历到的日志数据是否与所述目标日志数据相似;在所述遍历到的日志数据与所述目标日志数据相似时,判定查找到与所述目标日志数据相似的第一日志数据。11.根据权利要求1所述的方法,其特征在于,还包括:在未查找到所述第一日志数据时,生成针对所述目标日志数据的第二聚类信息;按照所述第二聚类信息,对所述目标日志数据进行聚类。12.根据权利要求1所述的方法,其特征在于,所述目标日志数据包括以下任一项:网络安全日志数据、财务结算日志数据。13.一种数据聚类的装置,其特征在于,所述装置包括:目标日志数据获取模块,用于获取待聚类的目标日志数据;第一日志数据查找判断模块,用于判断是否查找到与所述目标日志数据相似的第一日志数据;第一聚类信息确定模块,用于在查找到所述第一日志