预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113936161A(43)申请公布日2022.01.14(21)申请号202111248660.8(22)申请日2021.10.26(71)申请人恒睿(重庆)人工智能技术研究院有限公司地址401121重庆市渝北区金开大道西段106号5-1、5-2(72)发明人周超田国栋(74)专利代理机构北京瀚仁知识产权代理事务所(普通合伙)11482代理人王天骐宋宝库(51)Int.Cl.G06V10/762(2022.01)权利要求书4页说明书10页附图5页(54)发明名称基于组属性的增量聚类方法、装置、设备和存储介质(57)摘要本发明属于大数据处理技术领域,具体提供一种基于组属性的增量聚类方法、装置、设备和存储介质,旨在解决如何处理增量聚类结果中疑似合并结果对的问题。为此目的,本发明的方法包括:获取新增数据和历史数据,数据样本中包含组属性,组属性包括组名和队名;遵循组属性约束执行增量聚类,得到第二聚类数据和/或疑似合并数据;遵循组属性约束,人工介入处理经优先级排列的疑似合并数据对,得到第三聚类数据;根据第二聚类数据和第三聚类数据更新第一聚类数据。应用本发明的方法,使聚类错误的合并得到抑制,正确的合并得到保持,提高了聚类精度;同时加强了人工确认信息的时效性和影响力,使之能够持久化,达到强化学习的目的。CN113936161ACN113936161A权利要求书1/4页1.一种基于组属性的增量聚类方法,其特征在于,所述方法包括:S1,获取待处理数据,所述待处理数据包括新增数据和第一聚类数据,所述第一聚类数据为已完成聚类的历史数据,所述待处理数据的数据类型包括图像数据或文本数据,且所述待处理数据中每个样本均包含组属性,所述组属性包括组号和队号;S2,遵循组属性约束,对所述待处理数据进行增量聚类,得到聚类结果,所述聚类结果包括已完成增量聚类的第二聚类数据和/或疑似合并数据,所述疑似合并数据包含一个或多个疑似合并数据对,所述疑似合并数据对包括两个合并对象以及所述两个合并对象之间的相似度分数,所述每个合并对象包含标签和至少一个样本;S3,根据所述第二聚类数据,更新所述第一聚类数据;S4,对所述疑似合并数据进行候选合并队列管理,得到所述疑似合并数据对的处理优先级队列;S5,响应于预设执行条件,继续执行步骤S1或进入疑似合并数据处理流程。2.根据权利要求1所述的基于组属性的增量聚类方法,其特征在于,所述“疑似合并数据处理流程”的步骤具体包括:暂停增量聚类操作;获取所述处理优先级队列中优先级最高的疑似合并数据对,对所述优先级最高的疑似合并数据对进行判别,得到类别判别结果,所述类别判别结果包括不纯类别、不合并类别或合并类别中的一种;根据所述类别判别结果,并遵循所述组属性约束,得到第三类聚类数据;根据所述第三聚类数据更新所述第一聚类数据;恢复所述增量聚类操作,执行步骤S1开始新的增量聚类。3.根据权利要求2所述的基于组属性的增量聚类方法,其特征在于,“根据所述类别判别结果,并遵循所述组属性约束,得到第三类聚类数据”的步骤具体包括:当所述类别判别结果为不纯类别时,对所述疑似合并数据对的样本进行组属性拆分;当所述类别判别结果为不合并类别时,对所述疑似合并数据对的样本的组属性进行第一组属性赋值;当所述判别结果为合并类别时,对所述疑似合并数据对的样本进行组属性约束检查,并根据所述组属性约束检查的结果确定是否对所述疑似合并数据对进行合并。4.根据权利要求3所述的基于组属性的增量聚类方法,其特征在于,“当所述类别判别结果为不纯类别时,对所述疑似合并数据对的样本进行组属性拆分”的步骤具体包括:将所述组号和所述队号均相同的所述疑似合并数据对中的样本划分为第一拆分类;将其余的所述疑似合并数据对中的样本划分为第二拆分类;分别为所述第一拆分类和所述第二拆分类设定新的标签。5.根据权利要求3所述的基于组属性的增量聚类方法,其特征在于,“当所述类别判别结果为不合并类别时,对所述疑似合并数据对的样本的组属性进行第一组属性赋值”的步骤具体包括:为所述疑似合并数据对中的样本分配全新、且数值相同的组号;分别为所述疑似合并数据对中两类标签所对应的样本分配数值不同的队号。6.根据权利要求3所述的基于组属性的增量聚类方法,其特征在于,“当所述判别结果2CN113936161A权利要求书2/4页为合并类别时,对所述疑似合并数据对的样本进行组属性约束检查,并根据所述组属性约束检查的结果确定是否对所述疑似合并数据对进行合并”的步骤具体包括:检查所述疑似合并数据对中全部样本的组属性是否冲突;若冲突,则不合并;若不冲突,对所述疑似合并数据对中的样本的组属性进行第二组属性赋值;根据所述第二组属性赋值,对所述疑似合并数据对进行合并;其