预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112541530A(43)申请公布日2021.03.23(21)申请号202011409579.9(22)申请日2020.12.06(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人熊涛赵文龙吴若凡漆远(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309代理人陈霁周良玉(51)Int.Cl.G06K9/62(2006.01)G06F16/28(2019.01)权利要求书4页说明书15页附图5页(54)发明名称针对聚类模型的数据预处理方法及装置(57)摘要本说明书实施例提供一种针对聚类模型的数据预处理以及利用属性图进行业务实体聚类的方法,基于信息论,提供了一种通过表征向量对属性图进行表征,并利用表征向量与聚类类别的原型向量之间转移的信息损失来训练聚类模型。并且,这种信息损失通过表征向量与基于原型向量确定的映射向量之间的相似性来衡量。进一步地,在确定互信息的过程中,利用经验概率分布代替总体分布的期望,提供一种可以利用经验逼近互信息的方式。该方式得以有效利用信息论,从而提供更有效的利用属性图的业务实体聚类方法。CN112541530ACN112541530A权利要求书1/4页1.一种针对聚类模型的数据预处理方法,所述聚类模型用于利用属性图进行业务实体聚类,其中,所述属性图包括与多个业务实体一一对应的多个节点,各个节点具有基于相应业务实体的属性确定的特征向量,所述聚类模型包括编码模块、映射模块以及判别模块,所述多个节点包括第一节点;所述方法包括:利用所述编码模块处理所述属性图,得到各个节点分别对应的各个表征向量,所述第一节点对应第一表征向量;通过所述映射模块,利用所述第一表征向量确定所述第一节点向若干聚类类别进行映射的第一映射向量,其中,所述第一映射向量基于各个聚类类别分别对应的各个原型向量组合而成,其中的组合参数基于所述第一表征向量确定;基于所述判别模块,检测所述第一表征向量与所述第一映射向量的相似程度,从而确定所述聚类模型的聚类损失,其中,所述第一表征向量与所述第一映射向量之间的相似程度经由表征向量和映射向量的经验分布代替总体分布,从而基于判别函数构造经验互信息确定,所述聚类损失与所述第一表征向量同所述第一映射向量之间的相似程度负相关;以最小化所述聚类损失为目标,调整所述编码模块的模型参数、各个原型向量及所述判别模块中判别函数中的中间向量,从而训练所述聚类模型。2.根据权利要求1所述的方法,所述编码模块为图神经网络,所述第一表征向量基于所述第一节点的特征向量与其邻居节点的特征向量的融合结果确定。3.根据权利要求1所述的方法,其中,所述第一映射向量通过以下方式确定:基于所述第一表征向量与各个原型向量,确定各个原型向量分别对应的各个重要度系数;按照各个重要度系数确定的组合参数对各个原型向量以加权求和的方式组合,得到所述第一映射向量。4.根据权利要求3所述的方法,其中,各个重要度系数基于注意力机制确定,各个原型向量包括第一原型向量,所述第一原型向量对应的第一重要度系数,与第一原型向量和第一表征向量的相似度正相关,与各个原型向量和第一表征向量的相似度之和负相关。5.根据权利要求1所述的方法,其中,所述基于所述判别模块,检测所述第一表征向量与所述第一映射向量的相似程度包括:基于所述第一表征向量、所述判别函数的中间向量、所述第一映射向量的乘积,确定所述第一表征向量与所述第一映射向量的相似度。6.根据权利要求1所述的方法,其中,所述聚类损失还与所述第一表征向量同其他节点对应的其他映射向量之间的相似程度正相关。7.根据权利要求1所述的方法,其中,所述基于所述判别模块,检测所述第一表征向量与所述第一映射向量的相似程度包括:利用所述第一表征向量与所述第一映射向量的加权向量,更新所述第一表征向量;基于所述判别模块,检测更新后的第一表征向量与所述第一映射向量的相似程度。8.一种针对聚类模型的数据预处理方法,所述聚类模型用于利用属性图进行业务实体聚类,其中,所述属性图包括与多个业务实体一一对应的多个节点,各个节点具有基于相应业务实体的属性确定的特征向量,所述聚类模型包括编码模块、映射模块以及判别模块,所述多个节点包括第一节点;所述方法包括:2CN112541530A权利要求书2/4页利用所述编码模块处理所述属性图,得到各个节点分别对应的各个表征向量,所述第一节点对应第一表征向量;基于所述第一表征向量与所述第一节点对应的第一特征向量之间的相似程度,确定所述编码模块的编码损失;以最小化所述编码损失为目标,调整所述编码模块的模型参数;利用调整好模型参数的编码模块处理所述属性图,得到所述第一节点