预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112445939A(43)申请公布日2021.03.05(21)申请号202010224848.8(22)申请日2020.03.26(71)申请人西安交通大学地址710049陕西省西安市咸宁西路28号(72)发明人沈超刘笑子刘晓明周亚东管晓宏(74)专利代理机构西安通大专利代理有限责任公司61200代理人李晓晓(51)Int.Cl.G06F16/901(2019.01)G06F16/951(2019.01)G06Q50/00(2012.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书3页说明书9页附图4页(54)发明名称一种社交网络群体发现系统、方法及存储介质(57)摘要本发明公开了一种社交网络群体发现系统、方法及存储介质,首先获取在线社交网络数据集,建立在线社交网络拓扑图;根据在线社交网络拓扑图建立邻接矩阵,利用深度栈式自编码器对邻接矩阵进行降维处理,得到降维矩阵;利用图嵌入方法获取节点嵌入向量;最后对节点嵌入向量进行聚类,得到聚类结果,即为社交网络群体发现结果;本发明通过获取在线社交网络数据集,提取邻接矩阵,实现了对在线社交网络用户之间关系的描述;通过利用深度栈式自编码器及图嵌入,有效保留在线社交网络结构的完整性,确保了群体发现结果的准确性;通过对降维嵌入后的节点嵌入向量进行聚类,获取发现结果,降低了时间复杂度,实现了更加快速准确的获取发现结果。CN112445939ACN112445939A权利要求书1/3页1.一种社交网络群体发现方法,其特征在于,包括以下步骤:步骤1、获取在线社交网络数据集,建立在线社交网络拓扑图;步骤2、对在线社交网络拓扑图进行预处理,剔除孤立节点,得到预处理后的在线社交网络拓扑图;利用预处理后的在线社交网络拓扑图中各个节点对应的邻接节点,建立在线社交网络的邻接矩阵;步骤3、利用深度栈式自编码器,对在线社交网络的邻接矩阵进行降维处理,得到降维矩阵;利用图嵌入方法,将降维矩阵中的某一行向量作为社交网络拓扑图中对应节点的表示向量,得到节点嵌入向量;步骤4、利用K-means方法对节点嵌入向量进行聚类,得到聚类结果,即为社交网络群体发现结果。2.根据权利要求1所述的一种社交网络群体发现方法,其特征在于,还包括步骤5,具体为,利用NMI指数对社交网络群体发现结果进行评估。3.根据权利要求1所述的一种社交网络群体发现方法,其特征在于,步骤1中,采用线上爬虫或直接查找公开数据集方式获取在线社交网络数据集;其中,线上爬虫时,利用社交平台的应用程序接口,采用爬虫框架爬取用户信息、关注信息及转发信息;在线社交网络拓扑图的表达式如下:G=(V,E)其中,G为社交网络拓扑图,其节点个数为n;V为拓扑图G中节点的集合;E为拓扑图G中边的集合。4.根据权利要求1所述的一种社交网络群体发现方法,其特征在于,步骤2中,当在线社交网络拓扑图G中的节点个数为n时,邻接矩阵A的数学表达式为:其中,若Ai,j=1,i∈[0,n-1],j∈[0,n-1],则社交网络拓扑图G中第i个节点与第j个节点为相邻节点,若Ai,j=0,i∈[0,n-1],j∈[0,n-1],则社交网络拓扑图G中第i个节点与第j个节点为不相邻节点。5.根据权利要求1所述的一种社交网络群体发现方法,其特征在于,步骤3中,对邻接矩阵进行降维处理时,通过深度栈式自编码器,进行学习邻接矩阵,对邻接矩阵中的每一行向量进行降维处理,得到降维矩阵;具体包括以下步骤:步骤31、利用深度栈式自编码器,建立神经网络模型;其中,深度栈式自编码器包括若干栈式自编码器,若干栈式自编码器依次连接,且将前一个栈式自编码器的输出作为后一2CN112445939A权利要求书2/3页个栈式自编码器的输入;步骤32、将邻接矩阵带入步骤31中的神经网络模型中,进行神经网络编码计算,输出压缩模型;其中,神经网络模型的编码计算公式为:a(l)=f(z(l))z(l+1)=W(l,1)a(l)+b(l,1)步骤33、将步骤32中的压缩模型带入神经网络模型中,进行进行网络解码计算,输出降维矩阵:其中,神经网络模型的解码计算公式为:a(n+l)=f(z(n+l))z(n+l+1)=W(n-l,2)a(n+l)+b(n-l,2)其中,W(l,1)及W(n-l,2)分别为对应栈式自编码器的权重;b(l,1)及b(n-l,2)是对应栈式自编码器的偏置:al,a(n+l)均是栈式编码器中的隐藏单元的激活值;zl,zl+1,zn+l+1是栈式自编码器中的中间变量;f(·;θ1)为特征提取函数,xi为邻接矩阵A的第i行向量,i=1,2,…,n;f(xi;θ1)为编码后的特征函数;g(·;θ2)为映射函数映射;l(·