预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

中国科技论文在线http://www.paper.edu.cn X-RIME:基于Hadoop的大规模社会网络分析# 杨寅* (北京邮电大学网络与交换技术国家重点实验室,北京100082) 摘要:随着SNS(SocialNetworkingSites,社交网站)如Renren、Facebook等的快速发展, SNA(SocialNetworkAnalysis,社会网络分析)逐渐成为研究的重点。现代SN(SocialNetwork, 社会网络)往往都是几百万甚至上千万的超大规模数据集,因此如何处理大规模的社会网络 数据集成为传统的社会网络分析算法具面临的一个较为严峻的挑战。本文将介绍X-RIME: 基于Hadoop的大规模社会网络分析工具,能够对大规模的数据集进行社会网络分析,具有 良好的扩展性和通用性。本文还简单分析了适合用MapReduce编程模型进行分布式并行化 的算法应该具有的特征,最后在仿真实验中举例说明了X-RIME的社会网络分析能力。 关键词:社会网络分析;X-RIME;HADOOP;云计算 中图分类号:TP39 X-RIME:HADOOP-BASEDLARGE-SCALESOCIAL NETWORKANALYSIS YangYin (StateKeyLaboratoryofNetworking&SwitchingTechnology,BeijingUniversityofPosts& Telecommunications,Beijing,100082) Abstract:WiththefastdevelopmentofSocialNetworkingSites(SNS)suchasRenren,Facebook,etc., SocialNetworkAnalysis(SNA)isbecomingahotresearcharea.However,consideringatypicalSNS consistsofmillionstotensofmillionsofultra-large-scaledatasets,howtodealwithsuchlarge-scale SocialNetwork(SN)datasetsbecomesagreatchallengeforexistingSNAtools.Towardsthisproblem, thispaperproposesX-RIME:aHadoop-basedanalysistoolforlarge-scalesocialnetwork.Weshow thatX-RIMEcanefficientlydealwithlarge-scaledatasets,withgreatexpandabilityanduniversality. WealsobrieflyanalyzethenecessaryfeaturesforanalgorithmtobeimplementedwithMapReduce programmingmodel,inadistributedandconcurrentway.Finally,wedemonstratetheSNAabilitiesof X-RIMEwithextensiveexperimentresults. Keywords:SocialNetworkAnalysis;X-RIME;HADOOP;CloudComputing 0引言 随着近几十年互联网的飞速发展,世界范围内的互联网用户数都在迅速增长并与之同时 涌现出了一大批社交网站如Renren、Facebook等。随着这些网络用户数量的迅速增加,海 量的用户数据被不断地制造出来。如何从这些海量的用户数据中获取更深层次的有用信息, 从而进一步挖掘商业价值、理解商业行为以及发现新的业务增长点成为一个重要的研究方向 以及挑战。 社会网络分析是分析社会性数据的重要技术手段,它强调分析社会个体之间的关系[1], 它的基础模型是图论的图模型,在这个模型里,社会网络中的个体被视为图里的结点v,结 点的集合为V;个体之间的关联被视为图里面的边e,边的集合是 E={e(u,v)|u∈V,v∈V},因此整个模型就可以看作是G=(V,E)。通过这种映射,我 基金项目:国家973项目(2009CB320504);国家自然科学基金创新研究组(60821001);高等学校博士 学科点专项科研基金(20090005120012);国家重点科学与技术专项项目:下一代宽带无线移动通信网络 (2010ZX03004-001-01) 作者简介:北京邮电大学网络与交换技术国家重点实验室研究生,主要研究方向是分布式与并行计算. E-mail:bobten2008@gmail.com -1- 中国科技论