预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第39卷第10期湖南大学学报(自然科学版)Vol.39,No.10 2012年10月JournalofHunanUniversity(NaturalSciences)Oct.2012 文章编号:1674-2974(2012)10-0087-06 * PDM:基于Hadoop的并行数据分析系统 段松青,吴斌,于乐,王柏 (北京邮电大学计算机学院,北京100876) 摘要:提出了一款基于Hadoop的并行数据分析系统———PDM.该系统拥有大量以 MapReduce为计算框架的并行数据分析算法,不仅包括传统的ETL、数据挖掘、数据统计和 文本分析算法,还引入了基于图理论的SNA(社会网络分析)算法.详细阐述了并行多元线 性回归算法和“多源最短路径”算法的原理和实现,其中,提出的“消息传递模型”能有效解决 MapReduce难以处理邻接矩阵的问题;介绍了基于电信数据的典型应用,如采用并行k均 值和决策树算法实现的“套餐推荐”,利用并行PageRank算法实现的“营销关键点发现”等; 最后通过性能测试,说明该系统适合高效地处理大规模数据. 关键词:云计算;Hadoop;并行算法;数据挖掘;社会网络分析 中图分类号:TP311文献标识码:A PDM:AParallelDataAnalysisSystemBasedonHadoop DUANSong-qing,WUBin,YULe,WANGBai (SchoolofComputerScience,BeijingUnivofPostsandTelecommunications,Beijing100876,China) Abstract:APDM(ParallelDataMining)systemwasbuiltbasedonHadoop.PDMcontainsalarge numberofparalleldataanalysisalgorithmsbasedonMapReducecomputationalframework.Thesealgo- rithmsnotonlycontaintheclassicalgorithmsofETL,datamining,datastatisticalandtextanalysis,but alsointroduceSNA(socialnetworkanalysis)basedongraphmining.Theprincipleandimplementationof theparallelmultiplelinearregressionalgorithmandthemulti-sourceshortestpathalgorithmwerede- scribedandthe“Message-passingmodel”proposedcaneffectivelysolvetheproblemthatMapReduceisdif- ficulttodealwiththeadjacencymatrixstructure.Thispaperalsoillustratessometypicalapplicationsof telecommunications,suchasthe“Businessrecommendation”basedonparallelk-meansanddecisiontree algorithms,the“Marketingkeypointsdiscovery”basedonparallelPageRankalgorithmandthelike.Fi- nally,theresultsofperformancetestshowthattheproposedsystemissuitablefordealingwithlargescale dataefficiently. Keywords:cloudcomputing;Hadoop;parallelalgorithms;datamining;socialnetworkanalysis 信息爆炸式增长,企业迫切需要对海量数据进云计算集网格计算、分布计算、并行计算、效用计算、 行及时、准确地处理,以获取潜在的、有价值的信息.网络存储、虚拟化、负载均衡等技术于一体,具有海 *收稿日期:20120211 基金项目:国家自然科学基金资助项目(90924029,60905025,61074128) 作者简介:段松青(1987—),男,湖南郴州人,北京邮电大学博士研究生 通讯联系人,E-mail:dsq58629@163.com. 88湖南大学学报(自然科学版)2012年 量的存储能力和可弹性变化的计算能力,成为解决推出了CaaS;国内,中国移动提出“大云计划”,电信提 该问题的