预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

中国科技论文在线http://www.paper.edu.cn 基于Hadoop平台的数据分析方案的设计应 用 姜文1,3,辛阳1,3,陈林顺2* (1.北京邮电大学网络与信息攻防技术教育部重点实验室,北京100876; 2.北京安码科技有限公司,北京100876; 3.灾备技术国家工程实验室,北京100876) 摘要:面对互联网上的海量数据,单台主机已无法满足其存储和计算要求,分布式存储和分 布式计算的应用成为必然的趋势。其中Hadoop是应用较多的分布式存储和计算框架之一。 本文在该平台下,通过对国内某搜索引擎两个月内的上千万条用户搜索日志进行数据统计分 析,给出相应Map/Reduce程序的设计思路和实例,并提出Map/Reduce分布式程序的部分设 计和性能优化方法,实验结果表明,本文提出的这些方法能简化Map/Reduce程序设计、有 效提高程序性能。 关键词:分布式计算;Map/Reduce;文本处理;数据分析 中图分类号:TP319 DesignedApplicationoftheSchemeofData-Analysisbased onHadoopPlatform JiangWen1,3,XinYang1,3,ChenLinshun2 (1.KeyLaboratoryofnetworkandinformationattackanddefencetechnologyofMinistryof Education,BeijingUniversityofPostsandTelecommunications,Beijing100876; 2.BeijingSafe-CodeTechnologyCo.,Ltd,Beijing100876; 3.NationalEngineeringLaboratoryforDisasterBackupandRecovery,Beijing100876) Abstract:TofaceofmassivedataontheInternet,asinglehosthasbeenunabletomeetthestorageand computingrequirements,distributedstorageanddistributedcomputingisaninevitabletrend,Hadoop isthemostpopularofthem.Inthispaper,wedodata-statistic-analysisinSogousearchengine,which contains10millionsearchlogswithtwomoths,andshowsthemethodandinstanceofprogramming designpatternswithMap/Reduceframework,atlastweproposesomemethodofprogramperformance OptimizationinMap/Reduce.Experimentresultsshowthatthesemethodscansimplifythedesignof Map/Reduceprogramming,andimproveperformanceeffectively. Keywords:distributedcomputing;Map/Reduce;text-processing;data-analysis 0引言 互联网高速发展,信息量不断膨胀,各种大型搜索引擎的访问量迅速增加,与此同时这 些大型系统都记录下了海量的用户访问和查询日志,挖掘出日志中蕴藏的信息来改进搜索引 擎性能、提升服务质量是非常有价值的,然而传统的日志分析和数据统计方法受到单机内外 存、CPU资源有限的限制,在进行海量日志数据的分析时运到了瓶颈。Hadoop作为著名开 源组织Apache旗下专注于分布式存储和计算的开源项目,越来越收到重视,现在广泛应用 于网页搜索、日志分析、广告计算、数据挖掘等领域。 本文以国内著名搜索引擎的用户查询日志为数据源,介绍了Hadoop在文本处理及数据 分析中的应用,使用的数据为搜索引擎用户查询日志。并根据实验结果提出Hadoop在数据 作者简介:姜文(1986-),男,在读研究生,主要研究方向:分布式计算、网络安全.E-mail: jiangwen127@gmail.com -1- 中国科技论文在线http://www.paper.edu.cn 分析中的应用设计方法。 文献[1]提出利用Map/Reduce进行文本分析的方法,包括文本倒排索引和图论相关的应 用;文献[3]提出对用户搜索日志进行分类的理论方法,但未给出具体的数据分析操作和效 率;文献[4]提出了对用户查