预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Hadoop的大数据存储及处理刘德松【摘要】随着目前互联网数据爆炸式的增长,传统的数据存储和处理方式已经不能够适应数据的增长速度,并且当今生成的大量数据多为web存储的数据结构,其数据存储格式不统一、数据结构多样化,给数据的处理带来了极大的困难。Hadoop技术的出现给大数据时代提供了一个可用的云计算平台,其分布式文件系统实现了数据的安全备份与存储。【关键词】大数据;Hadoop;分布式系统;数据备份随着计算机网络的普及,web技术和Internet在当今世界产生大量的数据,这些海量数据远远超过有记载以来所产生的数据总量。以天文学为例,2000多年以来,整个天文学的数据累积到现在是140兆兆字节的信息,而位于新墨西哥州阿帕奇山顶天文台的2.5米口径望远镜进行的红移巡天项目,在短短几个星期内就收集到多于140兆兆字节的信息量。这些海量数据每年以超过50%的速度增长,多方面的数据显示,我们已经进入了大数据时代。由于数据量爆炸式增长,数据处理手段也是复杂多样,再加上数据结构不象传统数据那样统一存储,所以数据分析处理技术就显得尤为重要。如果数据得不到很好的处理,则海量的数据就没有任何意义,要想真正的拥有这些数据,需要解决以下几个问题:1、存储系统的改变数据量急剧增加,使得原有的存储系统和方法不能适应新产生的大量数据的存储要求。2、复杂的数据结构存储原有存储方案中,一种类型的数据库只能存储一种结构的数据。大数据的产生使得数据结构已经由原来单一的结构化数据变为结构化、非结构化、半结构化数据并存的局面。这种多数据结构的数据在目前只能存放单一数据结构的数据库中已经没有办法存储了。3、数据处理难度增大和处理单一的数据类型不同,将多种数据结构的数据整合、分析、挖掘并从中得出有价位的信息的难度大大增加。对伴随大数据产生的新问题,可以逐一的解决。由于数据量极大,原来由单一媒体存储的数据,可以通过技术构建分布式存储系统,将大量数据分别存储在不同的存储系统里,不仅可以实现海量数据的存取,而且可以方便实现分布系统扩展。对于数据结构不同的问题,可以通过设置多种存储引擎,为每种数据结构提供合适的存储方案,来代替以前的结构化为主体的存储方式。多种类型的数据结构给数据分析带来极大的困难,而数据分析是数据存在的主要意义。可以通过对多种结构的数据进行集成,实现对在同一架构下对多种数据结构的分析。Hadoop技术是解决上述问题的最好的实现框架。Hadoop是由Apache基金会开发的一种分布式平台,并且是开源的,是目前应用最为广泛的云计算软件平台。当前在行业中存在多种云计算的平台,如主要有亚马逊的EC2,谷歌的AppEngine,IBM的蓝云,微软的Azure等等.Hadoop和其它的云计算平台相比主要有以下几个特点:1、高性能在数据测试中,Hadoop可以对PB数量级的大数据进行同时处理操作,并将结果提供给其它应用。研究人员做过大量测试,以2011个节点的Hadoop集群来进行基准测试,100GB的数据仅仅130秒中就完成了,这种数据处理能力是其它平台所不能完成的。2、高扩展性由于Hadoop技术主要是针对大数据操作的云计算平台,在设计的时候充分考虑到平台的可扩展性。得用Hadoop技术可以将数据轻松上万台服务节点来实现数据的存储和分析,即实现分布式的存儲和分布式的数据处理。这对传统的关系型数据库处理系统及非结构化数据处理技术来讲是不可想象的,这种可扩展性有利于数据量更大时的集群拓展工作。3、成本效益高传统的存储方案在存储大量重要数据的时候,往往要进行数据备份,这就对存储系统提出很高要求,而且成本大大提高。而Hadoop可以利用其高扩展性的特性,将数据存储到其扩展空间上来完成数据的存储,同时,Hadoop还可以通过保存副本的技术来保证数据的完整性和容错性。同时,由于Hadoop本身对硬件要求不高,所以它可以架构在众多低廉的设备中,以较低的成本来完成较高的收益,使得技术成本大大降低。4、广泛应用由于Hadoop计算平台的众多优点,加上其技术难度不高,所以它现在成为了互联网上应用最为广泛的云计算平台。目前,微软、百度、雅虎、IBM、甲骨文、淘宝等国内外大公司都积极进行Hadoop的开发和使用,众多公司也都利用此项技术为用户提供了更为全面的服务。5、开源性和其它的开源性技术软件一样,Hadoop的出现给云计算平台带来大量业务和服务质量的大幅度提高。作为对谷歌的MapReduce和GFS技术的开源实现,其核心技术在海量网络数据处理业务中具有明显的优势。Hadoop的技术架构如表一所示Pig:数据分析平台,是一个基于Hadoop的针对大数据的分析平台,它提供PigLatin,即非结构化的数据库查询语言。Chuwa:数据分析和收集系统,针对分布式存储的大数据,它可以快速进行数