预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共82页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据综述 大数据的特征 大数据采集、存储技术 大数据分析系统架构 大数据建模分析方法 分析结果的可视化展示技术●随着现代信息采集技术、物联网、云计算、互联网络等信息技术以及新兴服务产业的快速发展,使得人类社会的数据种类和规模(社会管理、生产生活、行业产业、文化教育、资源环境等)正以前所未有的速度增长,数据从简单的处理对象开始转变为一种基础性资源(原始数据和应用数据)。 ●“如何更好地管理和利用大数据”已经成为普遍关注的话题。大数据的规模效应给数据存储、管理以及数据分析带来了极大的技术挑战和利用价值。 ●自2008年《Nature》杂志发表大数据专辑以来,大数据的概念和价值得到越来越多的关注。2012年,美国和中国分别将大数据提升到国家战略高度。卫星监测数据视频监测数据无处不在 数据无时不有 数据无物不生 数据无人不感自古以来,在科学研究上,先后历经了实验、理论和计算3种范式。当数据量不断增长和累积到今天,传统的3种范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的第4种范式来指导新形势下的科学研究。基于这种考虑,图灵奖获得者、著名数据库专家JimGray博士提出了一种新的数据探索型研究方式,被他自己称之为科学研究的“第4种范式”。大数据技术是一个典型的跨领域研究方向,在数据的采集、存储、传输、管理、安全和分析等诸多方面均面临着技术变革和创新。 数据复杂性 计算复杂性 系统复杂性 数据处理技术与系统 批量数据处理技术与系统 流量数据处理技术与系统 交互式数据处理技术与系统 多媒体数据处理技术与系统大数据处理系统的三大发展趋势 数据处理引擎专用化 数据处理平台多样化 数据计算实时化 大数据分析支撑技术和应用 深度学习 知识计算 社会计算 可视化 典型应用场景等大数据分析关键技术框架图1MapReduce执行流程图MapReduc模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务区处理。Map任务从输入中解析出链/值(Key/Value)对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。 MapReduc任务从硬盘上读取数据之后会根据Key值进行排序,将具有相同Key值的组织在一起,由用户自定义的MapReduc函数作用于这些排好序的结果并输出最终结果。 从MapReduc的处理过程可以看出,MapReduc的核心设计思想在于: 1)将问题分而治之; 2)把计算推到数据而不是把数据推到计算,有效地避免数据传输过程中产生的大量通信开销。 MapReduc模型简单,且现实中很多问题都可用MapReduc模型来表示。2、典型的大数据处理平台—Hadoop 由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的优势进行高速运算和存储。 Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem,HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上,提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS可以流的形式访问文件系统中的数据。 Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算模式。 Hadoop已经发展成为包括文件系统、数据库、数据处理等功能模块在内的完整系统,某种程度上可以说已经成为大数据处理工具事实上的标准。图3HadoopDB体系架构(Google)3、大数据处理基本框架大数据的处理流程可以定义为在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准统一存储。利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。 可分为三个主要环节:数据抽取与集成、数据分析以及数据解释。 1)数据抽取与集成:在大数据集合中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储这些数据,同时对数据进行清洗,保证数据质量及可信性。 现有的数据抽取与集成方式可以大致分为以下4种类型:基于物化或ETL方法的引擎,基于联邦数据库或中间件方法的引擎,基于数据流方法的引擎,基于搜索引擎的方法。2)数据分析:整个大数据处理流程的核心。从异构数据源抽取和集成的数据构成了数据分析的原始数据,根据不同应用的需求可以从这些数据中选择全部或部分进行分析。 面向典型的大数据分析领域,如推荐系统、商业智能、决策支持等,目前数据分析技术主要有:挖掘建模分析(数据挖掘方法),智能建模分析(机器学习方法),统计分析等。 3)数据解释:将数据分析分析结果面向用户进行展示,如可视化方式