预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据技术及其在信息系统中的应用摘要:大数据是继物联网、云计算技术后世界又一热议的信息技术发展迅速。截至2011年年底全球互联网总数据存储量已达100亿TB以上并且以59%以上的年增长率递增。关键词:大数据;信息;大数据安全中图分类号:TP311.13麦肯锡公司在2011年的报告(Bigdata:theNextFrontierforInnovation)中对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术是大数据采集、存储、处理和呈现的有力武器。1大数据概念大数据概念的前身是海量数据但两者有很大的区别。海量数据主要强调了数据量的规模对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括即:Volume:数据量大目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。2大数据相关技术2.1大数据处理通用技术架构。大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据所以在各个处理环节中都可以采用并行处理。目前MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。MapReduce分布式方法最先由谷歌设计并实现包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架包括Map和Reduce两个阶段可以进行海量数据分割、任务分解与结果汇总从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”把海量数据分割成若干部分分给多台处理器并行处理;Reduce即“合并”把各台处理器处理后的结果进行汇总操作以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点因此具有更强的并行处理能力。2.2大数据采集。大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大因为同时有可能会有成千上万的用户来进行访问和操作比如火车票售票网站的并发访问量在峰值时达到上百万这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。2.3大数据分享。目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合用户不但可以通过API访问还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户还能够吸引很多数据开发者在平台上进行开发。2.4大数据预处理。数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理并对数据的多种属性进行初步组织从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。2.5大数据存储及管理。大数据需要行之有效的存储和管理否则人们不能处理和利用数据更不能从数据中得到有用的信息。目前大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。2.6大数据分析及挖掘。大数据的分析和挖掘是一种决策支持过程它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术高度自动化地分析大数据做出归纳性的推理从中挖掘出潜在的模式从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。2.7大数据检索。(1)数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。(2)实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。2.8大数据可视