预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于大数据的统计分析模型设计刘栋王黎峰张怀锋摘要:统计是利用尽可能少的局部样本数据来发现总体规律,处理对象往往数据规模小且数据结构单一。在大数据环境下,面临海量数据的采集与统计,传统方法已无法满足大规模数据集处理。基于Hadoop系统,利用其分布式存储和并行处理机制,设计了大数据环境下的统计分析模型,从海量数据中提取出有用的信息特征,实现数据资源共享,为相关部门决策提供信息服务。关键词关键词:统计;大数据;数据挖掘;HadoopDOIDOI:10.11907/rjdk.161843:TP302:A:16727800(2016)007002802基金项目基金项目:山东省统计科研重点项目(KT15217);2015年山东省高校科技计划资助项目(J15LN15)0引言随着统计数据规模的快速增长,数据特征日趋复杂,数据收集渠道多样,统计学相关领域研究已进入大数据时代。如何高效收集样本数据、挖掘信息,从海量数据中提取有用的信息特征,将信息及时提供给相关部门决策,成为当前统计学研究热点之一。与国外相比,我国在统计分析工作中存在信息资源整合程度不高、数据共享匮乏、信息不完整等问题。随着大数据时代的到来,对大数据分析与挖掘的研究和应用越来越重视,大数据的挖掘与分析将帮助统计部门在有效合理的时间内采集、处理、管理与分析海量数据。目前政府部门间借助政务平台可以实现数据资源共享,但是企业与政府间缺乏数据的分享平台,造成了信息隔离,对此,统计部门要构建起全方位的海量数据共享和分布式存储的安全统计分析平台,实现跨地区的统计信息交流,满足海量信息数据的实时分享和处理。1大数据大数据是一种大规模的数据集合,数据分析人员无法在一定时间内用一般软件对其进行提取、处理、分析和管理。处理大数据的关键技术包括大规模数据集的并行处理技术、分布式数据库、分布式文件存储与处理系统、数据挖掘、云计算等。大数据具有5V特点:Volume(体量浩大)、Variety(类型多样)、Velocity(生成快速)、Veracity(真实性高)、Value(价值巨大)。1.1云计算云计算(CloudComputing)是传统信息技术发展融合的产物,基于效用计算(UtilityComputing)、并行计算(ParallelComputing)、分布式计算(DistributedComputing),它提供便捷的、可用的、按需付费的网络访问。云计算平台可以提供IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务),同时负责数据安全、分布式网络存储、虚拟化、负载均衡、热备份冗余等,用户在使用资源时不需考虑底层基础架构。大数据应用不在于掌握庞大的数据信息,而在于对获取的数据进行专业化处理,以挖掘出数据的价值。大数据处理任务无法用单机串行计算方式处理,必须采用分布式架构进行计算。其特点在于依托云计算的分布式处理、云存储、分布式数据库和虚拟化技术对海量数据进行挖掘。1.2大数据处理技术1.2.1大数据研究现状Science、Nature等国际顶级学术期刊出专刊探讨了大数据处理与分析研究,介绍海量数据给社会生产和人们生活带来的挑战和机遇,学者们断言:“数据将是未来举足轻重的资源。在应用方面,目前已有很多企业开始做大数据处理的相关研究,IBM、谷歌、雅虎、亚马逊等公司纷纷提出自己的大数据处理架构和计算模式。谷歌首先提出了分布式存储系统GFS文件系统、大型分布式数据库BigTable。2012年美国政府斥资2亿美元启动了大数据研究和发展计划,大力发展数据信息化基础设施建设。1.2.2大数据处理关键技术处理和分析大数据的关键在于具备分布式存储功能和强大的计算能力,数据处理的基础在于数据存储,数据分析的关键在于强劲的处理能力。Hadoop是一个可扩展、可靠、开源的分布式计算系统,该框架能够实现在计算机集群中用简单的计算模式处理海量数据,同依赖高性能服务器相比,Hadoop扩展性较好,同时集群中的节点都可以提供本地存储和计算。1.3基于大数据的统计分析研究统计是一项数据处理工程,面对大数据集的处理,统计样本变大、数据特征复杂等使得统计工作也变得繁琐,而数据挖掘是从大量数据中取得有用信息的过程,利用现代信息技术及挖掘算法,可以高效地对有用数据获取与处理。不妨将数据挖掘理解为一个大数据状态下精确处理数据的统计模型,对挖掘后的数据再引入统计学的思想进行相关数据处理与分析,将两种方法有机结合起来。图1大数据环境下的统计工作基础架构Hadoop为统计分析工作提供了一个稳定可靠的分析系统和共享存储,它包含两个核心技术:MapReduce和HDFS。MapReduce实现数据的处理和分析,HDFS负责数据的共享存储。如图1所示,大数据环境下,统计工作的基本架构包含数据采集中心和统计分析处理中心。数据采