预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据在制造系统中的应用 20世纪中叶计算机的诞生标志着电子时代正式开始,从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命,单位面积所能存储的数据量大大提高。近年来由于WEB2.0应用的全面爆发,网络参与者同时也成了网络信息的制造者,由WEB2.0带来的大规模非结构化数据开始呈现出非几何级数的增长。因此,称这种密集型数据爆炸的现象为“大数据”时代的到来。 1大数据的概念 大数据的概念不是凭空出现的,它的前身是海量数据。但两者之间有所区别,海量数据强调数据量的规模之大,并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义,但被广泛接受的定义为:大数据是无法在一定的时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。 大数据的特点一般归纳为四点:一是数据总量大,目前大数据最小单位一般被认为是10-20TB的量级;二是数据类型多,包括了结构化、非结构化和半结构化数据;三是数据的价值密度(单位重量物品的价值)很低;四是数据产生和处理的速度非常快。这四个特点又被称为大数据的4V理念,即:Volume,Variety,Value,Velocity。 2大数据面临的挑战 大数据的数据集大小以难以想象的速度增长,给数据处理带来了极大的挑战。首先,信息技术的发展使得数据的生成和消费变得更容易。例如,每分钟有72小时长度的视频被上传到Youtube服务器,大数据的这种大容量特性使得数据难以可伸缩地从分布式的地点收集并集成;第二,数据采集后,如何以最小的硬件和软件代价存储和管理这些海量异构数据是非常具有挑战性的问题;第三,由于大数据的异构性、规模性、实时性、复杂性和隐私性等特点,大数据分析必须在不同层次(建模、可视化、预测和优化)高效地挖掘数据以提高决策效率;这些挑战迫切地需要对整个数据管理系统的各个层次(从体系架构到具体机制)进行变革。但是如果能有效地管理大数据,就能够给许多领域,如科学和环境建模、健康医护和能源保护带来巨大的变革。这些挑战迫切地需要对整个数据管理系统的各个层次(从体系架构到具体机制)进行变革。 3大数据的技术 依据大数据生命周期的不同阶段,可以将与大数据处理相关的技术分为相应的三个方面: 3.1大数据存储 从海量数据时代开始,大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今,数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS(DirectAttachedStorage),直接外挂存储;NAS(NetworkAttachedStorage),网络附加存储;SAN(StorageAreaNetwork),存储域网络和SANIP等存储方式。这几种存储方式虽然是不同时代的产物,但各自的优缺点都十分鲜明。数据中心往往是根据自身服务器数量和要处理的数据对象进行选择。 此外,这两年数据存储的虚拟化从研究走向现实。所谓虚拟化,就是将原有的服务器进行软件虚拟化,将其划分为若干个独立的服务空间,如此可以在一台服务器上提供多种存储服务,大大提高了存储效率,节约存储成本,是异构数据平台的最佳选择。从技术角度讲,虚拟化可以分为存储虚拟化和网络虚拟化,网络虚拟化是存储虚拟化的辅助,能够大幅度提升数据中心的网络利用率和传输速率。可以预见虚拟化会成为未来大数据存储的一个主流技术。 3.2大数据挖掘 在大数据的处理技术中,超大规模的数据挖掘一直是难点,也是重点。面对上百TB,甚至PB级别的异构数据,常规的处理工具往往难以担当重任。需要考虑的是大数据是个不断生长的有机体,因此在挖掘过程中还需要考虑到未来数据继续增长所带来的影响。 因此,大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者,它研发了MapReduce分布式挖掘工具,英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容储率的特点,并提供免费版本,适用于各种类型的大数据挖掘。 3.2.1MapReduce模型 MapReduce模型是一种云计算中的并行计算模型的主要研究对象。它通过基于云平台中的大数据进行挖掘,从而获取网页相关数据对其研究得出结果。 MapReduce模型有两个函数:Map函数和Reduce函数。MapReduce模型首先获取用户需处理的数据进行splite,然后分别传送到Mapworker进行处理。Mapworker从输入中获取<key.value>对集合,然后Map函数执行该集合获取中间结果存入本地磁盘。Reduceworker先从本地磁盘上获取数据,然后对<key.value>中的key值进行排序。排序之后Reduce函数对这些排序好的对集合进行处理并输出最终