预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

任务1.2工业大数据分析 1.2.1工业大数据分析处理流程 工业大数据技术是使工业大数据中所蕴含的价值得以挖掘和展现的一系列 技术与方法,包括数据规划、采集、预处理、存储、分析挖掘、可视化和智能控 制等。工业大数据应用,则是对特定的工业大数据集,集成应用工业大数据系列 技术与方法,获得有价值信息的过程。工业大数据技术的研究与突破,其本质目 标就是从复杂的数据集中发现新的模式与知识,挖掘得到有价值的新信息,从而 促进制造型企业的产品创新、提升经营水平和生产运作效率以及拓展新型商业模 式。 根据工业大数据白皮书中平台框架,我们一般将工业大数据处理流程理解为 数据采集-工业大数据存储与管理-工业大数据分析-工业大数据可视化。 (1)数据采集 数据采集是获得有效数据的重要途径,是工业大数据分析和应用的基础。数 据采集与治理的目标是从企业内部和外部等数据源获取各种类型的数据,并围绕 数据的使用,建立数据标准规范和管理机制流程,保证数据质量,提高数据管控水 平。 工业大数据的采集主要是通过PLC、SCADA、DCS等系统从机器设备实时采 集数据,也可以通过数据交换接口从实时数据库等系统以透传或批量同步的方 式获取物联网数据。同时还需要从业务系统的关系型数据库、文件系统中采集 所需的结构化与非结构化业务数据。针对海量工业设备产生的时序数据,如设 备传感器指标数据、自动化控制数据,需要面向高吞吐、7*24小时持续发送,且 可容忍峰值和滞后等波动的高性能时序数据采集系统。针对结构化与非结构化数 据,需要同时兼顾可扩展性和处理性能的实时数据同步接口与传输引擎。针针对 仿真过程数据等非结构化数据具有文件结构不固定、文件数量巨大的特点,需要 元数据自动提取与局部性优化存储策略,面向读、写性能优化的非结构化数据采 集系统。 (2)工业大数据存储与管理 工业大数据存储与管理技术是针对工业大数据具有多样性、多模态、高通量 1 和强关联等特性,这里主要围绕工业大数据存储与管理技术中多源异构数据高效 管理技术和多模态数据集成技术两类关键技术进行介绍。 多源异构数据管理技术多源异构数据是指数据源不同、数据结构或类型不同 的数据集合。各种工业场景中存在大量多源异构数据例如,在诊断设备故障时, 通过时间序列数据可以观测设备的实时运行情况;通过BOM图数据可以追溯出 设备的制造情况,从而发现是哪些零部件问题导致异常运行情况;通过非结构化 数据可以有效管理设备故障时的现场照片、维修工单等数据;键值对数据作为灵 活补充,能方便地记录一些需要快速检索的信息。 数据源不同、数据类型不同,使得这类数据集的使用变得非常复杂,因此大规 模多源异构数据管理技术变得十分重要。为使这些多源异构数据各自发挥其价值, 不仅需要高效的存储管理优化与异构的存储引擎,在此基础上还需要能够通过数 据融合对数据的元数据定义和高效查询与读取进行优化,实现多源异构数据的一 体化管理,从而最大程度上榨取数据价值。多源异构数据管理需要突破的是针对 不同类型数据的存储与查询技术,并在充分考虑多源异构数据的来源和结构随着 时间推移不断增加与变化的特定的情况下,研究如何形成可扩展的一体化管理系 统。 (3)多源异构数据管理需要从系统角度,针对工业领域涉及的数据在不同 阶段、不同流程呈现多种模态(关系、图、键值、时序、非结构化)的特点,研 制不同的数据管理引擎致力于对多源异构数据进行高效地采集、存储和管理。当 前,国产数据库及数据管理引擎仍处于新兴发展阶段,在传统的结构化数据之外, 针对多源异构数据(包括时序数据、过程与BOM图数据,以及工程非结构化数 据等),开发稳定而高效的数据管理引擎、并真正落地到工业领域变得愈发重要。 针对海量的工业时序数据在查询高效性和接入吞吐量方面的需求,需要构建能够 满足数据边缘接入与缓存、高性能读写、高效率存储、查询与分布式分析一体化 的时序数据管理系统,配合缓存、分布式计算与存储框架等组件,以满足功能 和易用性需求。同时需要提供基于SQL标准的数据查询接口给工业用户以降低 使用门槛。工业领域的非结构化数据,面向仿真、试验等场景的海量小文件的挑 战,要求按产品生命周期、BOM结构等多种维度进行灵活组织和高效查询,同 时对数据能够进行批量读取分析,因此需要构建面向工业场景的支持海量非结构 2 化文件建模、存储、查询和读取的技术系统。多源异构数据管理技术可有效解 决大数据管理系统中由模块耦合紧密、开放性差而导致的系统对数据多样性和 应用多样性的适应能力差的问题,使大数据管理系统能够更好地适应数据和应 用的多样性并能够充分利用开源软件领域强大的技术开发和创新能力。针对企 业自身数据类型和特点,通过量体裁衣式的构件组合,能够帮助工业企业快速开 发和定制适合自身需求的