工业大数据体系结构设计与分析
扫描二维码
随时随地手机看文章
引 言
众所周知,大数据平台是以海量数据存储为基础,通过分布式实时计算引擎、在线数据分析以及离线批处理引擎提供数据的计算分析,通过大数据和人工智能技术,帮助用户实现海量数据分析的任务 [1]。随着工业互联网的完善,工业大数据作为一种大数据的应用生态,得到了广泛重视。然而, 在工业互联网环境下,如何从用户角度出发,设计出技术细节透明、交互操作简单、高效的工业大数据平台及其上层应用,成为工业大数据开发和应用中的关键问题。本质上,工业大数据是指在工业领域中,围绕整个工业产品全生命周期所产生的各类数据以及相关技术和应用的总称,分为企业信息化数据、工业物联网数据和外部跨界数据等几类,涵盖工业产品研发过程中的设计资料、产品生产过程中的监控与管理、产品销售与服务过程的经营和维护数据,具有数据量大、类型丰富、实时性强等特点。工业大数据在产品研发、故障诊断与预测、供应链优化和产品营销等环节能够极大地促进传统制造向智能制造转型,降低成本,提高产品质量,显著增强工业企业的竞争力。
工信部于 2017年发表了《工业大数据白皮书》,明确了工业大数据的相关技术、应用以及发展路线,描述了工业大数据发展的整体轮廓,并制定了工业大数据的发展规划与建设路线。可以看出,无论是白皮书,还是《中国制造 2025》规划,数据是灵魂,工业互联网是基础,大数据技术是关键。然而,工业大数据目前并没有形成标准统一的体系结构,其理论体系也并不完善。文献 [2-3]对工业大数据的技术体系及其实施路径进行了分析,详细阐述了工业大数据的体系结构。文献 [4] 对制造执行系统进行了介绍,并将其作为制造企业大数据的聚集分发中心,分析了其顶层设计,论述了工业大数据的功能,总结了工业大数据的建设和具体应用。总体来说,我国工业大数据的研究和应用处于初级阶段,企业内外部对数据利用不足,对工业大数据的应用缺乏积累。对此,本文探讨了将大数据技术与工业生产场景进行整合的问题,就如何建设和应用工业大数据系统问题进行了讨论,分析了工业大数据的体系结构,对更好地挖掘和利用工业大数据具有一定的理论和实际意义。
1 工业大数据的基本功能
工业大数据是配置和利用大数据这一资源的平台及其应用系统,其功能主要表现在如下几方面 :
(1) 促进工业大数据应用。构建工业大数据平台来推动数据的融合和应用,有利于通过工业大数据来分析和预测市场需求,整合产业链和价值链,为用户提供定制化产品和服务,实现工业生产模式和服务体系的创新。
(2) 挖掘工业大数据的潜在价值,实现工业大数据增值,促进工业大数据的应用。
(3) 工业大数据应用服务平台通过对企业生产过程的优化,引导企业认识和利用数据,逐步培养企业的数据利用意识,不但能够促使企业深入挖掘自身积累的工业数据,而且可以充分利用其它企业的大数据来推进企业自身发展,增强企业应用大数据的动力。通过大数据采集、存储、分析、交易过程中的一系列专业化服务,将有效拓展大数据产业的市场容量,有利于培育出一批专业化的大数据开发和服务公司, 吸引第三方数据服务商向工业大数据领域聚焦,更好地体现出工业大数据的应用价值。
(4) 工业大数据应用服务平台还可以通过数据交易衍生出围绕工业大数据的金融产品,实现“企业 + 金融 + 数据” 的融合。
(5) 提升工业大数据配置效率。很多企业由于规模、资金、人才等方面的原因,缺乏充分利用大数据的技术手段和交易平台,导致对自身拥有的数据采集、存储、分析等处于较低水平。工业大数据平台能够通过提供数据采集、清洗、确权、产品开发等服务,使数据得以资产化,让其价值得到充分体现。
工业大数据平台包含数据采集、存储、加工、处理、分析等方面的功能,在很多应用场合中,还设置了数据分析及控制系统,以充分发挥大数据在预测、控制方面的作用,更好实现以大数据技术提高工艺精度或良品率的目的,其典型结构如图 1 所示 [3]。
决策与控制子系统采用数据挖掘、预测分析手段实现对生产的精确控制,是上层决策和控制的技术基础,是实现智能制造的核心部分。数据建模聚焦于为工艺、设备、用户等建立分析模型,设计并部署不同的应用系统,挖掘出特定的模式和知识,最终生成决策指令,实现生产流程的优化与产品生产的智能化。一般来讲,工业大数据的来源涵盖了生产、销售、管理、市场等方面的数据,应根据数据来源的不同, 在组建工业互联网的基础上,设计合适的数据采集与交换系统。目前,由于已经有了较为成熟的数据采集与数据预处理及存储技术,工业大数据的主要技术难点在于如何准确采集数据,准确处理结构化、半结构化数据,如何设计和实现成熟的挖掘算法,这是工业大数据走向成熟、实现其应用价值的关键。此外,与企业已有的 ERP 系统进行互联,充分整合和利用现有各类系统的数据,也是工业大数据平台的一个重要功能。
3 工业大数据的基本技术架构分析
工业大数据技术架构涉及底层数据采集、预处理和存储、建模、决策等各类技术组件的开发和应用,从功能角度可以将这些技术组件分为三类,即采集、存储及分析利用。一些文献和某些应用案例中提出的四层技术架构的功能实现可以由这三种技术组合得到 [5-7]。一般情况下,工业大数据系统在设计时要重点考虑数据采集及其准确性保证、数据存储和实时性展示、数据挖掘能力及数据的应用(控制、预测)等。其中最核心的是如何建模,如何在生产质量控制、工艺流程优化等方面应用这些数据。这需要融合建模、数据挖掘、流程管理等方面的处理模块。本质上,设计并实现数据分析模块,更好地利用数据挖掘技术发挥工业大数据在智能制造中的优势,是目前工业大数据应用研究中面临的关键问题。
3.1 数据采集
随着工业制造中各个工艺流程的精细化与制程的高密度 化,所产生的数据将呈指数级增长。面对如此庞大与异构的 数据资源,其整合和应用问题十分突出。企业必须有一套完 整的数据采集、汇聚与应用策略,设计通用可靠的数据采集 机制来满足各方面的数据采集需求。本质上,数据采集的完 整性、准确性,决定了工业大数据能否真实可靠地发挥作用。因此,在设计和部署数据采集系统时,建议着重考虑以下要求 :
(1) 实用性和通用性。由于技术的更新换代越来越频繁,需要进行科学的版本管理,并定期更新接口,建议使用统一的数据交换规格来适应接口频繁更新的情况,增强系统的自我调整和优化能力 ;
(2) 数据来源的广泛性。企业要针对各类不同的数据来源,如生产、销售、质控等数据,采用不同的传感器和接口技术,支持尽可能多的数据源端 ;
(3) 扩展性。数据采集系统应能很好地适应设备的增加,合理地控制和管理工艺系统升级,其性能瓶颈能通过横向扩展的方式解决。
3.2 数据准确性
采集过程中须确保数据准确、完整地送达处理层与储存层,这是工业大数据平台的一项重要工作。同时,为避免增加工业物联网建设的复杂度,在不断扩充各类设备的情况下, 采集技术不应增加基础建设的负担,数据来源的准确性应由工业大数据平台本身进行验证。从工业数据的来源进行分类,主要包括管理系统、生产系统、外部数据等数据来源。此外, 从数据采集的全面性看,不仅要涵盖基础的结构化交易数据, 还将逐步包括半结构化的用户行为数据,网状的社交关系数据,文本或音视频类型的用户意见和反馈数据,这些数据的准确性应在系统中由专门的模块验证。具体来讲,数据的准确性可以通过工业大数据平台进行循环验证 :
(1) 现有传感器采集的周期性数据 ;
(2) 企业管理系统数据涵盖工业产品中设计资料、价值链管理、售后服务等方面 ;
(3) 与生产经营相关的业务数据主要来源于企业内部的信息化系统 ;
(4) 企业工艺设备数据来源于企业自动化控制程度相对较高的 DCS,PLC 等系统的感知数据 ;
(5) 企业外部数据主要来源于互联网行业、市场和竞争对手等。
3.3 数据存储及展示
通常情况下,工业大数据系统应根据应用场景采用不同的存储方案,并满足以下要求 :
(1) 实时性。采集的数据在进行预处理后应结合实时显示技术展示出产品生产的状态,对于这类数据应使用在线机器学习或数据挖掘技术进行深入挖掘和分析,寻找潜在规律, 加以处理和利用 ;
(2) 数据的高效利用。适应海量数据的探索和挖掘分析,能够有效对生产线中的异常进行分析和预测,进而优化参数、降低生产和管理成本,尽可能消除人为误判的可能性,进而达到智能化生产和管理的目标 ;
(3) 数据多样化。工业大数据系统不但能处理各类结构化数据,也应能支持各类非结构化数据,并充分利用在线分析、分布式存储等技术 ;
(4) 海量存储能力。考虑到工业大数据的数据源较广,存储周期较长,其存储能力至少应达到 P 级。
3.4 数据挖掘能力
工业大数据的主要目标是采集并利用生产、销售、管理等方面的数据,加以建模和处理后,使之能够适应高层的决策与控制。这要求在系统上部署机器学习、数据挖掘等模块,使之具备完善的学习、分类、挖掘等功能。如基于开源Spark 框架上的算法库 MLlib 和 Graph X 等学习模块,Tensor Flow,Caffe 等深度学习模块,Weka,Matlab 等计算和挖掘平台,其处理模式一般也应具备在线和离线两种类型。
4 结 语
随着大数据技术与应用的日益广泛,其在制造企业信息化过程中越来越重要,数据平台已是制造企业工业大数据的聚集和应用中心。企业信息化水平在很大程度上将取决于大数据平台体系是否完善有效,是否能有效挖掘和应用企业工业大数据。随着“中国制造 2025”计划的不断推进,企业的生产经营将越来越依赖大数据技术。本文对工业大数据的体系结构进行了分析,介绍了其典型结构,为企业应用工业大数据提供了一定参考。