基于物联网的工业制造分析研究

时间：2021-11-10 22:44:55

关键字：物联网大数据制造分析工业制造信息系统智慧化

手机看文章

扫描二维码
随时随地手机看文章

[导读] 常广炎杨彬（辽宁行政学院，辽宁沈阳 110161）摘要：物联网与工业制造深度融合，物联信息系统将生产中的供应、制造、销售等信息数据化、智慧化，最后达到快速、有效、个性化的产品供应。文中描述了制造业中使用数据分析的挑战，根据应用程序中的经验，提出了操作建议，并分享了首选的技术堆栈。

0 引言

德国“工业 4.0”和美国的“工业互联网”将重构世界工业布局和经济格局，给世界各国带来不同的挑战和机遇。我国国务院印发“中国制造 2025”，作为实施制造强国战略第一个十年的行动纲领，将加快推动物联网技术与制造技术融合发展 [1]。物联网收集有关机器操作、材料使用、设施物流等数据，带来了操作人员的透明度。这种透明性是由数据分析应用所带来的，它指的是使用统计和机器学习方法来发现不同的数据特征和模式。机器学习技术越来越多地用于各种制造应用中，如预测性维护，测试时间缩短，供应链优化和流程优化等 [2-4]。企业的制造过程已由传统的“黑箱”模式逐渐向“多维度、透明化和泛在感知”模式发展 [5]。

1 制造分析面临的挑战

制造分析的目标是通过降低成本而不影响质量来提高生产力：

（1）减少测试时间和校准，包括预测测试结果和校准参数；

（2）提高质量，通过确定废品的根本原因和自行优化生产线来降低生产废品（坏件）的成本；

（3）降低保修成本，使用质量测试和过程数据来预测现场故障，以及跨价值流分析；

（4）提高产量，跨生产线和工厂的基准分析，提高第一次通过率，提高首过产量，并找出总体设备效率（OEE）或周期时间等性能瓶颈的原因；

（5）执行预测性维护，分析机器运行状况，确定故障的主要原因，预测部件故障以避免计划外停机。

传统的质量改进计划包括六西格玛、戴明循环、全面质量管理（TQM）和多里安 · 谢宁的统计工程（SE）[6]。在 20世纪 80 年代和 90 年代开发的方法通常应用于少量的数据，并找到参与因素之间的单变量关系。使用 MapReduce 范式简化大型数据集中的数据处理及其进一步发展导致大数据分析的主流扩散 [7]。随着机器学习技术的发展，大数据分析的发展提供了一系列新的工具，可应用于制造分析。这些功能包括能够在批处理和流模式下分析千兆字节的数据，能够在许多变量之间找到复杂的多元非线性关系，以及将因果关系与相关性区分开来的机器学习算法。

在生产线上生产数以百万计的零件，并为他们收集了数千个工序和质量测量的数据，这对提高质量和降低成本非常重要。实验设计（DoE），通过控制实验，反复探索数千个原因，往往太耗时，成本高昂。制造专家依靠其领域知识来检测可能影响质量的关键因素，再根据这些因素运行 DoE。大数据分析和机器学习的进步使得检测关键因素能够有效地影响质量和产量。这与领域知识相结合，能够快速检测故障的根本原因。然而，在制造业中有一些独特的数据科学挑战。

（1）虚警和假阴性的不相等成本，在计算准确率时，必须认识到虚警和假阴性可能产生不相等的成本。假设一个假阴性是一个坏的部分 / 实例，被错误地预测为好的。另外，假设一个错误的警报是一个好的部分，被错误地预测为坏的。进一步假设所生产的部件是安全关键部件，错误地预测坏的部分是好的（假阴性），会使人的生命处于危险之中。因此，假阴性的代价可能比假警报高得多。在将业务目标转化为技术目标和候选评估方法时，需要考虑这种权衡。

（2）数据收集和可追溯性问题，数据收集问题经常发生，许多装配线缺乏“端到端的可追溯性”。换句话说，通常没有与正在生产部件和处理步骤相关联的唯一标识符。一种解决方法是使用时间戳来代替标识符。另一种情况涉及不完整的数据集。这种情况下，在预测和分析中省略不完整信息部分或实例，或者使用一些估算方法（在咨询了制造专家之后）。

（3）大量的特性，与传统的数据挖掘中的数据集不同的是在制造分析中观察到的特征可能数以千计。因此必须注意避免机器学习算法只能使用精简数据集（即具有少量特征的数据集）。

（4）多重共线性，当产品通过装配线时，在生产流程的不同站点上采取不同的测量方法。这些测量中的一些可以是高度相关的，然而许多机器学习和数据挖掘算法特性相互独立，对于提出的分析方法，应该仔细研究多重共线性问题。

（5）分类失衡问题，好的和坏的部分（或废品，即不通过质量控制测试的部分）之间存在极大的不平衡。比例范围可能从 9 ∶ 1 到甚至低于 99 000 000 ∶ 1。应用标准分类技术区分好的零件和废料是困难的，因此提出了几种处理类不平衡方法，并应用于制造分析 [8]。

（6）非平稳数据，由于各种因素，如供应商或运营商的变化以及机器中的校准偏差，基础制造过程可能会发生变化。因此需要应用更稳健的数据非稳态性质的方法。（7）模型可能难以解释，生产和质量控制工程师需要了解告知流程或设计更改的分析解决方案。否则生成的建议和决策可能会被忽略。

2 利用大数据工具链

从制造产品价值链收集的数据存储到数据库中后，需要一个数据分析系统对这些数据进行分析。制造数据分析系统框架如图 1 所示。数据首先从不同的数据库提取、转换和加载（ETL）到分布式文件系统，如 Hadoop 分布式文件系统（HDFS）或 NoSQL 数据库（如 MongoDB）中。接下来，机器学习和分析工具执行预测建模或描述性分析。为了部署预测模型，前面提到的工具被用来将历史数据上的训练模型转换为开放的、封装的统计数据挖掘模型和关联的元数据，称为预测模型标记语言（PMML），并将其存储在一个计分引擎中。任何来源的新数据都使用存储在计分引擎中的模型进行评估 [9]。

用于制造分析的大数据软件堆栈可以是开源、商业和专有工具的混合体，制造分析软件堆栈示例如图 2 所示。从已完成的项目中获悉，现有的堆栈供应商目前没有提供完整的解决方案。尽管技术领域正在迅速发展，但目前最好的选择是模块化，重点是真正的分布式组件，成功的核心思想是将开源和商业组件混合在一起 [10]。

除了这里介绍的体系结构之外，还有各种商用物联网平台。其中包括 GE 的 Predix（www.predix.com），博世的物联网套件（www.bosch-iot-suite.com），IBM 的 Bluemix（www.ibm.com/cloud-computing/），ABB 基于 Microsoft Azure 的物联网服务和人员平台（https ：//azure.microsoft.com）以及亚马逊的物联网云（https ：//aws.amazon.com/iot）。些平台提供了许多用于物联网和分析的标准服务，包括身份管理和数据安全，这里的案例研究中没有涉及。另一方面，最好的方法提供了灵活性和可定制的功能，使实现比标准的商业解决方案更有效。但是实施这样的解决方案可能需要在实施现场提供一个有能力的数据科学团队。这个选择可以归结为几个因素，非功能性需求、成本、物联网和分析技术。

基于物联网的工业制造分析研究

3 降低废品率的案例研究

任何在工厂组装或生产的产品都要经过一系列的质量检测，以确定是否需要报废。高报废率是由于不及时向客户交付产品的机会成本、人员浪费时间、非可重复使用部件的浪费及设备管理费用造成的。降低废品率是制造商需要解决的主要问题之一。减少废品的方法包括找出产品质量低的根本原因。

3.1 数据处理

根源分析从整合生产线上所有可用的数据开始。装配线、工作站和机器构成了工业生产单元，可被视为等同于物联网传感器网络。在制造过程中，有关过程状态、机器状态、工具和部件的信息不断地被传递和存储。在本案例研究中考虑工厂生产的数量、规模和频率，以至于需要使用一个大数据工具栈，类似于图 2 所示的数据工具栈，用于流、存储、预处理和连接数据。这条数据管道帮助在批处理历史数据和流实时数据上构建机器学习模型。虽然批量数据分析帮助识别制造过程中的问题，但流式数据分析使工厂工程师能够定期访问最新问题及其根本原因。使用 Kafka（https ：//kafka.apache.org）和 Spark streaming（http ：//spark.apache.org/streaming）传输来自不同数据源的实时数据；使用 Hadoo（http ：//hadoop.apache.org）和 HBase（https ：//hbase.apache.org）高效地存储数据；使用 Spark（http ：//spark.apache.org）和 MapReduce 框架分析数据。使用这些工具的两个主要原因是它们作为开源产品的可用性，以及它们庞大而活跃的开发人员网络，通过这些网络不断地更新这些工具。

3.2 机器学习

随着 Spark MLLib（http ：//spark.apache.org/mllib）和SparkR（http ：//spark.apache.org/docs/latest/index.html）等分布式计算工具的功能增加，其变得更加容易实现分布式和在线的机器学习模型，如支持向量机、梯度推进树及大量数据的决策树。测试不同的机器参数和过程测量对整体产品质量的影响，从相关分析到方差分析和卡方假设检验，有助于确定个体测量对产品质量的影响。本设计训练了一些分类和回归模型，这些模型可以区分通过质量控制的部分和不通过质量控制的部分，可以使用经过训练的模型来推断决策规则。根据纯度最高的规则，纯度定义为 Nb / N，其中 N 是满足规则的产品数量，Nb 是满足规则的有缺陷或坏部件的总数。

虽然这些模型可以识别变量之间的线性和非线性关系，但它们并不表示因果关系。因果关系对于确定真正的根本原因至关重要，使用贝叶斯因果模型来推断所有数据的因果关系。

3.3 可视化

收集大数据的可视化平台至关重要。工程师面临的主要挑战是对完整的制造过程没有清晰而全面的概述。这样的概述将帮助他们在发生任何不良事件之前做出决定并评估其状态。描述性分析使用 Tableau（www.tableau.com）和微软 BI（https ：//powerbi.microsoft.com/en-us）等工具帮助实现此目的。描述性分析包括许多视图，如直方图、双变量图和相关性图。除了可视化统计描述外，还应为所有预测模型提供一个清晰的视觉界面。所有影响特定质量参数的测量都可以被可视化，后端的数据可按时间过滤。

4 结语

“物联网 + 中国制造 2025”是实现我国制造业与新一代信息技术深度结合的具体表现，互联制造业正经历一场技术革命，用户会要求在所有产品中增加个性化和许多消费电子产品功能。制造分析有利于发展智能制造和大规模个性化定制，提升网络化协同制造水平，加速制造业服务化转型。这将关闭设计、制造、营销、销售和上市后跟踪 / 监视之间的循环。物联网将成为“中国制造”转型升级、提升附加值的重要手段。大数据和相关分析将成为工程连续过程中提取所需知识和提供智能的关键技术。