小规模任务的神经网络应用
扫描二维码
随时随地手机看文章
在过去10-15年中,人工神经网络领域的发展迅速。典型的应用是图像处理、声音等领域的高维数据.然而,在机器学习中,系统输入的数据量很小的任务很少:例如,异常事件建模、处理人工收集的分析数据、分析低频传感器的信号等。在这种情况下,一个重要阶段是对系统训练有素的特点("特点")进行认真的工作,特别是从现有的基本特点中产生新的特点,这将能够提高设计系统的性能质量。手动方法通常用于这种生成,但是一个好的选择是使用神经网络,它不仅能够学习基本的数学运算,而且能够识别输入数据中极其复杂的模式。
本文介绍了利用多层神经网络生成小维度数据背景下的附加特征的经验,其中基本特征的数量从十几个到二十个不等。两个数据集用于培训模型:真实数据集(记录器的数据)和合成数据集(生成数据),用于培训神经网络,以便随后产生额外的特征。
任务和数据说明
机器学习系统设计的基本任务是预测工业电气装置故障,这是由于线圈之间非临界微故障的累积。故障在性质上是零星的,是由于当其他设备打开或关闭时,出现高压载波和脉冲噪声引起的。
为了研究这一因素,将记录器连接到电路的测试段;它在每个时间点的线圈的两个控制点以50千赫兹的频率记录电位。随后以半自动方式处理了记录员提供的资料,结果获得了一个培训样本,其中说明了在一次设备换班(8小时)操作期间登记的微型故障的统计数字。
对问题的初步分析表明,由于系统的不对称性,不同极性的故障以不同的方式影响系统的可靠性,而且它们之间有相当大的补偿。因此,选择以下标准作为目标变量:如果平衡(即:,在1-2型和2-1型转换期间注册的微故障数量之间的差异超过预设阈值T,那么分类器应该在相反情况下生成1,在0。对于第一阶段的研究,为阈值T选择了一个零值,因为这提供了一个很好的类平衡。
下面您将从下表中列出的收集数据集中找到一些功能。
除了两个基本的目标特征(从记录器处理的数据)之外,还计算了其他特征----根据经验规则和积累的经验作出的专家估计。表中仅包括那些通过了初步变异测试的特征。
野外的描述
u1线圈1号试验点的绝对电位的平均值,平均值超过一个换档(8小时)。
u2对2号线圈也一样。
埃普_根据经验规则,专家评估某一转移的微观细目总数("1-2"类和"2-1"类)。
埃普_B总余额也是如此(事件数"1-2"减去"2-1")。
exp_pb1专家概率估计,微观收支平衡将超过t阈值.
exp_pb2同样的,平衡。
埃克斯_pb0同样,对于平衡=t(对于某些类型的装置,这种情况很可能发生)。
y目标变量:
· 1,如果"1-2"类和"2-1"类事件之间的总平衡超过t阈值。
· 0,在相反的情况下。
在所收集的数据集中共有1376项观测结果,根据确保从培训样本到测试样本不存在信息"泄漏"的时间顺序原则,将其分为两个部分。
样品记录号
培训和验证部分1040
试验部分336
为了评估模型的性能质量,所选的度量是接收机工作特性曲线下的等面积。这个指标允许在不选择触发阈值的情况下对分类质量进行估计(不同于其他标准指标:精确度、精确度、召回率、F1)。
客观特征的可视化
无花果。1显示训练样本中两个主要特征----U1和U2----坐标中各点的映射。点的颜色对应于类(红色-0,水-1)。
从各点的分布情况来看,这一分类任务显然相当困难。
图1点图绘制
模式1:通过原始特征的方法
作为一个基础模型,它决定使用逻辑回归与特征的正常化。这一选择的原因是,对于这个任务,良好的模型校准是非常重要的,选择性的方法在决策树(随机林,XG提高,lgbm等)上很受欢迎。)与逻辑回归相比,孤立的校准不太好。
模型的训练结果如图所示.2(测试样品的ROC曲线)和图。3(特征空间U1、U2的分类轮廓以及训练样本中的点)。
所得值 0.5532 在整个等离子体参数中,超过0.5的值,这相当于随机猜测,也就是说,尽管有复杂的数据集,模型还是能够从数据中提取有用的模式。
图2试验样品的ROC曲线
图3分类轮廓
模型2:添加额外的手动生成功能
根据经验规则,假设一个额外的特征,即U1-U2的潜在差异,可以帮助提高模型的质量。在添加了这个特征之后,我们得到了如图所示的结果.4.如你所见,质量指标在一定程度上有所改进 0.5535 .
除此之外,还测试了第一阶和第二阶的多项式特征,但它们并没有导致模型质量的提高。
图4ROC曲线
模型3:使用神经网络生成附加功能
除了上面描述的手动生成功能之外,还有一种方法是使用人工神经网络,其优点是它们可以学习一种相当复杂的功能,难以或无法用分析方法描述。在我们的例子中,正是这种情况:在非确定性条件下,最好使用一个额外的特征来描述两个离散的概率过程之间的平衡,这些过程的参数由U1和U2特征设定。
为了实现这一方法,从10000个实例中生成了一个综合数据集,其中随机值被输入到独立的Poisson进程的输入X1和X2参数中,目标变量被计算为二进制条件:如果进程1中的事件数量与进程2中的事件数量之间的平衡为正数,那么目标变量为1,否则为0。
在这一合成样本上训练了一个简单的完全连接的神经网络,其结构如图所示。5.
图5架构
此外,在训练有素的神经网络的帮助下,另外生成了一个特征栏--分别用于训练和测试样本。
在对基本模型(逻辑回归与标准化)进行训练后,对测试样品进行了UCROC测量。 0.5539 ,即结果比模型2要好。
结论和观点
无花果。6载有上述三种方法的学习质量简表。
图6简表
得到的结果表明,调查中的问题比较复杂.尽管如此,已达到的质量指标使我们能够在实际情况下使用这一系统来预测预防性维修的时间,避免设备故障。
对这些方法的仔细检查表明,最好的选择是使用单独的合成数据集对小型神经网络进行训练,然后利用该数据集在主要训练和测试样本中生成额外的特征。
今后,最好尝试在决策树上使用算法,而不是逻辑回归,采取额外的措施来校准发布的估计。此外,研究神经网络的不同架构,从它们代表各种复杂功能的能力来看,也是有意义的。
一般而言,这些组合系统(标准的机器学习算法+丰富特征的浅神经网络)应当用于那些由于输入数据之间隐藏的互联而不能很好地工作的简单方法,而深神经网络由于数据的小维度而不适用的任务。例如设备故障预测系统、异常检测、信用评分和其他类似任务。