基于人工免疫网络和AR模型的聚类与预测算法

时间：2009-04-03 13:47:06

手机看文章

扫描二维码
随时随地手机看文章

[导读]1 引言人工免疫系统是在生物免疫系统理论的基础上发展起来的，是利用生物免疫原理和思想建立的人工模型，具有多样性、分布性、动态性、鲁棒性等特点。人工免疫系统可以解决模式识别、数据挖掘、故障诊断、信

1 引言

人工免疫系统是在生物免疫系统理论的基础上发展起来的，是利用生物免疫原理和思想建立的人工模型，具有多样性、分布性、动态性、鲁棒性等特点。人工免疫系统可以解决模式识别、数据挖掘、故障诊断、信息安全、优化计算等领域的诸多问题，已经成为继神经网络、模糊逻辑和演化计算之后的热点研究内容[1-3]。

人工免疫网络（aiNet）是利用免疫理论中的克隆选择、亲和力成熟和免疫网络理论等构建的网络模型。作为人工免疫系统范畴内的重要应用模型，它具有噪声耐受、无教师学习、自组织等优点，受到了国内外学者的广泛关注，研究成果涉及数据处理、优化学习和故障诊断等领域。

自回归模型（AR模型）具有线性体系结构，和ARMA模型相比，求解方法和实现手段更为系统和有效。AR模型的理论完善、实现简单、抗干扰能力强，使得它在数据分析与系统建模等很多学科占有重要的地位，广泛应用于特征提取、参数估计、频谱估计、系统建模、时间序列分析与预测等工程技术领域。

对复杂系统实施综合健康管理，需要实时监测系统的运行状况。如果存在运行历史数据和经验信息，则通过比较实时获取数据和历史经验信息，可以确定复杂系统的当前工作状态；以此同时，为了避免灾难性事故发生，需要根据系统当前工作状况和历史信息，预测系统未来时刻的运行情况，以便在系统出现故障之前采取必要的措施，将经济损失降低到最小程度。

复杂系统的结构复杂、子系统数目多、组件分布广泛、影响因素多样，单纯地采用传统方法确定系统运行状况和预测未来工作状态相对困难。人工智能和演化计算领域的飞速发展，为解决该问题提供了崭新的途径。本文将充分利用人工免疫网络的分布性、记忆性和鲁棒性的特点，与基于AR模型的预测方法相结合，面向复杂系统综合健康管理的实际需求，研究基于人工免疫网络和AR模型的数据聚类与预测方法，为实施系统综合健康管理进行有益的探讨。

2 人工免疫网络

Jerne在1974年首次提出了免疫网络理论，并给出抗原和抗体的网络识别机制[4]。免疫系统能够辨别“自我”和“非我”，并通过免疫应答机制排除“非我”；免疫系统的初次应答保存了抗原的信息，当再次遇到相同或者相似的抗原时，会迅速引发二次应答过程，有效地排除“非我”。

在生物免疫理论的基础上，De Castro和Von Zuben等提出了人工免疫网络（aiNet）模型[5]，它根据抗体和抗原之间的亲和力来确定保留或者剪除求解边界和节点，以获得人工免疫网络结构（即记忆抗体）。作为抗原内映像的记忆抗体用于检验新的抗原，并决定是否启动二次免疫应答。人工免疫网络算法流程如下[3]：

3 AR模型概述

4 基于人工免疫网络和AR模型的数据聚类和预测

4.1 聚类和预测算法结构

面向复杂系统综合健康管理的实际需求，充分利用人工免疫网络性和自回归模型的各自优势，实现数据的聚类与预测功能的算法体系结构如图1所示。

在图1中，首先对获取的原始数据进行归一化处理，然后采用人工免疫网络对规范化的数据进行有效地聚类，并根据聚类结果和复杂系统的历史信息，判定运行系统所处的状态。与此同时，选择合适的自回归模型（AR模型），对获取数据的发展趋势进行预测，并对预测结果进行规范化处理，最后依据聚类结果划分预测结果类别，确定系统未来时刻所处的状态，以此作为是否需要对系统运行采取干预措施的决策依据。

图1数据聚类与预测算法的体系结构

4.2 聚类和预测算法实现

　　(1) 归一化原始数据：在使用人工免疫网络进行数据聚类时，为了提高数据的利用效率和简化计算，需要对数据进行归一化处理[8]。本文采用线性规范方法，将原始数据的取值范围规范化到[0,1]之内，实现方法如下
(9)

　　其中xi 是原始数据中第i个数据, xmin和xmax分别是最小值和最大值，是归一化的结果。

　　(2) 数据的聚类方法：使用人工免疫网络进行数据聚类时，设置合理的免疫网络参数非常重要。作为聚类过程最重要的参数，抑制阈值决定了记忆细胞特异水平、聚类准确性和网络可塑性。通常值越大，记忆细胞矩阵的最终规模越小。在实现数据聚类过程中，可以预先设置较小的值，然后通过改变步长进行微调，直至获得最好聚类效果为止。为了避免聚类结果的偶然性，可以将多次聚类结果的平均值作为最终结果。

　　在实现数据聚类过程中，采用基于边界加权图的最小生成树描述和检测最终的聚类结构，包括聚类中心和类间距离。抗原通过人工免疫网络后产生记忆细胞矩阵，在已知类别数目条件下,利用记忆细胞网络的最小生成树实现自动归类并计算类的中心。终止聚类条件包括：1）迭代过程达到预定次数；2）免疫网络达到预定的细胞数；3）抗原和记忆细胞的亲和度达到预定阈值。

　　(3) 确定AR模型：为了降低噪声的影响，需要对原始数据进行滑动平均降噪，并建立AR模型和实施前向数据预测。可以采用试算法确定AR模型阶数，即选取预测精度最高模型的阶数；可以采用Burg算法估计AR模型参数，实现计算效率和精度的有效折衷；Burg算法建立了前向和后向线性预测系数之间的递推关系，能够使预测误差的功率之和达到最小[9]。

　　(4) 评价预测结果：AR模型预测完毕后，需要对预测结果进行评价。预测精度表示为预测结果与实际情况的差别程度，可以用误差指标反映预测精度，通常误差越大预测精度越低[10]。计算预测结果的标准差公式如下
(10)

　　其中xi表示预测结果的第i个值，表示预测结果的估计均值。如果预测结果的相对误差小于3%，则可以认为预测误差在允许范围之内。

　　(5) 预测结果的分析决策：比较预测结果与人工免疫网络的聚类结果，计算预测结果偏离聚类中心程度。如果计算偏差小于某个阈值，则表明复杂系统在未来时刻的工作状况保持不变；如果计算偏差大于某个阈值，则表明复杂系统的工作状况在未来时刻将会发生改变，应该提前除采取某种有效措施，以应对可能出现的工作状况。预测结果与聚类中心的比较结果，可以为实施系统综合健康管理提供必要的决策依据。

5 仿真实验及结果分析

在仿真实验中，选择工程实践中常用的指数形式、常数形式和多项式形式的三种信号作为原始信号，选择高斯白噪声作为干扰信号。选用MATLAB 7.1作为仿真实验平台，选取第2节论述的人工免疫算法实现数据聚类，选择第3节论述的AR模型实现数据预测。

图2 原始序列图形

原始含噪声数据的波形如图2所示，从上至下依次是指数形式、常数形式和多项式形式，数据有效长度为，原始数据中叠加的高斯白噪声符合分布。在基于人工免疫网络的数据聚类过程中，线性归一化的原始数据作为抗原输入人工免疫网络，设置抑制阈值，最大循环代数为，记忆细胞规模为，其中的10次数据聚类结果如表1所示。

表1 人工免疫网络的聚类结果

如果将表1所示的10次实验均值作为聚类中心，则可以发现，它们大致位于各组数据的几何中心，同时也表明聚类结果的稳定可靠。

采用AR模型对原始数据进行预测时，通过试算法得出指数形式数据的AR模型为5阶，常数形式数据的AR模型为6阶，多项式形式数据的AR模型为11阶，预测误差如图3所示。

根据图3所示的预测误差可以看出，随着时间的推移，预测结果的误差逐渐增大，并逐渐偏离数据中心，其中常数类型数据的预测误差最小，多项式类型数据的预测误差最大。

图3预测结果误差 (a)指数形式数据 (b)常数形式数据 (c)多项式形式数据

６结论

本文面向复杂系统综合健康管理对数据聚类和数据预测实际需求，充分利用人工免疫网络和AR模型的各自优势，提出了基于人工免疫网络和AR模型相结合的数据聚类和预测算法，并针对三种形式的原始数据进行了仿真实验，实验结果初步验证了所提出算法的可行性和有效性。本文提出的算法具有较强的通用性、适应性、鲁棒性，如何有效地提高聚类精度和预测准确性将是继续深入研究的内容。