嵌入式系统的高可用性
扫描二维码
随时随地手机看文章
设计人员正在调整各种高可用体系结构,以满足客户对用于下一代超级可靠嵌入式系统应用的持久数据接口的需求。
要 点
高速串行数据链路和交换结构技术实现动态路径,人们能围绕不可操作的子系统重新设定信息路由。
管理软件自动监视系统工作,并在发生故障或性能降低时用冗余元件来替换。
热插拔特性实现无中断的修理和升级,并为发展容错自愈系统铺平了道路。
刀片计算机集群以更低的采购和运营成本支持可扩展、高密度、高可用的服务器系统。
随着普适计算时代的到来(届时用户将可随时随地访问信息和服务),嵌入式系统设计人员在提高服务器、远程设备、数据传输基础设施的可用性方面承受着日益增大的压力。鉴于其应用,人们对嵌入式系统可靠性的期望远远高于对多数其它计算系统的期望。终止或重启其中一些关键应用系统需要承担人身财产或重要信息损失的风险。在满足这些要求的过程中,嵌入式系统设计者运用各种智能硬件和软件冗余技巧在日常运行中实现高达 99.999% 的可用性,即每年停机时间不到六分钟。
“高可用性”描述系统特性,它们使系统在发生硬件或软件故障时能够保持连续工作。高可用系统具有内置监视和复制数据路径,透明地取代可选硬件或软件组件复制正常功能,在出现故障时也能照常工作。一般而言,高可用性系统还支持在不中断运行的前提下替换故障组件或升级。随着通用连接的问世,数据安全也成了可用性的一个要素,这是因为未授权的黑客、恶意软件或外部“拒绝服务”攻击会导致预期功能中断。可用性一般定义为 MTBF/(MTBF+MTTR),其中 MTBF是指平均无故障时间,MTTR 是指平均修理时间。
高可用性对于越来越多的嵌入式系统应用都变得十分必要,而不断提高的技术趋势使系统设计任务日益困难。例如,可以预见,随着客户需要嵌入式设备中有更多功能,增加的硬件和软件组件带来了新的故障模式。显然,增加的的组件不利于达到更高的可用性,甚至产生其它冗余性,从而不断加剧系统复杂性。当前向普遍连接发展的趋势也给高可用嵌入式系统设计者带来了许多数据安全与通信可靠性问题。虽然最可靠的系统可能使用有限资源的简便的单独设备,但设计者必须采用一种提高任意嵌入配置可用性的战略。
不间断运行
当前多数用于提高服务可用性的诀窍和技巧均源自电信行业。多年来,电信设备制造商设计了多种方案,以便提供不间断的服务,即使发生硬件和软件故障也是如此。遗憾的是,多数方案都是专有的,维护费用高,并且难以在要求演变时进行更新。它们还需要很长的开发周期。设备设计者无法利用 COTS(商用现货)构件,这是因为没有通用内置设备提高服务可用性。为了解决可用性难题,电路板制造商制定一系列可与专有系统性能匹敌的硬件和软件规范。
IPMI (智能平台管理接口)规范是用来解决可用性问题的最早标准之一,它由戴尔、英特尔、惠普、NEC 公司制定,旨在从本地和远程监视设备,以便执行电源管理、冷却、电子键控和热插拔等事务处理。IPMI 与管理控制器相互配合,后者在主机处理器出现故障时可依靠自身运行。借助平台管理,操作人员能监视设备是否出现边际操作或潜在问题,并能在它们变成系统故障之前纠正它们。PICMG (Peripheral Component Interconnect Industrial Computer Manufacturers Group)组织把 IPMI 的若干变体都包含到电路板级 CompactPCI 规范和 ATCA(高级电信计算架构)规范中。
为了最大限度发挥 IPMI 的优势,设备客户需要具备热插拔功能,以便在不关闭系统的情况下替换出故障的系统板。热插拔系统要求硬件和软件能够在等待修理的同时,动态设定信号路由,使其绕过出故障的组件。必备热插拔技术之一是系统板和背板之间的物理连接。如果不控制电源涌流和背板信号连接,简单直连可能会干扰总线上的其它板。例如,CompactPCI 利用不同长度的分级引脚来控制通向背板的物理连接。卡片导向器确保板的插入垂直于背板。较长的引脚首先对接、供电并接地,以便对 PCI 总线信号预充电。串联电阻限制了电源电流浪涌。中等长度引脚连至处于预充电、高阻抗或禁用状态的 PCI 总线信号。最短的引脚支持总线通信。
防故障交换结构
串行交换结构技术是另一种设计创新,对于高可用性系统有多种好处。这些体系结构允许在计算节点之间设立动态数据路径,并支持多路并发数据传输。交换结构的一个主要好处是,每条连接均为直接的点到点数据路径,并带来更好的电特性,允许的频率和带宽高于总线体系结构。典型的交换结构使用多级开关在源和目标之间建立路由。这些动态路径对于高可用性设计也很有价值,使人们能围绕不可操作的子系统设定数据路由。多数主要电路板标准现在都规定交换结构,尽管它们并未提出具体的交换结构技术实现数据传输。与此相反,一系列附属规范为以太网、InfiniBand、StaRFabric、PCI Express、RapidIO 等各种交换结构对背板进行详细定义。虽然这种方法满足了业内不同观点的要求,但它也可能造成同一标准内部的互操作问题。
VITA(VMEbus International Trade Association)41 VXS 为广泛应用的 VMEbus (Versa-module eurocard bus)增添了一些交换结构技术高可用性优势。VXS 规范定义了一种有效载荷卡、一种交换卡、一种新型高带宽背板连接器,并保留标准的并行 VMEbus 连接器。每个新型交换结构端口均包含两组四联串行位通道——一组用于输入数据,另一组用于输出数据,对于每条串行通道均支持 10 Gbps 数据速率。交换卡包含必要的结构交换功能,以便在有效负荷卡之间或围绕故障设定串行数据路由,或使其绕过故障。为了保持交换结构任意性,VITA 41子规范为 InfiniBand、串行RapidIO、GbE(千兆以太网)、PCI Express 定义了交换卡和有效载荷卡。
PICMG(PCI Industrial Computer Manufacturers Group)针对电信设备的独特要求,发布了 ATCA 规范,提供 VME 和 CompactPCI 等开放体系结构的替代结构。ATCA 重点强调高可用性特性,采用高速串行数据链路和交换结构技术。超大板面积支持复杂的电信电路,并提供输入电源和冷却功能,实现每插槽高达 200 W 的功率。ATCA 规范具有适用于所有板和有源模块的热插拔功能,因此最大限度减少系统中断。一个机架管理元件(其规范基于IPMI)监视各插入模块的健康、功率、冷却甚至键控情况,以确保各子系统在高效率工作。各模块从冗余-48V直流馈电器获得电力,并从冗余控制与数据板获取数据,以防止单一故障使整个机箱停止运行。