如何保护我们的服务器免受热插拔事件的影响
扫描二维码
随时随地手机看文章
1.前言
需要更换风扇?简单地换掉它。想要增加更多存储容量?没问题——只需将 500GB SSD 换成 4TB。
但是我们是否曾经担心在其中一项活动中我们的服务器可能会自燃?可能不是。一些最终用户不知道,许多现代电子产品在所谓的“热插拔”事件期间提供针对电流和电压尖峰的保护。
2.什么是热插拔,你为什么关心?
热插拔是指用户在不关闭主机系统电源的情况下连接外部设备或模块以扩展系统功能或提供定期维护。虽然我们在各种应用程序中看到热插拔活动,但针对此类事件的保护在复杂系统(如服务器)中至关重要。
(1)带电插拔,热插拔功能就是允许用户在不关闭系统,不切断电源的情况下取出和更换损坏的硬盘、电源或板卡等部件,从而提高了系统对灾难的及时恢复能力、扩展性和灵活性等,例如一些面向高端应用的磁盘镜像系统都可以提供磁盘的热插拔功能。
(2)具体用学术的说法就是:热替换(Hot replacement)、热添加(hot expansion)和热升级(hot upgrade),而热插拔最早出现在服务器领域,是为了提高服务器用性而提出的,在我们平时用的电脑中一般都有USB接口,这种接口就能够实现热插拔。如果没有热插拔功能,即使磁盘损坏不会造成数据的丢失,用户仍然需要暂时关闭系统,以便能够对硬盘进行更换,而使用热插拔技术只要简单的打开连接开关或者转动手柄就可以直接取出硬盘,而系统仍然可以不间断地正常运行。
正如我们在图 1 中看到的,热插拔事件产生的电流或电压尖峰可能会导致硬件损坏、昂贵的维修、服务器停机或对我们自己或他人的身体伤害。
图 1. 由于过压和过流事件对 IC 造成的损坏。
3.这可能发生在我们的服务器的什么地方?
许多服务器被设计成高度可配置的——包括我们可以根据需要换入和换出的模块,包括风扇、存储设备(HDD 和 SSD)和电源单元 (PSU),如图 2 所示。我们必须仔细考虑附近的保护这些模块针对热插拔事件。
图 2. 包括存储、风扇和 PSU 在内的服务器组件通常是热插拔的。
通常,我们可以在模块或主机系统上设置热插拔事件保护,如图 3 所示。由于服务器的高度可配置性,主机系统或背板供应商通常与模块供应商不同。这使得很难知道保护已经存在于何处,但是如果我们正在设计模块或背板,那么在服务器中提供冗余保护以防止电涌永远不会受到伤害。
图 3. 我们可以在主机系统和模块上设置热插拔保护
4.如何防止服务器中的热插拔事件?
有许多选项可以防止服务器中的热插拔事件。让我们来看看一些常见的解决方案。
熔断器和多熔断器可以作为低成本解决方案——但随着时间的推移,占用空间大(如图 4 所示)、性能下降和维护成本增加可能会超过这一优势。
图 4. 保险丝与 TI TPS25942 eFuse 的比较
热插拔控制器是另一种常见的解决方案。这些器件为外部 FET 和检测电阻器提供控制逻辑,从而在设置 R DSON和电流上限时实现设计灵活性。然而,对于许多空间受限的服务器应用程序,eFuse可以通过集成外部组件提供必要的保护并节省宝贵的电路板空间。
除了集成之外,eFuse 还添加了对服务器至关重要的保护功能。例如,TI 的TPS25942 eFuse 提供热插拔事件所需的通用保护功能,包括可调电流限制、过压保护和热关断,以及可编程软启动、欠压保护和反向电流阻断等通用系统保护. 如果发生热插拔事件,TPS25942恢复选项包括锁定和自动重试版本。
图 5. TPS25942简化原理图。
除了保护功能外,TPS25942还通过向系统提供电源正常、故障和电流监控输出来提供系统状态监控。将所有这些功能封装在 3mm x 4mm QFN 中,很容易看出为什么 eFuse 是我们服务器中热插拔保护的正确选择!
因此,下次我们更换风扇或安装最新的内存技术时,我们的超级甜美服务器不会起火,请记住,这一切都归功于热插拔保护。不要忘记在我们的下一个服务器设计中包含用于热插拔保护的eFuse!