如何扩展 FPGA 的工作温度
扫描二维码
随时随地手机看文章
任何电子器件的使用寿命均取决于其工作温度。在较高温度下器件会加快老化,使用寿命会缩短。但某些应用要求电子产品工作在器件最大额定工作结温下。以石油天然气产业为例来说明这个问题以及解决方案。
一位客户请求我们 Aphesa 的团队设计一款能够在油井中工作的高温摄像头(如图 1 所示)。该器件要求使用相当大的FPGA 而且温度要求至少高达 125℃——即系统的工作温度。作为一家开发定制摄像头和包括 FPGA 代码及嵌入式软件在内的定制电子产品的咨询公司,我们在高温工作条件方面拥有丰富的经验。但就这个项目而言,我们还得多花些精力。
该产品是一种用于油井检查的井下双色摄像头(如图 2 所示)。它能执行嵌入式图像处理、色彩重构和通信。该系统具有存储器、LED 驱动器和高动态范围 (HDR) 成像功能。针对该项目,我们选择使用赛灵思提供的 XA6SLX45 器件(Spartan?-6 LX45 车用器件),因为它具有宽泛的工作温度范围、稳健可靠、封装尺寸小、拥有大型嵌入式存储器和大量单元。
该项目非常具有挑战性,也有大量乐趣。下面介绍我们如何完成该项目,首先
回顾一下温度的部分概念,包括结温、热阻和其他现象。我们将了解器件中温升的原因并列出我们的解决方案。我们还将应对可能的热点问题并提出相应的解决方案。
在这个特定项目中,热电冷却方式的使用受限,我们不得不寻找其他解决方案。
温度变化
电子器件通常会指定最大结温。但令人遗憾的是系统设计人员关心的是环境温度。环境温度和结温的差异将取决于封装传递热量的能力以及冷却系统将该热量散出系统机箱的能力。
热阻是一个热属性,也是衡量给定材料阻碍热量流动的幅度的指标。因为热阻的存在,热流通过的组件的内外侧温度会有差异,正如电流的存在造成电阻两端的电压不同。对机身内外侧温差 20℃ 的情况,最大结温为 125℃ 的器件能够在高达 105℃ 的环境下工作。热阻的表达方式是℃/W,即耗散 1W 热量时内侧和外侧的温差即为
热阻是一种热属性,用来衡量给定材料阻碍热量流动的幅度。
热阻。这一关系以公式表示即为图 3 所示。
耗散的热能取决于器件、电路、时钟频率和运行在器件上的代码。器件内部(结温)和所在环境(环境温度)之间的温差因此取决于器件、代码和工作原理图。
常用冷却解决方案
在大多数设计中需要冷却的地方,设计人员使用无源冷却(散热器通过增大空气接触表面,帮助将热量散发到空气中)或使用有源冷却。有源冷却解决方案一般通过强制气流,帮助更换用于吸收器件上热量的冷空气。空气吸收热量的能力取决于空气与器件之间的温差以及空气的压力。其他解决方案包括液体冷却,用液体(一般是水)取代空气,可实现更高的散热效率。空气或流体吸热的能力由图 4 给出的热吸收等式决定。设计人员常常使用的最终方法是热电冷却,即借助珀尔帖效应 (Peltier effect)(通过在连接到半导体样品的两个电极间施加电压来形成温差)来冷却冷却板的一侧,同时加热另一侧。虽然这一现象有助于把热量从待冷却的器件上带走,但珀尔帖冷却有存在另一大不利因素:它要求大量的外部功耗。
在我们的案例中,气流不是解决方案,因为机箱中的空气数量有限,空气温度会迅速达到均衡。水冷也不可能,因为水源和工具之间距离很长。因此对我们而言,珀尔帖效应是唯一的冷却解决方案。因为环境温度是固定的(我们不能像图 3 的公式一样为大量液体加热),热电效应冷却器实际上会降低电子产品的温度。令人遗憾的是,由于冷却装置需要大电流,而且需要用超长的导体将表面与工具相连,实际上只有有限的电流可用于冷却,而且只能实现较小的温差。
图 1 - 工作温度高于装置的额定最大温度的油井内工作高温摄像头设计(如左图所示)该摄像头的特写见图右。
图 2 - 高温摄像头和高温处理板均配备赛灵思 Spartan-6 FPGA。
此外,由于我们的装置是一个摄像头,画质会随温度升高急剧下降。因此我们必须优化我们的冷却策略,尽量为图像传感器降低温度,而不是 FPGA、存储器、LED 驱动器或电源电路降低温度。
由于珀尔帖效应只能选择用于冷却图像传感器,用于冷却 FPGA 几乎没有可能,所以我们唯一的选择是降低 FPGA 内的峰值温度。
热点的原因
和不断上升的温度
在数字器件中有三个功耗来源:动态、静态和焦耳效应。动态功耗是在门触发时用于为走线电容充放电而消耗的电力。它与时钟速率和总电容大小成正比。静态功耗是器件类型、核心电压和技术的函数。该功耗因内核或 I/O 的耗电而产生。
当热量在空间中的某一点产生时,它将向周边传递,导致周边区域升温。如果周边区域不是热源,则热量会散开,温升有限。只要等上足够长的时间,温度最终会在整个器件中均衡化。如果周边区域是其他热源构成的,因为每个热源都会给另一个热源带来热量,温度就会净增长。
如果许多热源集中在一小块面积上,则这个面积的温度会上升得比其他地方快,导致热点产生。
由于器件的结温受限,实际上最热点的温度不应超过最大结温。在知道器件的功耗和封装的温度后,所有我们能估计的平均结温。
最后一个热源与电流在导体中流动产生的焦耳效应有关。
如果超过最高温度会发生什么情况?
随着工作温度升高,器件的使用寿命会下降,部件会老化得更快。某些老化过程,如电迁移和电腐蚀只会在较高温度下发生。电迁移发生在有湿气和电场存在的条件下。此时导体的原子
图 3 - 环境温度与结温之间的关系。其中 Tj 代表结温,Ta 代表环境温度,Rth、package 代表结点与封装外表面间的热阻,Rth、ambient 代表封装外表面和环境空气间的热阻
(如果没有散热器或空气流时为 0)且 P 为器件耗散的功率。
会以离子形态从他们的初始位置移动,在另外的地方复位,留下一个空隙。这个空隙会减小该位置导体的有效宽度,造成该位置电场增强,从而诱发更多的电迁移。这种链式反应会在原子移走的位置
数字器件有三个功耗来源:动态、静态和焦耳效应。
图 4 - 热吸收等式,其中Q 表示能够吸收的最大热量。
m 代表吸热物质的质量,c 代表吸热物质的常数,ΔT代表吸热物质在开始时的环境温度和最终温度之间的温差。该公式仅适用于不可再生性吸热材料和待吸收热量为净量的条件。这是条件不现实,但这个公式已经体现出压力(质量)、材料类型(c)和外部温度在冷却效率中所起到的作用。
中的代码并测量了器件壳体的总功耗和温度。有时如果峰值温度较低,提高器件平均温度也可接受。我们还在加速老化测试中评估了使用寿命。
我们的下一个设计选择是为器件使用设定限制。为减少器件耗散的热量,我们尽可能地避免使用逻辑单元和存储器。器件未使用得到部分会
导致裂隙(开路)或在原子重定位的地方导致短路(树突)。为数不多的几层水分子足以引发金属的离子化过程,触发电迁移。这一现象会随着温度升高明显严重化。
像铁生锈这样的腐蚀现象涉及湿气和有害气体。半导体材料封闭在其保护性封装中。这种封装一般对湿气有高吸收性,但制作所用的材料不会轻易地产生腐蚀性离子溶液。这种腐蚀大多数情况下会给引线框和封装接线造成不利影响。最重要的有害材料是硅钝化层中所含的磷,以及半导体制造工艺或封装工艺所残留的部分污染物。在运输、焊接和装配过程中接触人体皮肤和其他化学品是导致污染的有害原子的其他可能来源。
当异质材料连接在一起时,较便宜的材料相对于较贵的材料容易发生腐蚀(电化腐蚀)。这类型的腐蚀是随时间推移性能降低的又一个原因。
在超过结温温度的情况下,无法保证器件的使用寿命,可能会大幅度缩短。如果温度持续增长,该器件可能会立即失效。
器件的性能也取决于速度。器件在较高温度下速度会下降,因此它们的最大时钟速率会降低。
之所以把 Spartan-6 XA(汽车级)FPGA 的最高温度限定为 125℃ 是出于最低使用寿命要求(可靠性考虑)和有保证的时钟频率能力(性能要求)。其他原因包 RAM 单元漏电和因这种漏电造成的位错误。
多种解决方案
为克服我们的油井摄像头设计的各类难题,我们实施了多种解决方案。
其中最重要的决定之一是选择大小合适的器件。越大型的器件的静态功耗越大,但有利于器件的散热,避免形成热点。经认证用于汽车用途的器件即使在高温下也具有较长的使用寿命,因此对于使用寿命要求不高的工业应用而言,更是一款合适的解决方案。我们已经评估了 XA(车用)系列的 LX25 和 LX45 器件
消耗静态功耗,但不会消耗动态功耗。
我们还施加了时钟门控。因为动态功耗取决于时钟速率,我们可以使用时钟门控抵消未被使用的模块的动态功耗。如果时钟树未触发,器件该部分的功耗就会降低。
我们还可以将我们使用的 I/O 数量保持在最低水平。这样也可以降低 I/O 模块的功耗。
因此,通过把部分 I/O 用作虚地,我们缩短了器件内部电流的传输距离,从而降低了电源走线的焦耳效应。虚地也有助于把热量传递到地面。
因为我们不想使用所有的 I/O 和所有的逻辑单元,我们选择把这个设计分布到两个 FPGA 上(图 5)。这样就可以让热量在两个单独的位置耗散。
我们还使用多个接地面。这一技巧有助于把热量从温度较高的地方向温度较低的地方传递,并提供额外的热容量。为开发板的可靠性起见,在设计热平面时应考虑避免温度周期过程中发生板层分离问题。
图 5 - 为避免使用所有的 I/O 和逻辑单元(上方),该设计使用两个 Spartan-6 FPGA 而非一个。这意味着热量可以在两个单独的地方耗散。
另一个重要步骤是优化我们的代码以降低时钟速率。降低时钟速率可以降低功耗,但也可以让器件在更高的温度下运行。作为例子,我们评估了慢速并行设计和快速流水线化设计之间的权衡取舍。
为提升设计性能,我们确保在最终装配前干燥各个组件并覆盖一层能抵御湿气的保护层。
在高温下器件会老化得更快。可以使用产品认证来衡量设计的器件实际使用寿命随温度变化情况。
以恢复或至少检测存储器单元中或通信中的位错误。如果状态机以未使用的状态结束,也可以恢复。
我们发现在开展我们的设计时使用赛灵思功耗估算器 (XPE) 是良好的开端。TVivado? Design Suite 为采用较新型的器件的设计提供功耗估算工具。不过测量真实器件上的功耗和比较不同版本的代码经证明是最理想、最准确的做法。
我们也在生产中采用老化流程来预老化器件,移除那些老化速度看似比非热电冷却综合运用上述技巧,made simple.FPGA其他部件更快的部件(早期失效),从而只保留下最好的部件。
对我们的设计流程同样重要的是使用循环冗余检查 (CRC) 和其他类型的错误检测和纠正措施。我们在设计里的各个位置使用这些技巧,我们得到了一款能够工作在 125℃ 环境温度下且具备 SDRAM 管理、通信总线和图像处理能力的摄像头,虽然按规范其结温不得超过 125℃。此外我们还努力做到了无需热电冷却也能在 125℃ 下正常运行。