从【特斯拉逆变器故障】和【小鹏召回】,看汽车芯片可靠性
扫描二维码
随时随地手机看文章
根据J.D.Power的一份报告,车载音频、通信、娱乐和导航(ACEN)类是质量投诉中问题最多的领域。作为回应,近年来汽车主机厂开始要求电子元件要使用18年零故障。其原因之一是,如果汽车一再出现故障,消费者就不太可能购买同一品牌的汽车。随着汽车中芯片和电子元件数量的迅速增加,这一问题也变得更为严重。
前不久,小鹏汽车因锡须召回13399辆G3汽车,将免费更换逆变器;前后脚,特斯拉新车Model 3因逆变器故障而“死机”,却还一度嘴硬。这不禁让人想起了半导体器件的可靠性及其相关的一些问题:生命周期、老化失效、零缺陷等。
小鹏和特斯拉可能殊途同归
小鹏汽车的问题很明白:逆变器直流母线电容上连接铜排螺丝的镀锡端子锡须可能会造成高压直流电正负极间短路,导致逆变器无高压电供应。当这种情况发生时,如果车辆处于停车状态,可能无法再次启动;如果车辆处于行驶状态,可能导致车辆失去动力,存在安全隐患。
像这样的地方容易产生锡须
锡须,也叫晶须,是电子产品中一种常见现象。它是一种头发状晶体,可以从焊锡表面自然生长出来,最常见的金属是锡、镉、锌、锑、铟等。锡须是锡表面生长的锡晶体,它会导致电子短路,并引起焊点的机械破坏。
元件引脚上的锡须
特斯拉故障现象和小鹏类似,问题或许差不多,应给予足够的重视。专家指出,一些看似不起眼的缺陷却有可能是一种致命缺陷。一些潜在缺陷可能永远不会导致故障,而其他不太明显的缺陷可能在某种环境条件或过度振动下会变成更严重的问题,小鹏汽车的召回介绍为了解决这个问题。
潜在缺陷与致命缺陷
对于汽车来说,虽然人们正在努力防止和发现这类缺陷,在出现问题时及时加以处理更不失为一种亡羊补牢的做法。因此,除了使器件更可靠外,还必须更容易更换。
汽车零故障何以保证?
ISO 26262的基本要求之一是能够“优雅地”失效。这要么需要一个冗余系统,使电子设备的成本增加一倍,要么需要能够利用不是为特定工作设计的其他电路。因此,尽管信息娱乐系统的设计可能不会被认为对安全至关重要,但在紧急情况下,其性能可能必须与关键系统一样好。
然而,这带来了一个潜在的问题。根据J.D.Power的一份报告,车载音频、通信、娱乐和导航(ACEN)类是质量投诉中问题最多的领域。作为回应,近年来汽车主机厂开始要求电子元件要使用18年零故障。其原因之一是,如果汽车一再出现故障,消费者就不太可能购买同一品牌的汽车。随着汽车中芯片和电子元件数量的迅速增加,这一问题也变得更为严重。奥迪报告说,其高端车型中有大约有7000个半导体器件,每天生产大约4000辆汽车。每百万分之一故障相当于每天有24辆有缺陷的汽车。对宝马来说,这相当于54辆有缺陷的汽车,因为宝马使用了大约一半的电子元件,但每天生产10000辆汽车。
这还只是个开始,因为汽车中电子内容的数量正在上升。电子组件很快就会占到汽车成本的35%。普华永道认为,随着自动驾驶的到来,到2030年将占汽车成本的50%。想一想,汽车今天在这里,明天在那里,恶劣的环境是一个问题。
1995年,汽车市场将成熟节点的半导体用在收音机或电动窗等相对简单的系统。现在,汽车需要有绝对最新的技术来提供ADAS传感器所需的所有功能。汽车行业已经无法使用已知故障模式和问题的五年前的技术。他们现在正处于最前沿,没有人知道这些技术到底有多稳定,也不知道会出现什么问题。
如何量化和发现致命缺陷
汽车中有大量的变量,在先进节点设计芯片时也是如此,包括工艺变化到微小缺陷。关键是要理解并量化这些变量,然后利用积累的所有知识,能够预测缺陷并发现致命缺陷。
从芯片的生命周期中收集数据并将其插入反馈回路是可靠性和功能安全性的关键。对于功能安全,在测量老化时,可以在某个时间点得出结论,器件已经老化到不再安全的程度。然后可以说这辆车需要在故障发生之前进行预防性维护。
在过去,可靠性通常被认为是制造过程的一部分。芯片要在烤箱中烘烤一段时间,或经过仔细监测的振动,以确定器件何时会出现故障。虽然在制造之前可以模拟不同的场景,但芯片仍然可能会失效,但缺陷率会降低,这取决于对各种工艺的控制有多严格,以及可以增加多少裕度来提供某种类型的失效接管。这在今天的ECC(错误检查和纠正)内存中是很常用的方法。
不过,传统汽车时代的一些假设正在被打破,老化就是其中之一。当汽车停驻并关闭引擎时,汽车电子设备不会停止老化。即使是在车库里,自动驾驶汽车也永远不会“熄火”。它可能仍然与手机通信、更新软件,在后台做自我检查。
芯片能维持的使用寿命因终端市场、器件是否用于安全或任务关键型应用,甚至是否可以轻松更换或远程修复而大相径庭。
不同行业芯片的预期寿命估计
加速老化测试是模拟产品在现实使用条件下各种因素对产品产生老化的加强实验过程。一个加速因素是温度,另一个因素是电压。如果一个器件在12V(汽车电池正常电压)下工作,那么在24年的时候,这个器件已难以工作。不同的参数,如湿度、电压、温度、机械冲击,这些都是加速系数。老化可以模拟器件寿命。
现在的问题是,如何加速它的寿命?当然,需要模拟的是器件在车里大约20年的寿命。如果希望在一个月内看到一个故障,那么就要使用许多组件;如果想看到20年内的一次故障,可以添加更多的组件,然后就可以得到更多的运行时间。如果想模拟一台设备在20年内出现故障,可以拿1000台设备运行一个小时,即1000工作小时数。使用更多组件就可以更快地测试寿命,因为真正想要的是演示运行小时数内有多少故障。这就是所谓的FIT(失效率),在109小时内出现一次故障即为1 FIT。
值得一提的是,不同汽车级别在时间质量指标上有不同的失效率。消费类级别的质量水平为100 FIT,而安全关键应用(如汽车中控制电池充电的电子器件)可能是0.1 FIT。所以必须根据器件的分类来模拟生存期。为了计算不同的加速系数所产生的影响,可以使用阿伦尼乌斯(Arrhenius)方程。
功能安全与可靠性
毋庸讳言,汽车电子的可靠性和功能安全性之间关系紧密。功能安全的重点是避免伤害,而可靠性是说汽车能否工作,而不需要修理。但是随着自动驾驶的增加,两者会有很多重叠。
如果石头击中传感器会发生什么?除了自身的可靠性之外,我们还必须考虑自动驾驶汽车的功能安全性,其中一些标准是ISO 26262推动的。这是在设计阶段很多工作的核心。只要芯片安全地失效,芯片失效也没关系。这是功能安全的重点。在一辆自动驾驶汽车里,无论是芯片故障还是雷击,不撞车都是至关重要的。当然,可靠性也很重要。最好芯片不出故障,这既是功能安全的需要,也是质量的需要。
失效对于汽车行业至关重要,而失效的机会很多。要想以可控的方式重复这一过程,并在生产线内部、工厂之间或不同供应商之间找到问题的根本原因,对可靠性是一个重大挑战。无论你在做什么,都必须是可重复的,而且你必须能够信任它。这使得这些公司的运营方式发生了重大转变。
汽车电子的可靠性要求是由汽车电子委员会(AEC)定义和分级的,AEC Q-100/200是汽车IC应力测试的标准。热、湿度和振动都是可能破坏芯片的风险因素,但材料、设计和制造工艺也会使芯片或多或少地受到风险因素的影响。这会变得复杂,细节也很重要。
在整个开发和鉴定过程中,需要明智地使用热机械建模。例如,聚合物材料在长时间高温下会发生永久性变化。取决于环境,这可能包括材料氧化以及导致脆化的机械性能变化。湿度也会导致片芯钝化层和基板焊接掩模界面的附着力丧失。
冗余需要适度
冗余通常是实现航空可靠性的方法,但这会增加开支和重量。但对于汽车来说,冗余需要局限于车辆内的特定系统,因为汽车没有那种奢侈,主机厂只是想省下每一分钱。
在汽车里,冗余是需要平衡的。随着SoC应用的扩大,冗余有多种形式。这些技术是在更高层次上复制一些CPU或一些功能较差的块,并确保两者获得相同的输出,如果两者中的任何一个显示不一致的内容,则标记为一个问题。这允许在操作过程中进行某种程度的自我测试。这种方法很昂贵,因为复制了整个块或处理器。
其他冗余设计更为精确。例如在内存寄存器级别,就像逻辑设计中的触发器,在这里可以找到一些起关键作用的寄存器。要么用一个更大裕量的器件来替换它,要么加入三重模块冗余。因此,从降低成本角度看,它是细粒度、粗粒度和各种其他技术的一种平衡。
这还取决于这些芯片是如何使用的,它们是否是复杂系统的重要组成部分,以及持续监控和反馈的成本是否可以分摊到整个系统价格中。这不是一个简单的等式,也没有简单的答案,特别是在先进节点,额外的电路会增加功耗并降低性能。
先进节点的尴尬境地
高级驾驶员辅助系统(ADAS)和向完全自动驾驶方向发展正在采用最新节点的半导体制造工艺,而可靠性成为汽车行业最关心的问题。虽然成熟的节点仍然是主流,但汽车芯片已经发展成为大型复杂的SoC。其中包括集成到异构封装和配置中的先进节点器件,这些封装和配置还未经尝试。过去,电子控制单元通常只有一个处理器或存储器单元。情况不再如此,从验证到各种类型的测试,包括符合性测试,都变得更加严格。
一些汽车芯片变得越来越复杂和小巧玲珑。车辆的中央逻辑尤其如此,它需要管理所有其他系统以避免车辆出现故障。目前的设计使用的是7nm和5nm逻辑,这已是芯片制造的前沿,但这些器件必须能够承受恶劣的环境,并且比消费芯片正常工作至少要长10年。一个节点的一种工艺是否存在问题,通常需要五到六年的时间才能知道。采用5nm到7nm技术,我们不知道会有什么变化。因此,最近NXP、高通将5nm芯片引入汽车既是在挑战诱惑,也要面对巨大的挑战。
回顾一下,前不久智能手机5nm芯片无一幸免被曝实际功耗不低,发热未减。在封装和测试方面,许多人都体验到汽车出现故障的地方之一是标准塑料或陶瓷,其选择主要基于成本。这表明,芯片公司的专业知识仍然存在差距,一些公司从未涉足汽车领域,而汽车供应商和主机厂对先进节点芯片设计和制造中的一些问题没有经验。
尽管主机厂和Tier 1的要求很严格,但一定程度的失效是不可避免的。电子设备会因各种原因而磨损,芯片可能由于一个设计缺陷,也可能由于芯片蚀刻时困在薄膜中的尘埃颗粒或气流问题而出现问题。何况有大量的研究表明,当一个杂散α粒子击中一个7nm晶体管时会发生灾难性的后果。
要控制这样的问题,需要在系统和电路两个层面都有深入的了解,但目前还没有足够的数据能够就问题可能在哪里爆发以及为什么爆发得出好的结论。
数据与可靠性息息相关
从汽车上收集有用的数据,并将其发送到反馈回路中,将成为汽车行业未来5到10年内一项常规性的工作。主机厂、芯片设计公司、半导体公司都需要通过正反馈回路来获得更详细的分析,因此,我们可以对所使用的设计技术和库进行适当的调整。
实现这一功能的关键要素之一是从汽车中传输最少的数据量。这意味着汽车本身必须能够整理出相关的数据和事件。管理所有这些数据至关重要,要考虑太多的数据以及如何以一种干净的方式将其组合在一起。对于不同类型的工具,或者不同类型的传感器,尽管其在物理上不同,来自不同的供应商,但在逻辑上是相同的。通过识别所有不同数据源中语义相似的内容,就可以更轻松地将其转换为一种格式,然后提取出一些有用的结果。
关键在于理解什么对可靠性更重要,而这本身就是一项复杂的任务。简单说,从汽车中收集有价值的信息非常重要。虽然这很难量化,但不能一直发送所有的数据。找到重要的数据意味着汽车或器件要有分析能力,从而最大限度地减少传输到云端的数据。
在车辆部署到现场之前,我们必须确保已经采取了所有的可靠性和安全措施。通过组合从生命周期不同阶段提取的UCT(通用芯片遥测)数据,并用额外的数据源对其进行扩充,价值链上的制造商就可以将质量提高10倍,防止质量流失或“受伤”。这是通过高度先进的异常检测方法,剔除未检测到的缺陷,而不影响良率来实现的。即使在表征和鉴定过程中,也应对性能极限进行调整和优化,以确保足够的可靠性裕度。
例如,Synopsys将分析引擎与嵌入芯片中的传感器和监视器相连,利用反馈回路将芯片设计和生产各个阶段的丰富数据集输入分析引擎中。
嵌入芯片中的传感器和监视器将丰富数据集输入分析引擎
数据的所有权有助于实现反馈回路和生命周期管理。从汽车内部芯片的深处收集数据正在解决这个问题。如今,数据正从汽车中收集起来,并在主机厂内部共享。随着时间的推移,根据地区、合法性、收集数据的程度以及保护数据的能力,数据所有权将成为整个设计生命周期中进行更深入分析的一个加速器。