人工智能器件宇航应用面临的挑战与应对措施
扫描二维码
随时随地手机看文章
0 引 言
人工智能 器 件 以 人 工 智 能 专 用 处 理 器 (GPU、NPU 等)为核心,通过单片集成、封装、互联等微细加工等技术, 提供实现系统功能的微小型化器件,是实现空间环境感 知、自主判断、自主任务规划等的硬件载体和基础。此类 新型元器件在宇航应用前,仍然面临成熟度、可靠性、抗辐 射能力、宇航适用性等诸多挑战。
1 人工智能器件发展及应用现状
当前,信息处理高性能计算平台采用传统的 FPGA+ DSP的架构,在功能密度、算力、智能处理能力、成本等方 面无法满足新一代星上高性能与智能计算的应用需求。 需要采用新型 GPU 等微系统产品,大幅提升星上实时智 能处理能力,国内外部分人工智能器件及其技术特点如 表1所列。
1.1 人工智能器件国外发展现状
自2016年起,国际著名的芯片企业和互联网巨头在 人工智能器件领域全面展开部署,随着英伟达、谷歌、微软 等在内的巨头相继加入,人工智能领域未来的格局正在经 历剧烈变化。人工智能器件主要包括 GPU 和 NPU 等形 态,国外主要发展趋势如下:
① GPU 发展现状。GPU 的发展趋势主要有3个方 向:大规模扩展计算能力的高性能计算(GPGPU)、人工智 能 计 算 (AIGPU)、图 形 显 示 (光 线 追 踪 Ray Tracing GPU)。国 外 主 要 有 英 伟 达 和 AMD 两 家 研 发 高 性 能 GPU 的厂商。以 英 伟 达 AGX 为 例,集 成 了 6 核 ARM CPU 和256核基于 Pascal结构的 GPU,16位浮点计算能 力达到2TFLOPS,并在 CUDA 基础上深度优化了 Caffe 和 TensorFlow 深 度 学 习 框 架。2024 年,英 伟 达 推 出 了 B200型 GPU,采用双芯片设计,晶体管数量达到2080亿 个,单 GPU AI性能达20PFLOPS(即每秒2万万亿次)、 内存为192GB,基于第五代 NVLink、带宽达到1.8TB/s。
② NPU 发 展 现 状。NPU 作 为 一 种 主 要 采 用 ASIC 技术的 专 用 嵌 入 式 神 经 网 络 芯 片,使 用 DSA (Domain SpecificArchitecture)技术,突破了 CPU、GPU 等通用处 理器在深度学习等领域数据吞吐量、算力的限制,大幅提 高了端侧 和 嵌 入 式 设 备 的 处 理 性 能。现 在 主 要 的 NPU 集中在推理芯片领域,使得传统手机应用、嵌入式机器人 领域、自动驾驶等走向大众。NPU 的出现代表芯片从通 用化逐渐开始走向领域专用芯片的异构混合计算。2018 年,谷歌研发完成了一款专门为加速深层神经网络运算能 力而设计的 NPU 芯片,其主要创新在于采用大规模片上 内存、用量化技术进行整数运算(使用8位低精度运算)和 脉动阵列设计。
1.2 人工智能器件国内发展现状 支撑 AI推理应用的国产芯片厂商主要有寒武纪、景嘉微、沐曦、燧原等,但其产品性能距离国外产品仍有差 距。以寒武纪为例,MLU370性能为 FP3224TFLOPS, 仅为英伟达 A100的10%不到。
国内空间领域的 AI应用与国外相比差距不大,应用 性能和国外比较基本持平。例如华为 Atlas智能计算平 台,其包括面向端侧的 Atlas200AI加速模块、面向数据 中心侧的 Atlas300AI加速卡、面向边缘侧的 Atlas500 智能小站,以及定位于企业领域一站式 AI平台的 Atlas 800AI一体机等。在算法层面,国内不少公司和科研机 构开展了在智能化算法的星上处理应用研究。受国外“黑 杰克”项目、星链计划等的启发和影响,目前国内星载高性 能计算平台在商业航天领域已取得较大进展。“天智”系 列卫星,提出在该卫星上实现全民参与设计 APP的思路, 征集平台相关软件、载荷性能提升软件和任务相关软件, 全面展示卫星的功能与性能,扩大软件定义卫星的影响力。提出了软件定义有效载荷等概念,利用可重构计算机 为软件定义有效载荷提供与外部设备的接口,并实现与外 部高速数据输入或输出的交换,以 NPU 作为智能处理节 点、以千兆以太网交换机作为数据交换中枢,构建一套开 放式空间智能计算云平台,星载算力高达40TOPS;“珞珈 三号”互联网智能卫星搭载了高性能 GPU 处理平台,可实 现亚米级多模式光学成像、在轨智能处理、星地-星间实 时传输。
2 宇航应用面临的挑战与应对措施
2.1 宇航应用典型问题案例及风险分析
美国国防先期研究计划局(DARPA)2022年的研究 报告指出,近年来人工智能取得了快速发展,然而这些系 统仍旧不够完美,尤其是被应用到一些因为些许错误就能 够导致人命伤害或亿万财产损失的行业中时,将会存在一 定的风险。2023年,斯坦福 AI实验室对近年来关于 AI 可靠性的研究进展进行了总结:可验证性(以正确的方式 对一系列输入进行验证)、可靠性(即使是新的未见过的输 入,表现能够与预期相符)、鲁棒性(在应用时不易受噪音 或特定输入干扰)、安全性(当做出任何给定的决定时,可 检查其内部状态)、可解释性(有条理的,可以确保产生决 策的数据、场景和假设都是能够被解释清楚的)、无偏性 (不会对某类行为表现出无意识的偏好)。
在前期 AI器件宇航应用过程中,也多次出现了 AI 器件的典型失效案例。例如,某成像处理芯片算法与训练 集评价不充分,导致在轨图像识别误警率、虚警率较高,多 次修改算法,在轨表现不佳;某搭载语音识别芯片,鲁棒性 和可解释性评价不充分,受到干扰后,无法完成语音识别 任务。当前,国内逐步开展了人工智能器件的研发工作, 出现了寒武纪、中星微、欧比特、景嘉微、中科院计算所等 单位为代表开发的人工智能器件产品,取得了一定的成 果。但是在可靠性要求较高的装备型号应用前,仍然需要 对其智能算法、芯片可靠性、鲁棒性、安全性、适用性等指 标进行充分的评测。
2.2 挑战与应对措施
(1)挑战一:AI在宇航领域应用的功能、性能可靠性 如何保证
现有的常规元器件考核方法主要以元器件载体为主, 对元器件的功能、性能、可靠性等指标进行评价。而人工 智能器件的内涵除了芯片硬件以外,还集成了智能算法、 训练数据集和大模型,因此人工智能芯片的考核方法,需 要在软件、硬件、数据模型三个方面开展综合评价。
应对措施:需要识别人工智能微系统 宇 航 应 用 新 风 险,建立适应于人工智能微系统的新评价体系,识别适应 于人工智能微系统的新评价要素。在现有器件评价的基 础上,形成覆盖器件、算法、训练集紧耦合的评价新体系。 主要评价要素包括:鲁棒性,在应用时不易受噪声或辐射 输入干扰;可解释性,不会对某类行为表现出无意识的偏 好;安全性,排查人工智能算法与器件的安全性隐患;可靠 性,可靠性与质量保证方法需要进一步研究。
(2)挑战二:AI在宇航领域应用的适用性如何保证
在前期 AI器件宇航应用过程中,出现了 AI实际应 用效果不佳、AI器件不支持网络模型、AI器件实测算力 无法满足应用需求等问题,需要开展智能微系统 AI适用 性评价方法研究。
应对措施:需要研究人工智能器件、算法、数据集评价 方法,开展宇航人工智能适用性评价基准构建,构建测试 数据集基准,评价智能算法、训练模型是否满足需求。利用现有实际图像数据、生成干扰数据、数据增强技术扩充 数据集等,形成通用数据集+用户数据集+仿真模拟数据 集的宇航人 工 智 能 适 用 性 评 价 系 统,支 持 型 号 用 GPU、 NPU 等人工智能器件的保证工作。
(3)挑战三:AI器件功耗较大带来的散热问题
当前,AI器件的功耗普遍偏高,达10~120 W。新型智能微系统产品多采用2.5D/3D 封装,内部裸芯片多为 堆叠结构,且受到内部基板、再布线层等遮挡。传统的散 热方式受到限制,成为 AI器件散热的瓶颈问题。
应对措施:需要重点关注和深入研究 AI算法在器件 不同工况下带来的散热分配与管理问题。开展微流道等 新型散热方式研究与应用,采用嵌入式微流体冷却新结构 研究,包括平行长直通道、歧管通道、射流通道等,优化泵 功和热阻,在小压降下实现高效冷却。在优化通道结构设 计的同时,还需要简化工艺,降低成本,提升嵌入式微流体 冷却的工艺可靠性和长期工作可靠性,推进嵌入式微流体 冷却技术的实际应用。
(4)挑战四:AI器件、算法和模型带来的抗辐射问题
人工智能微系统将逐步应用于航天器深空探测、智能 遥感等领域。目前,国内针对航天器用 AI器件已处于研 发阶段,除了需要关注 AI器件本身的抗辐射能力以外,还 需要重点关注和深入研究 AI算法在器件受到单粒子、总 剂量效应下,所引起的偏差和可靠性问题。
应对措施:需要重点关注和深入研究 AI算法和模型 在器件受到单粒子、总剂量效应下所引起的偏差和可靠性 问题,建议借助故障注入、抗辐射仿真等方式进行抗辐射 能力分析,建立适用于不同算法和器件的故障传播模型, 对 AI抗单粒子问题从器件和算法层面进行充分分析。
(5)挑战五:AI器件安全性问题
目前,AI器件等复杂元器件都是基于可复用IP核进 行设计,以提高研制效率、降低研制成本。复杂器件多采 20 集成电路与嵌入式系统 用外购IP核,美国 DARPA 强调涉及国家安全领域的IP 核必须是经过评测合格的。前期发现JetsonAGXXavier 模块硬件上存在安全性漏洞,因此有必要研究 AI器件的 安全性评测问题。
应对措施:需要系统性地建立面向武器装备的 AI器 件安全性评测方法,充分保证复杂元器件的安全性和可 靠性。
3 典型人工智能产品质量保证分析
以某型号 AI微模组为例,开展典型人工智能器件质 保工作。该器件可以实现图像、视频等多种数据分析与推 理计算,可广泛用于智能监控、机器人、无人机、视频服务 器等场景。芯片内置2个 AIcore,可支持128位宽的LPDDR4X,可实现最大22TOPSINT8的 计 算 能 力。主 要 集成 了 SoC、LPDDR4、NORFLASH、电 源 管 理 等 器 件。 针对该 AI微模组,主要开展以下质量保证工作:
① 功能及性能评估。开发评估板,对重点关注的功 能及指标等参数进行确认。主要测试功能点包括:连 接 性,充分验证高密度连接器的连接情况;系统开机功耗,验 证正常工作的最低功耗;最大算力功耗,验证模组的巅峰 功耗;功能测试,验证模组的外设运行;输入/输出参数验 证,系统开关机。
② 微模组结构分析。识别工艺、材料和结构等方面 的可靠性隐患。该 AI模块 SnAgCu焊料属于无铅焊料, 其相对于纯锡存在一定抑制锡须生长的能力,必要时采用 合适的防护措施;该模块内部连接器尺寸较大,且采用表 贴形式安装,避免连接器焊点开裂,必要时采取合适的加 固措施;该模块内部的电容器、电阻器数量较多,密度较 大,用户使用时应采取三防等处理,避免多余物对模块造 成影响。
③ 抗单粒子能力分析。在LET为30.46MeV.cm2/mg 和40.76 MeV.cm2/mg的 Kr离子辐照过程中,未发生单 粒子锁定效应,但发生了单粒子功能中断效应;在 LET 为 87.39 MeV.cm2/mg的 Ta离子辐照过程中,未发生单粒 子锁定效应,但发生了由微剂量效应造成的单粒子功能失 效。微剂量效应产生的机理主要是当晶体管的特征尺寸 与宇宙射线产生的电离径迹直径可相比拟时,单个粒子射 入器件后,通过直接或间接电离的方式,在氧化层中产生 的陷阱电荷以及在 Si/SiO2 界面处产生的界面态缺陷导 致晶体管 固 定 位 错 误。固 定 位 错 误 属 于 单 粒 子 硬 错 误 SHE(SingleHardErrors),不能通过重新上电恢复的硬错 误,但“固定位”错误可通过退火减少或消除。型号使用前 应充分考虑使用风险和应用加固策略。
④ AI宇航适用性分析。进行软硬件一体化评价与 验证,提前识别在轨图像识别误警率、虚警率指标,评价 AI器件、智能算法、训练模型是否满足任务需求。 采用某卫星图像数据,分辨率为0.5 m,数据集中包 含油罐、飞机和船舶目标,如图1和图2所示。针对原始 图像做几何校正和单通道图像处理后,继续进行切片处 理,处理后的切片大小为640×640,最后人为标注目标信 息。对该 AI模组在各类网络模型下的实测算力、峰值算 力、吞吐率、能效、单张图片推理时间和计算效率进行测 评,结果如表2所列。根据结果分析,某型 AI处理能力指 标受算法模型影响较小,在各网络模型下的指标结果较为 稳定。实测算力与峰值算力相差较多,但量化模型的单张 图片推理时间可满足通用需求,建议用户在使用过程中参 考表2的实测结果。
⑤ 板级验证。装联试验、应用环境下的电特性与功 能特性验证,对微模组进行实际应用环境下的电特性与功 能特性验证,应进行包括高低温功能性能测试、软件兼容 性、热真空试验、温度循环、机械应力等环境试验,通过在 板验证确认该微模组是否满足用户应用需求。
4 结 论 当前,人工智能技术已经成为国际竞争的新焦点、经济发展的新引擎、社会建设的新机遇,世界大国都高度重 视人工智能的发展,美国和欧洲多国密集发布多项战略计 划及相关举措,将人工智能相关技术视为重塑武器装备体 系、带动技术革新、实现能力跨越发展的重要战略。人工 智能芯片是实现武器装备智能化的基础性核心关键技术, 其功能、性能、可靠性、安全性等指标对装备影响较大,有 必要进行系统性地评测,保障人工智能器件在宇航领域的 可靠应用。
后续人工智能器件宇航应用的相关建议总结如下:
① 加快推进新型高算力 AI器件在航天工程中的可靠应用。新型高算力 GPU 可颠覆传统的星上 FPGA+ DSP图像处理计算模式,大幅提升星上处理能力和智能 化程度,需要引领国内 AI器件研制单位加快推进新型高 算力 AI器件在航天工程中的可靠应用。
② 人工智 能 器 件 在 宇 航 应 用 前 需 要 进 行 充 分 的 评 价。目前,国内人工智能器件尚处于快速研发期,多数产 品成熟度、可靠性、抗辐射能力、算力、自主可控、开发环境 距离宇航应用尚有一定差距,人工智能器件在宇航应用前 需要进行充分的评价。
③ 针对人工智能器件需要开展软件、硬件、数据模型 三个方面的综合评价。开展星上 GPU 等新型核心元器件 质量与可靠性评价体系研究,深入开展 AI等新型元器件 评价与验证新方法研究,建立覆盖IP核、器件、算法、训练 集紧耦合的评价新体系。
④ 建立空间人工智能器件测试和验证平台。AI器 件验证和应用的周期、成本较高,以某型 AI模组为例,涉 及微模组、30余种器件、操作系统、智能计算框架、大模型 等,不同应用单位分别开展应用验证的代价较高,有必要 建立统一的验证平台,集中开展验证工作。
参考文献
[1]张笃周,张磊,杨保华,等.核心元器件自主定义分类及关键 技术研究[J].微电子学,2021,51(6):5.
[2]张磊,祝名,李培蕾,等.宇航微处理器需求发展研究[J].航 天微电子,2022,4(7):1 6.
[3]张智敏,石飞飞,万月亮,等.人工智能在军事对抗中的应用 进展[J].工程科学学报,2021,50(8):45 51.
[4]卢新来,杜子亮,许赟.航空人工智能概念与应用 发展 综述 [J].航空学报,2021,42(4):81 86.
2025年第1期第3篇