以AI驱动创“芯”体验,Arm多款新品重磅来袭!
扫描二维码
随时随地手机看文章
近两年,生成式AI的横空出世,给终端市场带来了全新的交互模式,并推动高性能算力需求呈现出了爆发式增长态势。在此背景下,越来越多的芯片厂商开始厉兵秣马,加快推进与之相关的产品研发与技术应用。
作为全球领先的半导体计算平台公司,Arm自然也观察到了这一趋势,为此在今年推出了一系列先进的解决方案,包括面向消费电子设备的全新计算子系统——Arm终端计算子系统(CSS),内涵基于Arm第五代GPU架构构建的全新GPU和最新的Armv9.2 CPU集群,以及面向热门AI框架的Arm Kleidi软件库。
为了让大家全面地了解这些创新成果,在近日举办的“Arm技术媒体分享日”活动上,官方对其进行了详细介绍,并分享了相关领域的技术发展与应用情况。
Arm终端CSS——消费电子技术的AI根基
作为AI体验的计算基础,Arm终端CSS显得尤为重要。
据Arm终端事业部智能手机市场高级总监Steve Raphael介绍,以Arm为计算基础构建的软件平台是世界上最为普适且重要的软件平台,而今年全新推出的Arm终端CSS则是为各类消费电子设备打造新一代AI体验的专用计算平台。该平台囊括了最新的Armv9.2 Cortex CPU集群和最新的Arm Immortalis与Arm Mali GPU、CoreLink互连系统IP,以及知名代工厂采用3nm工艺生产就绪的CPU和GPU物理实现,可以为AI和其他实际用例计算工作负载提供出色的性能和效率。
“事实上,Arm在AI方面已钻研许久,早在2021年,我们就推出了专为性能和AI而设计的Armv9架构,并在过去几年中提高了在矢量加速、机器学习(ML)等领域的计算能力、增强了系统的安全性和稳健性,更重要的是增加了面向AI的功能。”Steve Raphael在会上谈道,基于去年Armv9.2取得的成功,Arm进一步提升了高性能计算水平,并以效率为核心,为开发者和消费者带来了全新的Arm终端CSS,希望他们能够在Arm平台上打造更卓越、快速的AI体验。
图:Arm终端事业部智能手机市场高级总监 Steve Raphael
作为Arm目前面向安卓系统速度最快的平台,Arm终端CSS相较于2023 Arm全面计算解决方案(TCS23)平台,在关键基准和一般计算用例方面实现了显著改进。
根据官方提供的数据显示,在Arm终端CSS强大的性能优势下,通过Geekbench 6单核分数测量可知,得益于新的Cortex-X925,峰值性能提高了36%;在前十大应用中,五款应用的平均启动时间加快了33%;通过Speedometer 2.1浏览器基准测量时,网页浏览速度加快了60%;在包括光线追踪和可变速率着色(VRS)基准等七项图形基准中,峰值图形性能平均提高了30%。
图:Arm终端CSS的一些性能优势
对此,Arm终端事业部产品管理总监Steve Hopper指出,高端移动平台配置往往由三个主要因素驱动,即需要针对实际工作负载优化计算性能、需要针对生成式AI工作负载提高性能,以及持续专注于提高系统能效以充分延长电池的使用时间。这三个驱动因素构成了Arm内部参考平台演进的基础。
要知道,移动AI带来的终端算力提升,最直接的反应在于图像与视频的处理能力上。而Arm终端CSS的一大亮点,便是可以为计算摄影工作负载提供高能效的性能、赋能新的视觉效果。“与去年的上一代产品相比,我们在CPU上运行焦外成像工作负载算法的性能提高了24%。这意味着,用户可在不影响电池续航时间的前提下,在照片和视频上获得更快、更顺畅的焦外成像效果。”Steve Hopper介绍说。
除此之外,Arm终端CSS的另一个特点,则是为CPU和GPU上的AI推理工作负载带来了显著的性能飞跃。例如,采用Cortex-X925时,与上一代Cortex-X4相比,推理速度加快59%;采用Immortalis-G925时,与2023 Arm全面计算解决方案 (TCS23) 相比,AI推理速度加快36%。另外,通过在Arm终端CSS的CPU集群配置中利用一颗额外的Cortex-X925 CPU,Arm还观察到,在17个主流网络中,针对int8和fp16数据类型的AI推理性能大幅提升了170%,这一涨幅是十分惊人的!
图:Arm终端CSS提升AI推理
据悉,Arm终端CSS之所以能够实现卓越的AI用户体验,并称为“Arm最快的安卓平台”,主要得益于硬件进步与Arm Compute Library优化相结合所产生的强大效果。
“以大语言模型(LLM)工作负载为例,除了计算吞吐量之外,内存系统、带宽和工作负载大小等也起着重要作用。所有的这些方面都需要精心调整,才能在细分市场和设备级别均获得理想的移动体验。我们设计了从IP到软件的整个平台,以提供出色能效,从而实现更久、更丰富的移动体验。终端CSS为高端移动设备解锁了AI性能,并推动了AI在更低价位的设备中的应用。”Steve Hopper如是说。
图:Arm终端事业部产品管理总监 Steve Hopper
Armv9.2 CPU集群——开启新一代AI体验
随着AI工作负载的计算强度及复杂度持续增长,Arm还推出了最新的Armv9.2 CPU集群,其更强性能、更高效率,以及更多功能,为新一代AI奠定了扎实基础。
据官方介绍,新增至Armv9 CPU组合的新品包括具备超强性能的Arm Cortex-X925 CPU和可持续提供出色性能的Arm Cortex-A725 CPU;而更新后的Arm Cortex-A520,可为低强度工作负载提供更卓越的能效表现。与此同时,Arm也更新了DynamIQ Shared Unit(DSU-120),从而在Armv9.2 CPU集群配置中,降低功耗和缩小面积。
据悉,所有的这些产品都被集成到了Arm终端CSS上,通过提供一整套实际用例的改进,集群中的各个CPU组件均涵盖了广泛的实际用例和工作负载,从而为安卓智能手机、PC和笔记本电脑等设备,提供了出色的性能与用户体验。
图:Armv9 CPU系列的新产品及更新
据Arm终端事业部高级产品经理Manish Pandey介绍,在最新的Armv9.2 CPU集群中,Cortex-X925是Arm迄今为止速度最快、性能最强的CPU。与此前的Cortex-X产品相比,Cortex-X925的单线程(峰值)性能提升了36%,AI性能提高了46%。另外,Cortex-X925通过经优化的3nm工艺,辅以卓越的子系统和封装,还使得新一代消费电子设备的性能分数可提高30%以上。
在Manish Pandey看来,Cortex-X925不仅是另一个CPU换代产品,更是实现了相当出色的IPC表现。“我们构建Cortex-X核心的目的,不仅是为了取得卓越的基准测试结果,更是为了满足AI等实际用例的需求。Cortex-X925代表了Arm在性能方面的又一次重大飞跃,得益于这些微架构的进展,我们实现了Cortex-X系列有史以来最大幅度的性能提升,在基准测试、AI和实际应用中均取得了全面提升。”
图:Cortex-X925性能提升
为了将性能效率推向新的高度,Arm在最新的Armv9.2 CPU集群中还推出了Cortex-A725。据悉,Cortex-A725的性能效率提升,同样得益于其微架构的改进。
与上一代产品Cortex-A720相比,Cortex-A725的性能效率提升了35%,能效提升了25%。
图:Cortex-A725性能和能效提升
而更新后的Cortex-A520,则是Arm今年推出的另一个重要产品。虽然这款产品所采用的微架构更新频率较低,但这并不意味着Arm没有做出任何改进。得益于3nm工艺的实现,Cortex-A520与TCS23中的Cortex-A520相比,能效提升了15%。
图:更新后的Cortex-A520
值得一提的是,DSU是一款特别的IP,它的性能指标包括缓存大小、带宽、延迟、漏电和动态功耗,这些指标往往会与实际用例之间存在紧密的牵动。据Manish Pandey介绍,今年Arm的DSU-120针对多个新用例进行了重点更新,主要聚焦在PPA和功耗方面的改善。
作为Arm终端CSS的一部分,DSU-120现已针对新一代用例和消费电子设备体验进行了强化,其中包括新的性能和效率功能、新的低功耗模式和面向主流消费电子设备的强化,并保留了为高性能用例扩展到14个核心的选项。得益于此,典型工作负载的功耗显著降低50%,并且整个CPU集群的缓存未命中功耗降低60%,从而可减少漏电并延长设备的电池寿命。
除此之外,最新的Arm CPU集群还可为各类的消费电子设备提供出色的扩展能力。
图:DSU-120更新和提升
“总之,在最新的Armv9.2 CPU集群当中,Cortex-A925实现了一流的IPC,卓越的单线程核心性能;而Cortex-A725提供了出色的持续性能。这是Arm迄今为止面向AI和UI的性能最强大的CPU集群。”Manish Pandey表示,展望未来,Arm有信心在下一代设备的CPU IPC方面取得领先,为广泛的消费电子设备提供前所未有的性能、效率和广泛用途。
图:Arm终端事业部高级产品经理 Manish Pandey
全新Arm GPU——为AI创新带来无限可能
作为Arm终端CSS的重要组件之一,第二代基于Arm第五代GPU架构构建的GPU产品同样值得一提。
据安谋科技(Arm China)市场总监王刚介绍,新一代Arm GPU包括了新的Arm Immortalis-G925 GPU、Arm Mali-G725 GPU和Arm Mali-G625 GPU,它们适用于从旗舰智能手机、高端手机,到智能手表、入门级移动设备等各类消费电子设备,可为新一代AI和游戏体验提供出色的性能和效率优势,并带来无可匹敌的用户体验。
“我们看到,最近一年来,应用商店中的游戏应用收益不断攀升,更多的游戏和应用都在越来越多地采用AI。游戏内容愈发复杂,而我们正通过创新产品满足不断演进的需求,以提供新一代游戏体验。基于此,我们推出了新的Immortalis-G925 GPU,希望能为开发者和玩家带来逼真的游戏体验。”王刚如是说。
图:安谋科技(Arm China)市场总监 王刚
据介绍,Immortalis-G925是Arm目前性能最强、效率最高的GPU。
与上一代产品Immortalis-G720相比,Arm终端CSS中的Immortalis-G925在各种图形应用中的性能提高了37%;在运行AI/ML网络方面,性能显著提高了36%。
与此同时,在提供与2023年参考平台相当的游戏性能时,Immortalis-G925还能节省高达30%的功耗;而在对复杂对象进行光线追踪,其性能更是提升了高达52%。
图:Immortalis-G925整体性能提升
另外,在Arm新推出的GPU中,着色器核心的数量均已扩展。其中,Immortalis-G925可配置10个以上的核心,适用于旗舰智能手机等高性能消费技术市场;Mali-G725则可在6-9个核心之间扩展,主要针对高端手机市场;而Mali-G625可在1-5个核心之间扩展,适用于智能手表和入门级移动设备。
图:Immortalis-G925、Mali-G725和Mali-G625的核心数
“总的来说,Immortalis-G925出色的游戏和AI性能将带领我们迈向崭新时代,为手持设备打造媲美游戏主机的图形效果以及更为智能的应用体验;而Mali-G725和Mali-G625这两款产品,则可为各类不同级别的设备带来出色的游戏体验。”王刚表示,未来随着手游和AI工作负载的不断演进,新一代Arm GPU可提供出色的性能和效率优势,带来无可匹敌的用户体验。
Arm Kleidi——助力AI开发者加速创新
作为Arm推出的另一款重磅产品,Arm Kleidi对于AI开发者的重要性不言而喻。
据安谋科技(Arm China)开发者生态高级经理李陈鲁介绍,Arm Kleidi是一项广泛的软件和软件社区参与计划,其软件库包含了面向AI工作负载的KleidiAI和面向运行于Arm CPU上出色的计算机视觉工作负载的KleidiCV。该软件库可以被直接嵌入到热门的AI框架中,开发者无需进行任何操作,即可轻松启用Arm CPU的AI功能,从而快速构建AI应用,并在尽可能广泛的设备上实现最出色性能。
其中,KleidiAI是为了应对设备类型、神经网络和推理引擎的爆发式增长而推出的解决方案,由一系列高度优化的AI内核组成,可在生成式AI等用例中实现高性能。KleidiAI的最大优势在于能够大大降低开发者的门槛,不会给他们额外增加工作量,而是直接与领先的AI框架合作,包括MediaPipe(通过XNNPACK)、LLAMA.cpp、PyTorch(通过ExecuTorch)和TensorFlow Lite(通过XNNPACK),以集成KleidiAI。这不仅加快了开发流程,还充分释放了AI性能,使开发者能够顺利地打造出色的AI体验。
而KleidiCV是计算机视觉算法的集大成者,可以对其带来显而易见的巨大性能提升。据官方介绍,OpenCV是全球最大的计算机视觉库,里面包含了2500多种算法,为数十万开发者提供支持。而基于KleidiCV集成,OpenCV发现各种图像处理任务的典型性能提升了高达75%。
总之,Arm Kleidi有助于在使用Arm CPU的各种地方加速机器学习。这一软件库的推出,再次突显了Arm作为端侧生成式AI计算平台的领先地位。
图:安谋科技(Arm China)开发者生态高级经理 李陈鲁
可以预见,在AI时代下,万亿级参数大模型正在不断涌现,多样性算力需求也将逐年增长。凭借上述产品的出色性能表现,以及Arm架构的强大实力和领先能力,下一代AI体验势必将会迎来重大变革。