在效率、功耗和算力成本上实现对于X86和Arm的全面超越|进迭时空于上海滴水湖论坛展示全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1
扫描二维码
随时随地手机看文章
作为一种开源的指令集架构,RISC-V凭借其灵活性、可扩展性以及低功耗特性,正在逐渐成为AI领域的重要竞争者。其独特的模块化设计允许开发者根据特定需求进行指令集的扩展,这使得RISC-V在AI计算中能够实现更高效的处理能力,并且能够更好地适应不同的AI应用场景。
目前,RISC-V在高性能AI CPU开发方面已经取得了显著进展,多个基于RISC-V的处理器已经问世,并在性能上与传统的ARM和x86架构处理器展开了竞争。进迭时空一直以RISC-V开源指令集为基础,致力打造更高能效、更通用的AI处理器平台,推动全球开源、开放的算力生态建设。
在第四届滴水湖论坛上,进迭时空展示了其于今年4月份最新发布的全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1,以及其中的AI智算核心——X60。
全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1
据进迭时空品牌营销及公关总监段佳惠介绍,SpacemiT Key Stone™ K1芯片采用自主研发的RISC-V智算核X60™,并支持RVA22 Profile。该芯片配备了8核同构X60™,频率最高可达2.0GHz,CPU算力超过50 KDMIPS,AI算力则可达到2TOPS@INT8。其单核算力领先ARM Cortex-A55 30%以上,并且接入了全球主流CPU推理生态,支持所有AI模型部署。该芯片最大支持16GB LPDDR4X内存,典型功耗为3.5W。
下图是CPU核融合AI算力的两种架构模式的对比。左侧是传统的ARM架构中心控制模式,在这种模式下,ARM核与NPU核通过互连通信,负责协调GPU核以及其他外设(如DDR、PCIE、I/O等)的工作。右侧展示了RISC-V架构的创新模式,在这种模式下,AI RISC-V CPU核直接提供AI算力,并与GPU核、DDR、PCIE、I/O等模块相连。进迭时空没有采用ARM的CPU+NPU的组合方式,而是通过拓展CPU指令集来实现的。该模式下,CPU核以一种统一的形式提供AI算力,且更好地融入了主流的CPU推理生态。这种创新模式相比传统模式,能够更有效地整合AI计算能力,提高整体系统的性能与效率。而SpacemiT Key Stone K1正是通过这种方式,实现了在应用效率、算力功耗和算力成本三个方向上、相比X86和Arm同类芯片的大幅领先。
下图展示了K1芯片与ARM芯片和x86芯片在应用效率、算力功耗和算力成本三个维度上的对比。K1芯片在这三个维度上都表现出明显的优势。在应用效率方面,K1芯片的效率最高,超过了6 Slam/MHz,相比之下,ARM芯片的效率略低,在5到6之间,而x86芯片的效率则在4到5之间。在算力功耗方面,K1芯片的功耗最低,典型功耗为3.5W,最低可降至2.8W/100KDMIPS,而ARM芯片的功耗稍高,介于5到6之间,x86芯片的功耗最高,超过了7 W/100KDMIPS。在算力成本上,K1芯片的成本最低,约为20到30/100KDMIPS。总体来看,K1芯片在应用效率、功耗和成本上都优于ARM芯片和x86芯片。
全球首款支持256bit RVV1.0的RISC-V处理器——X60 AI智算核
作为K1的智算核心,X60采用22nm工艺,最高主频可达2.0GHz,算力能够达到2TOPS,具备纯粹的CPU算力。单核性能较ARM Cortex-A55高出约1.3倍。进迭时空基于IT核打造了全栈资源,能够接入全球主流的CPU推理生态,支持所有AI模型的本地化部署,这一点尤为难得。
进迭时空的X60是全球首款支持256bit的RISC-V处理器,具备双发射的向量加载/存储功能。在相同的微架构下,X60的整体性能显著优于ARM Cortex-A55。芯片的核心性能指标主要集中在三个方面:存储性能、运算性能和浮点性能。就存储性能而言,通过选取一些典型场景和应用,X60的整体表现优于ARM Cortex-A55。在运算性能方面,进迭时空同样表现出色,例如在图片压缩及图像处理方面,表现优异。在向量计算方向,进迭时空基于OpenCV和SLAM进行了优化,性能大幅领先于ARM Cortex-A55芯片。在浮点性能方面,X60的性能高出A55约60%。在功耗对比上,X60相比同款八核ARM主流芯片功耗降低了28%。进迭时空在RISC-V标准指令下获得了这些优异指标,并未进行额外的修改,这得益于编译器软件的极致优化。此外,进迭时空还拓展了16条AI指令,并已在4月份的发布会上开源。进迭时空期待未来有更多的RISC-V相关CPU企业能够携手,共同推进从CPU层面解决AI问题。
基于上述指令集优化,X60可以快速接入全球主流的AI推理生态。在硬件层面,无论是NPU还是x86平台,都能很好地解决AI部署问题。在本次滴水湖论坛上,进迭时空展示了推出的生态产品,能够在本地以两套算力快速部署许多基于大模型生成的应用,实现高效的本地化部署。几乎所有的大型AI模型,如LLaMA2和图像处理软件,都可以实现本地化部署,并且不需要与NPU进行特定的调试或配置。
--
据了解,进迭时空的通用算力和向量计算性能较ARM同系列产品有显著优势。目前,K1芯片主要应用于SBC、NAS、笔记本电脑、智能机器人、工业控制和边缘计算等领域。而为了帮助开发者加快在K1系列上快速完成产品研发,进迭时空也配套推出了完备的开发套件、包含软硬件的开发平台等资源。段佳惠表示,进迭时空推出的MUSE系列产品旨在面向所有开发者,共建完整生态,让开发者更便捷地使用AI算力。因此,进迭时空推出了从SOM到服务器的完整生态产品系列,这些产品已在进迭时空官方淘宝店批量发货。