在效率、功耗和算力成本上实现对于X86和Arm的全面超越｜进迭时空于上海滴水湖论坛展示全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1

时间：2024-08-19 14:56:30

关键字： X86 ARM RISC-V AI CPU 进迭时空

手机看文章

扫描二维码
随时随地手机看文章

[导读]作为一种开源的指令集架构，RISC-V凭借其灵活性、可扩展性以及低功耗特性，正在逐渐成为AI领域的重要竞争者。其独特的模块化设计允许开发者根据特定需求进行指令集的扩展，这使得RISC-V在AI计算中能够实现更高效的处理能力，并且能够更好地适应不同的AI应用场景。

作为一种开源的指令集架构，RISC-V凭借其灵活性、可扩展性以及低功耗特性，正在逐渐成为AI领域的重要竞争者。其独特的模块化设计允许开发者根据特定需求进行指令集的扩展，这使得RISC-V在AI计算中能够实现更高效的处理能力，并且能够更好地适应不同的AI应用场景。

目前，RISC-V在高性能AI CPU开发方面已经取得了显著进展，多个基于RISC-V的处理器已经问世，并在性能上与传统的ARM和x86架构处理器展开了竞争。进迭时空一直以RISC-V开源指令集为基础，致力打造更高能效、更通用的AI处理器平台，推动全球开源、开放的算力生态建设。

在第四届滴水湖论坛上，进迭时空展示了其于今年4月份最新发布的全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1，以及其中的AI智算核心——X60。

全球首款8核RISC-V AI CPU——SpacemiT Key Stone K1

据进迭时空品牌营销及公关总监段佳惠介绍，SpacemiT Key Stone™ K1芯片采用自主研发的RISC-V智算核X60™，并支持RVA22 Profile。该芯片配备了8核同构X60™，频率最高可达2.0GHz，CPU算力超过50 KDMIPS，AI算力则可达到2TOPS@INT8。其单核算力领先ARM Cortex-A55 30%以上，并且接入了全球主流CPU推理生态，支持所有AI模型部署。该芯片最大支持16GB LPDDR4X内存，典型功耗为3.5W。

下图是CPU核融合AI算力的两种架构模式的对比。左侧是传统的ARM架构中心控制模式，在这种模式下，ARM核与NPU核通过互连通信，负责协调GPU核以及其他外设（如DDR、PCIE、I/O等）的工作。右侧展示了RISC-V架构的创新模式，在这种模式下，AI RISC-V CPU核直接提供AI算力，并与GPU核、DDR、PCIE、I/O等模块相连。进迭时空没有采用ARM的CPU+NPU的组合方式，而是通过拓展CPU指令集来实现的。该模式下，CPU核以一种统一的形式提供AI算力，且更好地融入了主流的CPU推理生态。这种创新模式相比传统模式，能够更有效地整合AI计算能力，提高整体系统的性能与效率。而SpacemiT Key Stone K1正是通过这种方式，实现了在应用效率、算力功耗和算力成本三个方向上、相比X86和Arm同类芯片的大幅领先。

下图展示了K1芯片与ARM芯片和x86芯片在应用效率、算力功耗和算力成本三个维度上的对比。K1芯片在这三个维度上都表现出明显的优势。在应用效率方面，K1芯片的效率最高，超过了6 Slam/MHz，相比之下，ARM芯片的效率略低，在5到6之间，而x86芯片的效率则在4到5之间。在算力功耗方面，K1芯片的功耗最低，典型功耗为3.5W，最低可降至2.8W/100KDMIPS，而ARM芯片的功耗稍高，介于5到6之间，x86芯片的功耗最高，超过了7 W/100KDMIPS。在算力成本上，K1芯片的成本最低，约为20到30/100KDMIPS。总体来看，K1芯片在应用效率、功耗和成本上都优于ARM芯片和x86芯片。

全球首款支持256bit RVV1.0的RISC-V处理器——X60 AI智算核

作为K1的智算核心，X60采用22nm工艺，最高主频可达2.0GHz，算力能够达到2TOPS，具备纯粹的CPU算力。单核性能较ARM Cortex-A55高出约1.3倍。进迭时空基于IT核打造了全栈资源，能够接入全球主流的CPU推理生态，支持所有AI模型的本地化部署，这一点尤为难得。

进迭时空的X60是全球首款支持256bit的RISC-V处理器，具备双发射的向量加载/存储功能。在相同的微架构下，X60的整体性能显著优于ARM Cortex-A55。芯片的核心性能指标主要集中在三个方面：存储性能、运算性能和浮点性能。就存储性能而言，通过选取一些典型场景和应用，X60的整体表现优于ARM Cortex-A55。在运算性能方面，进迭时空同样表现出色，例如在图片压缩及图像处理方面，表现优异。在向量计算方向，进迭时空基于OpenCV和SLAM进行了优化，性能大幅领先于ARM Cortex-A55芯片。在浮点性能方面，X60的性能高出A55约60%。在功耗对比上，X60相比同款八核ARM主流芯片功耗降低了28%。进迭时空在RISC-V标准指令下获得了这些优异指标，并未进行额外的修改，这得益于编译器软件的极致优化。此外，进迭时空还拓展了16条AI指令，并已在4月份的发布会上开源。进迭时空期待未来有更多的RISC-V相关CPU企业能够携手，共同推进从CPU层面解决AI问题。

基于上述指令集优化，X60可以快速接入全球主流的AI推理生态。在硬件层面，无论是NPU还是x86平台，都能很好地解决AI部署问题。在本次滴水湖论坛上，进迭时空展示了推出的生态产品，能够在本地以两套算力快速部署许多基于大模型生成的应用，实现高效的本地化部署。几乎所有的大型AI模型，如LLaMA2和图像处理软件，都可以实现本地化部署，并且不需要与NPU进行特定的调试或配置。

据了解，进迭时空的通用算力和向量计算性能较ARM同系列产品有显著优势。目前，K1芯片主要应用于SBC、NAS、笔记本电脑、智能机器人、工业控制和边缘计算等领域。而为了帮助开发者加快在K1系列上快速完成产品研发，进迭时空也配套推出了完备的开发套件、包含软硬件的开发平台等资源。段佳惠表示，进迭时空推出的MUSE系列产品旨在面向所有开发者，共建完整生态，让开发者更便捷地使用AI算力。因此，进迭时空推出了从SOM到服务器的完整生态产品系列，这些产品已在进迭时空官方淘宝店批量发货。