国产自研推理芯片完成迭代,燧原科技发布“邃思”2.5和云燧i20推理卡
扫描二维码
随时随地手机看文章
近日燧原科技发布了其最新的“邃思”AI推理芯片及其推理卡云燧i20,这是其推理产品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。
另外一个重要意义在于,第二代推理产品的面市意味着燧原科技已经实现了推理+训练的第二代产品组合的全面迭代,这是AI国产自研架构芯片稳步有序迈进的体现。
在燧原科技“芯怀天地”新品发布会上,燧原科技CEO赵立东和COO张亚林针对推理训练产品及其最新技术进行了精彩的分享。
人工智能分为训练和推理两个主要的任务,训练是指创建机器学习算法的过程,训练的比例和整个数据科学家的生产力直接相关,需要大量的计算资源来部署学习框架和训练数据集。而推理指的是使用经过训练的算法来进行预测,因此跟整个用户和海量的应用直接相关,与用户和用户所持应用的数量乘积成直接正比例的关系。
上图是从2017到2023年AI市场的走势,可以看到推理在整个AI市场中占的比例在逐渐增大,推理的实际应用场景也变得多元化,AI的业务从传统单一的机器视觉、声音、文字、决策、推荐等方向性的算法,逐步变成多场景、多应用的落地,广泛分布在用户日常生活中。结合推理的客户需求场景,这样的计算密集型应用对于性价比的考量也会更为敏感。所以除了GPU之外的其他更具性价比的方案,有望在这部分实现突围。针对这样的趋势,AI芯片公司譬如燧原科技早也在推理产品上进行了投入和布局。
在去年12月,燧原科技就发布了其首款神经网络模型推理引擎“鉴算TopsInference”及其“云燧i10”推理卡。通过鉴算TopsInference的推理加速,配合云燧i10的高算力及虚拟化技术,可以对计算密集型深度学习工作负载提供高性价比的部署方案。到了今年12月刚好一年的时间,燧原科技随即发布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。这也意味着其推理产品也进入了有序的迭代节奏中,同时也是对于当前AI市场推理产品旺盛需求的及时产品补充。
“邃思2.5”采用的是专门为云端推理场景而自主研发的计算架构,燧原在这颗芯片上,针对场景落地需求、包括性价比和能效比都有着严苛的设计要求。
据张亚东介绍,“邃思”推理芯片采用具备全AI算力空间的计算架构,具备32位的算力,从FP32一直到INT8,包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间,满足各种各样推理的客户需求。单精度FP32达到了32 TFLOPS、单精度张量TF32达到了128 TFLOPS;同样具备半精度BF16/FP16的算力,达到128 TFLOPS。在最重要的推理方面,整数精度INT8也有了提升,达到256TOPS。
据悉,这是中国第一颗具备TF32张量单精度的推理芯片,能用16位的算力达到32位的精度,实现4倍于FP32的算力,同时保持99%的整个模型精度一致性。
数据架构方面采用了完全自研的 (Sparse Value Segment ) 数据压缩格式,能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据(特别是稀疏数据)在传输过程带宽和功耗减少。同时支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行,进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,这种数据压缩格式还具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。
内存方面是采用两颗HBM2E,单芯片容量为16GB,最大带宽达到819GB/s。封装形式采用了2.5D的封装,整合了5颗芯片进去,尺寸为55mmX55mm。
除了能效比、性价比这些关键因素之外,用户的实际部署易用性也是非常重要的考量。针对当前爆炸式增长的多样化的推理落地场景,燧原科技进一步加强推理软件栈,使其更加泛化易用,满足更多客户日益增长的需求。
搭载2.5代DTU的推理加速卡云燧i20,纵向上实现了比前代产品的大幅提升,横向上对比GPU的方案也有更好的性价比。
相比云燧i10,云燧i20的浮点32位的算力从17.6T提升到32T,浮点16位的算力从70.4T提升到了128T,INT8整点8位的算力从70.4T提升到了256T,HBM2升级到HBM2E后相应的带宽也从512GB提升了819GB,连接方式和功耗表现上与前代保持一致。
如下图所示,根据燧原科技提供的和某次旗舰GPU加速卡的对比数据,以该次旗舰GPU的参数为基准,i20的浮点16位的算力是其2倍,INT8的算力是2倍,内存带宽是2.65倍。
据张亚东介绍,在DTU2.5设计最初,燧原就定了其性能目标——至少达到主流GPU次旗舰的2.5倍以上,最高达到3.5倍。在这样的设计目标驱动下,搭载DTU2.5出来i20的实际效果也确实是精准地完成了这一目标。
在实时性方面,DTU相比GPU也有非常出色的表现,根据燧原科技展示的一个实时语意分析的对比demo展示,DTU的实时性能(吞吐量)是GPU的2.5倍以上,而实时的延时DTU却只有GPU的一半不到。在这种典型的NLP——bert应用中,DTU展现了至少2.5倍于GPU的性能。
此次全新二代云端推理产品的推出,使得燧原构建了T20+i20的第二代训推产品组合。但仅仅有产品是不够的,燧原科技还同步将训推一体化的系统进行了增强,使得用户可以方便使用T20和i20,完成训练加推理一体化的部署。
据张亚东介绍,在TopsRider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的Runtime,四个阶段中分别都实现了整个训练和推理引擎的统一,使得用一套结构可以支持所有训练和推理软件栈。这样统一的表达、统一的训练推理的算子编程模型、统一的Runtime,让T20+i20在训练和推理栈上进行了很好的深度融合和充分泛化,也使得开发者在运用训练和推理一体化的时候更加的高效、更加的精密和更加的兼容。
从“邃思”2.5和云燧i20推理卡的发布之后,燧原科技已经完成了二代产品的布局,未来的i30和T30/T31的产品也已经在研发过程中。
总结
燧原科技通过自研架构DPU,实现了比GPU更具性价比的AI推训方案。“做大芯片、拼硬科技”是其一直奉行的理念,“每代产品比前代实现3倍能效提升、2倍性价比提升、软件向后兼容”是其产品更新的目标。此次“邃思”2.5和云燧i20推理卡的发布,标志着其推训一体的产品布局已经夯实,随着AI市场的继续发展,未来第三代产品相信也会如期而至。