原创

国产自研推理芯片完成迭代，燧原科技发布“邃思”2.5和云燧i20推理卡

时间：2021-12-17 17:07:15

关键字：燧原科技人工智能 DTU GPU

手机看文章

扫描二维码
随时随地手机看文章

[导读]近日燧原科技发布新一代“邃思”AI推理芯片，采用第二代高性能计算核心和数据引擎，由12nm工艺打造，通过架构升级，大大提高了单位面积的晶体管效率，从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺，也实现了更优的性价比。

近日燧原科技发布了其最新的“邃思”AI推理芯片及其推理卡云燧i20，这是其推理产品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能计算核心和数据引擎，由12nm工艺打造，通过架构升级，大大提高了单位面积的晶体管效率，从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺，也实现了更优的性价比。

另外一个重要意义在于，第二代推理产品的面市意味着燧原科技已经实现了推理+训练的第二代产品组合的全面迭代，这是AI国产自研架构芯片稳步有序迈进的体现。

在燧原科技“芯怀天地”新品发布会上，燧原科技CEO赵立东和COO张亚林针对推理训练产品及其最新技术进行了精彩的分享。

AI市场新趋势：推理产品比例变高

人工智能分为训练和推理两个主要的任务，训练是指创建机器学习算法的过程，训练的比例和整个数据科学家的生产力直接相关，需要大量的计算资源来部署学习框架和训练数据集。而推理指的是使用经过训练的算法来进行预测，因此跟整个用户和海量的应用直接相关，与用户和用户所持应用的数量乘积成直接正比例的关系。

上图是从2017到2023年AI市场的走势，可以看到推理在整个AI市场中占的比例在逐渐增大，推理的实际应用场景也变得多元化，AI的业务从传统单一的机器视觉、声音、文字、决策、推荐等方向性的算法，逐步变成多场景、多应用的落地，广泛分布在用户日常生活中。结合推理的客户需求场景，这样的计算密集型应用对于性价比的考量也会更为敏感。所以除了GPU之外的其他更具性价比的方案，有望在这部分实现突围。针对这样的趋势，AI芯片公司譬如燧原科技早也在推理产品上进行了投入和布局。

在去年12月，燧原科技就发布了其首款神经网络模型推理引擎“鉴算TopsInference”及其“云燧i10”推理卡。通过鉴算TopsInference的推理加速，配合云燧i10的高算力及虚拟化技术，可以对计算密集型深度学习工作负载提供高性价比的部署方案。到了今年12月刚好一年的时间，燧原科技随即发布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。这也意味着其推理产品也进入了有序的迭代节奏中，同时也是对于当前AI市场推理产品旺盛需求的及时产品补充。

DTU2.5 ：国内首颗TF23推理芯片

“邃思2.5”采用的是专门为云端推理场景而自主研发的计算架构，燧原在这颗芯片上，针对场景落地需求、包括性价比和能效比都有着严苛的设计要求。

据张亚东介绍，“邃思”推理芯片采用具备全AI算力空间的计算架构，具备32位的算力，从FP32一直到INT8，包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间，满足各种各样推理的客户需求。单精度FP32达到了32 TFLOPS、单精度张量TF32达到了128 TFLOPS；同样具备半精度BF16/FP16的算力，达到128 TFLOPS。在最重要的推理方面，整数精度INT8也有了提升，达到256TOPS。

据悉，这是中国第一颗具备TF32张量单精度的推理芯片，能用16位的算力达到32位的精度，实现4倍于FP32的算力，同时保持99%的整个模型精度一致性。

数据架构方面采用了完全自研的 (Sparse Value Segment ) 数据压缩格式，能够进行独立的分层压缩和硬件自动循环解压，使得所有的数据（特别是稀疏数据）在传输过程带宽和功耗减少。同时支持硬件指令预取的操作，使得指令的预取、数据的传输和计算可以同时进行，进行并行的数据广播，使得同样的数据可以广播到多个处理器上进行并行执行。同时，这种数据压缩格式还具有很强的动态功耗控制，让整个数据传输的动态功耗变得非常的有效。

内存方面是采用两颗HBM2E，单芯片容量为16GB，最大带宽达到819GB/s。封装形式采用了2.5D的封装，整合了5颗芯片进去，尺寸为55mmX55mm。

除了能效比、性价比这些关键因素之外，用户的实际部署易用性也是非常重要的考量。针对当前爆炸式增长的多样化的推理落地场景，燧原科技进一步加强推理软件栈，使其更加泛化易用，满足更多客户日益增长的需求。

超越主流GPU的性价比之选

搭载2.5代DTU的推理加速卡云燧i20，纵向上实现了比前代产品的大幅提升，横向上对比GPU的方案也有更好的性价比。

相比云燧i10，云燧i20的浮点32位的算力从17.6T提升到32T，浮点16位的算力从70.4T提升到了128T，INT8整点8位的算力从70.4T提升到了256T，HBM2升级到HBM2E后相应的带宽也从512GB提升了819GB，连接方式和功耗表现上与前代保持一致。

如下图所示，根据燧原科技提供的和某次旗舰GPU加速卡的对比数据，以该次旗舰GPU的参数为基准，i20的浮点16位的算力是其2倍，INT8的算力是2倍，内存带宽是2.65倍。

据张亚东介绍，在DTU2.5设计最初，燧原就定了其性能目标——至少达到主流GPU次旗舰的2.5倍以上，最高达到3.5倍。在这样的设计目标驱动下，搭载DTU2.5出来i20的实际效果也确实是精准地完成了这一目标。

在实时性方面，DTU相比GPU也有非常出色的表现，根据燧原科技展示的一个实时语意分析的对比demo展示，DTU的实时性能（吞吐量）是GPU的2.5倍以上，而实时的延时DTU却只有GPU的一半不到。在这种典型的NLP——bert应用中，DTU展现了至少2.5倍于GPU的性能。

“训推一体化”产品组合升级到第二代

此次全新二代云端推理产品的推出，使得燧原构建了T20+i20的第二代训推产品组合。但仅仅有产品是不够的，燧原科技还同步将训推一体化的系统进行了增强，使得用户可以方便使用T20和i20，完成训练加推理一体化的部署。

据张亚东介绍，在TopsRider软件系统里，从高层的图优化到中间的算子库再到中间的编程模型，最后到底层的Runtime，四个阶段中分别都实现了整个训练和推理引擎的统一，使得用一套结构可以支持所有训练和推理软件栈。这样统一的表达、统一的训练推理的算子编程模型、统一的Runtime，让T20+i20在训练和推理栈上进行了很好的深度融合和充分泛化，也使得开发者在运用训练和推理一体化的时候更加的高效、更加的精密和更加的兼容。

从“邃思”2.5和云燧i20推理卡的发布之后，燧原科技已经完成了二代产品的布局，未来的i30和T30/T31的产品也已经在研发过程中。

总结

燧原科技通过自研架构DPU，实现了比GPU更具性价比的AI推训方案。“做大芯片、拼硬科技”是其一直奉行的理念，“每代产品比前代实现3倍能效提升、2倍性价比提升、软件向后兼容”是其产品更新的目标。此次“邃思”2.5和云燧i20推理卡的发布，标志着其推训一体的产品布局已经夯实，随着AI市场的继续发展，未来第三代产品相信也会如期而至。