当前位置:首页 > 原创 > 刘岩轩
[导读]近日燧原科技发布新一代“邃思”AI推理芯片,采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

近日燧原科技发布了其最新的“邃思”AI推理芯片及其推理卡云燧i20,这是其推理产品的最新迭代。新一代“邃思”AI推理芯片采用第二代高性能计算核心和数据引擎,由12nm工艺打造,通过架构升级,大大提高了单位面积的晶体管效率,从而实现了与目前业内7nm GPU相匹敌的计算能力。同时因为采用12nm的成熟工艺,也实现了更优的性价比。

另外一个重要意义在于,第二代推理产品的面市意味着燧原科技已经实现了推理+训练的第二代产品组合的全面迭代,这是AI国产自研架构芯片稳步有序迈进的体现。

在燧原科技“芯怀天地”新品发布会上,燧原科技CEO赵立东和COO张亚林针对推理训练产品及其最新技术进行了精彩的分享。


AI市场新趋势:推理产品比例变高


人工智能分为训练和推理两个主要的任务,训练是指创建机器学习算法的过程,训练的比例和整个数据科学家的生产力直接相关,需要大量的计算资源来部署学习框架和训练数据集。而推理指的是使用经过训练的算法来进行预测,因此跟整个用户和海量的应用直接相关,与用户和用户所持应用的数量乘积成直接正比例的关系。

上图是从2017到2023年AI市场的走势,可以看到推理在整个AI市场中占的比例在逐渐增大,推理的实际应用场景也变得多元化,AI的业务从传统单一的机器视觉、声音、文字、决策、推荐等方向性的算法,逐步变成多场景、多应用的落地,广泛分布在用户日常生活中。结合推理的客户需求场景,这样的计算密集型应用对于性价比的考量也会更为敏感。所以除了GPU之外的其他更具性价比的方案,有望在这部分实现突围。针对这样的趋势,AI芯片公司譬如燧原科技早也在推理产品上进行了投入和布局。

在去年12月,燧原科技就发布了其首款神经网络模型推理引擎“鉴算TopsInference”及其“云燧i10”推理卡。通过鉴算TopsInference的推理加速,配合云燧i10的高算力及虚拟化技术,可以对计算密集型深度学习工作负载提供高性价比的部署方案。到了今年12月刚好一年的时间,燧原科技随即发布了其新一代的“邃思2.5”AI推理芯片及其推理卡云燧i20。这也意味着其推理产品也进入了有序的迭代节奏中,同时也是对于当前AI市场推理产品旺盛需求的及时产品补充。


DTU2.5 :国内首颗TF23推理芯片


“邃思2.5”采用的是专门为云端推理场景而自主研发的计算架构,燧原在这颗芯片上,针对场景落地需求、包括性价比和能效比都有着严苛的设计要求。

据张亚东介绍,“邃思”推理芯片采用具备全AI算力空间的计算架构,具备32位的算力,从FP32一直到INT8,包含中间精度TF32、BF16、FP16五个精度构成了全AI算力空间,满足各种各样推理的客户需求。单精度FP32达到了32 TFLOPS、单精度张量TF32达到了128 TFLOPS;同样具备半精度BF16/FP16的算力,达到128 TFLOPS。在最重要的推理方面,整数精度INT8也有了提升,达到256TOPS。

据悉,这是中国第一颗具备TF32张量单精度的推理芯片,能用16位的算力达到32位的精度,实现4倍于FP32的算力,同时保持99%的整个模型精度一致性。

数据架构方面采用了完全自研的 (Sparse Value Segment ) 数据压缩格式,能够进行独立的分层压缩和硬件自动循环解压,使得所有的数据(特别是稀疏数据)在传输过程带宽和功耗减少。同时支持硬件指令预取的操作,使得指令的预取、数据的传输和计算可以同时进行,进行并行的数据广播,使得同样的数据可以广播到多个处理器上进行并行执行。同时,这种数据压缩格式还具有很强的动态功耗控制,让整个数据传输的动态功耗变得非常的有效。

内存方面是采用两颗HBM2E,单芯片容量为16GB,最大带宽达到819GB/s。封装形式采用了2.5D的封装,整合了5颗芯片进去,尺寸为55mmX55mm。

除了能效比、性价比这些关键因素之外,用户的实际部署易用性也是非常重要的考量。针对当前爆炸式增长的多样化的推理落地场景,燧原科技进一步加强推理软件栈,使其更加泛化易用,满足更多客户日益增长的需求。


超越主流GPU的性价比之选


搭载2.5代DTU的推理加速卡云燧i20,纵向上实现了比前代产品的大幅提升,横向上对比GPU的方案也有更好的性价比。

相比云燧i10,云燧i20的浮点32位的算力从17.6T提升到32T,浮点16位的算力从70.4T提升到了128T,INT8整点8位的算力从70.4T提升到了256T,HBM2升级到HBM2E后相应的带宽也从512GB提升了819GB,连接方式和功耗表现上与前代保持一致。

如下图所示,根据燧原科技提供的和某次旗舰GPU加速卡的对比数据,以该次旗舰GPU的参数为基准,i20的浮点16位的算力是其2倍,INT8的算力是2倍,内存带宽是2.65倍。

据张亚东介绍,在DTU2.5设计最初,燧原就定了其性能目标——至少达到主流GPU次旗舰的2.5倍以上,最高达到3.5倍。在这样的设计目标驱动下,搭载DTU2.5出来i20的实际效果也确实是精准地完成了这一目标。

在实时性方面,DTU相比GPU也有非常出色的表现,根据燧原科技展示的一个实时语意分析的对比demo展示,DTU的实时性能(吞吐量)是GPU的2.5倍以上,而实时的延时DTU却只有GPU的一半不到。在这种典型的NLP——bert应用中,DTU展现了至少2.5倍于GPU的性能。


“训推一体化”产品组合升级到第二代


此次全新二代云端推理产品的推出,使得燧原构建了T20+i20的第二代训推产品组合。但仅仅有产品是不够的,燧原科技还同步将训推一体化的系统进行了增强,使得用户可以方便使用T20和i20,完成训练加推理一体化的部署。

据张亚东介绍,在TopsRider软件系统里,从高层的图优化到中间的算子库再到中间的编程模型,最后到底层的Runtime,四个阶段中分别都实现了整个训练和推理引擎的统一,使得用一套结构可以支持所有训练和推理软件栈。这样统一的表达、统一的训练推理的算子编程模型、统一的Runtime,让T20+i20在训练和推理栈上进行了很好的深度融合和充分泛化,也使得开发者在运用训练和推理一体化的时候更加的高效、更加的精密和更加的兼容。

从“邃思”2.5和云燧i20推理卡的发布之后,燧原科技已经完成了二代产品的布局,未来的i30和T30/T31的产品也已经在研发过程中。

总结

燧原科技通过自研架构DPU,实现了比GPU更具性价比的AI推训方案。“做大芯片、拼硬科技”是其一直奉行的理念,“每代产品比前代实现3倍能效提升、2倍性价比提升、软件向后兼容”是其产品更新的目标。此次“邃思”2.5和云燧i20推理卡的发布,标志着其推训一体的产品布局已经夯实,随着AI市场的继续发展,未来第三代产品相信也会如期而至。

声明:该篇文章为本站原创,未经授权不予转载,侵权必究。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭