国产云端AI芯片落脚的难点与机会
扫描二维码
随时随地手机看文章
数据中心在数字化、信息化推动社会和产业发生了巨大变革的过程中充当了重要的角色,随着人工智能在各行业的渗透,以及庞大应用场景使AI模式越加复杂,而其中数据中心的计算能力需要更高的要求与发展,而算力的核心就是芯片。
正是基于这个原因,近年来全球涌现出不少致力于AI芯片开发的企业,燧原科技就是其中之一。在成立之初,公司就瞄准了云端训练芯片市场缺口,并提出了“做大芯片,拼硬科技”的目标。
在这种愿景的驱动下,从2018年3月成立至今的短短2年半时间内,燧原科技就陆续发布了云端AI训练芯片“邃思DTU”、搭载该芯片的AI加速卡“云燧T10”以及基于OCP加速模组OAM的“云燧T11”。2020年9月,燧原科技再次迎来了里程碑式的突破——其第一代人工智能训练加速卡云燧T10和由其组成的多卡分布式训练集群已在云数据中心落地,正式进入商用阶段。
近日,燧原科技携“云燧T10/T11” 首次亮相第三届全球IC企业家大会暨第十八届中国国际半导体博览会(IC China 2020),在本次大会期间,燧原科技的负责人和相关专家为我们介绍了AI芯片实现商用的过程中存在着诸多挑战,以及燧原科技作为一家初创企业又是怎样完成了云端AI大芯片的迅速商用化落地。
一、AI大芯片落地的难点
众所周知,新场景对算力的需求,使得AI芯片在设计、制造和封测等方面进行了升级,由此也促生了很多新技术,这不仅为大量初创企业带来了发展机会,也同样为他们带来了诸多的挑战。以芯片设计为例,设计企业需要在架构、IP、SoC等方面进行创新。而芯片越大,则意味着整个芯片设计难度也会呈指数级上升,这为设计企业带来了难题。除此之外,AI芯片要处理大量的数据,所以这类芯片对性能的要求就导致了它对先进工艺和先进封装方面也具有较高的要求。
而在解决了在这三个环节中的问题后,也仅仅是企业成功推出了相关产品,离实现商业化落地还存在着一段距离。
“量产是AI大芯片实现商用要翻越的一座大山”,燧原科技创始人兼COO张亚林表示:“在推出产品到实现量产的过程中,需要解决产品质量、性能功耗以及良率这三大核心问题。”
为了保证产品质量,燧原科技通过用验证方法学和验证覆盖率来确保芯片设计质量和制造质量。在性能功耗优化方面,则通过软硬件联合性能以实现端到端的性能调优,这包括三个部分,即进行芯片性能极限测试、硬件性能调优以及软件性能优化。在良率方面,存在着晶圆测试(CP)良率挑战、2.5D封装良率挑战以及分级良率挑战。对此,燧原科技选择了与产业链上下游伙伴共同合作来提高产品良率。
除了在技术层面上存在产业化应用的挑战外,与之相匹配的软件生态系统也是AI大芯片难以落地的另一重要因素。
为此燧原科技推出了计算及编程平台“驭算”。据介绍,该平台支持主流深度学习框架,并针对邃思芯片进行了特定优化。整个平台不仅包括传统的算子加速库,还为数据中心大规模训练集群提供高效灵活的调度机制。
(驭算软件架构)
二、大芯片背后的硬科技
实现量产是商业化过程中重要的一环,量产后走向市场并受到市场的青睐则是更重要的环节,而这就需要依靠产品的硬实力。
通过相关技术降低芯片成本,也是云端AI训练芯片硬实力的一种体现。其中,芯片架构的创新是实现算力普惠的一个重要因素。
借本次全球IC企业家大会的机会,燧原科技创始人兼首席执行官赵立东发布了燧原科技的芯片架构——“GCU-CARA”(通用计算单元和全域计算架构)。据赵立东介绍,该架构具有完全可编程、全模式计算、全精度计算和高并行度的特点。
据现场燧原科技专家介绍,GCU-CARA具有256个张量计算单元,每个计算单元支持1个32 bit MAC,支持所有精度输入以及混合精度运算。GCU-CARA拥有广泛的标量、向量、张量计算形式以及各种精度格式的支持,可以提供极其灵活的编程方式和张量切分/复用方式,从而支持最广泛的编程需求。
据悉,燧原科技GCU架构还包括GCU-CARE(计算引擎)、GCU-DARE(数据架构)、GCU-LARE(智能互联)、GCU-PARE(先进封装)四大核心技术,旨在为人工智能产业注入了新动能。
目前,燧原GCU已应用到云燧T10,T11产品以及数据中心AI训练系统和集群中。而今年云燧T10和由其组成的多卡分布式训练集群正式进入商用阶段,也从另一方面说明了燧原科技的硬实力受到了市场的认可。
三、燧原科技开启2.0时代
在云燧T10实现商用化落地的前四个月,燧原科技还获得了新一轮的融资,借助这轮融资,燧原科技得以从1.0跨越到了2.0时代。
张亚林表示:“在1.0时代,燧原科技实现了从0到1的目标,在这个阶段公司的工作重心是放在建设中国顶尖的工程化团队,完成产品研发和量产、实现产品热启动,并完成首个人工智能训练解决方案的商业化落地。”
已经实现商用的云燧T10和由其组成的多卡分布式训练集群是燧原科技完成1.0阶段任务的代表作之一。从上文AI大芯片的商用落地难处便可看出,仅靠一块芯片或是一种产品难以支撑云端服务器的使用。从目前市场情况来看,由AI芯片所组成的分布式集群在云端服务器发展的过程中起到了重要作用,针对这种商业诉求,燧原科技所推出的多卡分布式训练集群,就能够为普惠云端训练的实现提供助力。
“多卡分布式集群的建成并不是一件简单的事”,张亚林表示:“在这个过程中,燧原科技需要解决多卡之间连接问题,还需要考虑每个板卡的工作分配,使之在尽可能小的功耗下发挥出最高的性能。”
(云燧T10商用化案例展示)
人工智能训练平台的商业化落地不仅为燧原1.0画上了完美的通关句号,还为燧原科技打开了通往2.0时代的大门。
“2.0时代,燧原科技将进行从1到N的发展”,据张亚林介绍:“在2.0时代,燧原科技会专注于建立市场销售和服务支持体系,迅速拓展业务。同时,公司还将加强国内外学术端的合作,引进高端人才,构建产业生态。”
在产品规划方面,作为一个务实的企业,实现商业化落地是燧原科技所追求的目标之一。以此为基础,燧原科技在进行芯片设计之初就瞄准了市场痛点,大大加速了产品的商业化进程。
张亚林表示:“未来,燧原科技也将以应用为导向,进行产品的拓展。在2.0时代,燧原科技还会持续产品的研发和迭代,构建云端训练和推理平台完整解决方案。为了实现这一目标,燧原科技将会在明年推出推理AI芯片。”
根据燧原科技的计划来看,公司将用3年时间来构建燧原科技2.0时代。
燧原科技之所以能够在短时间内得到如此迅速的发展,是因为云端AI训练芯片还处于起步阶段,算法和架构方面还有很大的上升空间。从云端训练芯片巨头英伟达的发展中看,2019年其数据中心业务营收达到30亿美元,AI训练卡则贡献了其中的20亿美元和最大利润。
而英伟达几乎垄断了云端AI训练芯片市场,一家独大的市场情况就导致了AI云端训练的成本很高。而燧原科技瞄准这块市场,就是期望能够提供可替代的解决方案来推动普惠算力的实现。
据张亚林介绍,燧原科技瞄准的是云端计算芯片的存量和增量两大市场。存量市场指的是目前已有的,并可进行方案替代的市场,例如云服务商等领域。增量市场则是未来通过技术迭代并进行方案替代的市场。
他表示:“在国外厂商已经构建了强大的优势之下,其他厂商要想进入这个市场首先就要适应已有的生态系统,通过提供可替代的解决方案是打入这个市场方法之一。这也是为未来突破国外厂商垄断所奠定的基础。”
从国内云端AI芯片竞争格局来看,由于现阶段国内致力于发展云端AI芯片的企业并不多,且在市场前景巨大的情况下,抢先争取相关人才和发展生态合作伙伴就成为了驱动企业未来发展的重要引擎之一。而这也是上文所提到的,燧原科技要在2.0时代大力发展的部分之一。
因此,燧原科技正在积极与全产业链的伙伴达成合作,联合伙伴孵化行业解决方案,深度参与AI产业联盟;积极建立生态,联合建立高校联合实验室;并开放底层能力,赋能定制开发,深度参与社区,贡献测评标准。
在算力即是生产力的今天,业界对普惠算力的需求日益高涨。在这种市场需求之下,在云端训练芯片这片蓝海当中,既是挑战又是机会,而燧原科技的成长也为国内云端AI芯片的商业化发展提供了选择。