十多年之后...是时候了!Arm服务器正在扩大阵地
扫描二维码
随时随地手机看文章
凭借着在个人计算机领域的广泛应用打下的坚实基础,X86自始至终统治着整个服务器生态。而这并不是业界希望看到的,因此Arm服务器被给予厚望。业界期盼Arm能够带来新的服务器CPU替代:打破一个同质化的数据中心架构,实现更高效的计算资源分配。
从2011年开始,英伟达、Calxeda、博通、高通、海思等大大小小的处理器创新先锋开始推出服务器级64位Arm CPU,虽然数年来并未在X86的阵地中夺得一隅,但业界从未放弃在这一领域的探索,尤其是云服务厂商。从2018年随着AWS Graviton一代的发布,Arm CPU在云计算中的高能效价值凸显。并且随着Graviton的不断迭代带来的能效跨越式提升,越来越多AWS的客户选择了将其工作负载创建在基于Graviton的实例上。
“为什么超大规模云服务商如亚马逊云服务 (AWS)、阿里巴巴都要做自己的 CPU 设计,而且都选择和 Arm 合作?其实答案非常简单,通过和 Arm 合作,他们能够根据自己的用例和基础设施来打造并优化解决方案。”
从2011年到现如今,经历了十余年的时间。眼下,Arm CPU开始真正的展示出其在服务器领域不可或缺的计算价值和生态意义。英伟达Grace CPU、Fujitsu A64FX和Marvell的ThunderX2等不断涌现,让人觉得眼前一亮。
虽然从Omdia 2022年第二季度统计来看,Arm在服务器CPU份额约为7.1左右,但随着大型数据中心和边缘计算服务器的需求激增,预计将为Arm CPU带来更多新的机遇。
近日在Arm Tech Symposia年度技术大会北京场,我们有幸采访到了Arm高级副总裁兼基础设施事业部总经理Mohamed Awad,他针对Arm在基础设施领域的计算平台进行了精彩的分享。
传统服务器架构:已无法满足AI应用高带宽需求
在传统的服务器架构中,一个通用的现成CPU和一个DRAM在一起,然后连接至多个加速器。这一传统架构一直适用了几十年,但由于无法获得足够的内存,这一架构已经很难满足AI应用所需的数据和计算量。面向新的AI应用需求,数据中心基础设施领域出现了新的现代化系统架构。例如,现在我们可以通过一个定制CPU,在每一个DRAM和加速器之间建立高性能连接,从而在各个设备之间实现内存一致性。
“人工智能 (AI) 正处于快速发展中,目前最大的挑战之一内存带宽以及其能否为设备提供更好的支持。行业需要一个新的系统架构来实现更多的内存带宽和内存一致性。”Mohamed Awad分享到,“不止于此,我们还需要不断发展我们的系统架构,要有足够的灵活性,并让不同的想法蓬勃发展,进而找到实现 AI 的最佳途径。”
在五年前,要构建一个数据中心基础设施,服务商会直接购买通用的预配置好的现成芯片,然后按照CPU供应商提供的固有方式来搭建整个服务器,接着将服务器放倒机架上,通电即可。但现在,阿里巴巴、AWS、微软这样的超大规模云服务商都开始自研芯片,最主要的目的就是为了能够把每一颗芯片的性能、效率都发挥到极致,做到最佳优化,他们会根据自己的用例、工作负载,围绕服务器、机架甚至是自己的数据中心来进行个性化定制。
随着GPTs等技术的发展,数据量和计算量只会越来越大,而芯片的定制化意味着生态伙伴可以通过优化,支持不断激增的数据量和计算量。就像近期 AWS和微软的自研芯片发布中,他们都是同时推出一款新的CPU和一款新的 AI芯片,两者结合从而能最大化效率、性能和价值。
Arm Neoverse能够适应新的AI应用带来的计算和内存带宽需求,为数据中心架构带来变革。例如近日发布的英伟达GH200超级芯片中,其CPU Grace Hopper就采用了72颗Neoverse 核心,加上来自NVIDIA的GPU的组合,实现了AI性能较基于x86架构的系统10倍提升。
从大型云服务商到初创企业,构建开放创新的服务器生态
过去了十多年,为什么直到近年来Arm CPU的服务器才得以站稳脚跟,拿到一些份额?是因为作为直接受益者的大规模云服务器厂商开始真正发力了。他们一方面有着丰富的应用场景和计算需求,另一方面投入了大量的研发资金,从而真正使得Arm服务器得以成行。
但要持续扩大Arm服务器的份额,提高到10%以上,未来甚至增大至15%、20%,绝非易事。这意味着要将X86 CPU主导的服务器生态中的系统堆栈和应用软件都移植过来,而争取到这些软件商就需要硬件生态更加开放繁荣,要让整个生态变得更易加入,更易创新,不能只是大规模云服务商自研自用。Arm深知生态构建的意义,需要降低门槛,乃至初创企业都能够轻松构建基于Arm Neoverse平台的服务器CPU。
Arm几十年来一直专注于计算性能,专注于计算性能与软件的紧密藕合。而计算性能不仅和CPU IP相关,而是包括了多种IP的组合、互连,以及软硬件的协同工作。Arm不仅提供IP,还提供了完整的计算解决方案。在移动计算领域有Arm 全面计算解决方案 (Arm Total Compute Solutions),在物联网领域有Arm Corstone,在汽车领域有SOAFEE,而在基础设施领域则是Arm Neoverse平台。
为了进一步帮助客户加速部署基于Neoverse平台的系统,Arm Neoverse 计算子系统 (CSS) 能够提供完整的子系统,合作伙伴可以直接采用,也可按需选用,从而加速产品的上市进程。近日发布的微软Azure Cobalt 100,就是基于Neoverse CSS打造而来。而Cobalt 100的超乎性能表现,也代表着Neoverse CSS这一子系统的强大潜力。一方面显著意义在于,Neoverse CSS可以帮助所有体量的客户缩短研发时间,另一方面对于小体量客户而言,直接选择Neoverse CSS可以大幅降低他们的研发成本。
“并不是所有的合作伙伴都具备AWS这样成熟的技术能力,一些合作伙伴可能需要我们在技术上给予更多的支持从而推动产品上市。于是我们推出了进一步的举措——Arm Neoverse CSS ,来帮助客户加速部署基于Neoverse平台的系统。”Mohamed Awad分享到,“Neoverse CSS能够提供完整的子系统,合作伙伴可以直接采用,也可按需选用。通过 Neoverse CSS 能够帮助我们的合作伙伴进一步降低投资,加速整个生态系统对我们解决方案的可访问性。”
据某些客户反馈,使用Neoverse CSS,节省了长达80人/年的工程师时间;另外一位客户反馈,使用Neoverse CSS,助力其项目从概念到流片仅耗时13个月。在国内也有诸多知名的客户选择了Neoverse平台来搭建自己在基础设施领域的产品,包括阿里巴巴、云豹智能、遇贤微电子和鸿钧微电子等。
结语
2023年还剩不到一个月的时间,今年Arm服务器的份额能否突破10%还未尝可知,但近期各种高性能定制Arm服务器CPU的出现,以及不断迭代发展的大模型应用,势必会影响到明年的服务器端的市场变化。
Mohamed Awad表示,如今中国合作伙伴基于 Arm 架构芯片的总出货量已累计达300亿颗。假设仅中国市场的出货量来看,就能平均为地球上的每个人出货近四颗芯片。目前Arm在中国有近400家技术授权客户,这个数字每个月都在不断攀升。
而在AI引领的新一轮生产力变革中,中国比任何时候都要迫切,也更需要在这一次获得领先。因此对于Arm Neoverse和新推出的Arm Neoverse CSS而言,中国客户或许会更为关注,我们相信新的服务器生态也更有可能先在中国发展开来。