数据中心:英伟达的下一个战场
扫描二维码
随时随地手机看文章
如果你仅仅因为AMD准备明年推出“Navi”GPU,以及英特尔也在开发明年交付的Xe GPU,就期待英伟达很快就会开始谈论它未来用于特斯拉加速计算的“Einstein”GPU,那么你可能得再等一段时间了。英伟达仍有资金推出基于“Turing”和“Volta”架构的特斯拉T4和V100加速器。
人们正在对英伟达、AMD和英特尔之间的加速计算之争做出预期,不久之后,英伟达的联合创始人兼首席执行官黄仁勋就会拿出GPU路线图,展示英伟达未来的工作方向。我们预计这大约会发生在明年春天的GPU技术会议期间,届时AMD和英特尔也将大谈他们的GPU计算。
现在每个人都热切渴望。这是因为新技术加速了新市场的发展。过去10年,英伟达的新一代特斯拉GPU加速器的快速节奏让IT行业的高性能计算和人工智能领域习惯了每隔几年就会看到新的计算引擎。在加速计算的早期,英伟达对其雄心勃勃的GPU路线图非常开放,但随着它在数据中心的地位越来越稳固,它对未来的计划也变得更加守口如瓶。随着在其选择的参与领域占据主导地位,并拥有当前的产品,这种保守很自然。从过去两年的AI基准测试中可以明显看出,在T4和V100 GPU上运行的软件堆栈的改进可以获得很多性能,此处会有大部分容易摘到的果实;与此同时,英伟达需要实际开始谈论Einstein GPU,除了前进到台积电7nm工艺之外,一切皆有可能。
不管计划是什么,本周华尔街分析师对英伟达截至7月的2020财年第二季度财务业绩进行审查的电话会议上,黄仁勋并没有透露太多。
黄仁勋解释说:
“数据中心基础设施确实必须正确规划,扩建需要时间。我们希望Volta在明年取得成功。软件仍在继续改进。在短短一年内,我们就将Volta的AI性能提高了近2倍,达到约80%。你必须想象构建在Volta之上的软件的数量——所有Tensor内核、所有与NVLink连接的GPU,以及连接到构建超级计算机的大量节点。构建这些大型系统的软件非常非常困难。这就是为什么你听到人们谈论芯片,但它们从来没有出现的原因之一,因为构建软件是一项巨大的事业。我们公司的软件工程师数以千计,我们得益于在这个架构之上构建了超过15年。因此,当我们能够以如此快速地部署数据中心时,我认为我们有点忽略了首先要做到这一点有多难。上一次进入数据中心的新处理器是X86,你无需频繁或容易地将处理器带入数据中心。因此,我对Volta的看法是,它肯定正处于全盛时期,而且明年还会继续表现出色。”
将新的处理器架构引入数据中心正是如此。它可能是一座玻璃房子,但你需要一块很大的石头才能砸进去。这与大型企业的保守主义背道而驰,他们不能承担像快速打破和快速移动大型数据中心用户那样的风险,发明自己所有的软件栈。
对英伟达来说,好消息是,在为各种形式的GPU计算播种了十年的新市场之后,例如HPC中的传统模拟和建模、人工智能中的机器学习、少量的数据库加速,以及补充这些更成熟行业的不断扩大的数据科学领域,它在数据中心领域拥有一个持续发展的业务基线,伴随着高性能计算中心、超大规模用户和云构建者的常见支出起伏。
第二季度,英伟达的总收入下降了21.1%,至25.8亿美元,净利润下降了一半,至5.52亿美元,原因是该公司在明年推出GPU之前对未来的GPU进行了投资。研发支出在本季度增长了17.5%,达到7.04亿美元,其中可能包括分配给Einstein GPU的资金,以及对NVSwitch互连及其相关NVLink 3.0协议的支持,以及与台积电为完善7nm芯片蚀刻和随后向5nm工艺的迁移所做的工作。毫无疑问,研发支出的增加对净收入产生了影响,但这是科技行业的赌注。
2020财年第二季度的营收和净收入没有受到即将以69亿美元收购Mellanox Technologies的影响,该公司刚刚获得美国监管机构的批准,但仍需获得欧洲和中国监管机构的批准,才能完成交易。
与此同时,英伟达的数据中心业务没有整体业务收缩得那么厉害,因为整体业务受到了渠道中GPU过剩的影响,这些GPU主要面向游戏玩家和专业显卡用户的GeForce和Quadro设备。第二季度数据中心销售额下降13.8%,至6.55亿美元,其中不仅包括来自特斯拉GPU加速器和NVSwitch ASIC的收入,还包括英伟达直接销售给客户的整个DGX-1和DGX-2系统的收入。目前尚不清楚有多少收入来自系统,但我们的猜测是,在过去12个月中,英伟达的数据中心业务获得的26.7亿美元收入中,约有20%来自DGX系统。它非常重要,它使英伟达成为了世界上最大的超级计算机供应商之一。
请思考一分钟。
虽然英伟达没有透露细节,但黄仁勋重申,推理计算业务正在增长,这在很大程度上是由于在图灵架构中成功使用了相同的Tensors核心单元,这些单元是其用于超大规模计算、云和内部基础设施中推理引擎的游戏和渲染的动态光线跟踪的关键组件。这种推理业务现在是数据中心业务的“两位数”部分——在接下来的12个月里,它的价值在3亿到4亿美元之间。这也是一项重要的业务,这是因为Tesla T4加速器具有推理性能,并且能够与迄今主导着机器学习推理的CPU和FPGA竞争。
顺便说一句,FPGA和CPU不会不战而退,而且在很多方面,英伟达将不得不在展开更激烈的竞争。英伟达已经拥有了更强大的GPU机器学习训练,除非有某些架构能够同时进行训练和推理,否则英伟达很可能会保持其在机器学习训练方面的遥遥领先地位。尤其是同时从事高性能计算和人工智能以及数据科学和分析的商家。更通用的解决方案将在云计算和企业中胜出,虽然它的成本更高,但它的实用性更广。毕竟,这就是英特尔一直在数据中心使用Xeon芯片所做的事情,直到AMD用新的“Rome” Epyc 7002系列CPU部署了可靠且有竞争力的处理器。英伟达在部署可靠的GPU方面将面临与AMD和英特尔一样的压力,但它们必须将它们的软件结合起来,与特斯拉加速器和CUDA并行编程环境的强大组合竞争。
英伟达的数据中心业务连续增长3%,由于超大规模计算和云构建商支出疲软已经在2019年上半年伤害了所有系统供应商。数据中心业务实际上在2020财年第二季度相对容易比较,因为2018年早些时候,英伟达为橡树岭国家实验室的“Summit”超级计算机和劳伦斯利弗莫尔国家实验室的“Sierra”超级计算机出货了数万个Volta GPU。如果泡沫发生在前一年的第二季度,那将是一个非常艰难的比较。现在,随着各个公司安装这些IBM系统的初代版本、英伟达的DGX Iron,以及各种OEM和ODM供应商的克隆产品,英伟达将从数据中心获得稳定的收入。我们预计不会出现过去几年那种爆炸式的增长,而是会出现更为渐进的增长,这是更为成熟但仍令人兴奋的市场领域的典型表现。英伟达有足够的空间将数据中心业务翻倍、翻三倍甚至翻四倍,但这不可能一夜之间实现。
而且明年肯定不会出现一套令人印象深刻的Einstein Tesla GPU加速器来阻止AMD,英特尔和赛灵思。