IBM计划在未来10年内将AI性能提高1000倍
扫描二维码
随时随地手机看文章
尽管现今IBM的硬件业务仅限于POWER和Mainframe芯片和系统,但这家技术巨头正在悄悄地建立自己在AI硬件方面的专业知识和能力。所有人都肯会猜测IBM接下来要干嘛,今天我们主要探讨一些关于IBM所做的事情的思考以及对背后原因的猜测。
IBM对AI硬件的研究
IBM于2019年初成立了IBM AI硬件研究中心,中心位于纽约州,与纽约州立大学理工学院以及Mellanox、Samsung和Synopsys等技术公司合作进行AI 芯片研究。
据介绍,该中心对AI硬件采取整体,端到端的方法,朝着其雄心勃勃的目标努力,即在未来10年内将AI性能提高1000倍。同时,该中心还在开发新的数字和模拟AI内核。
上图是IBM AI硬件研发中心发布的实现AI性能提升1000倍的概念性路线图。该路线图还展示了将采用不同于目前半导体制造使用的全新材料制成新内核的方式。
IBM最近发表了两篇论文,描述了其降低精度的方法,这些方法旨在提高AI处理效率,同时保留预期的准确性。基本上,在NVIDIA和Google的带领下,人工智能研究在过去4-5年中一直在利用降低的精度数字和数学运算。如果“降低精度”听起来好像不是什么好事,但是我们要记住,更高的精度会带来巨大的成本,使用数字的位长的平方也会增加。因此,从32位到16位成本降低了4倍。
Google最近提出了一种新的16位格式,称为Bfloat,该格式使用的位数更多,指数尾数更少。高于IEEE 16位浮点标准。与传统的32位格式相比,这可以在保留精度的同时使用更少的功率和芯片空间。英特尔就是其中之一。但是,研究人员在努力争取8位浮点数下保持准确性。
IBM本周提出了一种“混合8位浮点数”格式,该格式可以提高性能或将成本降低多达4倍。就是说,如果有人(IBM?)生产出可以执行这些计算进行训练的芯片,则该芯片将使用已经“量化”为那些8位格式的DNN。这些操作的“混合”性质来自于前向和后向传播计算所需的不同精度要求。通过将用于指数和尾数的位数调整为向前和向后传递计算,IBM证明了确实可以仅使用8位权重和激活来训练用于视觉、语音和语言处理的神经网络。此外,这些较小的数字可以更有效地在芯片上进行通信,从而将训练时间进一步减少了30-60%。
如果所有这些数学运算听起来很复杂,但其带来的好处非常简单。从理论上讲,这种方法可以让人打造用于训练深度神经网络的芯片,芯片面积仅为原来的四分之一,或者以相同的成本实现4倍的性能提升。
在AI的推理方面,出于相同的原因,芯片公司和模型开发人员正在转向8位。但是,有人还能降得更低吗?迄今为止,使用较低精度的努力未能达到8位模型提供的精度。但是,IBM最近发表了一篇论文,该论文提议使用称为参数化限幅激活(PACT)和统计感知权重合并(SAWB)的两种技术,当结合使用时,它们已经演示了2位推理处理,可实现与8位相当的准确性。
那么,谁在乎呢?
如果有人在CPU或AI芯片中使用这些技术,答案可能是“所有人”。 IBM的路线图肯定意味着该公司将做到这一点,但是就目前而言,这一切都是在IBM研发而非产品部门完成的。IBM经常有一些研究项目从未变成最终产品。
IBM通过AI硬件研究成果获利基本上有三种途径。首先,它可以将该技术授权可给其他半导体公司用于移动、边缘和数据中心应用。其次,IBM可以将该技术应用到IBM POWER或大型机处理器中,尤其是2位推理处理。第三,IBM可以生产用于数据中心培训和推理处理的加速器,直接与NVIDIA,Intel等竞争。
最后一种途径可能会解决更大的市场需要,但会带来业务问题,如IBM需要建立一个渠道,以覆盖其POWER和Mainframe安装基础之外的数据中心客户。例如,IBM可以通过Lenovo出售给正在构建数据中心服务器的ODM。当然,这三种途径并不是互相排斥的。
总结
IBM在新的AI硬件研究中心所取得的成就给我们留下了深刻的印象,而且他仅用了一年的时间。从实现将效率提高1000倍的雄心勃勃的愿景开始,采用了从算法到芯片再到材料的整体方法。这让IBM在这个快速发展的市场中具有巨大的潜力。
该研发中心很快将需要对其商业模式做出一些艰难的选择,以便将这项研究变现并达到其目标市场。管理层需要保持耐心并坚持到底,我认为下一任首席执行官Arvind Krishna将会做到这一点。也就是说,在过去十年中,IBM稳步摆脱了硬件业务。