“AI芯片大清洗”即将来临:架构巨头ARM终于出手,要一统人工智能生态
扫描二维码
随时随地手机看文章
作为几乎所有智能移动终端及多数智能联网设备的计算核心设计者,全球最为著名芯片架构设计公司arm 在这两年 AI 生态蓬勃发展的走势中一反常态,没有站在主导地位,甚至也没什么音量。
可以说,虽然 arm的地位如今仍然重要,但却已经不再是众人眼光的焦点,当苹果、华为、高通等客户不断在 AI 技术与应用上进行创新时,arm基础架构似乎还是维持自己的步调,没有太多波澜起伏。
3 月 6 日,arm 在北京举办了人工智能新品发布会。面对市场的质疑,arm 通过这次发布会正式向市场宣布进军 AI 方案,实际上解答了这两年来为何 arm 在 AI 领域没有太多作为的具体原因。在这次为期两天的发布会中宣布了两款针对中低端市场的GPU架构及多媒体方案,但本次发布会的重点还是在第二天关于人工智能方案布局的座谈,arm 资深市场营销总监 Ian Smythe 针对未来 arm 在 AI 应用领域的布局进行深入的探讨。
事实上,该行业巨头早在 2016 年就已经把触手伸进多个 AI 应用领域同时发展,包含号称针对机器学习优化的 Bifrost GPU 架构,以及针对高端服务器芯片的 SVE 延伸指令集。随着相关方案陆续成熟,采用者也逐渐增加,arm终于在今年 2 月底推出 Project Trillium,结合开发环境、算法与各大主流机器学习框架,要布局从终端到云端所有 AI 应用开发生态。
为什么 arm 要在这个时间点推出他们自己的AI方案?
首先,各家使用的AI 方案架构方面都有不小落差,且应用的兼容性可能也存在些问题,虽然都支持类似的框架,但毕竟没有一个标准的 AI 计算接口存在,在此情况下,应用开发商若要开发各类行应用,就必须针对不同厂商的设备个别支持,如此旷日废时,且可能会受限于不同架构的性能落差而使得应用的表现不如预期。
其次,开发独家的AI 加速架构代价并不低,且除了要考虑到所采用的 IP 来源的可扩展性、框架支持广度、是否提供标准接口,相关算法也不是朝夕之间就可研发出来,如果能够提供一个可利用既有架构便可达到接近完全硬件处理 AI 算力,不需支出额外的授权成本,也不需要改变既有的芯片设计布局,那么对市场而言,其吸引力自然是不言可喻。
arm 资深市场行销总监 Ian Smythe 对此表示,他们正在做的就是提供业界更多的选择,其他使用自有 AI 计算架构的客户也同样能够得到好处。
但 DT 君认为这是个排他性很强的选择,以包含软硬件等大生态逼迫客户放弃未来开发自有 AI 芯片的打算,确保能持续主导整体计算架构发展走势,未来甚至要挑战服务器等其他专业 AI 计算架构——arm这步棋将为整个 AI 计算生态,尤其是相关芯片产业带来另一波荣景,还是一次大灭绝?恐怕是整个业界目前最关切的。
挑战高端 AI 计算,直取 NVIDIA 主场,甚至构筑排他性生态
arm 要用针对嵌入式市场的小 GPU 来挑战 NVIDIA?乍看之下不大可能,但 Ian 对 DT 君展示了其 AI 计算方案的能效表现,以类似规模的架构来比较,其实 arm 的方案在能效方面都还是有一定的优势存在,加上 arm 架构原生就支持高效率的推理工作,配合已经相当成熟的开发套件,可以支持大多数主流机器学习框架,相信对开发者可具相当的吸引力。
当然,要以绝对性能对抗 NVIDIA,DT 君认为短期间之内还不大现实,但若以能耗、配合 arm在边缘计算以及终端上的 AI 算布局构成完整的生态链,那么要在数据中心市场吃下一定的占比,也不是不可能的事情。
在终端市场方面,前两年AI热潮中,各家新创产业纷纷推出自有的AI芯片,尤其是主流CV方案,市场上可说群雄并起,连过去止做低价主控的公司也都陆续抢进,打造自己的AI方案。
不过,在关键的算法方面,多数公司其实都还是倚赖第三方,真正创造自有算法的比例其实很少,就连AI计算架构也可能都是直接取用现成的第三方方案,这些方案的支持完整性不一,且因为技术来源分散,很难构成,或分享来自一套共通的生态环境的优点,基本上就是处于单打独斗的窘境。
然而,arm 这次的作法则是建立了一套从端到云的完整体系,不论客户在市场中的定位如何,都能从 arm 拿到相对应的方案,且不只是硬件,就连开发工具包以及算法都能提供。DT 君认为这将造成相当深远的影响,个别的 AI 芯片架构 IP 或者是算法 IP 供货商会先受到一定的冲击,甚或可能会被逐步逼出市场。
诸如寒武纪、深鉴等想要打进主流消费AI方案的供货商恐怕将成为首波受害者,arm自家方案拥有强大的生态优势,即便绝对性能可能还稍微落后寒武纪或深鉴的方案,但凭借极低的导入门坎,及对主流算法模型的完整支持,且额外增加的成本极低,客户会如何选择,其实已经不言可喻。
arm 方面也在说明会上表示,其架构将可承载不同的算法来进行各种 AI 应用,算法来源不限定。然而,arm 自己也在发展相关算法,表面上的说法是要提供客户更多样化的选择,但真正的盘算,恐怕是要对整个 AI 市场进行一次大清洗,并替换成自己的生态,借此扩大 arm 的市场格局,走向真正的架构霸主之路。
毕竟从 arm 生态的历史发展中,以嵌入式 GPU 为例,当初 arm 和 Imagination 两家英国 IP 公司关系紧密,相互提携,但后来 arm 决定要发展自有的 GPU 架构后,没错,市场有了更多的选择,但事实上,arm 依靠包装行销与生态的优势,将 Imagination 打到落花流水。除少数如高通的 Andreno 自有 GPU 架构较不受影响外,目前嵌入式 GPU 的 IP 授权产业几乎也都被arm 通吃,不复见以往竞争激烈的局面。
后续 arm 也进入多媒体与显示相关方案的 IP 市场,同样对相关产业的技术供应商造成相当大的影响,虽然扩大产品布局是 arm 避免在特定领域掉队,继而维持其市场霸业的最有效方式,而被其策略布局影响到的对手或客户可能就不是那么乐意了。
当然,arm 的客户永远都有得选择,但依附在 arm生态之下的第三方 IP 供应商就未必了。
早期从固定功能软件著手,后续补齐硬件与整体开发生态
实际上,如果从当年 arm进入 GPU 市场对市场所带来的影响观察,上面所描述结果或许就不那么让人惊讶了。“循序渐进”是arm近年来布局 AI 生态时很重要的遵循方向,Ian 向 DT 君说道。
其实,arm早在 NPU 等 AI 加速芯片概念出现之前,就已经抢先在手机以及其他联网终端产品中引入 AI 计算概念,而且值得一提的是,虽然 arm是提供计算架构硬件基础核心的公司,算法与软件生态环境通常都是跟著新架构发展,但是在 AI 生态方面,却反其道而行,算法和软件先行,后续才逐渐补上硬件设计与开发环境。
以华为公司的手机为例,其实虽然消费大众被其在 Kirin 970 中采用的 NPU 设计抓住了眼光,认为此类硬件 AI 计算架构算是开创了手机产品的另一个新时代,但事实上,早在 Kirin 960 时,ARM 就已经提供华为不少关于物件侦测、语音加速以及照相处理等算法与 AI 软件功能,妥善利用了当时 arm芯片基于 GPU 与 CPU 合作而来的 AI 计算能力,虽然没有真正的硬体加速方案,但在效率上已经相当受肯定。
图丨Kirin 970
Ian 对 DT 君表示,早期移动终端对 AI 概念还不明显,因此 arm 先提供功能有限的软件方案让市场尝鲜,等到市场看出更多应用潜力,不满于现有的软硬件搭配时,arm再推出更完整的硬件设计与开发环境,承接这些想要创造更多可性的客户的需求。
市场的需求总是会一直前进,且应用也会越趋复杂,Mate 10 的 AI 场景摄影功能由于进行了更多、更复杂的计算,华为因此选择在芯片中集成了专属的 AI 计算芯片,也就是 NPU,期望在增加 AI 计算复杂度的同时也要能改善性能表现,苹果过去的 AI 方案主要也是基于 GPU 计算,但同样在其 A11 芯片中引入架构类似的神经网络芯片。
由于 AI 技术的革新速度超乎预期,众多芯片客户心中也开始有了疑惑:arm的 AI 方案呢?Ian 对 DT 君表示,其实 arm早在 2016 年发表基于 Bifrsost 架构的 Mali G-71 时,就已经希望借由该架构来推动 AI 在终端以及边缘计算的应用场景,但当初可和主流 AI、机器学习框架紧密结合的整套软件开发环境还不够成熟,且 arm也不希望揠苗助长,推出半生不熟的环境搞坏自己名声,因此在 Project Trillium 发布前,基本上也都没有太多动作。
这次虽然推出通用的 AI 开发平台,但首波针对的还是基于计算机视觉 (CV) 为主的 OD(object detection) 处理设计平台,以及机器学习等市场相对较成熟,且应用较广的方。Ian 进一步表示,基于 Project Trillium 开发平台的 AI 应用将可针对几乎所有类型的 AI 应用,小到 IoT 设备,大至数据中心,只要是机器学习相关的应用开发需求,都可基于同一套可变规模的架构发展出来。
以GPU 算力为核心,结合 CPU 生态优势,首波布局边缘计算
GPU 计算可说是 arm 未来要发展 AI 计算生态的主要角色,从第一代 BiFrost 架构开始,就已经针对 AI 计算所需要的各种场景,包含机器学习中的训练,以及推理加速等进行优化。
我们都知道,过去数据中心以及超算架构中所使用的 GPU 架构,其实只能应对训练,但是训练完,要利用模型推理的工作处理上,效率非常差,这主要是因为传统 GPGPU 擅长计算 32bit 甚至 64bit 的高精度整数或浮点计算,但是在深度学习所需要的数据处理而言,其实不需要这么高的精度,大部分场景下甚至只需要低精度的整数计算即可。目前,包含 TPU、NPU 等各种专用计算硬件都把 8bit 精度计算当作标准的数据处理宽度,也因此其每秒操作性能都可达数个 TeraFlops。
arm早在数年前投入研发机器学习架构时,就已经把 8bit 宽度数据处理能力列为标准,不只在 GPU,CPU 中的 NEON DSP 单元也同样支持 8bit 宽度数据计算,因此基于 arm机器学习平台,不仅可充分应对机器学习的训练需求,推理能力也能充分获得满足。
图丨arm推出面向机器学习和神经网络的Project Trillium
虽因这样的设计,过去 arm的 Mali GPU 在芯片面积及功耗表现稍弱,但随著芯片工艺的改进,以及各种 AI 计算需求的带动,其设计的价值也逐渐被显现出来。
arm的 AI 计算平台规划同时也包括了数据中心等应用。Ian 对此表示,由于数据中心等大型机器学习平台数据流通量极大,如果只是单纯把目前针对移动平台开发的 arm架构规模等比例放大,核心算力虽足够与一线平台相提并论,但数据传输能力就会成为短板,即便核心算力再强大,数据来不及存取,那么芯片也只能空转,平白浪费能源。
因此,arm 初期还是会以数据需求量较小的终端和边缘计算应用为主,着重在小规模的计算应用,2018 年稍晚就会推出新版架构,补足总线与带宽方面的缺点,正式向目前主流的数据中心应用挑战。