AI领域经历淘金热 AI芯片由巨头把持
扫描二维码
随时随地手机看文章
1848年8月19日,《纽约先驱报》刊登了一则重磅消息,加州(加利福尼亚)发现了黄金!消息传开,大批的人力投身于美国西部,引发了席卷全美的淘金热潮,给加州这块贫瘠的土地,带来了财富与繁荣。
当下的AI领域,正经历着这样一场淘金热。
资本家们毫不吝啬,投入了数以亿计的资金,融入的玩家大小林立,既有掌握先进工具的科技巨头,也有正不遗余力炼金的企业家,更多的是独握一门炼金术的独角兽。同时,因为这片处女地足够大,不管你是芯片制造商,还是算法提供商,抑或是云计算服务提供商,都可以获取自己的利益。但是最终决定这场淘金热能够走得多远、影响多持久,AI芯片企业掌握了实际的话语权。
近日,市场研究公司Compass Intelligence发布了最新研究报告,全球AI芯片企业排名表中,英伟达(Nvidia)、英特尔(Intel)分列第一、第二名,中国企业华为、寒武纪、地平线,分列12、22、24位。虽然都在同一条赛道上奔跑,但是企业侧重有所不同。
巨头把持云端AI芯片
AI芯片,可以说是深度学习的专用芯片,具备在很高的内在并行度、大量的浮点计算能力以及矩阵预算的能力,算法、算力、数据,是它三个核心的元素。在相同的精度下,与传统的通用CPU相比,它的处理速度更快、所需的服务器更少、功耗更低。一个简单的显性例子是,AI芯片下的处理能力每秒能够达到 5700 张图片,而如今所用的 CPU 则每秒仅能识别 140 张图片。
AI芯片的兴起要回溯到2013年,人们意外发现, 原来用于游戏的GPU在深度学习中发挥巨大的作用。这一发现,使得GPU出身的英伟达瞬间占据了AI芯片的制高点,基于深度学习发布了多款芯片。
人工智能芯片领域,可以分为面向云端数据中心的芯片和面向终端的嵌入式人工智能芯片两大门类。而英伟达的GPU已经成为在云端服务器的霸主,有报告显示,世界上目前约有3000多家AI初创公司,大部分都采用了英伟达提供的硬件平台。在端方面,英伟达推出了16nm的AI芯片XAVIER、自动驾驶平台DRIVE PX,并且开源了DLA深度学习加速器项目。凭借着巨大的优势,英伟达的股价已经从2016年初的30美元,飙升至如今的255美元,飞升了八倍之多。
从保守的角度来说,英伟达的潜在对手是英特尔。在云端市场,英特尔是老牌玩家,英伟达是新入局者。不过,英特尔发力较晚,通过连续收购完成了生态布局,云端收购Altera之后推出了基于FPGA的专用深度学习加速卡,收购Nervana为AI优化的Knight Mill至强处理器。自动驾驶方面,与Mobileye和BMW结成了自动驾驶联盟,并在移动端收购了Movidius。后续发力,业内人士相当看好英特尔。
实际上,真正挑起与英伟达在云端芯片较量的重担是谷歌。自从决定研发AI芯片,也就是TPU(Tensor Processing Unit)后,谷歌一直悄无声息。直到去年4月,谷歌一篇论文的发布,犹如一枚深水炸弹,让业内吃了一惊。随后TPU的发布更是让英伟达“慌了”。第三方平台RiseML(riseml.com)做了一次对比评测。实验结果表明,在自定义的LSTM模型上,TPU更快。TPU(21402 examples/s)比P100(1658 examples/s)快16.9倍,比V100(2778 examples/s)快7.7倍。RiseML给出的结论是:一旦TPU能够容纳更多的用户使用,就可以成为英伟达GPU真正的替代者。
需要注意的是,柯洁对战的AlphaGo Master使用的就是第一代TPU,单机运行,且物理服务器仅仅部署了4个TPU就打败了柯洁。颇为遗憾的是,谷歌的TPU仅供自家使用,不对外出售,仅仅开放云端供大家使用。
初创团队更偏向终端侧发力
英伟达首席科学家兼NVIDIA Research高级副总裁Bill Dally博士表示,虽然AI领域大家似乎都在同一起跑线上,但是细分之后较为清晰可鉴的是,面向云端数据中心的芯片被巨头们把持,因市场偏成熟,企业积累深厚,很难被超越,所以各大初创公司创业方向选择的是面向终端的嵌入式人工智能芯片,如物联网、智能驾驶、机器人等等,这是他们的机会所在。
这也是为什么地平线自2015年成立以来,突破的是面向终端的嵌入式人工智能芯片薄弱环节——在保证性能、可编程的前提下,芯片保持较低的功耗与成本。
地平线表示,他们研发历时2年,才推出面向智能驾驶的征程处理器和面向智能摄像头的旭日处理器。三项核心数据上,地平线做到了可每秒实现30帧1080P高清视频流的实时处理;每帧支持200个并行目标的检测、识别和跟踪;典型功耗仅1.5W,每帧处理时延小于30ms。
地平线采用的是自主设计研发的BPU芯片架构,是一款典型的异构多指令多数据的系统,架构中心处理器是完整的系统,存储器架构设计进行了特别优化,能使数据自由传递,进行多种计算,让不同部件同时运转起来,极大提高了器件利用率,提高AI运算的效率。
寒武纪在终端发力之后,也在云端推出了产品。前不久的发布会上,不仅推出新一代终端智能处理器IP 产品Cambricon 1M,还发布了首款云端智能芯片Cambricon MLU100,双向发力让业内哗然。寒武纪CEO陈天石表示,3年前就开始了两颗芯片的研发,时刻准备着将寒武纪的产品放入云端。陈天石在发布会现场公布了在R-CNN算法下MLU100与Tesla V100和Tesla P4的计算延迟对比,数据显示MLU100的计算延迟为125ms,Tesla V100的延迟为174ms,Tesla P4的延迟为1069ms。
现在来看,只有英伟达的体量,才有能力横跨两个领域垂直做深,甚至英特尔也是通过收购完成布局。寒武纪的道路与英伟达相似,但从目前仅有的信息很难判断寒武纪的产品性能,是否能超越英伟达Tesla V100、Tesla P4。比起各方多有涉足,业内人士更希望寒武纪将垂直领域做得更深。