AI芯片：现实版螳螂捕蝉黄雀在后

时间：2017-05-12 14:02:38

关键字： ai芯片存储技术英伟达英特尔

手机看文章

扫描二维码
随时随地手机看文章

[导读]谷歌的无人车在美国开了几十万公里，通过训练练出一个自动驾驶的AI模型。这个模型训练出来之后，未来可以部署到每一台量产的谷歌无人车，实现自动驾驶。在自动驾驶中，这个AI模型就必须实时进行推断。

谷歌的无人车在美国开了几十万公里，通过训练练出一个自动驾驶的AI模型。这个模型训练出来之后，未来可以部署到每一台量产的谷歌无人车，实现自动驾驶。在自动驾驶中，这个AI模型就必须实时进行推断。

图片来自网络

英伟达Q1的财报发布后几小时，股价就暴涨14%。

老黄的Keynote还没讲完，英伟达市值就被推高20%，突破700亿美元。

华尔街疯狂的背后，是人工智能的大潮，与推动这一大潮的全新技术。

英伟达最新的GPU芯片——TeslaV100及其TensorCore，必将让这科技的大潮又起一层浪。

眼看着英伟达在这人工智能的浪潮中一骑绝尘，它的技术到底能有多厉害?难道其他芯片巨头就真的在吃干饭吗?

今天，我们特意邀请到两位芯片领域的专家，专门来聊聊英伟达的新技术，以及这场AI芯片大战的关键看点。

英伟达领先多少

昨天以前，英伟达在深度学习芯片领域已经非常领先了，但是还不是遥不可及。

但在一口气发布的7个产品和计划后，特别是其中的TeslaV100，确实震撼。可以说，大大拉开了它与竞争对手的距离。

这不由得让人想起90年代，思科成为互联网第一波红利的最大获益者。现在AI时代的到来，尽管我们还不知道它这一轮到底能冲多高，但大家都还在摩拳擦掌、买枪买炮。

而英伟达却第一时间成为一家独大的军火商，肯定是AI第一波红利的最大获益者。

英伟达在GTC大会推出的全新GPU，确实在技术上划了时代，吊打所有对手。

通用的GPU单元，专门的Tensor加速器，矩阵运算绝对性能爆炸，同时还兼顾其他算法。不愧是英伟达凭借多年在深度学习领域的积累、对需求深刻洞察之后推出的心血大作，比上一代强大十倍的性能，既适合训练又适合部署。

就此，老黄已直接对绝大多数做深度学习芯片的创业项目宣判了死刑。

为什么GPU就适合AI?

我们来科普一下。深度学习是机器学习的一种技术，基于深度神经网络，这一轮AI主要就是深度学习技术突破引领的。

而深度学习里面绝大多数的运算都是矩阵运算，矩阵运算天生就容易并行，而GPU最擅长的就是做并行数学计算，所以特别适合做深度学习。

2012年的时候，Geoffrey Hinton的学生Alex Krizhevsky用GPU来做深度学习，并且取得了ImageNet大赛冠军。经过他们的评测，用GPU比CPU快60倍。

人工智能研究者一找上GPU，英伟达立马抓住机会，短时间内动用数千工程师、投入20亿美元，研发出第一台专门为深度学习优化的Pascal GPU。所以，在深度学习大行其道的今天，英伟达就成了大赢家了。而深度学习中GPU的应用，有这两个场景：一个是训练，一个是部署。所谓训练，就是AI的构建过程，研究员在线下通过喂给AI算法大量的数据，产生出一个模型。而部署，就是把训练好的这个模型拿到应用现场去用，去做推断。

比如说，谷歌的无人车在美国开了几十万公里，通过训练练出一个自动驾驶的AI模型。这个模型训练出来之后，未来可以部署到每一台量产的谷歌无人车，实现自动驾驶。在自动驾驶中，这个AI模型就必须实时进行推断。

训练阶段，我们主要关心的是大规模的计算吞吐率，而到了部署中，更强调的是绝对的计算能力、低延迟、高性能功耗比、高稳定性。

现在在AI界，训练模型普遍采用英伟达的GPU，但是到了部署领域呢，有人用GPU，有人用谷歌的TPU，有人用英特尔，还有一大批嵌入式芯片开发商正在开发专用的前端深度学习芯片。

但是，刚刚发布的V100，既适合做训练，又适合做推断，除了功耗较大以外，在能力方面实现了左右通杀，所以确实厉害。

另外，英伟达还有一个专门用来部署的运行时环境叫TeslaRT。所以英伟达在AI芯片领域真有点一骑绝尘的架势了。

难道无人能挡英伟达?

AI芯片这么大的一块蛋糕，总得多有几个人来分才热闹，就算英伟达现在的优势不容置疑，那接下来的疑问就是，它的优势究竟能持续多久?

谷歌TPU

几天前，在谷歌TPU团队出走半数后，计算机体系架构的宗师DavidPatterson宣布他要加入谷歌，正式参与TPU项目。

上个月，谷歌关于TPU性能的论文披露说，TPU运行速度是英伟达和英特尔相关处理器的15-30倍，能效高出30-80倍。

谷歌的TPU适用于部署，能跟谷歌自家的TensorFlow紧密结合。可惜它是闭源的，谷歌视它为核心竞争力，应该不会开放给别人用。

TPU的第一版很惊艳，不过缺点也很多。现在从谷歌的论文来看，这个架构有点过时，实践当中也会有很大局限性。虽说这次DavidPatterson加入谷歌TPU团队的动静很大，但我们还是应当保持冷静、继续观察。

英特尔

另一个能跟英伟达叫板的，就是老牌芯片巨头英特尔，但它的CPU擅长高速处理数字，却不擅长处理音视频等非结构化数据。

于是在去年，英特尔耗资4亿美元收购深度学习初创企业Nervana，试图通过Nervana Systems在硅层实现机器学习。今年3月，这家土豪又怒砸153亿美元收购一家以色列芯片公司Mobileye，土豪要用自己家的高性能计算和网络连接能力，结合Mobileye的计算机视觉专业技术，打造从云端直达每辆汽车的无人驾驶解决方案，深化它在自动驾驶领域的布局。

收购Nervana，是英特尔非常厉害的一招。因为，这家公司前几年一直在帮英伟达优化GPU平台。他们是一群顶级黑客团队，hack了GPU的native指令集，写出了比当时的cudnn(NVIDIA自己的深度学习数学库)还要快若干倍的数学库。他们的成果都开源给了社区，cudnn后面的进步很大程度是因为吸收了这些成果。这家公司被英特尔收购后，就断了继续为英伟达提供服务的可能，同时也极大增强了英特尔的实力。

英特尔现在是allinAI，它的几大产品线，都会重点针对深度学习进行专门定制，比如之前作为HPC平台的XeonPhi加速计算卡，收购的AlteraFPGA，包括NervanaSystem，都是各自独立的深度学习产品线。其他还包括IoT部门，还有收购的Movidius公司，这些是提供嵌入式和端的解决方案。

小编听完，真是眼界大开。

这样来看，在深度学习芯片上，英伟达一马当先，英特尔黄雀在后，而谷歌的TPU，还真是任重而道远啊。