AI未来发展路在何方？FPGA有这些独特优势！

时间：2019-04-09 13:40:02

关键字： AI FPGA

手机看文章

扫描二维码
随时随地手机看文章

[导读]很多世界顶尖的“建筑师”可能是你从未听说过的人，他们设计并创造出了很多你可能从未见过的神奇结构，比如在芯片内部源于沙子的复杂体系。如果你使用手机、电脑，或者通过互联网收发信息，那么你就无时无刻不在受益

很多世界顶尖的“建筑师”可能是你从未听说过的人，他们设计并创造出了很多你可能从未见过的神奇结构，比如在芯片内部源于沙子的复杂体系。如果你使用手机、电脑，或者通过互联网收发信息，那么你就无时无刻不在受益于这些建筑师们的伟大工作。

Doug Burger博士就是这群“建筑师”里的一员。他现任微软技术院士（Technical Fellow），曾任微软研究院杰出工程师、德克萨斯大学奥斯丁分校计算机科学教授。他也是微软FPGA项目Catapult和Brainwave的首席架构师和主要负责人。2018年，Doug Burger在微软研究院的播客里分享了他对后摩尔定律时代芯片产业发展的观点与愿景，并展望了人工智能时代芯片技术的前进方向。

老石对他的观点进行了整理和采编。本文主要是Doug Burger博士对FPGA在人工智能时代的独特优势的全面分析，以及他对于人工智能技术发展的深刻思考。文章很长，但全部是他几十年从业经验的深入浅出的阐述，尽显大师之风，值得一读。

（编者注：下文中的“我”，指的都是Doug Burger博士）

2. FPGA：解决暗硅效应的有效途径

在我看来，一个可行的解决方法就是采用“定制计算”，也就是为特定的工作场景和负载优化硬件设计。然而，定制计算或定制芯片的主要问题就是高昂的成本。例如对于一个复杂的云计算场景，不论是设计者还是使用者都不会采用一个由47000种不同的芯片所组成的系统。

因此，我们将赌注押在了这个名叫FPGA的芯片上。FPGA全名叫“现场可编程逻辑阵列”，它本质是一种可编程的芯片。人们可以把硬件设计重复烧写在它的可编程存储器里，从而使FPGA芯片可以执行不同的硬件设计和功能。另外，你也可以在使用现场动态的改变它上面运行的功能，这就是为什么它们被称作“现场可编程”的原因。事实上，你可以每隔几秒就改变一次FPGA芯片上运行的硬件设计，因此这种芯片非常灵活。

（英特尔Stratix 10 FPGA芯片，图片来自英特尔）

基于这些特点，我们在FPGA这项技术上押下重注，并且将其广泛的部署到了微软的云数据中心里。与此同时，我们也开始将很多重要的应用和功能，从基于软件的实现方式，慢慢转移到基于FPGA的硬件实现方式上。可以说，这是一个非常有趣的计算架构，它也将是我们的基于定制化硬件的通用计算平台。

通过使用FPGA，我们一方面可以尽早开展定制化计算与定制芯片的研究与设计，另一方面，我们可以保持与现有架构相互兼容的同构性。

如果具体的应用场景或算法发展的太快，或者硬件规模太小的时候，我们可以继续使用FPGA实现这些硬件功能。当应用规模逐渐扩大时，我们可以在合适的时机，选择将这些已经成熟的定制化硬件设计直接转化成定制化芯片，以提高它们的稳定性，降低功耗和成本。

灵活性是FPGA最重要的特点。要知道，FPGA芯片已经在电信领域中得到了非常广泛的使用。这种芯片非常擅长对数据流进行快速处理，同时也被用于流片前的功能测试等。但是在云计算中，之前并没有人能够真正成功的大规模部署FPGA。我指的“部署”，并不是指那些用来作为原型设计或概念验证的工作，而是指真正的用于工业级使用的部署。

4. 什么是Catapult项目

Catapult项目的主要目的是在微软的云数据中心大规模部署FPGA。虽然这个项目涵盖了电路和系统架构设计等工程实践，但它的本质还是一个研究项目。

在2015年末，我们开始在微软购买的几乎每台新服务器上部署Catapult FPGA板卡。这些服务器被用于微软的必应搜索、Azure云服务以及其他应用。到目前为止，我们已经发展到了非常大的规模，FPGA已经在世界范围内被大规模部署。这也使得微软成为了世界上最大的FPGA客户之一。

（Catapult FPGA板卡，图片来自微软）

在微软内部，很多团队都在使用Catapult FPGA来增强自己的服务。同时，我们使用FPGA对云计算的诸多网络功能进行加速，这样我们的客户会得到比以往更加快速、稳定、安全的云计算和网络服务。比如，当网络数据包以每秒500亿比特的速度进行传输时，我们可以使用FPGA对这些数据包进行控制、分类和改写。相反的，如果我们使用CPU来做这些事情的话，将需要海量的CPU内核资源。因此，对于我们这样的应用场景，FPGA是一个更好的选择。

（微软的FPGA板卡，图片来自微软）

6. 评价实时AI系统的主要标准

评价实时AI的主要性能指标之一，就是延时的大小。然而，延时到底多小才算“够小”，这更像是一个哲学问题。事实上，这取决于具体的应用场景。比如，如果在网络上监控并接收多个信号，并从中分析哪个地方发生了紧急情况，那么几分钟的时间就算够快了。然而，如果你正在和某人通过网络进行交谈，哪怕是非常小的延时和卡顿也会影响通话质量，就像很多电视直播采访里经常出现的两个人在同时讲话那样。

另外一个例子是，微软的另一项人工智能技术是所谓的HPU，它被用于HoloLens设备中。HoloLens是一款智能眼镜，它能提供混合现实和增强现实等功能，它里面的HPU也具备神经网络的处理功能。

（宇航员Scott Kelly在国际空间站上使用HoloLens，图片来自NASA）

对于HPU，它需要实时分析使用者周围的环境，这样才能在你环顾四周时，无缝的展示虚拟现实的内容。因此在这种情况下，即使延时只有几个毫秒，也会对使用者的体验造成影响。

除了速度之外，另一个需要考虑的重要因素就是成本。举例来说，如果你希望通过处理数十亿张图像或数百万行文本，进而分析和总结出人们常问的问题或者可能在寻找的答案，就像很多搜索引擎做的那样；抑或是医生想要从很多放射扫描影像中寻找潜在的癌症指征，那么对于这些类型的应用来说，服务成本就非常重要。在很多情况下，我们需要权衡以下两点，一个是系统的处理速度有多快，或者通过何种方式能提升处理速度；另一个就是对于每个服务请求或处理，它的成本有多少。

很多情况下，增加系统的处理速度势必代表着更多的投入和成本的攀升，两者很难同时满足。但这就是脑波项目的主要优势所在，通过使用FPGA，我认为我们在这两个方面都处于非常有利的位置。在性能方面我们是最快的，在成本上我们大概率也是最便宜的。