它是活的! 人工智能的神奇复活

时间：2016-09-29 12:23:19

关键字： AI 系统体系结构

手机看文章

扫描二维码
随时随地手机看文章

[导读]1月底，计算领域经历了两个不同寻常的里程碑——很多人都没有注意到。一个记录了开拓者的逝去：人工智能(AI)领域先驱、导师Marvin Minsky去世。

1月底，计算领域经历了两个不同寻常的里程碑——很多人都没有注意到。一个记录了开拓者的逝去：人工智能(AI)领域先驱、导师Marvin Minsky去世。而另一个显著的里程碑则可能标志着一个新时代的开始。就在Minsky去世后的几天，《自然》杂志的一篇文章报道了一台计算机在一场五局的围棋正式比赛中以5:0击败了欧洲围棋冠军Fan Hui。AI在上个世纪70年代已经奄奄一息了，(图1)，而现在又焕发了青春，引发了新一轮研究，例如，公开抓物演示，引起了对机器人的恐惧潮，使得人们重新思考系统设计的某些门类。

图1. 就像“现代普罗米修斯”中的怪物，AI通过对早期概念的修修补补看起来又复活了。

我们也许应该停下来思考一下定义。对AI正式的描述是图灵机测试：“我无法定义它，虽然我看不到它，但我知道它的存在。”或者，不太正式的，AI不需要人类的干预就能够让一个系统去完成通常与生命体相关的任务。

不论您喜欢哪种定义，AI都像过山车那样大起大落。上个世纪60年代让人兴奋到了顶点，那时MIT的Minsky等研究团队率先展示了大型机软件解析自然语言文本，采用摄像机识别物体，通过机器人手臂来操纵这些物体。然后就停滞不前了，十多年里看起来好像什么也没有发生。

而上个世纪80年代又围绕专家系统、模糊逻辑和神经网络等概念掀起了一次研究高潮。但是这一波高潮同样退去了，因为所产生的系统既不能调整也不能推广。

今天，我们还是处于另一波浪中。前沿研究各种各样的新结果，例如，玩人类的游戏，识别照片中的物体，知道所在位置，无人驾驶车辆的控制等，都看起来很有希望。这一次会有所不同吗?

三种基础

为回答这一问题，我们需要回顾一下算法的特点。从这一角度，我们可以看到AI的过去是三种大概念交织在一起：基于规则的系统、神经生物学，以及大规模并行搜素(图2)。

图2. 来自不同领域的三种工作渠道汇集到了今天的AI思路中。

基于规则的系统给AI带来了最直观的方法：如果您要让一个系统去完成一项任务，那么，给它一组规则，让它按规则去做。规则通常非常简单：如果X为真，那么进行Y。从这种简单的形式中，您可以构建非常复杂的偶发树。实际表明这种结构在解某些问题时非常有效，例如，简单游戏，基于预定义特性的分类，处理形式逻辑，或者确定IC设计中的模式与工艺技术相兼容。

而这些都是人类在认知层面上思考时遇到的问题。如果有疑问，我们可以展示我们的工作。有很多任务，包括，感知、判断、意识，或者直觉，这其中我们并没有察觉到自己的思考过程。Intel资深研究员Pradeep Dubey解释说，“规则来自那些智慧的人们。但是，我们对我们自己推理过程的理解非常不可靠。”

试着想像一下，能否有一组规则在任何环境下都可以确定哪些像素代表了您母亲的脸部。直觉上，应该有。而第一波AI就是要解决这类问题，只是江郎才尽，用尽了计算能力。而且，它是如此直观——很多人都相信要最终获得成功，只要有更多的规则、更多的资金、更多的MIPS就可以了。

大约在同一时期——上个世纪60年代，Minsky和其他人一起展示了基于规则的系统惊人的早期结果，这一新的伟大理念来自一个完全不同的领域。神经生物学家开始解开神经元细胞的精细结构，把神经元体、树突和突触作为电子网络组成进行建模，而不是作为活细胞或者电化学交换单元。

这种想法对生物学家用处不大，但在AI领域却是一种爆发。神经元网络模型已经可以由那时的大型机进行处理了，成为密集研究的主题，带来了无穷无尽的研究项目，Minsky尤其推崇。被称之为最流行模型的这种“感知器”实际上的连接要比真实的大脑神经元少得多。它通过调整一个简单非线性汇集器输入的权重系数进行学习，而实际的神经元是通过增加新连接，使用复杂的时间相关系列函数来适应的。

尽管如此简单，研究人员发现即使很少的感知器也能一起工作，经过训练后可以很好的完成简单的目标识别和认知任务。然而此时，基于规则的系统研究人员等感知器推崇者也发现这会超出计算能力。但是，他们非常怀疑实际的感知器大网——称之为神经网络，生物学家对此已经完全不了解了，这种网络即使有足够的计算能力，也能否好于基于规则的系统，这些系统用于完成不好理解的AI任务。

动荡年代

这种情形一直持续到上个世纪80年代，人们逐渐忘记了AI，或者指责AI未能达成所愿。但是在上个世纪80年代又乐观起来了，这时诞生了摩尔定律，业界涌现了风险投资潮。研究人员又开始做AI梦了。

基于规则的系统以专家系统的样子重生：这种架构能够帮助人类理解相关主题专家系统怎样解决问题，把想法抽象为规则。神经网络研究人员构建了规模更大、更复杂的网络，确信其计算能力更强，就像实际的机器视觉那样能够工作。模糊逻辑是相关的混合概念，在控制系统中似乎充满前途。但进展还是达到了平台期，业界的注意力又转移了。

进入搜索

影响AI的另一个大的想法来自让人想不到的方向：互联网搜索引擎。数量巨大的网页需要高效的搜索工具，其经济意义恰好符合大规模数据中心的经济规模需求。在这种环境下，涉及到大规模并行搜索的三重基本结构(图3)。

图3. 三重模型描述了大规模并行搜索系统，也对应于很多AI系统。

顶层代表了巨大的数据池的结构。“蜘蛛”探查网页，采集可搜索数据以及易于识别的关键词，连续构建数据，将其装入到基本非结构池中。第二层按照关系对巨量的数据进行过滤。当出现一次查询时，这一层构建一个过滤器，根据元数据和文本模式等类似很容易访问到的特性，识别出可能有某些关系的页面。需要针对速度和包容性对这一过滤器进行优化。过滤器被分发到数量巨大的服务器上，每一个都分配了相当数量的页面数据池。从这些潜在的成千上万的服务器中，您就有可能得到数千个相关的页面。

搜索用户不会对杂乱无章堆叠在一起的可能相关的页面感兴趣，因此，还需要一层：页面排序。这里，代码显然是基于规则的组合——一些来自某些搜索专家，一些学自用户以前的点击行为，对候选页面进行等级排序，从而产生了您在屏幕上看到的页面列表。开发人员还在评级问题上应用了神经网络，但是，规则和网络对应起来是非常隐私的问题。

它会思考吗?

聪明的人们采用合适的过滤和评级算法，不需要很长的时间就能够识别出这些，这种三重结构能够胜任完成非常智能的行为。更进一步：搜索算法能够很好的应用于某些类型的游戏。

例如，考虑一下井字棋。简单的算法能够一步一步的构建一个数据池，列出了每一个合法的对策。这就是第1层。然后，当您玩游戏时，您可以使用第2层过滤器，查询数据池中含有当前棋盘状态的合法对策。最后，第3层评定引擎选择能够让您获胜的对策。现在，您知道了下一步走法。

IBM以一种更复杂的方式使用了这种结构，建立了Jeopardy竞赛计算系统Watson。Jeopardy差不多是一种非常正式的游戏，很多地方与搜索相似。因此，毫不令人吃惊的，Watson能够很好的建立起三重模型。

在第1层，人类专家选出几类网页——例如，全部维基百科，将其送入到Watson中，摘入到大规模数据池中。他们建立了第2个过滤层，根据从线索中产生的关键词以及线索结构的语义分析，挑出候选页面。例如，线索是否要求某一类别的实例，就像第十任法国国王是谁? 或者，它是否有双关含义? 最终，从过滤器中选出的真正有意义的信息被分类评级，从而与线索完全相符。在一场电视转播的Jeopardy实际竞赛中——除了没有一些线索外，Watson设计人员还无法针对这些线索设计出规则，Watson击败了以前的两名人类冠军。为能够理解相对适中的规模，成功的Watson使用了2,500多台服务器，运行了Apache非结构化信息管理体系结构和Hadoop：按照今天的标准，这绝不是一个大型系统。

更传统的游戏呈现出不同类型的挑战。例如，国际象棋很接近井字棋。但是要在一个数据集中生成所有可能的国际象棋对策是不可能的。而IBM的“深蓝”——国际象棋游戏系统，在1997年的复赛中最终击败了特级大师Gary Kasparov，它采用了与假想井字棋机器相同的分层结构。但是，深蓝并没有采用所有可能走法的巨大的数据集，而是使用了专用硬件，从当前位置即时生成可能的走法。把它看成是按需第1层。

当它生成走法时，深蓝通过向前走出所有的合法走法来进行评估。系统中主CPU上的软件生成数千种后面的四种走法合理的序列，并进行评估。没有明显失误的序列然后被映射到系统的其他CPU上。(击败了Kasparov的1997版的深蓝含有30个RS/6000 CPU，每一个连接了16个象棋处理ASIC。)每个CPU从其分配到的序列开始，生成后续连续的四种走法序列，评估每个新序列。深蓝查看下面八种走法所有合理的序列。

对于这八种走法，在软件中进行分析，使得IBM的国际象棋专家即使在比赛过程中也能够修改算法。通过早期的应用，软件能够遵从有可能赢的序列，一直到游戏结束。八种走法序列的其他部分——有可能是数百万个，被分配到硬件国际象棋芯片中，再次进行后续的四种走法，并分析。最终，在我们所谓的第3层，对比所有12种走法序列的评分和所有保持不败的走法，主CPU从得分最高的序列中选择下一步走法。

前进之路

深蓝在1997年的胜利可能标志着基于规则的系统已经达到了最高点。自此之后，大量的工作是在专家系统上——实际上，IBM使用当时的POWER服务器硬件把深蓝推向市场，应用于地质勘探和医疗诊断等各种领域。但是AI的体系结构发展方向却被另一生力军改变了——神经网络的回归。

这种复兴来源于两种因素。首先是大规模并行计算系统的出现。对于很多神经网络，在使用中，在其要求严格的训练模式中，都遇到了令人尴尬的并行问题。在数万台服务器上，您可以真正的认真处理巨大的深度分层的网络，而这是上个世纪80年代研究人员所梦想的。

但是，仍然有问题。常规的神经网络在其训练阶段是全连接的：一层中的每个神经元连接了前一层中每一神经元的输入。如果把神经元分散到不同的服务器上，这不但使得一个神经元下一级的计算非常繁琐，而且会带来雪崩式的网络流量。最好是有一种推理的方法，以减少网络中的连接，但是不失其通用性。

好在机器视觉领域的工作解决了这一问题，是促使其复活的另一因素。多年以来研究人员一直使用卷积内核作为特性探测器。在这一应用中，每一个小内核只扫描整个输入图像的一小部分——可能是6*16像素矩阵。研究人员发现您不仅可以通过在前端放置一个卷积平面来缩减神经网络的规模，而且还可以在网络中深度混合卷积平面，极大的减少了互联。然后，可以采用神经元输入权重来训练卷积滤波器。结果被称之为卷积神经网络(CNN)，如图4所示。经过高强度训练后，这在识别和解析2D图像方面非常成功。而CNN能够进一步推广。

图4. 卷积神经网络在靠近前端使用卷积级，在后端使用全连接级。

更广泛的应用

机器视觉领域的一个分支立即采用了CNN。汽车辅助驾驶(ADAS)和无人驾驶汽车的研究人员采用CNN作为一种方法来减少汽车上的摄像机、雷达和激光产生的图像。

最近，另一种应用使用了CNN获得了惊人的结果：DeepMind，还有其足以击败围棋大师的程序。围棋与国际象棋有些相似性，实际上，以前的围棋软件所采用的方法与国际象棋程序所采用的相似——走法预测和基于规则的位置评估方法相结合，搜索出最好的下一步走法。但是在规模上不同。在国际象棋中，算出后面的四步走法——初学者很难做到，会产生大约一千多个位置。在围棋中，算出后面的四步走法会产生大约三十亿可能的位置。很显然，即使是对后面的几步走法进行穷尽式搜索也是不可能的。

程序员采用了两种策略尝试解决这一问题。最熟悉的是使用基于规则的系统，分析当前位置中的模式，建议下一步的走法，而不会去尝试预测结果。如果您下过围棋，就会知道这种方法对于一名有前途的初学者而言并不难。

另一种策略是蒙特卡洛方法：既然您无法穷尽一个位置的后续所有走法序列，那么尽可能选择一个大数，随机的或者通过一种策略算法，运行一定次数，选择最有可能获胜的一个。虽然这看起来是任意的——但是您不能保证不会错过最佳序列，对于很多类型的游戏，实际上随着采样数的增加，蒙特卡洛方法能够趋向于获得最佳走法。在围棋中，对于一般选手，这确是棋逢对手。

但DeepMind要的是冠军，而不是一个陪练。设计人员决定把蒙特卡洛方法与两种不同的CNN结合起来——一个确定策略，一个评估位置。大致上，使用策略CNN来指导后续走法，通过评估网络为结果位置打分，DeepMind的系统的确击败了一名冠军。

采用CNN立即带来了一个问题——怎样训练它们。Intel的Dubey解释说，“有三种基本训练方法，监管学习、加固学习和无监管学习。DeepMind采用了前两个。设计人员参考高手曾经进行过的大量的实际比赛数据，对其两个网络进行监管。结合多次进行过的比赛，会呈现出棋盘位置以及人类实际的下一步走法来训练网络。

为拓展训练，会让系统与随机选出的自己以前的早期版本进行比赛，通过比赛结果来进行加固。这不仅拓展了CNN的经验，而且将训练聚焦在最终结果上——赢或者输，而不是模仿人类参赛选手上。在训练过程中，设计人员使用常规的梯度递增或者递减函数来调整网络的卷积系数和神经元权重。

所有DeepMind的结构都是常规的：很多卷积层，然后是很多全连接层。其唯一不同的特性来自学习过程，特别是加固学习，系统与自己以前的版本进行比赛。

Dubey注意到，我们才刚刚开始研究这么大的学习网络。一种有前途的未来是在大规模并行系统上训练网络，然后以更小的系统来替代训练后的网络。他说，“一旦训练后，模型会非常紧凑。”然后可以把这些紧凑模型装入到智能电话或者可穿戴设备中，分布在数百万用户中。然后，当模型遇到意外结果时，会向云端报告，让更大的、可训练的模型学习现场大量的、训练过的网络所得出的经验。

而实际目的是通过完全无监管的连续学习来替代加固学习。在这种模式中，现场的设备会不断学习——不是从给定的输入中和所需的输出中，也不是从正确的结果给出的奖赏中，而是通过优化网络本身的复杂函数来实现。这在研究领域中是最前沿的，数据中心的大规模并行系统都进行了这方面的研究。而Dubey主张不能总是把无监管系统弃之不用。

Dubey注意到，“人们说，我们已经达到了这种层面——每个人所拥有的计算能力已经超出了他们的使用需求。但是，无监管学习遇到的难题改变了一切——不仅仅是斜率变化，还有高阶变量，还要学习快速变化的函数。您无法在日常遇到的问题和exaFLOPS之间实现两全其美。”

可能最好是结合部分以前的工作。也许只有强大的计算能力才能为之一振。但是现在的AI充满活力，还在不断发展。它对计算能力有迫切的需求。