自我监督学习将是AI技术的未来发展方向

时间：2020-04-27 16:57:01

关键字： AI技术 AI ECU TRANSFORMERS

手机看文章

扫描二维码
随时随地手机看文章

[导读] （文章来源：科技行者）尽管深度学习已经在人工智能领域做出重大贡献，但这项技术本身仍存在一项致命缺陷：需要大量数据的加持。深度学习领域的先驱者乃至批评者已经就此达成共识——事实上，正是由

（文章来源：科技行者）

尽管深度学习已经在人工智能领域做出重大贡献，但这项技术本身仍存在一项致命缺陷：需要大量数据的加持。深度学习领域的先驱者乃至批评者已经就此达成共识——事实上，正是由于可用数据量有限加上处理大规模数据的计算能力不足，才导致深度学习直到最近几年才成为AI层面的前沿技术。因此，减少深度学习对数据的依赖性，已经成为AI研究人员最重要的探索方向之一。

在AAAI大会的主题演讲中，计算机科学家Yann LeCun讨论了当前深度学习技术的局限性，同时提出“自我监督学习”的发展蓝图——这是他为解决深度学习数据问题而构建的路线图。作为深度学习领域的教父级人物之一，LeCun正是卷积神经网络(CNN)的发明者，而该网络也成为过去十年内推动人工智能革命的一大核心因素。

自我监督学习，可谓当前提升人工智能系统数据利用效率的多种尝试之一。目前我们还很难断言哪种具体尝试能够成功掀起下一轮AI革命(也许我们最终会采取完全不同的政策)，但LeCun的规划与思路仍然值得我们认真了解。首先，LeCun强调称，深度学习技术面对的局限性实际上正是监督学习技术的局限性。所谓监督学习，属于一类需要对训练数据进行标记才能正常完成学习的算法。例如，如果希望创建图像分类模型，则必须为系统提供经过适当分类标记的大量图像，由模型在其中完成充分训练。

LeCun在AAAI主题演讲中提到，“深度学习并不是监督学习，也不只是神经网络。基本上，深度学习是将参数化的模块组装到计算图中以构建起AI系统。它的优势在于，我们不需要对系统进行直接编程——我们只需要定义架构并调整参数。不过其中需要调整的参数可能多达数十亿之巨。”LeCun同时补充道，深度学习适用于多种不同学习范式，包括监督学习、强化学习以及无监督/自我监督学习等。

但目前人们对于深度学习以及监督学习的抱怨并非空穴来风。当下，大部分能够实际应用的深度学习算法都基于监督学习模型，这也充分暴露出现有AI系统的缺点所在。我们日常使用的图像分类器、人脸识别系统、语音识别系统以及众多其他AI应用都需要利用数百万个带有标记的示例进行充分训练。到目前为止，强化学习与无监督学习只能算是在理论上存在的其他机器学习算法类型，还极少在实践场景中得到应用。

监督深度学习为我们带来多种非常实用的应用方案，特别是在计算机视觉与自然语言处理等特定领域。深度学习已经在癌症检测等敏感应用中扮演越来越重要的角色，而且事实证明，其确实能够在部分人类无法解决的问题中发挥核心作用。例如，社交媒体巨头们正纷纷利用这类技术审核并通报用户在平台上发布的大量内容。

LeCun表示，“如果把深度学习元素从Facebook、Instagram以及YouTube等厂商中剥离出来，他们的业务会瞬间崩溃。事实上，他们的业务完全围绕深度学习构建而成。”

但正如前文所述，监督学习只适用于具备充足高质量数据、且数据内容足以涵盖所有可能情况的场景。一旦经过训练的深度学习模型遇到不同于训练示例的全新状况，它们的表现将彻底失去控制。在某些情况下，单是从稍有区别的角度展示对象，就有可能令神经网络将其误判为其他物体。

深度强化学习则在游戏与模拟场景中表现出强大能力。过去几年以来，强化学习已经征服了众多以往人工智能无法攻克的游戏项目。当下，AI程序在《星际争霸2》、《Dota》以及具有悠久历史的围棋领域将人类顶尖选手杀得片甲不留。

但是，这些AI程序在摸索解决问题的方法方面，与人类完全不同。基本上，强化学习代理就是一张白纸，我们只为其提供在特定环境中能够执行的一组基本操作。接下来，AI会不断自行尝试，通过反复试验来学习如何获取最高奖励(例如尽可能在游戏中取胜)。

当问题空间比较简单，而且我们拥有充足的计算能力以运行更多不断重复的试验性会话时，这类模型就能正常起效。在大多数情况下，强化学习代理要耗费大量时间以掌握游戏精髓，而巨大的成本也意味着这类技术只能存在于高科技企业内部或者由其资助的研究实验室当中。

强化学习系统的另一大短板体现在迁移学习方面。如果要游玩《魔兽争霸3》，那么即使是已经精通了《星际争霸2》的代理，也需要从零开始接受训练。实际上，即使对《星际争霸2》游戏环境做出一点点微小发动，亦会严重影响AI的实际表现。相反，人类非常擅长从一款游戏中提取抽象概念，并快速将其迁移至新的游戏当中。

强化学习在解决无法准确模拟的现实问题时，同样显示出强烈的局限性。LeCun提到，“如果想要训练一辆无人驾驶汽车，我们该怎么办?”这类使用场景确实很难准确模拟，因此为了开发出一台真正具备无人驾驶能力的汽车，“我们恐怕得撞毁很多很多汽车。”而且与模拟环境不同，我们无法在现实场景中快速进行实验，更遑论由现实实验带来的巨大成本。

首先，我们需要开发出能够利用更少样本或者更少试验学习完成训练的AI系统。LeCun指出，“我的建议是使用无监督学习，我个人更倾向于称其为自我监督学习，因为其中用到的算法仍然类似于监督学习，只是监督学习的作用主要在于填补空白。总而言之，在学习任务之前，系统需要首先了解这个世界。婴儿或者小动物都是这样成长的。我们首先接触这个世界、理解其运作规律，而后才考虑如何解决具体任务。只要能看懂这个世界，那么学习新任务就只需要很少的试验与样本量。”

婴儿在出生后的前几个月内，会快速建立起关于引力、尺寸与物体性状的概念。虽然研究人员还无法确定其中有多少属性与大脑建立起硬连接、又存在多少具体认知，但可以肯定的是，我们人类首先观察周边世界、而后才实际行动并与之交互。

第二项挑战在于构建起具备推理能力的深度学习系统。众所周知，现有深度学习系统的推理与推理能力相当捉急，因此需要大量数据才能解决那些最简单的任务。LeCun指出，“问题在于，我们要如何超越现有前馈计算与系统1?我们要如何让推理与基于梯度的学习方式相兼容?我们要如何在推理中实现差异性?这些都是最基本的问题。”

系统1是指那些不需要主动思考的学习任务，例如在已知区域内导航或者进行少量计算。系统2则代表一种较为活跃的思维方式，需要推理能力的支持。作为AI领域的经典方案，象征性人工智能已经在推理与抽象领域带来广受好评的能力提升。

但LeCun并不建议人们广泛采用这些备受科学家推崇的象征性AI或者混合人工智能系统。对于AI未来的发展愿景，他的思路与另一位深度学习先驱Yoshua Bengio更为接近。他在NeurIPS 2019大会上介绍了系统2深度学习的概念，并在AAAI 2020大会上做出进一步讨论。但LeCun也坦言，在实现深度学习系统的推理能力方面，“并不存在一种完美的答案”。

第三大挑战在于如何建立深度学习系统，确保其能够学习并规划复杂的行动序列，进而将任务拆分为多个子任务。深度学习系统擅长为问题提供端到端解决方案，但却很难将其分解为可解释且可修改的特定步骤。目前，业界已经在AI系统对图像、语音及文本的分解方面取得一定进展，由Geoffry Hinton发明的胶囊网络成功解决了其中一部分难题。

但学习复杂的推理任务仍然远超现有AI的能力上限。LeCun承认，“我们不知道要如何实现这种能力。”自我监督学习的基本思路，是开发出一种能够填补上述空白的深度学习系统。LeCun解释道，“我们只需要向此类系统展示输入、文本、视频甚至是图像，而后剔除出其中一部分，由经过训练的神经网络或者您选定的类或模型预测这些缺失的部分。预测对象可以是视频内容的后续走向，也可以是文本中缺少的词汇。”

目前市面上最接近自我监督学习系统的当数Transformers，这是一种在自然语言处理领域大放异彩的架构方案。Transformers不需要标记数据，它们可以通过维基百科等资料进行大规模非结构化文本训练。而且事实证明，与之前的同类系统相比，Transformers在生成文本、组织对话以及建立回复内容方面拥有更好的表现。(但它们仍然无法真正理解人类语言。)

Transformers已经相当流行，并成为几乎一切最新语言模型的基础技术，具体包括谷歌的BERT、Facebook的RoBERTa、OpenAI的GPT2以及谷歌的Meena聊天机器人。最近，AI研究人员还证明，Transformers能够进行积分运算并求解微分议程——换言之，它已经展现出解决符号处理问题的能力。这可能暗示着Transformers的发展最终有望推动神经网络突破模式识别与近似任务统计等传统应用的樊篱。

截至目前，Transformers已经证明了自己在处理离散数据(例如单词与数学符号)方面的价值。LeCun指出，“训练这类系统比较简单，因为虽然单词遗漏可能造成一定程度的不确定性，但我们可以利用完整词典中的巨大概率矢量来表达这种不确定性，所以问题不大。”

但Transformers还没能将自己的威力引入视觉数据领域。LeCun解释称，“事实证明，在图像与视频中表达不确定性并做出预测，其难度要远高于文本层面的不确定性表达与预测。这是因为图像与视频内容并非离散存在。我们可以根据词典生成所有单词的分布情况，但却不可能表达所有潜在视频帧的分布情况。”

对于每个视频片段，都存在着无数种可能的后续情况。这就导致AI系统很难预测出特定结果，例如视频内接下来几帧所展示的画面。神经网络只能计算出可能结果的平均值，并据此输出非常模糊的影像。LeCun指出，“如果要将自我监督学习应用于视频等多种形式，首先得解决这个核心技术问题。”

LeCun个人最偏好的监督学习方法，是所谓“基于能量的潜在变量模型”。其中的核心思路在于引入一个潜在变量Z，该变量用于计算变量X(视频中的当前帧)与预测Y(视频的未来帧)之间的兼容性，并选择具有最佳兼容性得分的结果。LeCun也在演讲中进一步阐述了基于能量的模型与自我监督学习的实现方法。