关于深度学习现状的不乐观分析
扫描二维码
随时随地手机看文章
深度学习虽然到现在依然火热,Gary Marcus 却向我们泼了冷水,Gary Marcus 表示别忽视深度学习的种种问题,其实深度学习的现状一点都不乐观,我们还有许多的难题没有解决,学到的知识并不深入而且很难迁移。
纽约大学心理学教授 Gary Marcus 曾是 Uber 人工智能实验室的负责人,他自己创立的人工智能创业公司 Geometric Intelligence 2016 年 12 月被 Uber 收购,自己也就加入 Uber 帮助他们建立人工智能实验室。Gary Marcus 也曾号召研究人员们「借用认知科学领域的知识」,更多地构建和人类类似的认识概念。
然而 Gary Marcus 却不是一个令人深受鼓舞的「正面人物」,实际上他曾反复对人工智能和深度学习泼冷水,警告大家我们现在取得的进展多么微不足道、人们又有多么过于乐观。
圣诞-元旦长假刚过,Gary Marcus 在 arXiv 上传了一篇论文,对现在火热的深度学习的现状进行了全面的、而且一点都不乐观的分析。他在论文中针对现在火热的深度学习指出了十个问题,小编把这十个问题简单介绍如下:
一,渴求大量的数据
人类学可以根据明确的规律学习,比如学会一元二次方程的三种形式以后就可以用来解各种题目;也可以从不多的几个样本中迅速学到隐含的规律,见过了京巴、柴犬之后,再见到德牧就知道它也是一种狗。然而深度学习不是这样的,「越多的数据 = 越好的模型表现」就是深度学习的基本规律,它没有能力从字面上给出的规律学习。
对企业来说,IT 巨头在深度学习时代更容易凭更大的数据量建立起马太效应,第二梯队的竞争者们已经开始感到担忧。学者们也对此不是很乐观,Geoffrey Hinton 在近期的胶囊论文中也提到「卷积网络在新类别上泛化能力的困难度……要么在网格中复制特征检测器,网格的大小随着维度数目指数增长,要么同样以指数方式增加的标注训练集的大小」。对于可用的数据有限的场合,深度学习往往并不是最佳的选择。
二,学到的知识并不深入而且很难迁移我们都知道深度学习的「深」指的是网络的层数深、隐层数目多,而人类喜欢且崇敬的对事物运行规律的深刻总结则在深度学习中无处可寻。
即便对于需要和环境交互、理应更好地认识到环境规律的强化学习模型,一旦环境发生任何变化,它们也仍然需要重新适应——它们其实没有真的理解「墙」是什么、「通道」是什么。除了 DeepMind 的玩 Atari 游戏的强化学习模型表现出了这样的特点,其它许多研究者在各自的研究领域中也都观察到了轻微改变输入数据就会造成输出结果有巨大差别的现象。
深度学习模型学到的数据模式,看起来要比我们认为的弱得多。
三,难以处理层次化的结构举例来说,对多数深度学习语言模型来说,句子就是一串单词而已,然而在语言学家眼中,句子是有固有的层次结构的;英文长句中的定语从句就是一类经典的例子,同样是结构基本完整的句子,从层次结构角度讲却只是某一个词或者词组的补充说明。
深度学习对于各种层次化的结构都无能为力。人类可以把「煮米饭」这个目标拆分成「淘米、加水、设火力时间」几个动作逐个完成,游戏 AI 也有需求找到单个操作和全局战略之间的平衡和协调。然而深度学习是提供不了层次化的理解、总结、控制等等能力的,它本身学到的特征就是「平坦」的,或者说是非层次化的,每个特征都只是清单中的一项。所以深度学习系统自身没有能力表示出层次化结构,尝试用一些技巧提取层次化结构的 Word2Vec 之类的模型就马上可以脱颖而出。
然而考虑到多数任务、多数数据、多数电气系统都有显而易见的层次结构(这甚至就是人类构建实用系统的基本思路),深度学习在它们之上的表现都还很值得怀疑。
四,对于开放性推理问题爱莫能助
人类在看过书籍电影之后总能对其中的转折和故事发展提出不同于原作的见解、对作者的暗示提出种种猜想,然而即便是在 SQuAD 问答数据集上表现最好的模型,也只能是在给定的文本中找到最相关的词句然后把它们进行组合而已,完全没有创新和理解暗示的能力。即便已经有研究者做出了尝试,目前来说也没有任何深度学习系统基于真实知识做开放性推理的能力可以和人类相提并论。