深度学习的成长史和背后算法细节
扫描二维码
随时随地手机看文章
深度学习(Deep Learning),又名深度神经网络,前身是一只感知机。生于达特茅斯会议次年的ta,注定与人工智能有着不解之缘。人工智能中的各种机器学习方法,从初期的符号学习到后来统计学习再到现在的深度学习,往往代表了学派之争。初来咋到的感知机何以敢跟当时的霸主——‘符号主义’(symbolicism)分争天下?因为ta有个爹叫‘联结主义’(connecTIonism)。两门派针锋相对的历史在这暂且不表,先来看看这位初生牛犊,感知机,如何一步步成长为今日叱咤风云的深度学习的。
‘感知机’(perceptron),一个神秘的名字,到底是什么?虽然借用了人类大脑神经元连接的隐喻,但其终究不过是一个有着输入和输出两层神经元的线性分类器。然而世事并不总是线性的,一个连XOR都解决不了的线性分类器如何委以重任?人工智能的爸爸之一,明斯基(Marvin Minsky),甚至专门出了本书《感知机》将其批判了一番,殊不知正是这本书,差点将深度学习扼杀于襁褓之中。大佬一发话,各路人马纷纷饮恨而归,相忘于江湖,神经网络就此进入寒冬期。
图1.达特茅斯会议五十年重聚首,中间那位是明斯基,于2016年1月24日辞世
多数人放弃了,但有人坚持了下来。为了解决非线性可分的问题,人类(Rumelhart、Williams、Hinton、LeCun等)为感知机加了些隐藏层(hidden layer),于是‘多层感知机’便诞生了,这种每层神经元只与下层连接、神经元之间不同层连接的神经网络结构就是一个最基本的神经网络,‘前馈神经网络’(feedforward networks)。如何训练这个庞然大物,在当时依然不甚明了。直到八十年代中,BP算法的横空出世,重新燃起了联结主义的希望。BP算法为训练多层网络提供了简洁优雅的微积分解决方案,使得神经网络成为现实可用的模型。到此为止,就是神经网络的第二次潮起。不难想见的是,虽然随着神经网络层数的增加,模型能拟合越来越复杂的函数,但如何避免局部最优解,如何避免梯度消失,仍无行之有效的方法。统计学习理论也在此期间登堂入室,大有取而代之之势。神经网络再次被打入冷宫。
直到新千年的到来。随着计算能力的大幅提升和大数据的涌现,及ReLU、pre-training等训练方法的出现,神经网络重新以‘深度学习’的名字再现江湖,并在2012年横扫了各大模式识别竞赛,至此再无败绩。互联网巨头们见形势利好,也纷纷披甲上阵,投入巨资,深度学习开始一路狂奔向人生巅峰。有趣的是,神经网络的兴衰史恰好也是其更名换姓史——从‘感知机’到‘神经网络’再到今天炙手可热的‘深度学习’,每换一次名字,就涅槃一次,可见一个好名字的重要性。若用五个字概括这次深度学习的复兴,我想大概是——新瓶装旧酒,不对,应该是,时势造英雄。人工智能的车轮滚滚向前,三十年河东,三十年河西。这次联结主义占尽了风头,下一次,又会是谁?
图2. 著名模式识别竞赛ImageNet:Large Scale Visual RecogniTIon Challenge