自动化机器学习是什么情况
扫描二维码
随时随地手机看文章
说到人工智能,我们经常都会连带看到另一个词“机器学习”,另外留心的网友近年来或许还关注到一个新词“自动化机器学习技术(AutoML)”,那这个概念又是什么意思呢?本文将做一个简要介绍。
人工智能的官方发源时间被定为1956年,即“人工智能”这个词被正式提出的元年。作为试图将人类的认知能力在计算机层面进行模仿,并辅助人类执行一些较为复杂的任务的研究领域,人工智能研究主要分为了两个流派,即根据人类已有知识在计算机中进行重构的符号主义者和主张让机器在经验世界中自己学习的机器学习流派。
由于人类世界的开放性很强,即便在一个相对固定的环境中也如此,同时也因为很多时候人们做出判断的依据不太能够清晰的总结为规则以供计算机执行,所以符号主义流派逐渐衰落,而机器学习流派抢占了高地。对于机器学习自身内部而言,主要又分为三个研究范式,即监督、非监督和半监督学习任务。所谓监督,其实很好理解,以老师教学场景为例,老师在课堂上就一个问题给出相应的答案,让同学以这个标准答案为参考,学习相应的得到这个答案的方法。从这个例子可以看到,其实监督学习的核心就是给学习的主体一个标准的答案,比如告诉机器说图片A是一只猫,然后让机器通过一系列数学方法来不断试错,目的是调整自己内部的各种参数,使得能够看到这个图片A以后,经过一系列计算能够得出它是一只猫的结论。
相应的,非监督学习就是指机器在学习的时候不给它标准答案,让他根据一个人们设定的目标,在学习环境中自己寻找方法,不断提升自己的性能;对于半监督学习而言,就是结合了监督学习与非监督学习二者优势的一种研究范式。
那近来经常看到的自动化机器学习又是什么呢,机器不就是在自动化的学习吗?要理解这个还需对人工智能算法研究有一个简单的概念。机器学习的技术非常复杂,机器学习的研发项目比传统的开发项目复杂很多,一个简单的项目,周期也要几周到几个月的时间,实际企业中的项目即便是有一个比较成熟的团队,一般也要几个月到半年、一年的时间这都很正常。机器学习项目的最大不确定性在于不知道多长时间后才能达到设定的目标,就是模型能够真正可用。否则就无法实际商用,不能形成销售收入。模型无法达到目标精度很大程度是因为算法很难对最后效果进行一个准确的预测,所以我们采用迭代式的改进方法,就是不断的把开发过程重复,等最后模型做出来之后,分析模型结果,分析模型性能,然后进一步改进算法,在整个迭代过程中很多步骤都必须重新做,导致开发效率比较低。风险更高的是很多人工智能项目即便投入大量时间,投入大量人力之后还是会失败。来自权威机构Gartner的统计,60%的人工智能项目都以失败告终。
据它的调查显示,人工智能项目失败有两种原因:一方面,技术要求不达标,如很多人工智能项目中机器学习算法最后的准确度不够好;另一方面,项目进展缓慢,部分项目实施时时间越来越长,但是进展不明显,虽然有进展,但是距离项目目标很远。可能是工程的原因,也可能是算法的原因。大部分企业对人工智能投入还是有限的,到一定程度还没有进展,或者成本开销过大,都会被叫停,最后导致项目失败。项目失败的事情,即便在有丰富经验的人工智能团队的公司里,也会经常发生,因为进展不够快。
以上机器学习发展中遇到的问题,一个核心因素是人,而机器学习的工作又有大量的人工干预,如特征提取、模型选择、参数调节等机器学习的各个方面。对此,自动化机器学习技术(AutoML)正好可以解决这些问题。让机器学习重要步骤自动化,使它无需人工干预。ICM(International Conference on Machine Learning)国际机器学习大会给了机器学习一个定义:“progressive automaTIon of machine learning”,这个定义非常广泛,意思是任何能把现在机器学习的某一部分技术自动化都可以称之为AutoML。因为很多技术和平台符合这个定义,所以都宣称是AutoML。
不过,一个好的AutoML技术要完成的目标目前在工业界还是形成了共识的,即在有限的人力参与和计算资源约束下,AutoML的目标是最大化模型的性能,设计出与人类科学家设计的模型性能相当,甚至更好的模型。
此项技术虽然还处在发展的早期,但已经成为国际学术界、工业界研究的一个新重点,因为AutoML可以为企业节省大量成本,打造出性能非凡的人工智能系统。
国内目前有一大批领先人工智能公司联动学术界在该领域展开了研究,提出了不仅在学术界,而且同时已经能商用化的重要算法模型。
以极有可能成为AI第一股的计算机视觉巨头旷视为例。作为一家基于计算机视觉的人工智能物联网公司,旷视需要将大量先进的算法植入各类硬件设备,使它们智能化。然而考虑到生活中很多设备无法具备强大的计算能力,因此需要将各种视觉理解算法小型化,即让它们能够在广泛的物联网场景下适用。
对此旷视在之前已经开发了一系列经典的轻量级模型(如ShuffleNet、DoreFa-Net),并且将其部署在了各类物联网设备上,赋予了这些设备AI的力量。但随着技术进一步发展,如何在那么多不同种类的设备上设计最优的算法,如何进一步提升性能、降低计算成本就成了AIoT时代各家公司关注的重点。其中,旷视对此已经做出了一系列研究,并已将成果应用于实际业务。
旷视于今年在各大AI学术顶级会议上连发三篇与AutoML相关的重要论文,针对的就是当前该领域最火热的被称为NAS(自动化神经网络结构搜)的技术。在该项技术的帮助下,神经网络能够自己设计自己的结构,实现性能、效率匹敌甚至超越人类科学家设计的网络。
这些由旷视NAS技术推出的网络目前已经在手机等各类边端小型设备上广泛使用,同时也助力旷视在全球AI学术竞赛上多次夺冠,它们的出现并非会让人类失业,而是帮助人类拓宽思路,设计出更多造福社会的AI系统。