谷歌科学家杰夫 迪恩:人工智能离普及还有多远?
扫描二维码
随时随地手机看文章
谷歌科学家杰夫·迪恩:人工智能离普及还有多远?
问:在推动人工智能领域研究的过程中,科研人员主要面临哪些挑战?
人类的学习有大量内容来自无监督式的学习,也就是说,你只是在观察周围的世界,理解事物的道理。这是机器学习研究的一个非常活跃的领域,但目前研究的进展与监督式学习还是不能比拟的。
也就是说,无监督式学习指的是一个人通过观察和感知进行的学习,如果计算机也能自行进行观察和感知,就能帮助我们解决更复杂的问题了?
是的,人类的洞察力主要是通过无监督式学习训练出来的。你从小就会观察世界,但偶尔你也会得到一些监督式学习的信号,比如有人会告诉你:“那是一只长颈鹿”或“那是一辆小汽车”。你获了这些少量的监督式信息后,你的心智模式就会自然地对其产生回应。
我们需要将监督式和非监督式学习更紧密地结合起来。不过以我们大部分机器学习系统的工作模式来看,我们现在还没有完全进展到那个地步。
你能解释一下什么是“强化学习”技术吗?
“强化学习”背后的理念是,你并不一定理解你可能要采取的行动,所以你会先尝试你应该采取的一系列行动,比如你觉得某个想法很好,就可以先尝试一下,然后观察外界的反应。这就好比玩桌游,你可以针对对手的举动做出回应。最终在一系列的类似行为之后,你就会获得某种奖励信号。
强化学习的理念就是,在你获得奖励信号的同时,可以将功劳或过错分配给你在尝试过程中采取的所有行动。这项技术在今天的某些领域的确非常有效。
我觉得强化学习面临的一些挑战主要集中在当你可以采取的行为状态极为宽泛的时候。在真实世界中,人类在任何给定的时候都可以采取一系列极为宽泛的行为。而在你玩桌游的时候,你能采取的只有有限的一系列行为,因为游戏的规则限制了你,而且奖励信号也要明确得多——不是赢就是输。
如果我的目标是泡一杯咖啡之类的,那我可能采取的潜在行为就相当宽泛了,而奖励信号也没有那么明显了。
不过你们还是可以将步骤分解开,对吧?比如,如果你想泡一杯咖啡,你就可以通过学习得知,如果你在冲泡之前不将咖啡豆充分研磨,泡出来的咖啡就不会好喝。
对。我认为增强学习的一个特点就是它需要探索,所以在物理系统环境下使用它往往有些困难。不过我们已经开始尝试在机器人上使用这种技术了。当机器人要需要采取某些行动中,它在特定一天内可以采取的行为是有限的。但是如果使用计算机模拟的话,就可以轻易地使用大量计算机获得上百万个样本。
谷歌已经开始将强化学习技术用在核心搜索产品上了吗?
我们通过与DeepMind(一家人工智能领域的创业公司,2014年被谷歌收购)和我们的数据中心运营人员的共同努力,已经将强化学习技术应用到了我们的核心产品上。他们还将这项技术运用在了数据中心的空调温控系统上,在大大降低能耗的同时,达到了相同的、安全的冷却效果和运行条件。它能探索温控旋钮的哪种设置是合理的,以及当你改变运行条件时应该如何做出响应。
通过强化学习技术,他们能够探索这18个或者更多个温控旋钮的最优设置,而这可能是连专门负责温控的工作人员都没有做过的。熟悉温控系统的人可能会觉得:“这个设置真奇怪。”然而事实上它的工作效果非常好。
什么样的任务更适合应用强化学习技术?
上面说的数据中心这个案例之所以效果很好,就是因为在一段给定时间内并没有太多不同的行为。温控系统大概有18个温控旋钮,你可以把一个旋钮调高或调低,结果都是很容易衡量的。只要你在可以接受的适当温度范围内运行,你的能耗利用率就会更好。从这个角度看,这几乎是一个理想的强化学习技术的使用案例。