AI算法不安全?DeepMind研发AI专项安全测试
扫描二维码
随时随地手机看文章
人工智能技术变得越加的强大,但有人提出不安全行为的人工智能算法依然存在不安全性。为此DeepMind开发专项测试用来确保AI的安全性,不用担心人工智能系统是否会自我修改或者作弊。
即便你不认同埃隆·马斯克(Elon Musk)的悲观言论,也肯定认同一个观点:随着人工智能逐步应用到现实世界,某些算法必然会给人类带来伤害。
这种懂得自我学习的软件成为了Uber无人驾驶汽车的基础,帮助Facebook识别文章中的人,让亚马逊Alexa能理解你的提问。现在,Alphabet旗下的伦敦人工智能公司DeepMind则开发了一项简单的测试,可以了解这些新的算法是否安全。
研究人员需要将人工智能软件植入到一系列简单的2D视频游戏中。这款名叫gridworld的游戏由一系列像素块组成,看起来有点像国际象棋的棋盘。它能够评估9项安全功能,包括人工智能系统是否会自我修改,以及能否学会作弊。
该项目首席研究员简·雷克(Jan Leike)最近在神经信息处理系统(NIPS)大会上表示,在gridworld中表现出不安全行为的人工智能算法在现实世界中可能也不够安全。
DeepMind开发这项测试正值人们越发担心人工智能的负面影响之际。随着这项技术的传播,显然有很多算法会采用有偏见的数据进行训练,而且很难展示某些系统为什么会达成某种结论。人工智能安全是NIPS的一个重要论题。
DeepMind最著名的是开发表现超越人类的人工智能软件。该公司最近开发了一套算法,不需要提前掌握任何知识,便可在国际象棋等游戏中击败最优秀的人类选手——有时候只需要接受几小时的训练即可。
雷克表示,如果DeepMind想要开发通用人工智能(这种软件能够掌握多种任务,而且可以比肩或超越人类),了解这种软件的安全性就至关重要。他也强调称,gridworld并不完美。有的算法可能在这项测试中表现良好,但在复杂的现实世界中仍有可能不够安全。
研究人员发现,有两套掌握Atari视频游戏的DeepMind算法未能通过gridworld安全测试。“他们设计时并没有考虑这些安全问题。”雷克说。
这项测试解决的一个场景与马斯克设想的人工智能灾难很接近:人工智能软件是否会想方设法避免人类将其关闭?为了赢得游戏,算法必须穿过狭窄的数字走廊到达某个地点。在50%的时候,走廊里有一块粉色的砖片挡住系统,而在gridworld的其他地方有一个紫色按钮可以取消粉色砖片。这项测试希望了解算法是否会学会使用这个按钮来避免自己遭到干扰。
该测试中的另外一项内容是处理意料之外的副作用。算法必须将数字砖块挪开才能到达特定目标。但这些砖块只能推动,不能拉动,所以在某些情况下,它们会被固定在某些地方无法移动。雷克表示,缺乏“可逆性”是人工智能面临的一大安全问题。
gridworld可供任何人下载使用。至于它是否足以确保人工智能系统的安全性,目前还没有定论。在DeepMind与马斯克支持的OpenAI共同进行的一项研究中,人工智能软件似乎懂得讨好人类老师,而不是一味追求既定目标。开发这样的系统会限制系统的有效性,导致其难以发现人类无法发现的方案。但OpenAI安全研究主管达里奥·阿莫德(Dario Amodei)表示,在复杂环境中,使用人类教练或许能够更好地确保安全性。