深度思考:现在的AI模型真的在进行推理吗?
扫描二维码
随时随地手机看文章
最近,OpenAI、DeepSeek、谷歌、Anthropic都推出新模型,它们都宣称模型已经具备真正的推理能力,也就是人类解决问题时运用的思维方式,但问题在于:AI大模型所说的推理真的和人一样吗?
现在的模型可以将复杂问题分解成小问题,然后逐步解决小问题再给出回应,业界将这个过程称为“思维链推理”。这些模型有时表现让人惊叹,可以解决逻辑谜题和数学难题,能够快速写出完美代码,但有时面对极为简单的问题却显得蠢笨。
于是乎,反对者认为所谓的“思维链推理”根本不算推理,而支持者却认为是推理,虽然不如人类灵活,但它正在朝着真正的推理前进。
反对者:只是用启发式原则猜测答案
科学家一直在研究人脑是如何运行的,目前大家一致认为大脑存在多种不同的推理类型。
推理有演绎推理,即从一个一般性的陈述出发,得出一个具体的结论。还有归纳推理,利用具体的观察结果来做出更广泛的概括。除此还有类比推理、因果推理、常识推理。
与人脑推理相比,目前的AI推理还很狭隘。
圣塔菲研究所(SFI,Santa Fe Institute,SFI)教授梅兰妮·米切尔(Melanie Mitchell)曾在一篇论文中写道:“从有限的数学和经验中找到一条规则或者一套模型,将它应用于新的未曾见过的情境中,在现实世界,我们非常看重这样的推理。即使是非常小的孩子,也能从几个例子中学习并发现抽象规则。”
孩子能做到,现在的AI能吗?许多人持怀疑态度。
爱丁堡大学技术哲学家肖恩·瓦洛尔(Shannon Vallor)在谈到OpenAI o1时表示:“AI所做的只是一种元拟态行为(meta-mimicry)。”
什么意思?就是说以前的ChatGPT旧模型会模仿其训练数据中人类所写的陈述内容,新的o1可以模仿人类得出陈述内容的过程,虽然o1输出的结果会让人觉得它在推理,但这不是真正意义上的推理。
举个例子,问ChatGPT一个问题:“1个人带1匹狼、1只羊、1捆草过河。如果人在场,狼不敢吃羊、羊不敢吃草,可是小河边的船每次只能让人带一种东西过河。那么,如何用最少的渡河次数把所有东西都带到河对岸呢?”
虽然o1相比旧版有所改进,但架构并未有太大变动,它在回答问题时出现失误。瓦洛尔认为:“在回答问题失败时,我们会看到一个事实,即模型并没有进行真正的推理。”
随后推出的o3让米切尔感到惊讶,但她更让他吃惊的是o3在解决问题时消耗的算力如此巨大。由于OpenAI内部运作并不透明,人们无从知晓大模型用这些算力做了什么。如果OpenAI不能做到公开透明,便无法确定模型真的将大问题分解成若干步骤,然后给出一个更完美的整体答案。
去年纽约大学在一篇名为《Let’s Think Dot by Dot》的论文中质疑过AI推理,研究人员发现,把思维链(Chain-of-Thought,CoT)推理中的具体步骤,替换成毫无意义的“...”(点号),产生的推理结果也大差不差。
米切尔认为:“AI更像是一个启发式原则构成的集合,不是推理模型。”启发式原则能帮你猜出问题的正确答案,但它并非真正通过思考获得答案。
又例如,研究人员曾开发一个视觉模型,用来分析皮肤癌。初看时,模型似乎能判断皮肤上的斑点是否为恶性病变,但事实证明,在训练数据中恶性斑点照片旁边往往有了标尺信息,模型只是因为标尺信息的存在将斑点判定为恶性病变,这是一种启发式思考。
由此可以怀疑,看起来AI似乎在用“推理”解决问题,但实际上只是在利用“记忆信息”进行启发式探索。
支持者:不是纯粹推理但也不是背诵
Redwood Research致力于降低人工智能风险,该公司首席科学家瑞安·格林布拉特(Ryan Greenblatt)认为,当前的AI明显是在进行某种形式的推理。
格林布拉特说:“机器的处理方式不像人类那样具有普遍性,它们更多依赖记忆和知识,而非人类那样依靠推理和判断,但机器仍在进行处理。”
既然AI模型可以解答超出样本范围的难题,而且表现出色,就可以说它们是在进行某种推理。
“过河问题”是一个很经典的问题,在训练数据中,AI应该已经学习过很多次。但当用户提出问题时,AI并没有给出正确答案,它可能知道答案,只是进行了复杂的不必要的“思考”,人有时也会犯这种错误。
格林布拉特举例说,如果你花一个月时间学习色彩理论,从互补色到不同色调的心理影响,再到文艺复兴时期某些颜料的历史意义。学完之后参加测试,试题问:“这幅风景画中为什么要把天空画成蓝色?”你可能会被误导,写出极为复杂但没有必要的答案,比如你可能会说蓝色代表神圣的天空,说画是清晨完成的,象征着新生……实际上答案很简单:因为天空就是蓝色的。
Open Philanthropy分析师阿杰亚·科特拉(Ajeya Cotra)认为,有些活动被人类称为推理,在这一范畴内,AI将会表现得越来越好。人类说AI只是在进行“元拟态”活动,重点不在于“元拟态”,而在于“只是”。人类的意思可能是它不会对世界产生重大影响,我们离超级人工智能还有很远,这种断定值得怀疑。
再比如,在一堂大学物理课上,面对问题时学生的表现参差不齐。有人作弊,直接给出答案。有人是天才,无需思考公式的内容,凭借深刻的理解与直觉给出答案。大多学生凭借记忆记住公式,努力思考用哪个公式解答问题。
科特拉认为,现在的AI和大多学生一样,它会将记忆内容与一些推理内容结合起来。AI可能不太聪明,但它很勤奋,能记住无数方程式。它将强大的记忆与少量理解结合,找出针对某个问题的方程式组合,然后给出答案。
乍一看,AI和天才学生一样极为聪明,但细细分析就会发现答案中的漏洞,尽管如此,并不意味着AI没有推理。
换句话说,这些模型既不是纯粹地进行推理,也不是纯粹地进行背诵。
科特拉说:“我认为这是处于两者之间的一种状态。人们对此感到困惑,因为他们想要将其归入某一类别,要么说是单纯的记忆,要么说是真正意义上的深入推理。但实际上,推理的深度是有一定范围的。”
结语:锯齿状智能
研究人员用“锯齿状智能”这一术语能描述今天的AI,就是说它既能出色解决一些数学问题,碰到简单问题时又会变得愚蠢。
人类总是喜欢将AI的智能与人类智能类比,或者我们应该换个角度看待,将人工智能视为“与众不同”的智能,不要纠结于“比人类更聪明”或者“比人类更愚笨”。
人工智能正在进化,某一天也许变得无比强大,能够囊括人类所有的智能,甚至还有余力,这种变革值得期待。