什么叫通用人工智能
扫描二维码
随时随地手机看文章
在当今科技快速发展的时代,人工智能(Artificial Intelligence,简称AI)已经成为人们热议的话题之一。其中,通用人工智能(AGI)更是备受关注。本文将介绍通用人工智能的概念及其与人类生活的关系,带你了解这一引领未来的智能之潮。
一、什么是通用人工智能(AGI)?
通用人工智能(Artificial General Intelligence,简称AGI)是指拥有与人类相当甚至超过人类智能的人工智能类型。通用人工智能不仅能像人类一样进行感知、理解、学习和推理等基础思维能力,还能在不同领域灵活应用、快速学习和创造性思考。
1 AGI发展综述
1.1 AGI的概念
AGI通用人工智能,也称强人工智能(Strong AI),指的是具备与人类同等甚至超越人类的智能,能表现出正常人类所具有的所有智能行为。
ChatGPT是大模型发展量变到质变的结果,ChatGPT具备了一定的AGI能力。随着ChatGPT的成功,AGI已经成为全球竞争的焦点。
与基于大模型发展的AGI对应的,传统的基于中小模型的人工智能,也可以称为弱人工智能。它聚焦某个相对具体的业务方面,采用相对中小参数规模的模型,中小规模的数据集,然后实现相对确定、相对简单的人工智能场景应用。
1.2 AGI特征之一:涌现
“涌现”,并不是一个新概念。凯文·凯利在他的《失控》中就提到了“涌现”,这里的“涌现”,指的是众多个体的集合会涌现出超越个体特征的某些更高级的特征。
在大模型领域,“涌现”指的是,当模型参数突破某个规模时,性能显著提升,并且表现出让人惊艳的、意想不到的能力,比如语言理解能力、生成能力、逻辑推理能力等等。
对外行(比如作者自己)来说,涌现能力,可以简单的用“量变引起质变”来解释:随着模型参数的不断增加,终于突破了某个临界值,从而引起了质的变化,让大模型产生了许多更加强大的、新的能力。
如果想详细了解大模型“涌现”能力的详细分析,可以参阅谷歌的论文《Emergent Abilities of Large Language Models》。
当然,目前,大模型发展还是非常新的领域,对“涌现”能力的看法,也有不同的声音。例如斯坦福大学的研究者对大语言模型“涌现”能力的说法提出了质疑,认为其是人为选择度量方式的结果。详见论文《Are Emergent Abilities of Large Language Models a Mirage?》。
1.3 AGI特征之二:多模态
每一种信息的来源或者形式,都可以称为一种模态。例如,人有触觉、听觉、视觉等;信息的媒介有文字、图像、语音、视频等;各种类型的传感器,如摄像头、雷达、激光雷达等。多模态,顾名思义,即从多个模态表达或感知事物。而多模态机器学习,指的是从多种模态的数据中学习并且提升自身的算法。
传统的中小规模AI模型,基本都是单模态的。比如专门研究语言识别、视频分析、图形识别以及文本分析等单个模态的算法模型。
基于Transformer的chatGPT出现之后,之后的AI大模型基本上都逐渐实现了对多模态的支持:
首先,可以通过文本、图像、语音、视频等多模态的数据学习;
并且,基于其中一个模态学习到的能力,可以应用在另一个模态的推理;
此外,不同模态数据学习到的能力还会融合,形成一些超出单个模态学习能力的新的能力。
多模态的划分是我们人为进行划分的,多种模态的数据里包含的信息,都可以被AGI统一理解,并转换成模型的能力。在中小模型中,我们人为割裂了很多信息,从而限制的AI算法的智能能力(此外,模型的参数规模和模型架构,也对智能能力有很大影响)。
1.4 AGI特征之三:通用性
从2012年深度学习走入我们的视野,用于各类特定应用场景的AI模型就如雨后春笋般的出现。比如车牌识别、人脸识别、语音识别等等,也包括一些综合性的场景,比如自动驾驶、元宇宙场景等。每个场景都有不同的模型,并且同一个场景,还有很多公司开发的各种算法和架构各异的模型。可以说,这一时期的AI模型,是极度碎片化的。
而从GPT开始,让大家看到了通用AI的曙光。最理想的AI模型:可以输入任何形式、任何场景的训练数据,可以学习到几乎“所有”的能力,可以做任何需要做的决策。当然,最关键的,基于大模型的AGI的智能能力远高于传统的用于特定场合的AI中小模型。
完全通用的AI出现以后,一方面我们可以推而广之,实现AGI+各种场景;另一方面,由于算法逐渐确定,也给了AI加速持续优化的空间,从而可以持续不断的优化AI算力。算力持续提升,反过来又会推动模型向更大规模参数演进升级。
2 专用和通用的关系
牧本波动(Makimoto's Wave)是一个与摩尔定律类似的电子行业发展规律,它认为集成电路有规律的在“通用”和“专用”之间变化,循环周期大约为10年。也因此,芯片行业的很多人认为,“通用”和“专用”是对等的,是一个天平的两边。设计研发的产品,偏向通用或偏向专用,是基于客户场景需求,对产品实现的权衡。
但从AGI的发展来看,基于大模型的AGI和传统的基于中小模型的专用人工智能相比,并不是对等的两端左右权衡的问题,而是从低级智能升级到高级智能的问题。我们再用这个观点重新来审视一下计算芯片的发展历史:
专用集成电路ASIC是贯穿集成电路发展的一直存在的一种芯片架构形态;
在CPU出现之前,几乎所有的芯片都是ASIC;但在CPU出现之后,CPU迅速的取得了芯片的主导地位;CPU的ISA包含的是加减乘除等最基本的指令,也因此CPU是完全通用的处理器。
GPU最开始的定位是专用的图形处理器;自从GPU改造成了定位并行计算平台的GP-GPU之后,辅以帮助用户开发的CUDA的加持,从而成就了GPU在异构时代的王者地位。
随着系统复杂度的增加,不同客户系统的差异性和客户系统的快速迭代,ASIC架构的芯片,越来越不适合。行业逐渐兴起了DSA的浪潮,DSA可以理解成ASIC向通用可编程能力的一个回调,DSA是具有一定编程能力的ASIC。ASIC面向具体场景和固化的业务逻辑,而DSA则面向一个领域的多种场景,其业务逻辑部分可编程。即便如此,在AI这种对性能极度敏感的场景,相比GPU,AI-DSA都不够成功,本质原因就在于AI场景快速变化,但AI-DSA芯片迭代周期过长。
从长期发展的角度看,专用芯片的发展,是在给通用芯片探路。通用芯片,会从各类专用计算中析取出更加本质的足够通用的计算指令或事务,然后把之融合到通用芯片的设计中去。比如:
CPU完全通用,但性能较弱,所以就通过向量和张量等协处理器的方式,实现硬件加速和性能提升。
CPU的加速能力有限,于是出现了GPU。GPU是通用并行加速平台。GPU仍然不是性能最高的加速方式,也因此,出现了Tensor Core加速的方式。
Tensor Core的方式,仍然没有完全释放计算的性能。于是,完全独立的DSA处理器出现。