原创

随着数据规模的指数级增长，大模型已经逐渐成深度学习认知智能的桥梁

时间：2022-09-14 15:00:01

关键字： AI AI新基座华为

手机看文章

扫描二维码
随时随地手机看文章

[导读]算法、算力和数据是人工智能三大核心要素，也是人工智能的三大基石。AI 算法持续突破创新，模型复杂度指数级提升的同时，准确率和效率也在不断提高，在各个细分领域应用加速落地。

算法、算力和数据是人工智能三大核心要素，也是人工智能的三大基石。AI 算法持续突破创新，模型复杂度指数级提升的同时，准确率和效率也在不断提高，在各个细分领域应用加速落地。随着芯片处理能力提升、硬件价格下降、神经网络模型优化，AI 算力也在大幅提升。与此同时，AI 产业级应用已经进入大数据、大模型时代。

当前，全球主流 AI 框架和模型的技术演进及创新进展如何?如何提升算法模型的准确率和效率?如何将 AI 框架和模型应用于实际场景中，实现产业创新?在 AICON 2022 “AI 框架与模型” 分论坛上，众多 AI 领域专家将共同探讨这些问题。

AICON 2022 由 LF AI & DATA 基金会主办，将于 9 月 8 日在杭州举行。大会由一个主论坛以及 “AI 框架与模型”“AI + 数据”“AI 工程化”“昇思生态论坛” 四个分论坛组成，聚焦 AI 前沿技术、产业化和商业化的动态。

届时，来自全球的人工智能领域顶尖科学家、行业专家及著名企业家将齐聚一堂，重点关注人工智能技术领域的行业变革与技术创新，共同围绕核心技术、行业落地、产业赋能、发展要素、治理机制等热门话题进行深入探讨和交流，分享全球人工智能行业新趋势、新动向，探索人工智能发展新模式新路径。

近年来，大模型已经成为整个 AI (人工智能)产学界追逐的技术“宠儿”，“炼大模型”如火如荼，包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中，各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间，“炼大模型”成为了当下AI产业发展的一个主旋律。

方融科技高级工程师、科技部国家科技专家周迪在接受《中国经营报》记者采访时表示，Al大模型历经了前几年的探索期、突破期，部分技术已经逐渐成熟，现在在一定程度上达到推广期了。各大企业纷纷发布AI大模型，就是抢抓这个时间节点，在这方面先取得入场门票。大模型具有效果好、泛化性强、研发流程标准化程度高等特点，正在成为人工智能技术及应用的新基座。

据中国信息通信研究院测算，2021年，算力核心产业规模超过1.5万亿元，关联产业规模超过8万亿元。其中，云计算市场规模超过3000亿元，IDC(互联网数据中心)服务市场规模超过1500亿元，人工智能核心产业规模超过4000亿元。

在过去，绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式，即以一定的算力和数据为基础，使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段，面对各类行业的下游应用，AI 逐渐展现出碎片化、多样化的特点，也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战，也限制了AI的产业化进程。

“从各类电商平台的智能推荐到日常生活中的刷脸支付，现在我们生活的方方面面都离不开AI。为了满足这些需求，我们需要为每种特定场景收集大量的数据，再从中设计出专用于特定任务的模型，”周迪对记者说道，“AI大模型希望做到的就是能够基于这个模型整合各类需求，从而适应多种差异化的业务场景，解决AI在赋能千行百业中面临的碎片化、多样化问题。”

AI大模型提供了一种通用化的解决方案，通过“预训练大模型+下游任务微调”的方式，可以有效地从大量标记和未标记的数据中捕获知识，极大地扩展了模型的泛化能力。

华为昇腾计算业务总裁张迪煊对记者表示，过去在一个单一的AI应用场景里面，其实是由很多模型组成的，通过多模型支撑一个场景来完成多个任务。而大模型是AI发展的趋势，也就是通过大模型能解决人工智能很多的问题，因为大模型具备很好的泛化性，可以通过大模型实现多个任务，原来场景需要多个小模型，现在大模型可以服务多个场景，这是生产效率的提升。现在国家相关部门也在牵头制定大模型的沙盘，避免科研机构、企业重复研发，通过各个领域的大模型与行业场景结合，可以更好地加速人工智能技术产业落地。

阿里巴巴资深副总裁、达摩院副院长周靖人则认为：“大模型模仿了人类构建认知的过程，这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系，我们期望多模态大模型能成为下一代人工智能算法的基石，让AI从只能使用‘单一感官’到‘五官全开’，且能调用储备丰富知识的大脑来理解世界和进行思考，最终实现接近人类水平的认知智能。”

从2020年开始，国际最顶尖的AI技术发展，愈来愈像一场比拼资金与人才的军备竞赛。

2020年，OpenAI发布NLP预训练模型GPT-3，光论文就有72页，作者多达31人，该模型参数1750亿，耗资1200万美元;

2021年1月，谷歌发布首个万亿级模型Switch Transformer，宣布突破了GPT-3参数记录;

4月，华为盘古大模型参数规模达到千亿级别，定位于中文语言预训练模型;

11月，微软和英伟达在烧坏了4480块CPU后，完成了5300亿参数的自然语言生成模型(MT-NLG)，一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;

今年1月，Meta宣布要与英伟达打造AI超级计算机RSC，RSC每秒运算可达50亿次，算力可以排到全球前四的水平。

除此之外，阿里、浪潮、北京智源研究院等，均发布了最新产品，平均参数过百亿。

看起来，这些预训练模型的参数规模没有最大，只有更大，且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现，一次次刷新人们的认知。

这一年，由OpenAI公司开发的GPT-3横空出世，获得了“互联网原子弹”，“人工智能界的卡丽熙”，“算力吞噬者”，“下岗工人制造机”，“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于：

有开发者给GPT-3 做了图灵测试，发现GPT-3对答如流，正常得不像个机器。“如果在十年前用同样的问题做测试，我会认为答题者一定是人。现在，我们不能再以为AI回答不了常识性的问题了。”

深度学习发展至今，语言、视觉、推荐、代码生成等多个领域相继出现一些“大模型”成果，不断刷新着人们对 AI 的认知与想象。深度学习依赖对大量数据的训练，而“大模型”的参数更多、函数更复杂，这样的特征使得模型所演算出来的结果更精准。随着万物互联世界的进一步发展，数据量的扩展与数据收集已不再是难题，随之而来的新命题是如何处理海量数据，并且做出更好地训练。

早在 2017 年，Transformer 结构被提出，使得深度学习模型参数突破了1亿;2018 年，BERT 网络模型的提出，使得参数量首次超过 3 亿规模;2020 年，拥有 1750 亿个参数的 GPT-3 横空出世;2021 年推出的 ZionEX 系统，其所支持的推荐模型大小已超过 10 万亿规模……

随着数据规模的指数级增长，大模型已经逐渐被认为是通过深度学习认知智能的桥梁。

然而，数据量的暴增提出了新的命题——如何跨越通信等瓶颈，提升大模型的训练效率?为了支持大模型的训练，往往需要一套大规模分布式训练框架来训练大模型。

对此，华为交出的答卷便是昇思 MindSpore AI 框架，原生支持大模型训练。昇思 MindSpore 拥有业界领先的全自动并行能力，提供 6 维混合并行算法，即数据并行、模型并行、流水并行、优化器并行等能力;极致的全局内存复用能力，在开发者无感知的情况下，自动实现 NPU 内存 / CPU 内存 / NVMe 硬盘存储的多级存储优化，极大降低模型训练成本;极简的断点续训能力，可解决大集群训练故障导致的任务中断问题……通过这些特性，可以很好地解决大模型开发时遇到的内存占用、通信瓶颈、调试复杂、部署难等问题。

近年来，大模型表现出前所未有的理解与创造能力，且打破了传统AI(人工智能)只能处理单一任务的限制，让人类离通用人工智能的目标近了一步。但大模型仍存在许多技术难点，同时受算力资源限制，其训练与落地应用颇具挑战。

据周靖人介绍，为了让大模型更加“融会贯通”，达摩院在中国国内率先构建了AI统一底座，在业界首次实现模态表示、任务表示、模型结构的统一。

在不引入新增结构的情况下，通义统一底座中M6-OFA模型，可同时处理图像描述、视觉定位、文生图、视觉蕴含、文档摘要等10余项单模态和跨模态任务，且效果达到国际领先水平。

“大模型模仿了人类构建认知的过程，这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系，我们期望多模态大模型能成为下一代人工智能算法的基石，让AI从只能使用‘单一感官’到‘五官全开’，且能调用储备丰富知识的大脑来理解世界和思考，最终实现接近人类水平的认知智能。”周靖人表示。

同时，达摩院构建了层次化的模型体系，其中通用模型层覆盖自然语言处理、多模态、计算机视觉，专业模型层深入电商、医疗、法律、金融、娱乐等行业。

通过部署超大模型及轻量化版本，阿里巴巴“”通义”大模型系列已在超过200个场景中提供服务，实现了2%-10%的应用效果提升。典型使用场景包括电商跨模态搜索、AI辅助设计、开放域人机对话、法律文书学习、医疗文本理解等。