“深度学习+”、“互联网+”、“人工智能+”很热门
扫描二维码
随时随地手机看文章
提到“深度学习+”,我们自然而然就会想到“互联网+”,所谓“互联网+”,就是当互联网技术在中国进入全面成熟后,网络、终端、平台全面普及之后,出现了互联网与各行业、社会生产生活的各方面深度融合的全新现象。从而创造了新的发展生态,涌现了大量发展机遇。“互联网+”,既是互联网产业的转折点,也是中国数字经济的转折点,创造了一系列经济腾飞的佳话乃至神话。
“深度学习+”的逻辑也可以这样理解,当深度学习的核心技术、核心开发平台与开发工具、产业生态、应用空间全面成熟之后,深度学习技术可以成为各行业、社会生产生活各领域能够全面利用,深度融合的通用性技术。
从全球AI产业发展的角度看,深度学习的这一特性已经清晰展露了出来,这项技术也成为国际顶尖科技公司与全球主要国家都在探索的战略高地。整体而言,深度学习框架平台+大模型是目前最具代表性的深度学习发展方向,也是顶级AI公司的“标准配置”。
早在2015年,谷歌发布了深度学习框架TensorFlow并很快将其开源,如今已经成为谷歌AI生态的基础。而从2018年开始,谷歌陆续发布了BERT、Muse等大模型,积极探索预训练大模型在AIGC、文本对话等领域的可能性。另一家受到全球关注的科技公司Meta,也积极发展自身的深度学习框架。2018年,Meta将Caffe2代码并入PyTorch,推动PyTorch进入了发展快车道。而在大模型方面,Mate AI实验室发布了NLP大模型OPT等一系列成果,推动Meta在深度学习领域保持竞争活力。
从最早的 AlexNet 模型,就是在 AI 分类比赛中让卷积神经网络一战成名,是影响 AI 进程冠军模型,到 AlphaGo Zero 模型,即打败韩国围棋九段棋手李世石的 AlphaGo 增强版,七年里,两者之间参数指标增长 30 万倍。
那些同时期堪称 " 最大 " 的 AI 训练模型所使用的计算量,呈指数型增长,平均 3.4 个月就会倍增,比芯片摩尔定律还要快。
国内也是一样,百度 2016 年用于语音识别的 DeepSpeech 训练模型的参数是亿级,到了今天的用于绘画、写作、聊天的文心大模型中,也有多个模型参数达到了千亿级别。
简单来说,大模型突出的就是一个 " 力大砖飞 ",让 AI 的能力在参数增加到某个阶段就突然获得从量变到质变突破性进展。
这种 " 突现能力 " 的具体原因科学家还在研究,可能是代码、指令上的微调,还可能是 AI 在预训练的海量数据中偶然学到了类似问题的思维链参数。
似乎只要参数够大,一切皆有可能。
如果有一天 AI 像人脑一样,有百万亿个参数,那 AI 的智能可能真的可以和人类比肩。
但这并没有那么容易。
面对这么大的参数量,不管是百度还是谷歌,都认为自然语言处理对整个人工智能的未来都是非常大的挑战。
因为整个 AI 框架的设计是否合理,芯片之间如何分配工作量,如何让更多的芯片满负荷运作,这些在实际应用中是很难同时达到完美状态的。
IoT时代,MCU再进化
边缘端AI的要求与云端不同。边缘端AI只处理由边缘产生的数据,主要面向图像分析、声音分析、波形识别等工作。对于终端单一应用来说,算力要求不会很高。
但在另一方面,在物联网环境中计算对功耗和成本则更加敏感。
处于边缘的物联网设备对功耗非常敏感,如传感器、安防摄像头等设备要求长期在线工作,但提供传统人工智能算力的FPGA或GPU在边缘端很难满足这样的工作要求。
ADI MCU产品线资深业务经理李勇说:“传统意义上的AI芯片的特点是算力强但功率和尺寸较大,针对的更多是对计算速度、算力较高的应用。如果将FPGA或者GPU用到边缘端,一是成本受不了,二是没有办法用电池进行供电。”
李勇用一个例子形象的解释了这种需求错配:终端一个安防摄像头的工作往往只是拍摄一幅图片再分析一次,然后再拍衣服图片并再分析一次,这并不需要很高的算力,反而需要的是能够满足长时间待机需求的长续航。
在边缘应用的新要求下,AI正在寻找新的出路,MCU则是这个问题的一个可能解。
早在上世纪60年代末,MCU产品的雏形就已经出现。某种程度上,通用型MCU的广泛应用为上世纪后五十年的电子设备创新打下了基础。