高通AI Engine性能霸榜:背后这些值得你了解
扫描二维码
随时随地手机看文章
最近鲁大师公布了2020年第一季度的手机AI芯片排行榜,其中高通骁龙865以112309的得分排名第一,苹果A13排名第二,得分为59050;华为麒麟990排名第三,得分为58014。
同时,排名前十的AI芯片中,有六款来自高通的骁龙移动平台,除了骁龙865之外,还有骁龙855/855+、骁龙765G、骁龙845和骁龙670AIE。
以手机为中心的智能硬件产业在这些年的发展量变过程中,一个重要的前进方向一定是“越来越智能”,这个智能不仅仅是能帮你在拍照的时候变个脸,或者通话的时候变个声,亦或是对和语音助手说“明天晚上提醒我看的直播”然后它照做,而是真正能“变成你肚子里的蛔虫”,随时都能知道你想要干什么,然后提供相关的服务。
想要实现这个“理想”,不仅需要软件算法层面的创新,更基础的,还需要硬件上的支持,这里的硬件,主要就是指AI芯片。
从上面AI芯片的榜单中,我们能够看到目前主流的移动端芯片制造商都在大力加码AI芯片的布局,而这其中,来自高通的骁龙移动平台在AI方面的表现可以说很抢眼,那么这背后又有哪些值得你去了解的知识点呢?
强大AI性能表现背后的独特架构如果仅用上文鲁大师手机AI芯片排行的一纸榜单来介绍骁龙移动平台在AI方面的表现,或许有些苍白。这里不妨通过市售骁龙865手机的两个AI用例来进行说明。
我们知道,高通骁龙移动平台的AI能力主要由AI Engine人工智能引擎提供支持,到骁龙865就是第五代AI Engine。而在这第五代AI Engine的加持下,骁龙865手机能够实现过去无法想象的AI功能特性。
例如有一个比较实用的,就是AI的实时翻译,这在vivo NEX 3S手机上有着重要应用。在这款手机自带的App中,通过“对话”功能,就可以实现对语言的实时翻译。
录制了一段实时翻译的演示视频,大家可以看一下:
可以看到,vivo NEX 3S的确可以将一段英语的朗读内容实时地翻译成中文,翻译的结果也能够让人满意,尽管难免有局部不准确的地方,但至少可以让人看懂这段语音讲了什么内容。
我们知道,实时翻译对于智能手机来说不是一件简单的任务,它需要模拟人脑的思维方式,实时处理接受到的语音信息,并将之翻译为文本或语音,对神经网络运算的运算量、速度都有极为严苛的要求,需要极为强大的算力支撑。
另一个用例是游戏的实时插帧。这个用例我们用今年3月推出的努比亚红魔5G手机来演示。这款手机在第五代AI Engine的加持下,做出了Touch Choreographer游戏插帧技术,支持不少游戏的实时插帧。在测试时,选择了这款游戏。
实测在进行游戏时,红魔5G手机运行的平均帧率可以达到141.5fps,帧率波动大约9帧左右,毕竟是插帧效果,帧率波动大一些可以理解,由于本身已经是如此高的帧率,这种波动在游玩过程中是丝毫察觉不到的。
帧率对游戏体验的重要性不言而喻,而通过高通骁龙移动平台的AI Engine,可以实现游戏中实时插帧,无疑可以大大提升游戏体验。
上面这两个用例存在一些共性,这些共性恰恰能够体现骁龙移动平台AI Engine的特性和优势。
首先,这两个用例都需要CPU、GPU等手机处理器的核心运算部件的参与才能实现,其次,这两个用例都需要强大的AI算力的支撑,还有就是,这些AI用例的实现都是在终端上进行的。
对于移动终端上的AI应用来说,因为手机自身的计算能力、电量和存储空间的限制,想要满足这些需求,对处理器的AI性能就有着很高的要求。而高通骁龙的AI Engine正好以满足移动终端的AI需求为基础进行设计的。
此前已经为大家做过很多详细介绍,骁龙AI Engine人工智能引擎,就是利用异构并行计算的解决方案,调用采用CPU、GPU,以及独家的面向AI处理的硬件核心Hexagon处理器,合理利用三大硬件核心各自的运算优势和特性,在底层AI框架(Caffe等)以及系统、软件(SDK等)的调配下,来进行AI运算。这就充分运用了移动设备各个运算核心的性能。
在第五代AI Engine中,高通更是集成了更多运算核心,包括CPU、GPU、Hexagon处理器、ISP、Qualcomm传感器中枢(Sensing Hub)、安全处理单元、调制解调器,甚至Quick Charge等等,这些核心共同为AI运算提供支持,特别是其中主要运算核心性能的提升,驱动AI Engine整体算力大幅上涨。其中,骁龙865的Adreno? 650 GPU改善了浮点运算和AI性能,TOPS提升了2倍,Hexagon 698处理器通过全新张量加速器将TOPS提升4倍,Kryo? 585 CPU的性能相比上代提升了25%,能效提升25%。
在这些因素的驱动下,骁龙865移动平台的第五代AI Engine的AI性能相比上一代提升了2倍多,具体到体运算力上,可以达到15 TOPS,也就是每秒15万亿次运算的水平。
除了性能的提升,第五代AI Engine还对每个内核进行大幅优化和提升,更重视整体芯片架构面向AI计算的高效率和灵活性。
以Hexagon 698处理器为例,它采用了可执行多维度的数据架构,包括零阶张量(标量)、一阶张量(向量)、二阶张量(矩阵),以及更高阶张量。
因为在终端侧运行的一些神经网络,有适合在标量处理器上运行的,也有适合整个在向量处理器上进行的,还有的则需要通过张量处理器来处理。高通AI Engine的异构架构,则可以根据不同需求,灵活调度处理核心,对于移动终端而言功耗更低、效率更高。
终端侧AI的高效优势5G,将引领我们进入一个新的时代,一个万物互联的时代,5G时代就像一张大网,将电视机、汽车、冰箱、洗衣机、空调、音箱、甚至电表水表等等海量设备,无数终端,都网罗在内。这些海量终端彼此通信连接,就需要进行AI运算。那么这时候就不得不考虑一个问题了:这些AI运算是放在云端进行,还是在终端进行?
终端侧AI,就是针对这个问题产生的,顾名思义,它的意思就是数据的采集、计算、决策都在前端设备本地进行。
我们的答案是,终端侧更符合5G万物互联时代的发展大势。因为如果是在云端进行AI运算,要考虑到,目前全球已有数十亿的联网终端,未来只会越来越多,海量终端彼此互连并感知周围环境。产生的海量数据全部传给云端进行处理和管理,不容易,也不现实,更影响体验。
而相较于云端AI,终端侧AI拥有更好的隐私性、更高的可靠性和更低的时延,同时高效利用网络带宽。
当然,把AI运算放在终端,不等于解决了一切问题。以智能手机为例,AI运算本身需要反复、高强度的运算环境,智能手机的计算能力、电池、存储空间等方面都可能是个问题,所以终端侧AI首先要解决的问题就是怎样在消耗资源最少的情况下,实现性能或是结果的最优化。
这也是高通在AI Engine中引入Hexagon 张量加速器的原因,因为Hexagon支持的是8位和16位的定点运算,而定点运算有助于模型更快的运行,同时能耗也更低。这对于无法高效进行浮点运算的移动终端和嵌入式应用尤其重要。Hexagon 张量处理器的加入,可以大大提高AI Engine的整体运算效率,降低功耗。
同时,移动端很多AI用例都是并行用例,在处理这些用例的时候,往往有大量数据进入到终端,处理这些海量数据,一定会对手机的性能资源、功耗造成不小压力。
针对这个问题,高通在AI Engine中开发了一项全新的专用技术,叫做深度学习带宽压缩。这项技术能够对这些海量数据进行高达50%的压缩,从而将需要进入到芯片处理的数据压缩一半,以节省电能、降低功耗。这是一项完全无损的压缩技术,也就是说所有数据的精度不会有任何损失。在处理一些对AI性能要求极高的用例时,LPDDR5内存可以释放更大带宽,同时传输更多数据。
通过这些技术,高通提升了AI Engine不断提升在终端侧进行AI运算的效率,功耗也不断降低,这为未来移动端更深入、更全面的AI用例夯实了基础。可以想象,未来将出现的状态:集中式的云端AI在大数据训练以及支持时延不敏感的内容和存储中发挥着重要作用,而AI的具体执行却会越来越多的在无线边缘的海量终端上,两者相辅相成,互为补充。
从这一角度来说,高通AI Engine无疑是终端侧AI的重要推动者,驱动未来由各个智能终端构建的智慧化场景。
总结:AI Engine表现出色的关键通过上面的介绍,我们可以总结出高通骁龙移动平台的AI Engine人工智能引擎能够有出色的AI表现的关键,首先是整合CPU、GPU、DSP、ISP、传感器中枢等各个硬件的异构并行计算的架构在AI运算方面天然契合的优势,换句话说就是系统级硬件设计的优势;其次,是高通AI Engine采用了灵活的架构设计,能够满足不同的AI用例的需求;第三,就是在终端侧层面提高AI运算能效的努力,对高能效AI运算有着深刻的理解。
由此,AI Engine被打造成运算速度更快,运算精度更高、功耗更低、支持的用例更多的AI运算平台,对于当前移动终端AI应用体验的提升,以及未来全场景智慧化服务的构建,都大有裨益。