AI芯片公司大盘点 努力提高人工智能性能
扫描二维码
随时随地手机看文章
为了跟上前沿神经网络的要求,高科技公司正在努力寻找提高人工智能性能的最佳方式。与此同时,世界各地涌现出许多初创公司,它们对如何更好的地实现AI提出了新的想法。这一领域正在吸引大量风险资本的投资,这使得该领域不仅拥有大量现金,而且还拥有计算架构的新颖想法。
我们正在追踪来自美国、欧洲和亚洲的约60家人工智能芯片公司, 从重新研发可编程逻辑和多核设计,到开发自己全新架构的公司,再到使用神经形态(脑启发)架构和光学计算等未来技术的公司。
以下是10个我们认为有前途,或至少有一些有趣想法的案例。我们将它们按照其产品在网络中的目标位置分为:数据中心、端点或AIoT设备。
数据中心的人工智能
根据位置不同,数据中心可以算作“边缘”。边缘计算的关键概念是在(或接近)生成或收集数据的相同地理位置处理数据。这包括网关或集线器设备,也包括加速公司单一人工智能应用程序的内部服务器。想想医院或医学研究机构中加速x射线或CT扫描图像分类的服务器,以及从工厂接收状态数据并在现场处理的网关。
Graphcore
总部位于英国布里斯托尔的Graphcore公司在早期的一轮融资中获得了超过10亿美元的估值,成为首家被认定为独角兽的西方半导体初创公司。
Graphcore的IPU(智能处理单元)芯片拥有超过1200个专业核心的大规模并行架构,每个核心可以运行6个程序线程。还有大量的片上内存,几百MB的RAM,更重要的是,还有45 tb的内存带宽。这使得整个机器学习模型可以存储在芯片上。
Graphcore的IPU芯片可以在戴尔服务器上用于边缘计算应用程序。
Groq
Groq是由谷歌的一个团队在硅谷创立,拥有70名员工,迄今已筹集了6700万美元的资金。在SC ‘ 19,他们正式推出了他们的超大芯片,可以达到1000 TOPS。
Groq的软件优先的方法意味着他们的编译器处理许多通常在硬件中会发生的控制功能,比如执行计划。软件会编排所有的数据流和时间,以确保计算不会出现停顿,并使延迟、性能和功耗在编译时完全可预测。
Groq正以其张量流处理器(TSP)芯片为目标,瞄准数据中心应用和自动驾驶车辆。
Cerebras
Cerebras是以恢复圆片规模芯片的倡导而著称,而这个想法早在80年代就已经被放弃。
我们常见的处理器都是经过封装之后才可使用的,实际上如CPU中的核心裸片大小一般在200平方毫米以下,而GPU核心的大小也没有超过1000平方毫米的,所以在一片晶圆上可以切割出很多核心裸片。不过这并不代表无法制造超大尺寸的芯片,在Hot Chip 31会议中,Cerebras Systems就推出了一款晶圆级深度学习芯片,尺寸达到了215×215平方毫米。几乎占据了一整个晶圆的大小。
Cerebras庞大的46,225mm2的芯片,占用整个晶圆,其功耗15千瓦,在84个处理器块上封装40万个核和18GB内存。虽然这些数字看起来非常庞大,但请记住,这么大的芯片被设计出来,目的是代替成千上万个GPU的。
而这么大的芯片主要就是用来进行深度学习训练的,而深度学习的训练是应用小变化的过程,模型的大小等因素让神经网络训练变得非常困难。对于粗粒度计算,需要告诉互联才能进行训练,规模依旧有限且成本高昂。所以Celebras Systems设计了专门为神经网络原语优化的核心,这种核心可编程、可以快速进行西数计算,而且具有高速互联能力。Celebras Systems设计了非常灵活的内核,而且可以高效的处理张量运算。
该公司表示,它已经解决了之前困扰晶圆片规模设计的问题,如成品率(它绕过缺陷),并发明了对抗热效应的封装。
Cerebras已经筹集了超过2亿美元的资金,此前曾表示,他们的rack系统正在少数几个客户数据中心运行。
Cambricon寒武纪
Cambricon是中国最早的人工智能芯片公司之一,但绝不是最后一家。Cambricon是2016年由中国科学院的两名研究员创立。
由于CPU和通用GPU (GPGPU)指令集在加速神经网络方面缺乏灵活性,他们开发了自己的指令集架构(ISA),这是一种集成了标量、向量、矩阵、逻辑、数据传输和控制指令的负载存储架构。
Cambricon的第一款产品Cambricon-1A被用于数千万部智能手机,以及无人机和可穿戴设备等其他终端设备。如今,第二代芯片包括云计算的两部分和边缘计算芯片——思源220。这种边缘芯片的设计是为了填补该公司在边缘计算产品组合中的空白。思远220标志着寒武纪实现了云、边、端的全方位立体覆盖。MLU220是一款专门用于边缘计算应用场景的AI加速产品(边缘人工智能加速卡)。产品集成4核ARM CORTEX A55,LPDDR4x内存及丰富的外围接口。用户既可以使用MLU220作为AI加速协处理器,也可以使用其实现SOC方案。
Cambricon(以及Horizon Robotics,见下文)目前是全球最有价值的芯片初创企业之一:该公司迄今已融资2亿美元,使其市值达到25亿美元左右。
端点处的AI
“端点”是指网络末端的设备,数据在收集数据的同一设备内处理。这包括从安全摄像头到消费电子产品和家用电器的一切。当然,由于一些设备既可以用作网关,也存在一些灰色地带,也可以用作端点(比如自动驾驶汽车或智能手机)。
Hailo
Hailo于2017年在以色列特拉维夫成立,由前以色列国防军精英情报单位成员创建。该公司约有60名员工,迄今已融资2100万美元。
Hailo的AI协同处理器Hailo-8可以处理26台电脑,功率效率为2.8台/W。应用目标是ADAS和自动驾驶。它的结构混合了记忆块、控制块和计算块,并通过软件分配相邻块来计算神经网络的每一层。减少芯片内外的数据传输有助于节约电能。
Hailo表示他们的Hailo-8将胜过所有其他边缘处理器,并且尺寸更小,小于一分钱硬币,内存需求更少。而且除了计算外,它还集成了内存和控制功能。
公司通过设计一种依赖于神经网络核心特性的架构,边缘设备现在可以比传统解决方案更高效,更有效,更具持续性地运行深度学习应用程序,同时显著降低成本。
由于功能强大的软件开发套件(SDK)和新型散热设计,无需主动冷却,Hailo-8在几个AI语义分割和对象检测基准测试中优于英伟达的Xavier AGX,包括ResNet-50。
在图像分辨率为224 x 224的初步测试中,与Xavier AGX的每秒656帧相比,Hailo-8每秒处理672帧。
Hailo-8预计在2020年上半年开始批量生产。
Kneron
Kneron在圣地亚哥和台湾拥有150名员工,并获得了7300万美元的资金,Kneron是首批在2019年5月将硅推向市场的初创公司之一。该公司已经有几个客户宣布了其第一代KL520芯片,并在2019年创造了“数百万美元”的收入。
KL520针对卷积神经网络(CNN)进行了优化,可以在0.5W下运行0.3个TOPS (相当于0.6 TOPS/W)。这已经足够用于IP安全摄像头中的面部识别,也可用于智能门锁和门铃。据介绍,以这款 KL520 芯片来说,它不仅仅在规格、性能上领先,还有在成本上能实现比较好的平衡,让方案拥有更全面的竞争力;其次在智能门锁特别是人脸识别智能门锁的高速成长阶段,选用 KL520,以更低的门槛切入,有机会快速抢占市场。
该公司最初生产用于面部识别的神经网络,现在又为其神经处理单元(NPU)提供这些网络和IP。该公司表示,第二代芯片将于今年夏天问世,它将能够加速CNN和递归神经网络(RNN)。在 KL520 性能的支持下,耐能还能将这个芯片应用到更多的领域中,但耐能并不满足于此,他们现在已经规划了更强的 28nm 和 16nm 产品,展望为未来的 AI 市场带来更多的可能。
Mythic
Mythic于2012年在密歇根大学成立。该公司目前位于得克萨斯州奥斯汀市,已经筹集了8,600万美元来开发其模拟计算芯片,该芯片使用基于闪存晶体管的处理器存储技术,在功率、性能和成本方面都优于CPU和GPU。
内存处理器并不是什么新技术,但Mythic表示,它已经解决了一些棘手的补偿和校准技术,这些技术可以消除噪声,并允许可靠的8位计算。Mythic计划销售独立芯片以及多芯片处理卡。由于该设备可以处理30帧/秒的高清视频图像处理,Mythic的主要目标市场之一是安全摄像头和用于安全摄像头系统的现场聚合器。
地平线
Horizon RoboTIcs 于2015年在中国北京成立,这家初创公司到2019年底已经筹集了大约6亿美元,公司估值为30亿美元。如今,Horizon RoboTIcs拥有500多名员工,拥有600多项专利。
Horizon RoboTIcs的BPU(大脑处理单元)最初是为计算机视觉应用而设计。第二代BPU是一个64位多指令多数据(MIMD)核心,可以处理所有类型的神经网络(不仅仅是卷积网络)。它使用该公司的稀疏神经网络来预测物体的运动和场景解析。第三代将为决策算法和深度学习之外的其他AI部分增加加速功能。
Horizon RoboTIcs有两条芯片产品线:汽车版Journey和AIoT版Sunrise。第一代Journey和Sunrise芯片于2017年12月发布,第二代基于BPU 2.0的芯片将于2019年秋季发布。Journey 2.0为L3/L4自动驾驶提供典型功耗2W情况下可提供4TOPS的性能。并结合Horizon自己的感知算法,实现了90%的核心利用率。
Journey 2.0处理器2019年初流片成功,采用台积电28nm HPC+工艺,基于地平线自主研发的BPU 2.0架构,集成了2个Cortex-A53核心,典型功耗2W下就可以提供4TOPS的性能,是同等级GPU的10倍以上。
此外,基于BPU 3.0架构的第三代征程处理器Journey 3.0,专为自动驾驶和域控制器打造,同样符合AEC-Q100和ISO 26262车规级标准,而预计明年发布的Matrix 3.0自动驾驶计算平台也会使用征程三代处理器,算力提升到192TOPS,具备支持ASIL D的系统应用场景的能力。
物联网中的人工智能(TinyML)
在这一类,我们考虑微控制器级别的计算机芯片,它们在资源受限的环境中以超低功耗运行。在这些情况下,端点设备上的人工智能推断非常有吸引力,因为它增加了延迟,节省了带宽,帮助保护隐私,并节省了与数据到云的RF传输相关的能量。
GreenWaves
GreenWaves是位于法国格勒诺布尔的博洛尼亚大学的一个分支,它在一个超低功耗ML应用处理器中使用了多个RISC-V核心,用于电池供电的传感设备。该公司依赖于其自定义指令集扩展,以方便DSP操作和人工智能加速的最低功耗。GreenWaves是最早为业界提供高度差异化技术和市场定位的RISC-V芯片供应商之一,以满足市场对RISC-V指令集架构日益增长的需求
GreenWaves作为ARM的竞争对手,将其拥有的专利RISC架构授权给许多芯片设计公司使用。而ARM销售的知识产权可以结合到芯片制造商制作的芯片中。
2018年他们推出了全球首款物联网应用处理器——GAP8,该处理器是业界首款在物联网(IoT)应用中实现可以用电池长期供电人工智能(AI)的超低功耗处理器,可以在传感设备中进行低功率AI处理,芯片基RISC-V与PULP的完全可编程并行运算架构,以应对机器学习算法最新技术的快速发展。
GreenWaves的第二代产品GAP9使用了10个核心。其中,1个用作fabric控制器, 9个构成计算集群,控制器和集群位于不同的电压和频率域中,因此它们仅在必要时才消耗电能。它还利用了最先进的FD-SOI(完全耗尽的绝缘体上的硅)工艺技术,进一步降低功耗。
GAP9的样品将于2020年上半年到达。
Eta Compute
Eta Compute为超低功耗物联网设备中的AI处理设计了两个核心—Arm Cortex-M3+一个DSP。两个核心都使用了动态电压和频率缩放技术,以尽可能低的功率水平运行,这是在没有锁相环的情况下实现的。AI工作负载可以运行在任何一个核心上,也可以运行在两个核心上(这是由软件分配)。使用这种技术,在线图像处理和传感器融合可以实现功率预算100µw。
Eta Compute还为运行在ECM3532设备上的超低功耗应用优化了神经网络。ECM3532为双核(Arm Cortex-M3和NXP CoolFlux DSP)SoC,可支持用于电池供电或能源采集设计的微瓦级传感器融合应用。它以仅100µW的功率可实现物联网中的在线图像处理和传感器应用,号称能效是其竞品的100-1000倍。
Eta Compute成立于2015年,在美国和印度有35名员工,迄今已筹集了1900万美元资金。样品已经问市。