特斯拉展示全自动驾驶汽车AI训练芯片:运算性能突破360 TFLOPS
扫描二维码
随时随地手机看文章
不让Nvidia、Google专美于前,在今年Tesla AI Day活动上,美国电动汽车大厂特斯拉(Tesla)展现自家最新自动驾驶汽车应用同时,首度公开披露一款自制AI训练芯片Dojo D1,强调拥有GPU的强大运算力,更兼具CPU的运用弹性,以及超高速传输带宽,甚至在AI算力表现也优于Google的TPU v3,可提供362 TFLOPS运算性能,特斯拉不只用它加速AI训练创建全自动驾驶汽车,未来也将作为首款人型机器人Tesla Bot的AI训练使用。
这颗自动驾驶汽车AI芯片D1,是由Tesla工程团队一手开发完成,从芯片架构、制作到封装,采用先进7纳米制程,其内置高达500亿个晶体管。根据Tesla的介绍,D1处理器芯片是由354个高性能训练节点所组成的,每个训练节点都可视为是一个个运算芯片,每个训练芯片皆采用定制ISA指令集架构设计完成,特别对于ML工作负载执行加以优化,并内置1.25MB高速的SRAM以及低延迟和高带宽的网络fabric,使得单一芯片,在BF16/CFP8测试基准下,其运算性能可达1.024 TFLOPS。
由354个训练节点所组成的D1模块芯片,其运算力更一举达到362 TFLOPS(每秒1万亿次浮点运算),若以目前市面已知的ML芯片 (TPU v3、GPU(HBM-Links互联)或其他创业公司ML芯片)性能来做比较,Tesla指出,D1算力表现还优于其他市面ML芯片,甚至比Google的TPU v3表现都还好。另外这颗处理器本身的热设计功耗(TDP)仅有400瓦,相较之下,TPUv3有达到450瓦。不只运算性能,Tesla也特别强调这颗AI处理器,在设计上采用新的芯片互联架构,可提供内部高速互联,总带宽可达到每秒40TB的传输能力,而且每个D1芯片,能支持最多576信道,可用于高速I/O应用,跟当前最先进网络交换机相比,Tesla表示,D1芯片可提供高达两倍的传输带宽。
开发人工智能既昂贵又耗时。定制芯片可以为公司带来优势。
特斯拉制造汽车。现在,它也是最新一家通过制造自己的硅芯片来寻求人工智能优势的公司。
在上个月的一次促销活动中,特斯拉透露了一种名为 D1 的定制 AI 芯片的详细信息,用于训练其 Autopilot 自动驾驶系统背后的机器学习算法。该活动的重点是特斯拉的人工智能工作,并展示了一个跳舞的人类,该公司打算制造一个人形机器人。
特斯拉是最新一家自行设计芯片的非传统芯片制造商。随着人工智能变得越来越重要且部署成本越来越高,谷歌、亚马逊和微软等其他在该技术上投入巨资的公司现在也在设计自己的芯片。
在此次活动中,特斯拉首席执行官埃隆马斯克表示,从用于训练公司神经网络的计算机系统中榨取更多性能将是自动驾驶取得进展的关键。“如果一个模型需要几天的时间来训练而不是几个小时,那将是一件大事,”他说。
在 2019 年改用英伟达硬件后,特斯拉已经设计了可以在其汽车中解释传感器输入的芯片。但是,创建一种用于训练 AI 算法的强大而复杂的芯片要昂贵得多且具有挑战性。
特斯拉以制造电动汽车闻名于世,但现在该公司也在寻求通过自主研发芯片在人工智能(AI)领域寻求占据更大优势。在上个月的“AI日”活动中,特斯拉公布了名为D1的定制AI芯片的细节,该芯片用于训练其自动驾驶系统Autopilot背后的机器学习算法。此次活动聚焦于特斯拉的AI努力,并展示了其计划推出的人形机器人。
特斯拉是最新一家自主设计芯片的非传统芯片制造商。随着AI变得越来越重要,部署成本也越来越高,其他在这项技术上投入巨资的公司-现在也在设计自己的芯片,包括谷歌、亚马逊以及微软等。在活动中,特斯拉首席执行官埃隆·马斯克(Elon Musk)表示,从用于训练公司神经网络的计算机系统中挤出更多性能将是自动驾驶取得进步的关键。他说:“如果某个模型需要的训练时间缩短至几个小时而非几天,这可能产生重大影响。”
特斯拉在2019年放弃使用英伟达硬件后,已经设计了能够解读其汽车中传感器数据的芯片。但是,创造能够训练AI算法所需的强大而复杂的芯片要昂贵得多,也具有更大的挑战性。参加特斯拉活动的斯坦福大学汽车研究中心主任克里斯·格德斯(Chris Gerdes)表示:“如果你认为自动驾驶的解决方案是训练更大的神经网络,那么接下来就是你需要的那种垂直整合策略。”
特斯拉利用其首个“人工智能日”(AI Day)展示了其自动驾驶能力的改进(这一能力已受到监管机构的关注),并公布了一款人形机器人的计划,首席执行官埃隆·马斯克(Elon Musk)表示,这款机器人将让人们摆脱日常生活中的苦差事。
该公司还强调了在自主研发的半导体方面取得的进展,这是公司内部专门设计的,用于训练为自动驾驶提供动力的神经网络。马斯克表示,他将考虑将这项技术授权给竞争对手。
该芯片是组成Dojo系统的关键部分,Dojo是特斯拉之前吹捧过的超级计算机,特斯拉称它为破解全自动驾驶的关键。马斯克表示,Dojo将于2022年年底开始运营。
目前,特斯拉车身装配有8枚摄像头,以每秒36帧的频率,1280*960分辨率12bit HDR图像的清晰标准,将周围物体整合并通过时间轨迹区分静态、动态及物体边界,并利用包括多头路线、相机校准、缓存、队列和优化等方法来简化神经网络计算。
无论是长度巨大的半挂卡车,还是边界被遮挡的街边路口,通过多角度图像呈现、数据分析、Transformer距离预测算法以及不同特征的叠加、覆盖,特斯拉建立起了庞大的街景标签,为后续计算提供良好的感知分析。
现阶段,特斯拉已针对10亿张不同图像和3亿张不同场景进行数据贴标,但对于完全无人驾驶来说,这些标签量还远远不够。为了应对如此庞大的数据,特斯拉表示,公司目前拥有一支 1000 人的数据标签队伍,与工程师一起工作,打造了完全定制化的数据标签和分析架构。同时,伴随效率的不断升高,特斯拉已经实现对同一条路进行多次数据收集,抹去曾经红黄颜色组成的“边界框”,把环境场景拆分成点云,上传至云端,形成了接近于“高精地图”的实测环境场景。