CUDA开启了并行计算或多核运算时代,特斯拉AMD芯片对比8155如何?
扫描二维码
随时随地手机看文章
特斯拉车机芯片供应商是AMD美国超威半导体公司,目前特斯拉所有在售车型的车机搭载的都是AMD的锐龙芯片,相信使用过特斯拉车机的朋友们都知道,实际使用体验十分顺滑流畅,是众多新能源车机中独一档的存在。
AMD公司采用的是基于合作伙伴的高效研发模式,能够确保自家的产品和解决方案始终在性能和功率方面保持领先,除此以外AMD在成本方面也低于行业的平均水平,所以目前AMD的市场占有率也仅次于英特尔,而AMD也正是从英特尔的手中抢下了特斯拉这么一个客户。
特斯拉AMD芯片对比8155如何?
特斯拉的AMD芯片在性能上是要强于高通的8155芯片,目前搭载了8155芯片的车型主要有极氪001、理想L9、小鹏P5、蔚来ET7等,该芯片实际上是源自消费级手机芯片高通骁龙855。
虽然对比高通820芯片在数据处理和车联网方面有了质的提升,同时也都被各大厂商称作车机芯片中的“天花板”,性能也确实要优于大部分车机芯片,但是奈何特斯拉的AMD芯片更加强大。
特斯拉所采用的的AMD锐龙V1000系列芯片,是一个集成了Zen架构CPU和Vega架构集成GPU的SOC级芯片,源自于PC端芯片,在算力方面虽然谈不上完爆8155,但是性能确实要优于8155不少。
并且特斯拉的车机其实是采用了AMDCPU+RadeonGPU车规级定制芯片组合,两者搭配的总GPU算力是8155的10倍,车主甚至可以直接在特斯拉的车机上畅玩各种3A游戏大作。
另外在实际的使用体验中,搭载了8155芯片的小鹏P5、理想L9等车型的车机,用起来其实已经非常流畅顺滑了,然而搭载了AMD锐龙芯片的特斯拉车机可以做到反应速度更快,切换更流畅,所以不管是在使用体验上,还是理论性能上,特斯拉的AMD芯片都要优于高通8155芯片。
与此同时,三星方面还计划将其代工产品组合扩大50%,代工产品将延伸到高性能计算芯片以及汽车行业使用的非移动芯片,这将极大的提升三星代工业务的涉猎范围,也对三星的产能提出了高要求。
三星电子代工业务执行副总裁Moonsoo Kang表示,如果需要,三星可能会成为德克萨斯州更大的制造商。该公司已在该地区获得足够的场地,使其能够满足需求。
彭博分析师表示:“我们相信,以台积电和三星为首的全球代工厂的增长在未来十年可能超过半导体平均水平。除了利用无晶圆厂芯片制造商的崛起之外,代工厂还可以通过来自集成设备制造商的更多订单来推动增长。通过将工作外包给多家代工厂,与在内部设施生产芯片相比,无晶圆厂芯片制造商可以享受到更高的供应安全、更低的成本、更快的产品转换和更好的制造技术支持等好处。”
很多人会问,为什么没有英伟达?目前所有主流深度学习运算主流框架后端都是英伟达的CUDA,包括TensorFlow、Caffe、Caffe2、PyTorch、mxnet、PaddlePaddle,CUDA包括微架构和指令集以及并行计算引擎。CUDA垄断了深度学习或者也可以说垄断了人工智能,这一点类似ARM的微架构和指令集。CUDA强大的生态系统,造就了英伟达牢不可破的霸主地位。深度学习的理论基础在上世纪五十年代就已经齐备,无法应用的关键就是缺乏像GPU这样的密集简单运算设备,是英伟达的GPU开创了人类的深度学习时代,或者说人工智能时代,CUDA强化了英伟达的地位。你可以不用英伟达的GPU,但必须转换格式来适应CUDA。
CUDA开启了并行计算或多核运算时代,今天人工智能用的所有加速器都是多核或众核处理器,几乎都离不开CUDA。CUDA程序构架分为两部分:Host和Device。一般而言,Host指的是CPU,Device指的是GPU或者叫AI加速器。在CUDA程序构架中,主程序还是由CPU 来执行,而当遇到数据并行处理的部分,CUDA 就会将程序编译成 GPU能执行的程序,并传送到GPU。而这个程序在CUDA里称做核(kernel)。CUDA允许程序员定义称为核的C语言函数,从而扩展了C语言,在调用此类函数时,它将由N个不同的CUDA线程并行执行N次,这与普通的C语言函数只执行一次的方式不同。执行核的每个线程都会被分配一个独特的线程ID,可通过内置的threadIdx变量在内核中访问此ID。在 CUDA 程序中,主程序在调用任何 GPU内核之前,必须对核进行执行配置,即确定线程块数和每个线程块中的线程数以及共享内存大小。你可以不用英伟达的GPU,但最终都离不开CUDA,也就是需要转换成CUDA格式,这就意味着效率的下降。所以英伟达是参考级的存在。
从CUDA的特性我们不难看出,单独的AI加速器是无法使用的。今天我们分析三款可用于智能驾驶领域的AI加速器,分别是高通的AI100,华为的昇腾,特斯拉的FSD。这其中高通AI100比较少见。
特斯拉车载中央计算平台由一个FSD子系统和一个带有独立GPU的高性能计算机子系统组成。该高性能计算机子系统是基于AMD Ryzen CPU而搭建的,这是一个典型的x86 CPU,具有可观的计算能力。该系统还通过PCIe互连整合了AMD RDNA2 GPU的高性能图形计算子系统。该GPU子系统有一个四通道64位GDDR,为互联网浏览、3D游戏、甚至增强现实提供强大的多媒体性能,而不会削弱AMDCPU的性能。
该车载中央计算平台还通过PCIe整合了特斯拉设计的FSD芯片。FSD通过PCIe与AMD Ryzen CPU互动,大多数自动驾驶任务都在特斯拉FSD芯片内执行。每个FSD子系统都有自己的内存,并包含双通道64位DRAM。
特斯拉的车载中央计算平台展示了一种经典的HPC架构。该平台有3个并行的子系统来执行高性能任务,各个子系统通过PCIe互连被很好地隔离。FSD子系统执行实时任务,获取摄像头传感器的原始输入数据,并将其转发给图像信号处理(ISP)电路。FSD中的AI处理器利用ISP处理后的传感器数据或原始传感器数据来执行矢量计算和SIMD操作,以进行目标检测、分割、融合等。然后在FSD的一个CPU集群中执行路径规划的任务。FSD的自动驾驶功能与AMD的CPU同时运行,避免了AMD CPU子系统性能的下降。
另一个特点是独立的GPU系统。这与入门级x86 APU或高性能智能手机SOC中的低成本共享内存GPU不同。有了四通道的64位GDDR,GPU子系统保证拥有自己的内存,而不与AMD CPU的其他内存控制器共享带宽。此外,多媒体子系统(视频CODEC、音频DSP和显示控制器)都通过四通道GDDR执行自己的任务,避免了AMD x86 CPU中高速缓存一致性互连的高额开销。