浪潮存储 为中汽创智自动驾驶训练提速
扫描二维码
随时随地手机看文章
北京2021年11月11日 /美通社/ -- 中汽创智科技有限公司由中国一汽、东风公司、长安汽车、南京江宁经开科技等企业共同出资160亿元设立,落户南京江宁经济技术开发区。
中汽创智选择浪潮分布式存储AS13000G5系列的M和H节点,构建了自动驾驶训练模型,进一步提升GPU集群自动驾驶模型训练过程中的数据读写速度,大大加快研发速度。
中汽创智科技有限公司的成立,是落实制造强国、科技强国、汽车强国等国家战略的重要举措。央企新能源汽车整车领域的产业投资、技术研发将集中在中汽创智,有利于推动产业资源整合和开放合作,加快在制约当前产业发展的“卡脖子”技术和下一代关键核心技术领域的集中攻关和突破。中汽创智聚焦智能底盘、氢燃料动力、智能网联三大业务领域,致力于成为汽车行业技术创新的引领者、产业孵化的践行者、数据服务的驱动者。
部署自动驾驶训练平台,推进自动驾驶技术发展
中汽创智计划建设一套自动驾驶模型训练平台。借助平台的运算能力和存储能力,为自动驾驶、人工智能等领域相关技术的研发,提供IT资源支撑。
模型训练需要频繁在存储设备中读写数据,对存储系统性能要求较高,原始模型开发的过程中需要调用TB级的图片数据集,且模型在开发的过程中也会产生很多中间数据需要存储。
除了数据读写和大量图片的处理,中汽创智自动驾驶训练模型的搭建还给数据传输带来挑战,传统存储在面对数据短时间内增长迅速,传统硬盘效率低,无法发挥数据的及时性和准确性。
浪潮AS13000-H,如何HOLD住海量数据?
浪潮为中汽创智提供了高性能AS13000G5-H型号和13000G5-M存储组合方案。提供了不低于50GB/s的聚合带宽和PB级存储空间,满足了自动驾驶训练模型对大量图片处理和数据频繁读写的需求。助力中汽创智自动驾驶训练模型平台的建设。
浪潮AS13000-H分布式文件存储系统采用元数据节点与数据节点分离的网络架构,元数据与数据的读写互不影响。同时,AS13000-H的软件系统面向小文件进行了专门的调优和设计,使得AS13000-H更加适合图片数据集训练这种小文件频繁读写的场景。从而进一步提升GPU集群自动驾驶模型训练过程中的数据读写速度,推荐配置2个元数据节点和2个数据节点。元数据节点之间,数据节点之间开启镜像模式,实现元数据和数据的两副本存储,通过双副本机制,保障中汽创智自动驾驶模型训练过程中数据的安全。每台元数据节点和数据节点均配有2套网络。一套为10Gb万兆以太网络,接入业务交换机,实现研发人员和管理人员对于存储设备的前端接入和访问。另外一套为100Gb EDR Infiniband网络,接入集群内部用于数据交换的IB交换机,实现模型训练过程中计算节点与存储节点之间的数据读写,最大化保障数据传输效率。
考虑到用于模型训练的图片数据集及部分中间结果需要在开发机之间共享,因此,存储设备应具备共享网盘功能,以便不同开发机之间对同一份训练数据集进行读写,并对中间结果进行共享。浪潮存储采用3台4U36盘位存储服务器构成分布式存储系统的硬件平台;软件层面,使用经过浪潮商业化开发的Ceph文件系统。通过软件定义存储技术,将3台存储服务器定义为一台分布式存储系统。该系统可以同时支持文件、对象、块三种存储类型,本项目中使用文件存储格式进行开发及存储环境搭建,帮助用户实现对存储资源的最大化利用,有效降低存储开销,实现高效数据存取和维护,确保数据安全可靠。
目前,中汽创智自动驾驶训练模型平台已经全面投入使用,在智能座舱、仿真与测试、自动驾驶等多个业务中开展大数据分析和高性能训练,与中汽创智的云平台进行对接,形成统一的数据中心级别的大平台。