Wave Computing要靠DPU站稳脚跟?
扫描二维码
随时随地手机看文章
成立7年的AI新创公司Wave Computing日前在Hot Chips大会上介绍了该公司研发的多核架构资料流处理器(Dataflow Processing Unit;DPU),号称在神经网路训练速度方面可达GPU加速器的1,000倍,该公司技术长Chris Nicol更认为资料流架构是训练高效能网路最有效的方式。
根据The Next Platform报导,Nicol在应用多核策略解决问题方面拥有丰富的经验,不仅曾协助澳洲最大的资讯及通讯科技研究机构NICTA,也成立了贝尔实验室共同研发最早的多处理器系统单晶片。 Nicol认为未来大规模的训练迟早会移出资料中心改在边缘执行,彰显DPU元件的潜在价值。
Wave Computing发表的DPU晶片具有16,000个处理元件、8,000个以上的运算单元以及独特的自定时机制,使用粗粒可重组式架构(coarse grained reconfigurable architecture),运行频率为6.7GHz,在没有资料通过时,DPU会进入休眠状态。 DPU可以看作是FPGA与多核处理器的混合体,能处理数千个元件的静态资料流图排程。
Nicol表示,目前异质运算的定义有个问题,也就是主控都在CPU上执行,加速器必须等待CPU下达指令,而Wave Computing希望彻底改变这样的架构。 Nicol指出,新的加速器架构(尤其是GPU)在载入核心(kernel)以及使用微控制器在执行期移出与移入程式时都会产生延迟问题,而一个去除CPU的架构可以在卸载模式中得到更多性能效益。
Nicole指出,深度学习实际就是在深度学习软体上编程的资料流图,在类似Wave这种可以在执行期组成资料流图的处理器上运行,而这样的工作流程产生了用来训练网路的资料流图。举例来说,系统会在执行期从TensorFlow取得资料流图,然后直接将它转换成不需要CPU就可执行的资料流图,然后再映成到Wave的资料流晶片上。
Nicol表示,这是一个粗粒可重构阵列,有点类似空间运算(spatial computing),当程式编译为多处理器核心时,仍然需要将该程式分区,这也是多核晶片的问题所在,而开放式运算语言(OpenCL)并无法提供解决之道。 Wave有自己的空间编译器可以排程、规定路线、将软体映成在其紧密耦合的互连处理器架构上,这样会比使用暂存器速度更快。
尽管这些新架构非常令人注目,但GPU的软体生态系统在机器学习工作负载已十分健全,超大规模资料中心是否愿意容忍风险,导入一个完全不同的训练模式,还是由他们自己决定。