新芯片架构瞄准深度学习和视觉处理

时间：2020-08-21 13:36:02

关键字：深度学习芯片架构视觉处理

手机看文章

扫描二维码
随时随地手机看文章

[导读] 　　当「深度学习」不仅热门，而且还趋近于技术成熟曲线的「沸点」时，对于另一波瞄准深度学习、视觉处理的新创公司如雨后春笋般出现，也就一点都不令人惊讶了。　　这次是一家称为ThinCI（发

　　当「深度学习」不仅热门，而且还趋近于技术成熟曲线的「沸点」时，对于另一波瞄准深度学习、视觉处理的新创公司如雨后春笋般出现，也就一点都不令人惊讶了。

　　这次是一家称为ThinCI（发音为‘Think-Eye’）的公司，由一位出身英特尔背景的资深工程师/架构师Dinakar Munagala创办。

　　然而，令人惊讶的是，这家位于美国加州的新创公司不仅有资本雄厚、拥有技术专精的大厂支持，而且还提供了一种独特的「大规模平行架构」，Munagala称其为「专为视觉处理和深度学习而生「。

　　Munagala承诺，相较于其它深度学习/视觉处理方案，该公司目前专利申请中的芯片架构可以带来「两个数量级的性能提升」。

　　从一座车库开始，并以有限的资金熬过6年之后，ThinCI在上个月公开亮相。该公司最近还吸引了两家大型一线汽车供货商成为其机构投资者，而且还有一批在技术领域声誉显赫的大厂成为其私人投资者。

　　这两家汽车供货商分别是DENSO InternaTIonal America， Inc.，以及Magna InternaTIonal Inc.。私人投资者包括ThinCI董事会主席和Tallwood Venture Capital的管理合伙人Dado Banatao、英特尔架构部门前执行副总裁、总经理Dadi Perlmutter、巴斯夫（BASF）监事会主席和戴姆勒（Daimler）监事会成员Jurgen Hambrecht以及其他几位背景雄厚的资深人士。

　　简单、灵活

　　他们为什么投资ThinCI？Perlmutter认为，「在整个职业生涯中，我非常欣赏简单和灵活性。我并不喜欢一些蛮横粗暴的方法，但着重于研究新运算问题的瓶颈，并且经由寻找新途径发现克服瓶颈的方法。ThinCI就是这么做的。」

　　当其它解决方案受限于数据的移入与移出，只为了填饱「饥饿」的巨大运算引擎时，Perlmutter形容ThinCI运算是一种「专为深度学习量身打造的绘图分析法，省去了大量不必要的内存存取程序。」

　　而其最终的结果如何？「它不仅加快了指令周期，而且降低了成本和功耗，」他补充说。

　　Munagala说自己从六年前开始，就怀抱着开发一种新芯片架构，以满足下一代技术（如深度学习）需求的梦想，因此毅然决然地离开英特尔。

　　然而，ThinCI并未透露其处理器架构细节，而仅称其为「一种革命性的绘图串流处理器」（Graph Streaming Pocessor）。Munagala解释，它是指「一种大规模的平行架构，专为同时处理任务图形的多项运算节点而设计。」

　　深度学习本质上是以一组算法为基础，透过具有多个处理层、由线性与非线性交易组成的深度绘图，尝试在数据中建模高层级抽象。

　　ThinCI架构的独特之处似乎就在于其处理深度绘图的方式。

　　Munagala解释，「ThinCI架构利用极端平行为整个绘图任务串流数据，」取代以多个处理层透过深度绘图连续处理数据的方式。

　　正如Perlmutter所说的， ThinCI处理器架构的另一个关键要素是可编程性「。他解释说，许多人犯了针对特定方案进行硬件客制的错误，而历史教训是：问题是不断变化的，而程序设计人员拥有巨大的创造力。Perlmutter表示，ThinCI需要的是一种「对处理器进行编程以实现可不断发展新方案的方法。」

　　很显然地，这正是ThinCI所提供的。Munagala指出，设计人员「在使用业界标准API的同时，也受益于独特的编程方法。这使其简化打造为其处理器优化的深度网络。

　　相较于市场上的其它处理器，Munagal以GPU为例指出，「尽管GPU已被用于深度学习（如Nvidia），但它并非为数据分析而设计的。它在视觉处理方面的效率不高，而且不仅功耗高、还需大量的内存。」DSP的问题则是编程的效率低且复杂。

　　那么，硬线组件如何？也不可行！因为对固定方案来说，用于深度学习的算法变化太快。而CPU「仅适于通用目的」，因为它的效能不佳且功耗过高。

　　芯片上绘图执行

　　相形之下，ThinCI的视觉运算引擎独到之处在于它提供了「芯片上绘图执行」（on-die graph execuTIon）。它是专为加速卷积神经网络（CNN）、深层神经网络（DNN）和其它复杂算法而设计的。更重要的是，该公司表示，来自摄影机传感器的资料「储存和处理都在芯片上完成，而无需DRAM存取。」

　　图1：ThinCI的视觉运算引擎（VISCEN）硬件架构来源：ThinCI

　　因此，Munagala认为，相较于其它的处理架构，ThinCI的视觉运算引擎可以带来更高性能、更低功耗、可编程性以及更少内存占用。

　　当然，视觉处理SoC市场已开始出现一些新的处理器。例如。最近被英特尔收购的Movidius就是一个很好的例子。它提供专为嵌入式市场设计的视觉处理器。

　　针对目前在深度学习中使用的架构，Munagala说：「就性能/体积、性能/功耗指针来说，ThinCI的解决方案更高出了13倍。」更重要的是，「就架构来说，我们的方案更具前瞻性，它能解决其它架构无法解决的问题。」他同时还强调「简单编程模型」的重要性。

　　获一线汽车供货商青睐

　　从两家大型一线供货商投资ThinCI来看，清楚地反映了三件事：第一，汽车产业对视觉处理和深度学习技术的巨大需求（他们认为尚未看到全貌）；其次，对于让自动驾驶成为现实的坚定承诺；最后，一线厂商特别需要看到技术上的突破，让他们有足够的筹码与新贵金主平起平坐地谈判。

　　只需看看去年7月宣布成立的Mobileye/Intel/BMW联盟。很显然地，一线供货商都缺席了。

　　「DENSO一直在研究计算机视觉处理领域的新发展，而我们对ThinCI的投资更展现了坚定信念，即ThinCI的技术将很快成为下一代自动驾驶系统的关键组件——未来的新系统需要先进的运算技术结合深度学习能力，」DENSO创投总监Tony Cannestra在一份声明中说。

　　Magna技术长Swamy Kotagiri也表示：「我们很高兴能结合ThinCI在处理和软件领域的强项，以及Magna对于汽车系统的整体理解。

　　在汽车市场之外

　　ThinCI并不仅着眼于汽车市场。毕竟，汽车领域的进展一向十分缓慢，特别是考虑到在最终生产前必须进行的所有测试和认证。但这对在其它领域寻找近期机会的任何新创公司都意味深长。

　　Munagala解释，视觉处理和深度学习应用「可以应用在任何地方」，从自然用户接口到监控摄影机甚至白色家电。