华为力推自研AI芯片 合作变对手,寒武纪又该何去何从?
扫描二维码
随时随地手机看文章
今年八月底,余成东发布了麒麟系列的新一代旗舰处理器麒麟980,搭双核NPU。有报道称,麒麟980并未搭载此前谣传的寒武纪最新一代1M IP,而是采用麒麟970搭载的1A优化版本1H,加上双核,图像识别速度提升了220%。麒麟980芯片相关负责人表示原本他们是不打算做宣传的,而是靠口碑营销,因为“消费者只要用了就知道有多好”。
当然,华为海思确实也是这么做的,华为麒麟公众号推送的文章在麒麟980 AI能力时更多的是从AI性能提升及应用的角度去介绍,并未对双核NPU多做介绍。
大胆推测,麒麟900系列处理器集成寒武纪IP只是一个过渡方案,随着昇腾系列IP以及达芬奇架构(Da Vinci)的正式发布,麒麟900系列处理器很快将集成自家的昇腾IP而非寒武纪的NPU,这或许也是华为为何一直不太愿意多说麒麟970和麒麟980里的寒武纪NPU。
在接受采访的时候,徐直军表示:“构建新的达芬奇架构来支持我们的人工智能芯片是基于我们对人工智能的理解自然产生。我们开创性的达芬奇架构支持从云端到边缘端,不同物联网终端场景的人工智能需求,从极致的低功耗需求到极致的大算力需求全覆盖。现在我们还没有看到市场上有其它架构能够做到这一点。”
华为首席网络架构师党文栓也表示:“我们设计这个芯片的时候从开始就考虑到要全场景辐射,这是我们不二选择。”
在昇腾310芯片系列里,Ascend-Lite就是针对智能手机的IP,因此无论从成本还是昇腾处理器发展的角度来看,寒武纪NPU被麒麟900系列处理器弃用应该只是迟早的事情。但对于寒武纪这家中国大名鼎鼎的独角兽来说,华为是其目前已知的最重要的终端客户,如果遭到华为的弃用,结果将如何?
合作伙伴终变竞争对手
在10月10日的华为全联接大会上徐直军指出:“昇腾910是计算密度最大的单芯片,采用7nm工艺制程,最大功耗为350W,半精度为(FP 16)256 Tera FLOPS,比Nvidia V100的125 Tera FLOPS还要高出近1倍。若集齐1024个昇腾910,将会出现迄今为止全球最大的AI计算集群,性能也将达到256个P,不管多复杂的模型都能轻松训练。”
昇腾910或许会是寒武纪更为感到不安的产品,为什么这么说?今年5月,寒武纪发布首款云端智能芯片 Cambricon MLU100 和板卡产品,实现了AI IP从终端到云端的布局。MLU100采用MLUv01架构,基于16nm工艺,平衡模式下等效理论峰值速度达每秒128万亿次定点运算,高性能模式下等效理论峰值速度达每秒166.4万亿次定点运算,典型板级功耗为80瓦,峰值功耗不超过110瓦。
可见,无论是在制造工艺还是性能上,寒武纪的产品都没有优势,要知道在对算力渴望程度极高的AI领域,高算力低功耗的芯片更加受到追捧。更为严峻的是,寒武纪能提供的是AI板卡,华为也能提供,同时还有全栈解决方案。党文栓在回答媒体AI投资回报的问题时就表示:“全栈解决方案更能进一步加速投资回报周期,全栈解决方案意味拥有的完整能力支撑企业级关键任务应用场景,而且全栈的开放性、互动性的可以更好服务企业,未来也能提供更好的选择。”
我们知道,AI的发展让更多的公司意识到芯片与算法更加紧密结合的重要性,因此AI时代,芯片与其上层相关的工具、框架、应用都将会有更紧密的结合。从这个角度来看,像华为这样的全栈解决方案提供商相比寒武纪具有明显地优势。虽然微软并未开始大规模采购华为的AI芯片或者AI服务器,但华为确实和微软有接触。当然,寒武纪和中科曙光也有着合作相当紧密,二者利用寒武纪架构打造出针对推理应用优化的服务器。
至此不难发现,麒麟900系列处理器弃用寒武纪NPU应该是迟早的事情,并且无论是偏向终端的昇腾310还是云端的昇腾910,华为和寒武纪都会成为竞争关系。当然,这并不意味着在AI市场只能容得下华为或寒武纪,AI是伴随物联网发展的一个技术,因此AI也将被应用到非常丰富的应用当中,有实力的AI企业相信最终都能找到合适的生存空间。
只不过,华为与寒武纪,恰好代表了AI市场里两类典型的玩家,一个规模巨大具有生态优势的大玩家,另一个因AI浪潮而生有自己的技术优势新势力,他们的发展都代表了一类AI企业。那么,最终结果会如何?