扫描二维码
随时随地手机看文章
寒武纪,即深度学习处理器,它是给电脑创造出模仿人类大脑多层大规模人工神经网络的芯片。在深度学习处理器的运行当中,计算系统的运算能力提升是决定深度学习处理效率的关键。深度学习是指多层的人工神经网络和训练它的方法。通俗讲就是指计算机通过深度神经网络,模拟人脑的机制来学习、判断、决策。2017年11月7日,中国科学院在北京发布了全球新一代人工智能芯片“寒武纪”系列——分别是3款面向智能手机等终端的“寒武纪”处理器IP,两款面向服务器等云端的“寒武纪”高性能智能处理器,以及1款专门为开发者打造的人工智能软件平台。“寒武纪”是中国科学院计算技术研究所发布的全球首个能够“深度学习”的“神经网络”处理器芯片。
最近,寒武纪的水花有点大。先是发布三季度财报,前三季度营收2.22亿元,同比增长41.19%。紧接着,寒武纪马上发布了国内第一款公开发布支持LPDDR5内存的云端AI芯片思元370,以及基于思元370的两款加速卡。用此前寒武纪创始人陈天石接受媒体采访时的话来说,就是,“我能做的只是做该做的事,走该走的路,把精力都放在产品研发和服务客户上。苦心孤诣是成功的必由之路。”而且在陈天石看来,寒武纪已经经过了验证自己能做,拿出量产芯片,到了拼软件、造生态的阶段,而这个阶段,也正是当下英伟达等巨头扎堆的领域。
寒武纪此次发布了推训一体思元370芯片,再加上此前发布的云端推理思元270、边缘推理思元220、云端训练思元290,寒武纪为用户提供了覆盖不同场景、不同算力规模的全系列产品。思元370 是寒武纪首款采用chiplet(芯粒)技术的AI 芯片。基于台积电7nm 制程工艺,最大算力达到256TOPS(INT8),这一数据是寒武纪第二代产品思元270 算力的2 倍。
纵观2016年3月成立到2021年11月的五年间里,寒武纪每年至少推出一款智能芯片产品,按发布时间看,寒武纪1A(2016)、1H(2017)、1M(2018)、思元100(2018)、思元270(2019)、思元220(2019)、思元290(2020)、思元370(2021年)。公司成立仅仅5年,寒武纪科技就已拥有8个智能芯片产品,并实现了四次处理器架构的迭代。
比如最新的第四代智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍。配合最新架构,寒武纪还推出全新MLUv03指令集,更完备,更高效且向前兼容。
在这个愈发重视AI芯片自主架构、能拥有“杀手级”应用场景、能实现算力突破与能耗双控的时代,思元370其实具有多项领先优势:
在架构上,思元370属于寒武纪第四代自研智能芯片架构,第一代架构MLUarch00主打智能加速IP核,第二代MLUarch01主打多核架构,第三代MLUarch02主打多核共享片内存储,第四代MLUarch03更是寒武纪首款采用 chiplet(芯粒)技术的AI芯片,在国内应该也属于行业首颗chiplet AI芯片。
在应用场景灵活性上,由于思元370在一颗芯片中封装2颗AI计算芯粒(MLU-Die),每一个MLU-Die都具备独立的AI计算单元、内存、IO以及MLU-Fabric控制和接口,不同MLU-Die可以组合规格多样化的产品,为用户提供适用不同场景的高性价比AI芯片。
在算力上,基于台积电 7nm 制程工艺、整体集成390亿个晶体管的思元370最大算力达到 256TOPS(INT8),相比上一代思元270算力直接翻倍。
不到18个月就实现了算力翻倍,在通用处理器领域已经失效的摩尔定律,在AI芯片领域还在延续。
现实世界对于算力的需求远没有到达顶峰。以英伟达为例,自2017年底英伟达发布Tesla V100之后,训练最大模型的算力需求增长了3000倍。
举例来说,仅是分析3000万路视频,以常见的英伟达Tesla P4显卡为例约需100万块,总硬件成本200亿元以上,一块显卡按照75瓦起步功耗计算总功耗也高达7.5万千瓦。
作为全球智能芯片领域的先行者,寒武纪聚焦端云一体、端云融合的智能新生态,致力打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。
寒武纪智能处理器架构MLUarch03,拥有新一代张量运算单元,内置Supercharger模块大幅提升各类卷积效率;采用全新的多算子硬件融合技术,在软件融合的基础上大幅减少算子执行时间;片上通讯带宽是上一代MLUarch02的2倍、片上共享缓存容量最高是MLUarch02的2.75倍;推出全新MLUv03指令集,更完备,更高效且向前兼容。
有7nm先进工艺和全新MLUarch03架构的加持,思元370芯片算力最高可达256TOPS(INT8),是上一代产品思元270算力的2倍。相较于峰值算力的提升,思元370在实测性能和能效方面的表现更为优秀:以ResNet-50为例,MLU370-S4加速卡(半高半长)实测性能为同尺寸主流GPU的2倍;MLU370-X4加速卡(全高全长)实测性能与同尺寸主流GPU相当,能效则大幅领先。
MagicMind是寒武纪全新打造的推理加速引擎,也是业界首个基于MLIR图编译技术达到商业化部署能力的推理引擎。MagicMind支持跨框架的模型解析、自动后端代码生成及优化。在MLU、GPU、CPU训练好的算法模型上,借助MagicMind,用户仅需投入极少的开发成本,即可将推理业务部署到寒武纪全系列产品上,并获得颇具竞争力的性能。
MagicMind的优势不仅在于可以提供极致的性能、可靠的精度以及简洁的编程接口,让用户能够专注于业务本身,无需理解芯片更多底层细节就可实现模型的快速高效部署,MagicMind插件化的设计还可以满足在性能或功能上追求差异化竞争力的客户需求。
除了“云边端”之外,寒武纪也开始涉足汽车市场。在今年 7 月举办的 2021 世界人工智能大会上,寒武纪首次披露了控股子公司行歌科技的进展,并披露研发中的车载智能芯片关键数据——基于 7 纳米制程的车规级芯片,算力大于200TOPS,具备独立安全岛及成熟软件工具链。
寒武纪的“云边端车”处理器都是用统一的处理器架构和基础软件平台,这意味着开发者只要在某一端应用寒武纪的产品,其他端很容易就能实现互相兼容,大大减少不同平台的开发和应用迁移成本。据了解,市面上具有“云边端车”生态协同优势的玩家,其实只有两三家,寒武纪正是其中之一。
进入2020年,寒武纪营收增长幅度大幅减缓,营收4.59亿元,同比增长3.38%;归母净亏损4.36亿元。2021年一季度,虽然营收增幅213%,但归母净亏损从去年的1.08亿元扩大至2.06亿元。由此计算,寒武纪2017年以来归母净亏损累计超过22亿元。
国金证券研报分析称,寒武纪2021年一季度短期亏损扩大,市场预期过于乐观:营收仅占Wind分析师全年预期的4个点,亏损却超过Wind全年预期的50%,主要归因于研发及管理费用(增加股票激励)同比大幅增加所致。
根据Wind分析师预期寒武纪2021年营收增长93%达8.88亿,亏损为3.85亿。国金证券初步认为寒武纪达成今年营收预期及减少亏损有难度。
国金证券表示,寒武纪费用增加短期扭亏不易。随着寒武纪持续加大云边端产品线及软件开发平台的研发投入,研发费用较去年有较大幅度的增加,国金证券维持之前对寒武纪的看法,短期扭亏为盈不容易,自由现金流持续恶化。
此前,寒武纪的技术沉淀让它抢得了先机,政策利好一度助力公司市值超过千亿元。但是在构建生态方面公司并不具备必然优势。作为最早投身行业的AI芯片第一股,寒武纪要如何应对巨头的竞争?还有哪些新的业务拓展可能性?何时能够扭亏为盈?这些都是投资者们在审视和衡量这家公司时会思考的重要问题。
在下个阶段,摆脱了一级市场光环的寒武纪,要想提振二级市场投资者们的信心,恐怕需要交出更多的利好答卷。