寒武纪1A处理器可跟苹果产品一较高下 保留“火种”是关键
扫描二维码
随时随地手机看文章
人工智能就是一场生死搏杀,各大巨头入局千亿市场再一战胜负。寒武纪背靠中科院踏入了“独角兽”领域。芯片的成败,除了本身的效率之外,生态是非常关键的环节。陈天石认为,寒武纪1A处理器,可以跟苹果产品一较高下。
有一句话形容现在的人工智能特别合适:“我们往往高估了目前,而低估了未来”。如果要以其提出到现在60余年为一个周期来看,它真正席卷人类社会,才刚刚开始。
从这样的历史长河来看、从通用人工智能的未来回溯看,这个时代占据舞台中央的这些开拓者,都是手握着“深度学习”、“神经网络”等最原始的工具,在这块荒野上蹒跚前行。走在寻找人工智能基础工具这条路上,陈天石不比其他人多什么先决条件。
幸运的是,从他创造的石器中,人们逐渐发现并保留了火种。
寒武纪,这家背靠中科院计算所的创业公司刚亮相市场,就踏入了“独角兽”领域。
打磨“石器”
AI是一场革命。它和互联网一样,会席卷一切,会从无到有、再从有到无(无处不在)。普通人甚至不需要前行,它会主动过来拥抱你,甚至裹挟你。用罗振宇的话说:“你不必着急出发,因为你终将被抵达”。
在这场基础设施重新定义的革命中,陈天石无疑是一个提前出发者。16岁考入中国科学技术大学少年班;2014年论文在美国召开的国际顶级学术会议上获得最佳论文奖;创办的公司寒武纪科技,A轮估值超过10亿美元,成为全球首个人工智能芯片“独角兽”、全球最大的AI芯片初创公司。
基于深度学习这一底层算法,计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域取得了长足的进展。但传统的处理器例如CPU等,虽然是目前主流的AI计算平台,但是其基本框架结构毕竟不是为了AI所设计的,效率受到很多限制,包括GPU也有耗电量大等缺陷。
如果要用通用处理器搭建一个人脑规模突触的神经网络,可能需要建一个电站来给它供电。阿尔法狗刚亮相时,下一盘棋动用了1000个CPU和200个GPU,每分钟的电费就高达300美元,而网络规模只有人脑的千分之一。
陈天石认为,理想中的AI芯片应当是一种新型的处理器,能具有广阔的应用面(包括语音、语义、图像、视频、自然语言多模态处理能力),同时具备远超CPU和GPU的效率。要想达到这一目标,必须要有一套新的AI指令集,利用指令进行灵活处理,才有可能在AI芯片上把各种算法应用都能支持得又快又好。
打个简单的比方,把摩托车(PC、手机等)的发动机(CPU)装到了汽车(深度学习平台)上,汽车自然开不快;现在,需要为汽车专门设计一款发动机(深度学习专用处理器)。
“DianNao”这一深度学习处理器架构,平均仿真性能超过主流CPU核的100倍,但是面积和功耗仅为1/10,效能提升可达三个数量级。2014年,他和哥哥陈云霁以及法国信息技术研究院(Inria)的Olivier Temam教授合作的这篇论文,成为顶尖国际会议的最佳论文。
2014年-2016年间,他们俩和国际学术合作者一道几乎横扫了处理器架构学术圈,在顶级学术会议上教老外说中文的Diannao系列:Diannao(电脑)、DaDiannao(大电脑)、PuDiannao(普电脑)、ShiDiannao(视电脑)、Cambricon(寒武纪指令集)等一系列创新,针对不同的目的,将目前深度学习的效率提高数百倍。
有院士这样分析,“寒武纪”在深度学习处理器指令集上的开创性进展,为我国占据智能产业生态的领导性地位提供了技术支撑。自2014年中科院计算所和Inria联合团队提出首个深度学习处理器架构DianNao之后,深度学习处理器已经成为计算机体系结构国际会议ISCA最关注的研究方向之一。ISCA 2016上有近1/6的论文引用“寒武纪”的工作来进行深度学习处理器探索。
“目前,像阿尔法狗这样的软件算法是在GPU上执行的,将来如果使用了‘寒武纪’处理器,深度学习(神经网络)的运算速度会得到明显提升。”陈天石说。
他用“瑞士军刀和菜刀”来比喻通用处理器和深度学习处理器的关系:瑞士军刀虽然功能多,但是做菜的时候,还是菜刀更合适。在智能处理方面,“寒武纪”就是这把更合适的菜刀。
寒武纪指令集直接面对大规模神经元和突触的处理,一条指令即可完成一组神经元的处理,并对神经元和突触数据在芯片上的传输提供了一系列专门的支持。模拟实验表明,采用寒武纪指令集的深度学习处理器相对于x86指令集的中央处理器有两个数量级的性能提升。
如今,通过在计算机中模拟神经元和突触的计算,寒武纪的AI芯片对信息进行智能处理,借助专门设计的存储结构和指令集,每秒可以处理160亿个神经元和超过2万亿个突触,功耗却只有原来的十分之一,未来甚至有希望把类似阿尔法狗的系统装进手机。