图神经网络加速芯片进入倒计时，全球首款商用图神经网络加速IP核正式发布

时间：2021-01-08 11:11:18

关键字：图神经网络芯片 IP核

手机看文章

扫描二维码
随时随地手机看文章

[导读]1月8日，在与中科院计算所和中科院计算所南研院的通力合作基础上，北京中科睿芯科技集团有限公司(简称中科睿芯)正式发布了一款图神经网络加速芯片的IP核(即制备芯片的知识产权核)，并宣布面向全球开展商用授权。

【2021年01月08日，北京】1月8日，在与中科院计算所和中科院计算所南研院的通力合作基础上，北京中科睿芯科技集团有限公司(简称中科睿芯)正式发布了一款图神经网络加速芯片的IP核(即制备芯片的知识产权核)，并宣布面向全球开展商用授权。据该团队介绍，目前市场上尚无任何类似IP核可供授权。因此，该IP核是全球首款图神经网络加速IP核，专注于高效加速图神经网络的推断阶段。

适合图神经网络的算力

此款图神经网络加速IP核代号为“GCU Zero”，主要研究人员之一是中科院计算所特别研究助理严明玉博士，其毕业于中科院计算所，曾在美国加州大学圣巴巴拉分校 SEAL 实验室访学，主要从事图计算和图神经网络加速结构研究。严明玉介绍说，“Zero”寓意着团队从0号“认知智能”芯片开始，期望实现机器与人类在智能上的“零差距”;“G”和”U”取图处理单元(Graph Unit)之义，代表满足图神经网络特殊算力需求的计算单元，而“C”则表示计算单元赋予机器认知智能(Cognitive Intelligence)。

图神经网络加速芯片进入倒计时，全球首款商用图神经网络加速IP核正式发布

GCU Zero

Homosapiens系列

基于混合结构设计思想，GCU Zero分别为图神经网络的两个主要执行阶段——图遍历阶段和神经网络变换阶段设计相应的加速引擎，并流水两个引擎的执行。这一设计思路可匹配图神经网络对算力的特殊要求，大幅提升图神经网络的执行效率。

例如，在为图神经网络中的一个重要分支——图卷积神经网络的执行进行加速的过程中，GCU Zero可提供低延迟独立执行模式(低延迟模式)和高并发融合执行模式(高并发模式)两个工作模式，具有“四高三低四少”的优点。

“四高”是指高可配性(面向不同应用场景配置不同执行模式)、高可拓展性(可多个IP核互联执行更大规模的图神经网络)、高并发(可数十个图节点处理任务同时并发执行)、高能效(比传统处理器能效更高);“三低”是指在低延迟模式下，用所有资源共同执行单个图节点的处理任务，能实现低延迟、低开销、低能耗;“四少”是指在高并发模式下，多个图节点的处理任务同时执行，并且两个主要的阶段可流水，能够减少中间数据的计算和访存，从而实现更少计算、更少访存、更少功耗、更少运行时间。

开启图神经网络加速时代

图神经网络被认为是推动“认知智能”发展强有力的推理方法，有望解决深度学习无法处理的关系推理、可解释性等一系列问题，让机器“能理解、会思考”。

不过，尽管目前在国际学术界已有团队开展了基于图神经网络加速的相关研究，工业界也有了基于图神经网络的落地应用，但目前图神经网络加速芯片在国际上还是一片“无人区”。

2020年初，严明玉博士在国际计算机体系结构顶会 HPCA 上发表了国际第一个图神经网络的加速结构设计“HyGCN”。严明玉称，GCN即图卷积神经网络 (Graph Convolutional Network, GCN为其缩写)，作为图神经网络最重要的一个分支，GCN将深度学习算法和图计算算法相融合，对搜索、推荐、风险控制在内的等诸多重要领域有着更优的认知与问题处理等能力;HyGCN寓意向图神经网络的加速说“Hi”，寓意图神经网络加速的时代即将开启。

完整芯片进入投片倒计时

“GCU Zero IP核是我们Homosapiens系列的首个IP。”严明玉博士透露，面向高性能和超高性能的图神经网络训练和推断，Homosapiens系列在今明两年陆续还会有新产品发布。

Homosapiens取自生物学上的“智人”，得益于高度发展的大脑带来的推理与语言能力，智人最终在残酷的生存竞争中成为万物之灵。将图神经网络系列芯片命名为Homosapiens，表明了研究团队将“认知智能”赋予机器的信念和决心。

当前，人工智能正从由数据驱动的“感知智能”阶段迈入由数据与知识双驱动的“认知智能”阶段。在“认知智能”阶段，机器被期待获得基于知识的逻辑推理能力。而图神经网络技术的发展和应用就是关键之匙，其效果也在工业界已有的落地应用中得到了验证。接下来，人们期待可直接用于图神经网络计算的加速器件。

严明玉介绍，GCU Zero IP核在基于台积电先进的12 nm制程工艺下，运行频率可达1.2 GHz。在Reddit 数据集和GraphSage图神经网络模型下，GCU Zero IP基于64 GB/s的片外存储带宽，在10毫秒内完成的图节点处理任务数是英伟达最先进人工智能推理GPU TESLA T4的两倍以上。他进一步透露，基于GCU Zero，该研究团队设计了完整的芯片并计划投片，将在今年第二季度搭载在中科睿芯“金刚”高通量计算机上。