阿里达摩院研发出全球首款存算一体AI芯片
扫描二维码
随时随地手机看文章
近日,阿里达摩院近日成功研发新型架构芯片。该芯片是全球首款基于DRAM的3D键合堆叠存算一体AI芯片,可突破冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中,该芯片性能提升10倍以上,能效比提升高达300倍。
所谓“存算一体AI芯片”,是指将传统以计算为中心的架构转变为以数据为中心的架构,其直接利用存储器进行数据处理,从而把数据存储与计算融合在同一芯片中,极大提高计算并行度与能量效率,特别适用于深度学习神经网络领域,如可穿戴设备、移动设备、智能家居等场景。
这一技术最早可追溯至20世纪60年代,斯坦福研究所的Kautz等人于1969年提出了存算一体计算机概念,后续研究主要围绕芯片电路、计算架构、操作系统、系统应用等层面展开,如加州大学伯克利分校Patterson等人成功把处理器集成在DRAM内存芯片当中,实现智能存算一体的计算架构。但受限于芯片设计复杂度与制造成本问题,以及缺少大数据应用驱动,早期的存算一体仅停留在研究阶段,并未得到实际应用。
此次阿里达摩院研发的存算一体芯片集成了多个创新型技术,是全球首款使用混合键合3D堆叠技术实现存算一体的芯片。该芯片内存单元采用异质集成嵌入式DRAM(SeDRAM),拥有超大带宽、超大容量等特点;计算单元方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行“端到端”的加速,包括匹配、粗排序、神经网络计算、细排序等任务。
得益于整体架构的创新,达摩院存算一体芯片同时实现了高性能和低系统功耗。在实际推荐系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。该技术的研究成果已被芯片领域顶级会议ISSCC 2022收录,未来可应用于VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景。
国内外研究进展如何?
近年来,随着物联网、人工智能等应用领域的兴起,技术得到国内外学术界与产业界的广泛研究与应用。2016年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME),受到业界的广泛关注。测试结果表明,与基于冯·诺依曼计算架构的传统方案相比,PRIME可以实现功耗降低约20倍、速度提高约50倍。该方案可以高效地实现向量-矩阵乘法运算,在深度学习神经网络加速器领域具有广阔的应用前景。此外,杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学、惠普、英特尔、镁光等国际知名大学及企业均开展了相关研究工作,并发布了测试芯片原型。
我国在这方面的研究也取得一系列成果,如中科院微电子所刘明教授团队、北京大学黄如教授与康晋锋教授团队、清华大学杨华中教授与吴华强教授团队、中科院上海微系统所宋志棠教授团队、华中科技大学缪向水教授团队等,相继发布相关器件和芯片原型,并通过图像/语音识别等应用进行了测试验证。
在当前摩尔定律逐渐放缓的背景下,存算一体成为解决计算机性能瓶颈的关键技术。