阿里达摩院研发出全球首款存算一体AI芯片

时间：2021-12-06 10:29:58

关键字：阿里巴巴 AI 芯片半导体

手机看文章

扫描二维码
随时随地手机看文章

[导读]近日，阿里达摩院近日成功研发新型架构芯片。该芯片是全球首款基于DRAM的3D键合堆叠存算一体AI芯片，可突破冯·诺依曼架构的性能瓶颈，满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中，该芯片性能提升10倍以上，能效比提升高达300倍。

近日，阿里达摩院近日成功研发新型架构芯片。该芯片是全球首款基于DRAM的3D键合堆叠存算一体AI芯片，可突破冯·诺依曼架构的性能瓶颈，满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中，该芯片性能提升10倍以上，能效比提升高达300倍。

所谓“存算一体AI芯片”，是指将传统以计算为中心的架构转变为以数据为中心的架构，其直接利用存储器进行数据处理，从而把数据存储与计算融合在同一芯片中，极大提高计算并行度与能量效率，特别适用于深度学习神经网络领域，如可穿戴设备、移动设备、智能家居等场景。

这一技术最早可追溯至20世纪60年代，斯坦福研究所的Kautz等人于1969年提出了存算一体计算机概念，后续研究主要围绕芯片电路、计算架构、操作系统、系统应用等层面展开，如加州大学伯克利分校Patterson等人成功把处理器集成在DRAM内存芯片当中，实现智能存算一体的计算架构。但受限于芯片设计复杂度与制造成本问题，以及缺少大数据应用驱动，早期的存算一体仅停留在研究阶段，并未得到实际应用。

此次阿里达摩院研发的存算一体芯片集成了多个创新型技术，是全球首款使用混合键合3D堆叠技术实现存算一体的芯片。该芯片内存单元采用异质集成嵌入式DRAM(SeDRAM)，拥有超大带宽、超大容量等特点;计算单元方面，达摩院研发设计了流式的定制化加速器架构，对推荐系统进行“端到端”的加速，包括匹配、粗排序、神经网络计算、细排序等任务。

得益于整体架构的创新，达摩院存算一体芯片同时实现了高性能和低系统功耗。在实际推荐系统应用中，相比传统CPU计算系统，存算一体芯片的性能提升10倍以上，能效提升超过300倍。该技术的研究成果已被芯片领域顶级会议ISSCC 2022收录，未来可应用于VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景。

国内外研究进展如何?

近年来，随着物联网、人工智能等应用领域的兴起，技术得到国内外学术界与产业界的广泛研究与应用。2016年，美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME)，受到业界的广泛关注。测试结果表明，与基于冯·诺依曼计算架构的传统方案相比，PRIME可以实现功耗降低约20倍、速度提高约50倍。该方案可以高效地实现向量-矩阵乘法运算，在深度学习神经网络加速器领域具有广阔的应用前景。此外，杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学、惠普、英特尔、镁光等国际知名大学及企业均开展了相关研究工作，并发布了测试芯片原型。

我国在这方面的研究也取得一系列成果，如中科院微电子所刘明教授团队、北京大学黄如教授与康晋锋教授团队、清华大学杨华中教授与吴华强教授团队、中科院上海微系统所宋志棠教授团队、华中科技大学缪向水教授团队等，相继发布相关器件和芯片原型，并通过图像/语音识别等应用进行了测试验证。

在当前摩尔定律逐渐放缓的背景下，存算一体成为解决计算机性能瓶颈的关键技术。