中国顶级超算入围美国戈登·贝尔大奖
扫描二维码
随时随地手机看文章
据报道,美国计算机协会(Associationfor Computing Machinery; ACM)近期公布了戈登·贝尔奖(被誉为“超级计算应用领域的诺贝尔奖”)的入围名单。
基于中国1.5 EXAFLOPS(百亿亿次)超级计算机的一篇研究论文再次入围,该奖项将在今年11月在美国丹佛举行的SC23超级计算大会上颁发。
ACM表示,虽然最终的系统规模以及模拟和模型运行的结果尚未完成,但基于新一代的 1.5 exaflops中国神威超级计算机(oceanlite,太湖之光升级版)完成的一篇题为《涡轮机械流动的精确计算》论文(将在11月SC23会议之前正式发布)已经入围。
早在2021年11月,中国的超级计算机就曾以4190万个核心的量子模拟而获得了戈登贝尔奖。
当时阿里巴巴集团、清华大学、DAMO学院,浙江实验室和北京人工智能研究院在Oceanlite机器中运行了一个名为“八卦路”的预训练机器学习模型,该模型涉及3700多万个核心和14.5万亿个参数。
此次《涡轮机械流动的精确计算》论文,则是由Weiqi Shen, Jiahuan Cui, Yao Zheng等(共 19 位作者),来自浙江大学、清华大学、国家超级计算无锡中心、剑桥大学、佛罗里达大学团队共同完成。
该团队开发了一种新的大涡流模拟代码,用于解决涡轮机械中的可压缩流。他们将该代码应用于美国国家航空航天局(NASA)的重大挑战问题,使用高阶非结构化求解器求解高压涡轮级联的 16.9 亿个网格元素和 8650 亿个自由度。
根据该论文的作者显示,Oceanlite系统拥有超过100000个由中国国家并行计算机工程与技术研究中心(NRCPC)设计的定制SW26010 Pro处理器。
2022年4月,中国科学技术大学、国家海洋科学与技术试点实验室(青岛)、北京大学数学科学学院、无锡国家超级计算中心和中国海洋大学组成的联合团队,公布了一篇超级计算机模拟复杂量子多体的文章介绍,SW26010 pro是sw26010改进型,拥有6个核心模块,每个模块有1个管理Linux线程的核心(MPE)和64个计算核心。
而组成太湖之光的SW26010处理器,只有4个核心模块,说明SW26010 pro单片应该有50%的性能提升。
The next platform的报道称,SW26010 Pro处理器的64个(8 x 8)计算核心网络是一个具有256KB L2高速缓存的计算处理单元(CPE)。每个CPE有四个逻辑块,可以在一对上支持FP64和FP32,在另一对上则可以支持FP16和BF16。
SW26010 Pro中的每个核心模块上都有一个DDR4内存控制器和16 GB内存,内存带宽为51.4 GB/秒,因此整个处理器有96 GB主内存和307.2 GB/s带宽。六个CPE通过环形互连连接,并有两个网络接口,使用专有互连将它们连接到外部。
SW26010 Pro芯片的FP64或FP32精度为14.03 PB,BF16或FP16精度为55.3 PB。
The next platform称,Oceanlite最大的配置有107520个节点,共有4193万个核心,分布在105个机柜中。刚刚曝光的论文也证实了该超级计算机的理论峰值性能为1.5 exaflops,MPE内核运行在2.1 GHz,CPW内核运行在2.25 GHz。
如果将该超级计算机规模扩大到120个机柜,在FP64 pervision下的峰值将达到1.72 Exaflops,这将超过美国橡树岭国家实验室的1.68 Exaflops的“Frontier”超级计算机。
在160个机柜的条件下,在FP64的峰值性能将接近2.3 Exaflops,将有望击败已经安装完成的美国能源部阿贡国家实验室的基于英特尔CPU及GPU的新一代超级计算机“Aurora”,以及正在建设的美国劳伦斯·利弗莫尔国家实验室基于AMD MI300芯片的“El Capitan”超级计算机,后两者的FP64性能都将达到 2 Exaflops以上。
不过,最新的戈登·贝尔奖参赛论文《涡轮机械流动的精确计算》显示,其对于喷气发动机模拟在大约58333个节点上运行,这些节点代表了超过350000个MPE核心和超过2240万个CPE核心。
这是以上预测的Oceanlite最大配置的一半多一点。