解读:天河2号超级计算机 直指超算TOP1【组图】
扫描二维码
随时随地手机看文章
1、天河2概要
21ic电子网,在五月底在长沙举办的国际HPC大会上,国防科技大组员透露了天河2的详细信息。天河2将会被安置在广州的国家超算中心,为华南的教育和研究机构提供高性能计算服务。
天河2将会由16000个浪潮的节点组成,每个节点有2颗基于IveBridge-EXeonE52692处理器和3个XeonPhi,累计共有32000颗IveBridge处理器和48000个XeonPhi,总计有312万个计算核心。
2、天河2的节点
每个XeonPhi使用其中的57个核心,而不是使用全部的61个,因为使用61个在运算周期协调方面会有问题,而使用57个核心能够加速4个执行线程,并且在每个线程单周期可以达成4flops的运算量,运行在1.1GHz的XeonPhi可以生产1003Tflops的双精度运算能力。如果考虑CPU,2IvyBridge*0.2112Tflop/s+3XeonPhi*1.003Tflop/s=3.431Tflops,2个IveBridge+3个XeonPhi单个节点可以有3.431Tflops运算能力,16000个节点总计可达54.9PFlops性能。每个运算节点有64GB主存、而每个XeonPhi板载8GB内存,因此每个节点共有88GB内存,总计16000个节点一共有1.404PB内存,而外部存储器容量方面更是高达12.4PB。
在每个主板上有2个计算节点,而每个框架则有16个主板,4个框架组成一个机柜,整个系统由125个机柜组成。
每个计算节点主板分为两块,一块CPM一块APU,CPM上有4核IveBridge、内存和一个XeonPhi,而APU基板上则承载着5个XeonPhi。
CPM和APU之间有5个水平插入的链接口,由IveBridge内置的PCI-E2.0进行连接,虽然IveBridge内置为PCIExpress3.0接口,但XeonPhi仅支持2.0,单个通路为10Gbps带宽。
3、天河2内部互连
计算节点的前端处理器为4096个FT-1500处理器,FT-1500处理器是由国防科技大学为天河1研发,其可以说是天河1项目的最大收获,其为16核心的SparcV9架构处理器,在40nm工艺情况下运行频率为1.8Ghz,峰值性能为144Fflops/s,功耗为65W,但相比英特尔22nm12核2.2GHz211Gflops/s性能的IveBridge还是有明显差距。
天河2互联方面采用自主研发的Express-2内部互联网络,其为有13个交换机,而每个交换机有576个端口。连接介质为光电混合。具体控制器是名为NRC的ASIC专用目的集成电路,其采用90nm工艺,核心尺寸为17.16x17.16mm,共有2577引脚。单个NRC的吞吐能力为2.56Tbps。而在终端方面网络接口也采用类似结构的NIC,但规模稍小,为10.76x10.76mm,675pin,其采用PCIE2.0方式连接,传输速率为6.36GB/s。并且在在12000节点的情况下延迟也很低,仅为85us。
4、天河2的性能
而在计算能力方面,使用14336个节点总计50GB内存进行LINPACK测试,理论性能为49.19Pflops,而实际测试性能为30.65Pflops,效率为62.3%。这个效率并不算高,还有很大优化提升潜力。当然也可能是被Xeonphi仅支持PCIExpress2.0带宽不足限制。
上面测试使用了16000个节点中的14336个,运用了90%的规模,基本可以代表天河2的整体性能表现。天河2的性能部件(处理器、内存、互联)整体功耗为17.6MW,而整体的运算能力为30.65PFlops,这样计算每瓦的性能为1.935Gflops,这个性能/功耗比可以拍在超算TOP500的前五,其整体性能/功耗比十分出色。
系统的整体功耗为17.6MW,并且这个功耗还不包括水冷这样的散热系统,如果考虑上整体功耗将高达24MW,广州国家超算中心将采用城市供水系统构建高散热效能的冷却系统,有能力可以提供80KW系统的散热能力。
天河2灯光效果
天河2虽然并不是最早采用英特尔XeonPhi的超级计算机,但其却对XeonPhi却有至关重要的意义,天河2号对于Xeonphi的采用使得其在与Tesla的竞争中稳稳占到上风,并给予TeslaKO般的致命一击。天河2号的意义不仅在于登顶超算排行TOP1,相比天河1和其他基于GPU的异构超级计算机,其在应用范围上更广、整体效率更高,相比在浮点计算精度、分支预测存在天生缺陷的GPU异构计算有更大的实用价值。天河2采用XeonPhi,可以说代表HPC并行计算到达新的层次,迎来XeonPhi并行计算的新时代,同时也预示着以NVIDIATesla为代表的GPU异构超算逐渐走向死路末途。