天河二号超级计算机:“计算机”+“超级”超强组合体
扫描二维码
随时随地手机看文章
顾名思义,就是“计算机”+“超级”的超强组合体——它有着强大的计算能力和数据处理能力。“天河二号”是由国防科大研制的超级计算机系统,以峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算的优异性能位居榜首,成为全球最快超级计算机。
平时,我们经常会抱怨自己电脑“卡死了”,这与电脑的内存和运行速度有关。超级计算机就不会“卡”,因为它的优势就是“大容量”和“高速度”。那它究竟有多快——就相当于火箭的速度和人类步行的速度。
在这样的运算速度下,很多复杂的科学问题可以通过数值模拟来进行解决,因此超级计算机也被生动的称为“国家经济发展与科学技术创新能力的加速器”。
2019年11月18日,全球超级计算机500强榜单发布,中国超算“天河二号”排名第四位。
研究历程
2009年,中国首台千万亿次计算机“天河一号”研制成功,
运行“核高基”专项支持研制的银河麒麟操作系统,名列当年的国际超级计算机TOP 500排行榜世界第五位、亚洲第一位的排名,并使中国成为继美国之后世界上第二个能够研制千万亿次超级计算机的国家。
2010年时,我国研制的首台千万亿次超级计算机“天河一号”曾在全球TOP 500超级大型计算机排行榜中排名第一,但在2011年时被日本最新研发的超级计算机“京”超越了。到了2012年,美国的“泰坦”又超越了日本的“京”。
“天河二号”由280人历时两年多研制完成,耗资约1亿美元。研发耗资约1亿美元,由国家科技部、广东省人民政府、广州市人民政府共同出资建设。
2013年下半年,它将在广州超级计算中心投入运行,其先导系统已开始为生物医药、新材料等领域用户提供服务。
从2010年11月14日天河一号排名世界第一到2013年6月17日天河二号再登世界超算之巅,从天河一号4.7千万亿次到天河二号5.49亿亿次,从超级计算机由千万亿次级(1015)迈入亿亿次级(1016)计算速度,这是国防科技大学天河团队再次创造的“中国速度”。
目前,天河二号超级计算机在国家超算广州中心已正式投入运行,为120多家用户提供了300多项典型应用计算。同时,为用户培训了一批超算应用技术人才。
2015年5月,由北京师范大学、国防科技大学、加拿大理论天体物理研究所、北京大学、中科院高能物理研究所联合组成的宇宙中微子数值模拟团队,经过一系列技术攻关,在“天河二号”上成功进行了3万亿粒子数中微子和暗物质的宇宙学数值模拟,揭示了宇宙大爆炸1600万年之后至今约137亿年的漫长演化进程。
2019年11月,在国际上率先开启称霸标准研究的、国防科技大学计算机学院吴俊杰带领的QUANTA团队,联合信息工程大学等国内外科研机构,提出了量子计算模拟的新算法。该算法在“天河二号”超级计算机上的测试性能达到国际领先水平,谷歌的工作也引用了这项结果的预印版论文。
天河2号由16000个节点组成,每个节点有2颗基于Ivy Bridge-E Xeon E5 2692处理器和3个Xeon Phi,累计共有32000颗Ivy Bridge处理器和48000个Xeon Phi,总计有312万个计算核心[1]。
每个Xeon Phi使用其中的57个核心,而不是使用全部的61个,因为使用61个在运算周期协调方面会有问题,而使用57个核心能够加速4个执行线程,并且在每个线程单周期可以达成4Gflops的运算量,运行在1.1GHz的Xeon Phi可以生产1.003 Tflops的双精度运算能力。如果考虑CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2个Ivy Bridge+3个Xeon Phi单个节点可以有3.431 Tflops运算能力,16000个节点总计可达54.9PFlops性能。每个运算节点有64GB主存、而每个Xeon Phi板载8GB内存,因此每个节点共有88GB内存,总计16000个节点一共有1.404 PB内存,而外部存储器容量方面更是高达12.4PB.
天河二号
在每个主板上有2个计算节点,而每个框架则有16个主板,4个框架组成一个机柜,整个系统由125个机柜组成。每个计算节点主板分为两块,一块CPU一块APU,CPU上有4核Ivy Bridge、内存和一个Xeon Phi协处理器,而APU基板上则承载着5个Xeon Phi协处理器.CPU和APU之间有5个水平插入的链接口,由Ivy Bridge内置的PCI-E 2.0进行连接,虽然Ivy Bridge内置为PCI Express 3.0接口,但Xeon Phi仅支持2.0,单个通路为10Gbps带宽。
计算节点的前端处理器为4096个FT-1500处理器, FT-1500处理器是由国防科技大学为天河1研发,其可以说是天河1项目的最大收获,其为16核心的Sparc V9架构处理器,在40nm工艺情况下运行频率为1.8Ghz,峰值性能为144 Gflops/s,功耗为65W,但相比英特尔22nm 12核 2.2GHz 211Gflops/s性能的Ivy Bridge还是有明显差距。
天河2互联方面采用自主研发的 Express-2 内部互联网络,其为有13个交换机,而每个交换机有576个端口。连接介质为光电混合。具体控制器是名为NRC的ASIC专用目的集成电路,其采用90nm工艺,封装尺寸为17.16x17.16 mm,共有2577引脚。单个NRC的吞吐能力为2.56Tbps.而在终端方面网络接口也采用类似结构的NIC,但规模稍小,为10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式连接,传输速率为6.36GB/s.并且在在12000节点的情况下延迟也很低,仅为85us.
而在计算能力方面,使用14336个节点 总计50GB内存进行LINPACK测试,理论性能为49.19Pflops,而实际测试性能为30.65Pflops,效率为62.3%.这个效率并不算高,还有很大优化提升潜力。当然也可能是被Xeon phi仅支持PCI Express 2.0带宽不足限制。
上面测试使用了16000个节点中的14336个,运用了90%的规模,基本可以代表天河2的整体性能表现。天河2的性能部件(处理器、内存、互联)整体功耗为17.6MW,而整体的运算能力为30.65PFlops,这样计算每瓦的性能为1.935Gflops,这个性能/功耗比可以排在超算TOP500的前五,其整体性能/功耗比十分出色。
系统的整体功耗为17.6 MW,并且这个功耗还不包括水冷这样的散热系统,如果考虑上整体功耗将高达24MW,广州国家超算中心将采用城市供水系统构建高散热效能的冷却系统,有能力可以提供80KW系统的散热能力。
天河二号超级计算机系统由170个机柜组成,包括125个计算机柜、8个服务机柜、13个通信机柜和24个存储机柜,占地面积720平方米,内存总容量1400万亿字节,存储总容量12400万亿字节,最大运行功耗17.8兆瓦。天河二号运算1小时,相当于13亿人同时用计算器计算一千年,其存储总容量相当于存储每册10万字的图书600亿册。相比此前排名世界第一的美国“泰坦”超级计算机,天河二号计算速度是“泰坦”的2倍,计算密度是“泰坦”的2.5倍,能效比相当。与该校此前研制的天河一号相比,二者占地面积相当,天河二号计算性能和计算密度均提升了10倍以上,能效比提升了2倍,执行相同计算任务的耗电量只有天河一号的三分之一。
天河2号由16000个节点组成,每个节点有2颗基于Ivy Bridge-E Xeon E5 2692处理器和3个Xeon Phi,累计共有32000颗Ivy Bridge处理器和48000个Xeon Phi,总计有312万个计算核心[1]。
每个Xeon Phi使用其中的57个核心,而不是使用全部的61个,因为使用61个在运算周期协调方面会有问题,而使用57个核心能够加速4个执行线程,并且在每个线程单周期可以达成4Gflops的运算量,运行在1.1GHz的Xeon Phi可以生产1.003 Tflops的双精度运算能力。如果考虑CPU,2 Ivy Bridge * 0.2112 Tflop/s + 3 Xeon Phi * 1.003 Tflop/s=3.431 Tflops,2个Ivy Bridge+3个Xeon Phi单个节点可以有3.431 Tflops运算能力,16000个节点总计可达54.9PFlops性能。每个运算节点有64GB主存、而每个Xeon Phi板载8GB内存,因此每个节点共有88GB内存,总计16000个节点一共有1.404 PB内存,而外部存储器容量方面更是高达12.4PB.
天河二号
在每个主板上有2个计算节点,而每个框架则有16个主板,4个框架组成一个机柜,整个系统由125个机柜组成。每个计算节点主板分为两块,一块CPU一块APU,CPU上有4核Ivy Bridge、内存和一个Xeon Phi协处理器,而APU基板上则承载着5个Xeon Phi协处理器.CPU和APU之间有5个水平插入的链接口,由Ivy Bridge内置的PCI-E 2.0进行连接,虽然Ivy Bridge内置为PCI Express 3.0接口,但Xeon Phi仅支持2.0,单个通路为10Gbps带宽。
计算节点的前端处理器为4096个FT-1500处理器, FT-1500处理器是由国防科技大学为天河1研发,其可以说是天河1项目的最大收获,其为16核心的Sparc V9架构处理器,在40nm工艺情况下运行频率为1.8Ghz,峰值性能为144 Gflops/s,功耗为65W,但相比英特尔22nm 12核 2.2GHz 211Gflops/s性能的Ivy Bridge还是有明显差距。
天河2互联方面采用自主研发的 Express-2 内部互联网络,其为有13个交换机,而每个交换机有576个端口。连接介质为光电混合。具体控制器是名为NRC的ASIC专用目的集成电路,其采用90nm工艺,封装尺寸为17.16x17.16 mm,共有2577引脚。单个NRC的吞吐能力为2.56Tbps.而在终端方面网络接口也采用类似结构的NIC,但规模稍小,为10.76x10.76 mm, 675 pin,其采用PCIE 2.0方式连接,传输速率为6.36GB/s.并且在在12000节点的情况下延迟也很低,仅为85us.
而在计算能力方面,使用14336个节点 总计50GB内存进行LINPACK测试,理论性能为49.19Pflops,而实际测试性能为30.65Pflops,效率为62.3%.这个效率并不算高,还有很大优化提升潜力。当然也可能是被Xeon phi仅支持PCI Express 2.0带宽不足限制。
上面测试使用了16000个节点中的14336个,运用了90%的规模,基本可以代表天河2的整体性能表现。天河2的性能部件(处理器、内存、互联)整体功耗为17.6MW,而整体的运算能力为30.65PFlops,这样计算每瓦的性能为1.935Gflops,这个性能/功耗比可以排在超算TOP500的前五,其整体性能/功耗比十分出色。
系统的整体功耗为17.6 MW,并且这个功耗还不包括水冷这样的散热系统,如果考虑上整体功耗将高达24MW,广州国家超算中心将采用城市供水系统构建高散热效能的冷却系统,有能力可以提供80KW系统的散热能力。
天河二号超级计算机系统由170个机柜组成,包括125个计算机柜、8个服务机柜、13个通信机柜和24个存储机柜,占地面积720平方米,内存总容量1400万亿字节,存储总容量12400万亿字节,最大运行功耗17.8兆瓦。天河二号运算1小时,相当于13亿人同时用计算器计算一千年,其存储总容量相当于存储每册10万字的图书600亿册。相比此前排名世界第一的美国“泰坦”超级计算机,天河二号计算速度是“泰坦”的2倍,计算密度是“泰坦”的2.5倍,能效比相当。与该校此前研制的天河一号相比,二者占地面积相当,天河二号计算性能和计算密度均提升了10倍以上,能效比提升了2倍,执行相同计算任务的耗电量只有天河一号的三分之一。
天河二号定位目标
因为超级计算机在国内的发展速度已经远超过于相应人才的培养速度,这导致超级计算机的软硬件技术之间出现巨大差异。不过这也成就了中国超级计算机的“普适性”。比如美国,他们超算研发目的都是自用,例如Titan主要用于美国能源部内部的核试验模拟。他们的超级计算机计算用途较为简单,基本只能适配于某一方向,但专业性比较更强。而国内的超级计算机更为开放,可针对更多用户。
中国的超级计算机之路已从最初的受制于人的状态正在逐渐扭转,如今已呈现“三箭齐发”态势——国防科学技术大学“银河”、“天河”;北京“曙光”、“星云”;无锡“神威”,这些都是中国科技的“加速器”,助力科学未来。