新存储基础设施助力最强大超级计算机
扫描二维码
随时随地手机看文章
国家超级计算机应用中心推出了一个存储基础设施,包括380PB的磁带容量和由17000个SATA硬盘组成的25PB的在线磁盘存储。
大量的存储设施设计用于支持一个世界上最强大的超级计算机,称为"蓝水".由国家自然科学基金(NFS)委任,蓝水预计会有11.5千万亿次每秒的峰值性能,虽然国家自然科学基金提出的规范要求为1千万亿次的持续应用计算能力。
国家超级计算机应用中心,坐落于伊利诺伊大学,已与Cray签订合同建立超级计算机。该系统将运行一个Lustre并行文件系统,每秒超过1TB的吞吐量送到其终端存储器上。
"蓝水"项目将建造一个1千万亿次的超级计算机,处理现实世界的科学和工程应用。它还有助于理解宇宙大爆炸之后如何演变,帮助预测飓风和龙卷风的成因,并在原子级新材料的设计上发挥其作用。
超级计算机是由超过235个Cray XE6机柜组成,采用380,000个AMD Opteron 6200 Series x82处理器和超过30个机柜的最近宣布的带有3000个NVIDIA GPU的Cray XK6超级计算机的未来版。该系统将包括有190,000根内存条组成的1.5PB的内存。
为了支持所有这些计算能力,国家超级计算机应用中心使用Cray Sonexion存储系统部署了25PB的磁盘存储。Sonexion是Zyratex存储阵列的再创品牌。该系统通过一个40Gb每秒的Extreme Networks以太网提供了1TB每秒的总带宽。
"我们一直在和网络供应商密切合作来确保他们准备好实施40Gb以太网",国家超级计算机应用中心的负责存储和网络工程的高级项目经理米歇尔·巴特勒说,"我们不是最先使用40Gbps以太网的,但我们是少有的几个之一。"
使用40Gb以太网的关键是瓜分多个10Gb以太网通道的能力,使国家超级计算机应用中心可以通过多个端口传送信息,巴特勒说。以太网将用于连接大约75个主机。
国家超级计算机应用中心还选择了DataDirect网络的SFA 12K存储阵列,提供100GBps的存储性能来对"nearline"磁带库系统卸载数据。磁盘子系统可扩展至500PB的容量,巴特勒说。
"子系统必须能够卸载百万兆字节每秒的文件系统,因此我们需要一个非常大的磁带驱动器设备",她说。
在主要存储以外,还有四个Spectra Logic 17-frame T-Finity磁带库,将有366,240MB/秒的IBM TS1140企业级磁带驱动器。这些磁带库将提供每小时2.2PB的总读/写速率。
"实际上无论是LTO-5或LTO-6还是TS1140我们都评估了。我们没有指定的磁带驱动器,库或任何东西。我们希望供应商有更大的自由来给我们提出多种解决方案",巴特勒说。
巴特勒说国家超级计算机应用中心选择IBM磁带驱动器而不是更流行的中型的LTO驱动器,原因是他们提供了更优越的性能。TS1140提供了240MB/秒的吞吐量,相比之下LTO仅为140MB/秒,她说。
在需求建议中,巴特勒的团队强调了10至15个存储供应商要满足的要求。除其他外,他们规定磁带库必须符合一定的面积,不能超过一定的功率还有散热的要求,并应满足一定的可靠性和性能指标。
巴特勒说磁带库总吞吐量的目标为100GB/秒。目前,它就在89.5GB/秒左右。
Cray超级计算机通过Mellanox IS5000 InfiniBand交换机和ConnectX InfiniBand网络适配器连接到其磁带库。交换机使用InfiniBand QDR协议,提供了每通道多达每秒8Gb的吞吐量,而且多达12个输入/输出通道。巴特勒说她想使用更高带宽版的InfiniBand, FDR,但Cray的系统不支持。
InfiniBand FDR,提供每通道高达13.6Gbps的吞吐量,也就是12个输入输出通道163.6Gbps的总吞吐量。
虽然国家超级计算机应用中心可以从各种企业级磁盘存储供应商选择用于超级计算机的产品,但巴特勒和她的团队认为如果全选Cray会得到更好的支持。
"正如你可能知道的那样,Lustre不是很容易照看与维护,所以我们想与一个特定的软件和硬件供应商合作,并且能有做失效备援的和诸如这类棘手问题的设备。而且,我们2003年就开始使用Lustre了",巴特勒说,"所以我明白Cray试图为我们简化系统。"
更多计算机与外设信息请关注:21ic计算机与外设频道