摩尔定律止于“混血时代”,Cell处理器迎来计算新革命
扫描二维码
随时随地手机看文章
7月末,IBM和中国科学院(CAS)计算机网络信息中心联合在京举行了IBM-中国国家网格Cell/B.E.研讨会。双方就基于Cell/B.E.(Cell Broadband Engine)的IBM BladeCenter QS20刀片系统在中国国家网格(CNGrid)的成功应用,以及目前高性能计算领域的最新进展和发展趋势进行了研讨。
基于Cell处理器的IBM刀片系统
基于Power架构的Cell/B.E. 最初是IBM、索尼和东芝为游戏主机而开发的。IBM BladeCenter QS20是一种基于Cell/B.E.的刀片系统,专为那些准备从Cell/B.E.处理器的高性能计算力以及运行图形密集型应用的独特能力中受益的公司而设计。QS20集成了7个刀片共14个Cell处理器,最高性能超过了2.8TFLOPS——相当于每秒钟完成2.8万亿次浮点运算。
2006年10月,中国科学院计算机网络信息中心和IBM启动了为CNGrid提供基于Cell/B.E.的刀片服务器计算节点的项目,并鼓励开发各种能够充分利用其独特性能的应用。今年4月,国内第一台基于Cell/B.E.的刀片服务器系统开始在位于北京的中国科学院超级计算中心投入运行。
目前,这一系统已经能够对地震预报(Earthquake Prediction)、分子动态仿真(Molecular Dynamics Simulation),以及MPEG2代码转换机(MPEG2 Transcoder)等应用进行演示,Cell/B.E.多核并行处理技术的能力和性能在这些应用演示中得到了充分的展现。IBM的工作人员介绍说,与传统的x86处理器相比,地震预报和分子动态仿真在Cell处理器上的运行速度分别提升了37.7倍和21.5倍。
摩尔定律已“死”,架构创新提升硬件性能
在IBM看来,摩尔定律(moore's law)代表的工艺进步已接近极限,使得硬件产业需要在加速器、多核和SoC等方面实现架构创新,以继续提升硬件系统性能。“摩尔定律已死(moore's law is over),对不起,对不起,实际上,摩尔定律还没有死,让我来仔细解释一下。” Guernsey博士笑道。
他向《国际电子商情》记者解释说,过去几十年来,我们让芯片变快的方法是让晶体管越来越小,但是现在让芯片变快非常困难,因为晶体管越小伴随漏电的问题越严重,现在我们正接近临界点。因此现在让芯片的频率变快越来越不现实,因为会有更大的功耗。事实上,摩尔定律并不是讲芯片的速度越来越快,而是指它的密度每18个月或者24个月翻倍,晶体管密度仍然继续翻倍,但是步伐也开始减慢,可能需要36个月翻倍。在芯片上集成更多的晶体管仍是可能的,但这也快接近终点了,越来越困难。今天看到Cell处理器是90nm的,下次看到的时候可能是45nm,再下去就是32nm的,每到一个新的工艺节点,就可以集成更多的晶体管。但是22nm是一个问题,太昂贵了,所以再过10-15年我们做到22nm的时候,就很难再往下走了。
IBM认为,在工艺进步面临极限时,为了持续提升硬件系统性能,就必须在架构上进行创新,而以cell处理器为代表的加速器、多核和SoC就是未来的发展方向。“计算世界或者说硬件世界正在改变,它正在发生重大的转变,主要是因为功耗问题。我认为未来不可避免的在高性能计算会出现一种‘混血系统’(hybrid system),我们的Cell处理器和传统的通用处理器能够一起合作提供很强的计算能力,就是一个很好的例子。”IBM中国技术学院院长John Turek博士表示。
Robert Guernsey:我们现在处于一场如何构建高性能计算能力的革命的开始
与传统处理器不同的是,Cell处理器是一个9核处理器,拥有8个协同处理单元以及1个基于Power架构的核心,频率达3.2GHz,可在很多计算密集型应用中为客户提供强大的性能。在初始硬件测试中,Cell处理器的最高性能超过了200 GFLOPS——相当于每秒钟完成2,000亿次浮点运算。在研讨会现场,IBM的工作人员演示了MPEG2转换应用,采用一个Cell处理器,其中一个协处理器实现MPEG2解码,另外7个协处理器可支持7路H.264标清编码。据介绍,已有视频监控厂商非常感兴趣,希望用它来取代目前昂贵的FPGA和DSP。
除了应用于众所周知的索尼PS3外,Cell处理器还被用于IBM刀片系统并被众多机构用于构建超级计算机,应用领域也扩展到了医疗影像、航空航天、防务、数字动画、通信以及石油和天然气等需要高性能计算力以及运行图形密集型的应用。
例如,IBM将为美国能源部设计名为“Roadrunner”的混血超级计算机,这台将于今年底交付的超级计算机将使用超过1.6万个AMD Opteron处理器内核以及超过1.6万个Cell处理器,最高性能超过了每秒钟1,600万亿次计算(1.6 petaflops)。“Roadrunner”的混血设计将允许系统对复杂的数学公式进行分解,然后将分解后的各组成部分发送到能够以最高效率对其进行处理的系统。典型的计算流程——文件IO和通信活动将由 AMD Opteron处理器进行处理,而更加复杂和重复性的工作(传统上会占用超级计算机大部分资源的任务)将由超过1.6万个Cell处理器进行处理。
IBM的Oliver Retting表示,事实上,IBM并不孤单,AMD和nVIDIA都在走类似cell处理器这种发展路线,即将CPU和GPU(图形处理器)集成。“总之,现在通过提升频率以提高速度已经很难了,但是你可以增加处理器的个数,这就需要更多的软件和编程”。Guernsey博士向《国际电子商情》记者总结说。