当前位置:首页 > 厂商动态 > Intel
[导读]Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为阿贡国家实验室Aurora超算的首席架构师和主要研究员,Olivier Franza在这台极具雄心的科学仪器落地的过程中发挥了主导作用。

Aurora超算是英特尔最近参与的备受瞩目的项目之一,它对英特尔整个系统产品组合都挺有挑战性。事实上,Aurora超算不仅是世界上最大的GPU集群,同时,预计将成为第一台峰值性能达到每秒2百亿亿次(2×10^18)浮点运算能力的超算。

作为一位在英特尔工作了22年的老兵,在面对Aurora超算时,Olivier Franza还是感受到了压力。

2016年,Olivier Franza作为系统硬件架构师加入了Aurora项目,2021年,他成了首席架构师,目睹了Aurora项目向基于GPU架构的重大转变。

“首席架构师要做的就是根据客户的高标准要求,来调整超算的整体系统架构,”Franza解释说。“首席架构师也会关注一些基本的参数,比如总体性能指标,功耗情况,还有一些RAS(可靠性、可用性、可维护性)特性,这些对于构建有扩展性的系统都至关重要。”

当然,首席架构师要关注的是整个系统方方面面,从一个个节点到一个个机架再到整个系统,还要包括各种网络和存储组件,都需要考虑到。

一次技术路线转变为塑造未来产品创造了机会

Aurora超算是早期规划中计划采用一系列的英特尔产品技术。随着英特尔产品路线的调整,Aurora的规划也做出改变。

当英特尔宣布打造数据中心GPU产品线后,Franza参与到了英特尔数据中心GPU Max系列产品的设计讨论工作当中。

所以说,Aurora超算不是一步到位成现在这样的。Aurora超算的构建过程,影响着英特尔战略和产品线规划,也使得Aurora超算能在很高的层面解决规模和性能问题。

Franza表示,英特尔通过从组件到系统做出很多调整来满足Aurora超算的需求。

比如,英特尔至强CPU Max系列处理器的架构和概念,就衍生自英特尔至强Phi的一些特性,这是第一个在封装里集成了高带宽和高容量创新内存架构的产品。

此外,为了追求更高的性能,Aurora超算的各种子系统都取得了一些进步,从刀片服务器的散热,到高密度集成的方式再到存储部分,都有许多创新。

值得一提的是,在这一过程中,英特尔还构建了一个全新的存储系统——DAOS(分布式异步对象存储)。

Franza表示,这是一个开源项目,可以在传统硬件上实现高速存储,而Aurora超算是首批使用DAOS的用户之一,同时也是目前DAOS部署规模最大的用户。

从设计组件到把数千个系统连在一起

Aurora超算项目加强了英特尔系统级思考能力,也推动了英特尔内部各业务部门之间的协作,与外部阿贡科学家和HPE(HPE是该项目的另外一个主要参与者)工程师之间的协作,有很多跨职能部门和跨组织的协作工作。

“让一整个团队统一行动,交付像Aurora这样的超级计算机,对我们许多人来说,是一生难得一次的经历。”Franza说。

尽管工程师在六月份就安装了最后一台刀片服务器,但Aurora超算后续的大规模测试、稳定性验证还需要Franza 夜以继日的工作。

Franza为一个大的团队提供指导,该团队负责Aurora超算的启动、验证、稳定、优化工作,尽可能发挥系统在负载下的性能表现。其中最值得注意的是High Performance Linpack(HPL)基准测试,这是Top500榜单的排名依据,榜单上都是全球最强的超算系统。

每天早上,Franza都会仔细检查每个节点在夜间的运行情况,并为第二天及以后的工作制定计划。每天下午,Franza都会开会总结进展和遇到的难题。这样的工作每天都有,而机器也一直在运转当中。

“我们会系统地进行验证,”Franza解释说。“先从单个刀片服务器开始,然后转向机架规模,再到多个机架规模,以此进行大规模验证。”

Aurora超算由10624台刀片服务器组成,拥有63744块英特尔Max系列GPU,是世界上规模最大的GPU集群。在166个机架当中,使用了一共21248块英特尔至强Max CPU。

Franza介绍称,Aurora超算中心的大小相当于4个网球场那么大,听起来规模就很大,但只有亲眼看到它,才会真正意识到它有多大。

Franza的首要工作就是确保系统稳定性,功能完善,还要能正常运行。这是一项非常艰巨的任务,而Franza已经看到了胜利的曙光。

走在数据中心的通道里,看着灯光闪烁着,看着机器在正常运转,这令Franza感到神清气爽,并且很有满足感和成就感。

“一生一次难得一次”的努力,打造解决科学难题的超级计算机

打造一座有影响力的科研超级计算机固然会面临很多难题和阻碍,但考虑到Aurora超算在癌症研究方面的巨大潜力,有机会让所有人受益,Franza内心的使命感支撑他走了过来。

Aurora超算不仅会用于解决世界上一些最复杂的科学和工程问题,它还是运行生成式AI,并将生成式AI用于研究的理想平台。

据了解,Aurora超算将支持迄今为止,规模最大的大型语言模型,即1万亿参数的Aurora GenAI项目,从而提高科学家的工作效率、简化科学家的工作。

Franza做的是一件了不起的事情,而工作中令他感到欣慰的还有团队协作和友情。

Aurora超算是一项工程量浩大的项目,需要许多人付出长期努力,需要大量的毅力。

从Franza的介绍中了解到,其核心团队一直保持着马拉松式的心态,直到最后一刻都不能放松,团队需要的是那种能够长时间专注于极具挑战性事物的人,而这些人最终所取得的成就是大部分人都很难做到的。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭