当前位置:首页 > 智能硬件 > 人工智能AI
[导读] 在今年的年度 I/O 大会上,谷歌给人留下深刻印象。它不仅推出了一系列基于 TPUv2 芯片的云计算 TPU 实例的基准测试,还透露了一些有关其下一代 TPU 芯片即 TPU3.0,以及其系统架

在今年的年度 I/O 大会上,谷歌给人留下深刻印象。它不仅推出了一系列基于 TPUv2 芯片的云计算 TPU 实例的基准测试,还透露了一些有关其下一代 TPU 芯片即 TPU3.0,以及其系统架构的简单细节。TIRIAS Research 的顶尖技术专家和首席分析师 Paul Teich 近日在 nextplatform 发文,对谷歌 TPU3.0 进行了深度揭秘。

谷歌将 TPUv2 版本升级为 TPU 3.0,但讽刺的是,据我们所知的种种细节表明,从 TPUv2 到 TPU3.0(下文称之为 TPUv3)的跨度并没有那么大;或许称其为 TPUv2r5 或类似的东西会更合适。

如果你对 TPUv2 还不太熟悉,可以了解一下我们去年所做的关于 TPUv2 的评测来增加这方面的知识结构。我们使用谷歌对云 TPU(Cloud TPU)的定义,云 TPU 是一块包含四个 TPU 芯片的主板。谷歌目前的云 TPU 测试程序只允许用户访问单个云 TPU。除了其内部开发人员,其他人无法以任何方式将云 TPU 联合使用。去年我们了解到,谷歌已经在其 TensorFlow 深度学习(DL)框架下抽取出云 TPU。除了谷歌内部的 TensorFlow 开发团队和 Google Cloud 之外,没有人可以直接访问云 TPU 硬件,可能永远也不能。

我们还认为,谷歌已经资助了一项庞大的软件工程和优化工作,以实现其当前测试云 TPU 的部署。这促使谷歌在 TPUv3 中尽可能多地保留 TPUv2 的系统接口和行为,即硬件抽象层和应用程序编程接口(API)。关于何时提供 TPUv3 服务、将其置于云 TPU 或多机架 pod 配置中,谷歌没有提供任何信息。它的确展示了基于 TPUv3 的云 TPU 板的照片和一些 pod 照片,并作出以下声明:

TPUv3 芯片运行温度非常高,以致谷歌首次在其数据中心引入液体冷却技术每个 TPUv3 pod 的功率将是 TPUv2 pod 的八倍每个 TPUv3 pod 性能将为每秒钟运算 100 多千万亿次(petaflops)不过,谷歌也重申,TPUv2 pod 的时钟频率为 11.5 千万亿次每秒。8 倍的改进应该会使 TPUv3 pod 的基本频率达到 92.2 千万亿次,但 100 千万亿次的运算意味着这几乎是 TPUv2 的 9 倍了。谷歌的营销人员应该四舍五入取整了,所以这个数字可能不太准确。

POD

从 TPUv3 pod 的两张完整照片中可以明显看出,谷歌的下一代产品已经升级:

每个 pod 的机架数量是原来的两倍。每个机架的云 TPU 数量是原来的两倍如果没有其他变化,光这两点足以使 TPUv2 pod 的性能提高 4 倍。

pod:TPUv2(上)和 TPUv3(下)

机架

TPUv3 pod 机架的间隔比 TPUv2 机架的间隔更小。但是,与 TPUv2 pod 一样,TPUv3 pod 中仍然没有明显的储存组件。TPUv3 的机架也更高,以适应添加的水冷装置。

机架:TPUv2(左)和 TPUv3(右)

谷歌将不间断电源从 TPUv2 机架底部移到 TPUv3 机架顶部。我们假设现在机架底部的大体积金属盒中包含水泵或其他水冷相关装置。

现代超大规模数据中心不使用活动地板。谷歌的机架在加水之前就很重了,所以它们被直接置于混凝土板上,水从机架顶部进出。谷歌的数据中心有很多高架空间,如 TPUv3 pod 的照片所示。然而,悬挂重水管道和确定路径一定是额外的操作挑战。

TPUv3 的水连接(左上)、水泵(左下,猜测)和机架上的数据中心基础架构(右)

注意地板上机架前的绞合线,就在机架底部的大金属盒前面,可能是湿度传感器

架子和主板

谷歌不仅将计算机架密度提高了一倍,还将服务器主板与云 TPU 的比率从一对一降到了一对二。这将影响功耗估计,因为 TPUv3 pod 的服务器和云 TPU 将从同一机架电源中获取电力。

谷歌将当前云 TPU beta 实例所使用的服务器主板作为计算引擎 n1-standard-2 实例计入其云平台公共云中,该云平台公共云具有两个虚拟 CPU 和 7.5 GB 内存。我们认为这很可能是一款主流双插槽 X86 服务器。

回想一下,TPUv2 pod 包含 256 个 TPUv2 芯片和 128 个服务器处理器。TPUv3 pod 将使服务器处理器增加一倍,TPU 芯片数增加三倍。

我们认为谷歌在其 TPUv2 pod 中过度调配了服务器。这对于新的芯片和系统架构来说是可以理解的。在对 pod 软件进行了至少一年的调整并对芯片进行了一次小的修订以后,把服务器的数量减少一半对 pod 性能的影响可能微不足道。其中可能有诸多原因,或许是服务器没有计算或带宽限制,又或者谷歌可能部署了新一代具有更多核的 Intel Xeon 或 AMD Epyc 处理器。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭