2.6万亿晶体管和7nm技术,WSE 2巨无霸芯片来了
扫描二维码
随时随地手机看文章
全球最大芯片出第二代了!WSE 2 将于今年第三季度上市。WSE 2 采用 7 纳米制程工艺,晶体管数达 2.6 万亿个。
近年来大量芯片进入市场,旨在加速人工智能和机器学习工作负载。基于不同的机器学习算法,这些芯片通常专注于几个关键领域,但它们大多有一个共同的限制——芯片大小。
两年前,Cerebras 揭开了芯片设计领域的一场革命:他们研发了一款名为Wafer Scale Engine(WSE)的芯片,拥有 1.2 万亿个晶体管,是英伟达 GPU Titan V 的 57 倍。WSE 的尺寸比一台 iPad 还要大。Cerebras 的「暴力美学」曾引发人们惊呼:「WSE 的晶体管数量已经超过人类大脑中的神经元了!」Cerebras 也因此在业界闻名。
美国硅谷创企 Cerebras Systems 推出了其新的 Wafer Scale Engine 2(WSE-2)处理器,该处理器为超级计算任务而构建,具有破纪录的 2.6 万亿个晶体管(市场上最大的 GPU 只有 540 亿个晶体管)和 85 万颗 AI 优化内核,大小类似餐盘,采用台积电的 7nm 工艺。这是 Cerebras 第二次使用整个 300mm 晶圆制造单颗芯片。这么大的晶圆一般会被切割成数百个独立芯片,Cerebras 却将其制成一个芯片。在庞大的体积之下,这种芯片相比同等算力的 GPU 集群,功耗和所占空间更小。
Tirias Research 首席分析师 Jim McGregor 在一封电子邮件中写道,虽然对于数以百万的 AI 算法来说,Cerebras 不像英伟达一样全面,但是 Cerebras 的解决方案显然已经吸引到了许多客户。从 2019 年交付 WSE 芯片起,在过去的一年里,已经有很多重量级用户使用了 Cerebras 的产品。比如美国阿贡国家实验室、劳伦斯利弗莫尔国家实验室、匹兹堡超级计算中心、爱丁堡大学的超级计算中心、葛兰素史克、东京电子器件等。
在Hot Chips 2020,该公司首席硬件架构师Sean Lie表示,Cerebras对客户的主要好处之一是能够简化工作负载,以前需要使用GPU / TPU机架,而是可以以计算相关的方式在单个WSE上运行。Cerebras在多伦多,圣地亚哥,东京和旧金山拥有约300名员工。该公司首席执行官Andrew Feldman表示公司已经实现了盈利,已经部署了CS-1的客户很多,且已有更多的客户在远程试用CS-2。在SC20上,CS-1展示了自己针对火焰模拟的超强计算能力。在实际应用场景中,快速模拟燃煤电厂的燃烧过程,可以帮助人类预防大型事故的发生。
美国能源技术实验室的科学家使用Cerebras CS-1和全球排名第81的超级计算机Joule同时模拟了发电厂中的燃烧过程。结果显示,CS-1不仅计算速度比Joule快约200倍以上,能耗和成本也远低于传统CPU超算。具体来说,造价数千万美元、具有84000个CPU内核的Joule能耗为450千瓦,在2.1毫秒内完成了计算;相比之下,研发成本百万美元的Cerebras功率约为20千瓦,花费时间约6微秒。
CS-2的部署将于今年第三季度进行,价格已从2-3百万美元升至“数百万”美元。
WSE的出现,是因为训练神经网络需要花费较多的时间,即便是当今最先进的模型,也需要几天或几周的时间进行训练,大型网络则需要数周。通常做法是在数十、数百甚至数千个GPU上进行分布式训练,以使训练时间更可控。其中最大的瓶颈,是这些庞大的处理器集群很难编程,而且数据必须在处理器和外部 DRAM 存储器之间进行多次传输,既浪费时间又消耗能源。所以WSE研发团队的初衷是扩大芯片,使它与 AI 处理器内核一起容纳所需的所有数据。把功耗降低到千瓦似乎被证明是超级计算的一个关键好处。但不幸的是,Lauterbach对此表示怀疑,他担心这项功能是否会成为数据中心的一大卖点。他说道:“虽然很多数据中心都在谈论节约能源,但归根结底,他们并不在乎,他们更想要性能。”
一个CS-2的性能相当于整个GPU集群的性能,同时具有单个设备的简单性。专为人工智能设计的Cerebras WSE突破了人们对芯片尺寸的想象,用很小的能耗和空间提升计算性能。