当前位置:首页 > 厂商动态 > 亚马逊云科技
[导读]北京 — 2022 年11月16日—日前,亚马逊云科技宣布,由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud(Amazon EC2)Trn1实例正式可用。Trn1 实例专为在云中进行高性能机器学习模型训练而构建,与基于 GPU 的同类实例相比,可节省高达 50% 的训练成本。Trn1实例能够以超快的速度在亚马逊云科技上训练机器学习模型,助力客户缩短训练时间,快速迭代模型以提升准确性,提高自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等工作负载的运行效率。使用Trn1实例无需最低消费承诺或预付费用,客户只需为使用的计算量付费。


Amazon EC2 Trn1实例由Amazon Trainium芯片提供支持,在对亚马逊云科技上流行的机器学习模型进行深度学习训练方面具备超高性能,比基于GPU的同类实例节省高达50%的训练成本

PyTorch、Helixon和Money Forward等客户与合作伙伴已在使用Trn1实例

北京 — 2022 年11月16日—日前,亚马逊云科技宣布,由自研芯片Amazon Trainium支持的Amazon Elastic Compute Cloud(Amazon EC2)Trn1实例正式可用。Trn1 实例专为在云中进行高性能机器学习模型训练而构建,与基于 GPU 的同类实例相比,可节省高达 50% 的训练成本。Trn1实例能够以超快的速度在亚马逊云科技上训练机器学习模型,助力客户缩短训练时间,快速迭代模型以提升准确性,提高自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等工作负载的运行效率。使用Trn1实例无需最低消费承诺或预付费用,客户只需为使用的计算量付费。

越来越多客户正在构建、训练和部署机器学习模型,以支撑有望重塑其业务和客户体验的应用程序。这些机器学习模型变得越来越复杂,需要越来越多的训练数据提高准确性。因此,客户必须将其模型扩展到数千个加速器上,致使训练成本越来越高。这会直接影响研发团队试验和训练不同模型的能力,限制客户将创新推向市场的速度。亚马逊云科技此前已经为机器学习提供了广泛且深入的硬件加速器计算产品选择,包括由亚马逊云科技自研芯片Amazon Inferentia支持的Inf1实例、G5实例、P4d实例和DL1实例。但是,即便使用当前最快的加速实例,训练日益复杂的机器学习模型仍然非常昂贵和耗时。

由Amazon Trainium芯片支持的全新Trn1实例为在亚马逊云科技上运行的机器学习模型训练提供超高性价比和超快速度。与最新的、基于GPU的P4d实例相比,针对深度学习模型训练的成本可降低多达50%。借助针对Trn1实例的软件开发工具包(SDK)Amazon Neuron,客户几乎不需要更改代码。并且,Amazon Neuron与PyTorch和TensorFlow等流行的机器学习框架集成。Trn1实例配有多达16颗专为部署深度学习模型而构建的Amazon Trainium加速器。Trn1是首个提供高达800 Gbps的网络带宽的实例,延迟更低,比最新的基于GPU的EC2实例快2倍。它采用了亚马逊云科技第二代Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1实例还使用高速的实例内联技术NeuronLink加速训练。客户可以在Amazon EC2 UltraClusters超大规模集群中部署包含数以万计Trainium加速器的Trn1实例,快速训练包含数万亿个参数的超复杂深度学习模型。凭借EC2 UltraClusters,客户能够使多达3万个Trainium加速器与EFA PB级网络实现互连,扩展机器学习模型训练,按需获取超算级性能,将训练时间从数月缩短至数日。每个Trn1实例支持高达8TB的本地NVMe SSD存储,可快速访问大型数据集。Amazon Trainium支持多种数据类型(FP32、TF32、BF16、FP16 和可配置的 FP8)和随机舍入。随机舍入是一种概率舍入的方法,与深度学习训练中经常使用的传统舍入模式相比,性能更强,准确度更高。Amazon Trainium还支持动态张量形状和自定义运算符,交付灵活的基础设施,旨在随客户的训练需求而演进。

亚马逊云科技Amazon EC2副总裁David Brown表示:“近年来,我们见证了机器学习从大型企业使用的小众技术发展成为许多客户的业务核心。我们预计机器学习训练将迅速占据其大量的计算需求。在高性能机器学习芯片Amazon Inferentia成功的基础上,我们推出专为高性能训练而构建的第二代机器学习芯片Amazon Trainium。由Amazon Trainium支持的Trn1实例可帮助客户将训练时间从数月缩短至数日,同时更具成本效益。”

Trn1实例基于Amazon Nitro系统构建,该系统是亚马逊云科技自研硬件和软件创新的集大成者,可简化隔离式多租户、专用网络和快速本地存储的交付。Amazon Nitro系统将CPU虚拟化、存储和网络功能卸载至专用硬件和软件,交付近乎裸机的性能。Trn1实例将通过其他亚马逊云科技服务提供,包括Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)和Amazon Batch。Trn1实例可以作为按需实例购买,支持节省计划(Saving Plans),也可以按预留实例或Spot实例购买。Trn1实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域可用,其他区域也将很快推出。

亚马逊的产品搜索引擎索引了数十亿种产品,每天提供数以十亿计的客户查询,是全球频繁使用的服务之一。Amazon Search高级首席科学家TrishulChilimbi表示:“我们正在训练大型语言模型,这些模型是多模式、多语言、多地区、基于多任务预训练的,跨多个维度(产品、查询、品牌、评论等)改善客户的购物体验。与其他加速机器学习解决方案相比,Amazon EC2 Trn1实例可提供更高的性能功耗比,为训练大型语言模型提供了一种更可持续的方式,并以超低成本提供了高性能。我们计划探索新的、可配置的FP8数据类型和硬件加速随机舍入,进一步提高训练效率和开发速度。”

PyTorch是一个开源机器学习框架,可加速从研究原型设计到生产部署的过程。“PyTorch希望加速将机器学习从研究原型设计到实际生产就绪、可供客户使用的进程。我们与亚马逊云科技进行了广泛的合作,为由Amazon Trainium支持的全新Trn1实例提供原生PyTorch支持。构建PyTorch模型的开发人员只需少量代码更改,即可在Trn1实例上开启训练。”PyTorch应用人工智能工程经理Geeta Chauhan表示,“此外,我们还与OpenXLA社区合作,启用PyTorch分布式库,以便轻松地将模型从基于GPU的实例迁移至Trn1实例。Trn1实例为PyTorch社区带来的创新包括更高效的数据类型、动态形状、自定义运算符、硬件优化的随机舍入和快速调试模式,我们对此倍感兴奋。所有这些功能让Trn1实例非常适合PyTorch开发人员广泛采用。未来,我们期待共同为PyTorch做出贡献,进一步优化训练性能。”

Helixon为蛋白质疗法构建下一代人工智能(AI)解决方案,开发AI工具,帮助科学家破译蛋白质功能和交互方式,查询大规模基因组数据集以进行靶标鉴别,设计抗体和细胞疗法等治疗方法。“当前,我们使用像全分片数据并行(Fully ShardedData Parallel)等方式训练分布式库,即通过许多基于GPU的服务器并行训练模型。但即便如此,训练单个模型仍需花费数周时间。”Helixon首席执行官Jian Peng表示,“我们很高兴能够利用Amazon EC2 Trn1实例,它拥有亚马逊云科技上超高的可用网络带宽,可以提高分布式训练作业性能,缩短模型训练时间,同时也降低成本。”

Money Forward公司为企业和个人提供开放和公平的金融平台。Money Forward首席技术官Takuya Nakade表示:“我们基于Amazon EC2 Inf1实例推出了大规模AI聊天机器人服务,与基于GPU的同类实例相比,推理延迟降低了97%,同时还降低了成本。我们会定期微调定制的自然语言处理模型,因此减少模型训练时间和成本很重要。根据我们在Inf1实例上成功迁移推理工作负载的经验,以及采用基于Amazon Trainium的EC2Trn1实例所开展的初始工作,我们预计Trn1实例将在提高端到端机器学习性能和降低成本方面提供额外价值。”

Magic是一家集生产和研究于一体的公司,它开发的人工智能就像身边的同事一样,能够帮助你提高生产效率。“训练基于大型自回归变换器(large autoregressive transformer)的模型是我们工作的重要组成部分。由Amazon Trainium支持的Trn1实例专为此类工作负载设计,提供近乎无限的可扩展性、快速的节点互联以及对 16 位和 8 位数据类型的高级支持。”Magic联合创始人兼首席执行官Eric Steinberger表示,“Trn1实例将帮助我们以更低成本更快速地训练大型模型。Trainium对BF16随机舍入的原生支持功能特别令人兴奋,不仅提高了性能,同时让数值准确性与全精度几乎无异。”


本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭