AMD Instinct数据中心GPU第一时间支持DeepSeek

时间：2025-02-11 12:30:30

关键字： AMD 光电模块赛灵思

手机看文章

扫描二维码
随时随地手机看文章

[导读]2月10日消息，DeepSeek大模型火遍海内外，AMD Instinct数据中心GPU第一时间实现了对最新版DeepSeek V3的支持，并且集成了SGLang推理框架优化，从而提供最佳性能。

2月10日消息，DeepSeek大模型火遍海内外，AMD Instinct数据中心GPU第一时间实现了对最新版DeepSeek V3的支持，并且集成了SGLang推理框架优化，从而提供最佳性能。

据介绍，DeepSeek-V3是一种强大的开源混合专家MoE模型，共有6710亿个参数，是目前开源社区最受欢迎的多模态模型之一，凭借创新的模型架构，打破了高效低成本训练的记录，获得整个行业交口称赞。

DeepSeek-V3不仅沿用了此前DeepSeek V2中的多头潜在注意力机制MLA、MoE架构，还开创了无辅助损失的负载平衡策略，并设定了多token预测训练目标，以提高性能。

目前，DeepSeek-V3在众多主流基准测试中的表现都已比肩世界顶级开源、闭源模型，包括GPT-4o、laude 3.5 Sonnet、Qwen2.5-72B等等，尤其是拥有超强的长文本处理、数学及代码编程能力。

AMD ROCm开源软件、AMD Instinct数据中心GPU加速器软硬联合，构成了强大的基础设施，在DeepSeek-V3开发的关键阶段发挥了重要作用，再次证明了AMD对开源AI软件的承诺，也能帮助开发者打造强大的视觉推理和理解应用。

DeepSeek-V3的另一大亮点是采用FP8低精度训练，而AMD ROCm平台对于FP8的支持，显著改善了大模型的计算过程，尤其是推理性能的提升。

通过支持FP8，AMD ROCm非常高效地解决了内存瓶颈、更多读写格式高延迟等问题，可以在一定的硬件限制内，运行更大的模型或批次。

相较于FP16，FP8精度计算可以显著减少数据传输和计算的延迟，实现更高效地训练和推理。

乘着DeepSeek的东风，AMD将继续推进ROCm开源开发生态，确保开发者能在第一时间基于AMD Instinct数据中心GPU从事DeepSeek相关的开发和应用工作，实现最佳性能和扩展性。

阿维塔、赛力斯已入股！华为引望可能成“中国博世”