AMD的豪赌

Icbank半导体行业观察

最新更新时间：2024-08-27

阅读数：

????如果您希望可以时常见面，欢迎标星????收藏哦~

来源：内容编译自hpcwire，谢谢。

AMD 早前召开电话会议，讨论以 49 亿美元收购 ZT Systems 的交易，这让人们深入了解了 Lisa Su 如何打造自己的 AI 帝国。她描绘的 AMD AI 格局与 Nvidia 的专有方法截然相反。

在她看来，客户有两个选择：一个是选择反乌托邦的 Nvidia 世界（其中 Nvidia 拥有资产）；另一个是选择 AMD 的世界，在那里你可以选择你的合作伙伴、硬件、技术和 AI 工具。

收购 ZT Systems 正是秉承这一精神：为工程师提供构建针对 AI 处理和功耗进行优化的系统的能力。

苏认为，其人工智能产品将会非常具有差异化。

苏说：“我们实际上可以利用我们的系统功能，让客户使用他们认为最适合其工作负载和数据中心环境的功能。”

可以肯定的是，全栈供应商似乎并不新鲜。AMD一直在通过收购计算的所有关键部分（软件、硬件和网络）来增强其系统供应商能力。

复制英伟达的战略

今年早些时候，AMD 宣布每年都会发布一款新 GPU，与 Nvidia 类似。ZT Systems 为 AMD 提供了 1,000 名工程师来构建系统，就像 Nvidia 的工程师构建 DGX 系统一样。

苏表示：“ZT 每年向最大的超大规模云公司出货数十万台服务器和数万个 AI 机架，质量达到业界领先水平。”

这听起来像是 Nvidia 目前的策略——所有主要云提供商都为 Nvidia 提供了安装 DGX 系统的空间。Nvidia 已经构建了自己的并行云服务，将其 GPU 系统与所有云提供商连接起来。

苏姿丰表示：“我们试图给客户提供选择，同时利用我们的技术为他们提供一流的设计能力。”

虽然 AMD 获得了赞誉，但要成为下一个 Nvidia，还有很多事情要做。

Nvidia 花了几十年的时间才达到今天的水平。转型包括：

2007年使用CUDA构建软件框架。
展望人工智能能力。
提供第一个允许 OpenAI 测试其 AI 模型的硬件。
AMD 不是 Nvidia，要想成为下一个 Nvidia，还需要做很多事情

现在是审视公司需要解决的问题的好时机。

AMD 的 GPU 仍然面临问题

正确使用 GPU 可确保 AMD 的 AI 世界抵挡住 Nvidia 的猛烈攻击。

AMD 对其 GPU 的进展感到满意。MI300X 深受 Microsoft 和 Meta 等顶级客户的青睐。

但让我们快速看看现实情况：三大云提供商中的两家仍然不想要 MI300 或 MI300X GPU。谷歌和 AWS 尚未订购 AMD GPU。这可能是AMD 收购 ZT Systems 的原因——让更多云提供商加入。

AMD 的 GPU 可能只是穷人版的 Nvidia，没有客户急需购买硬件。然而，AMD 的 GPU 是 Nvidia 的唯一合法替代品，订单正在增加。

苏姿丰表示：“我们现在预计 2024 年数据中心 GPU 收入将超过 45 亿美元，高于我们 4 月份预测的 40 亿美元。”

今年早些时候，AMD 透露它将每年发布一款新的 GPU，与 Nvidia 非常相似，其中包括 MI325X 和明年的 MI400。

苏姿丰表示：“我们基于 CDNA Next 架构的 MI400 系列在开发中取得了巨大进展，计划于 2026 年推出。”

好消息是 AMD 有 GPU 路线图，客户现在对自己购买的产品有了清晰的认识。如果一切朝着对 AMD 有利的方向发展，到 2026 年，情况可能会发生巨大变化。

“这涉及到 CPU、GPU、网络、系统和集群。你如何确保它们的可靠性？这个团队将帮助我们做到这一点，因为他们已经做到了，”苏说。

苏表示，采用 AMD MI350（将于明年推出）和 MI400 的系统将产生复杂的系统，需要从 ZT Systems 聘请专家。

AMD在硬件功能、内存和制造方面紧跟 Nvidia 的步伐。

笨拙的基准测试和软件

AMD 的基准测试结果五花八门。该公司尚未向 MLPerf 提交其 AI 基准测试，但微软和 Meta 证实 AMD 的 Instinct GPU 表现良好。

AMD 最近因不诚实地介绍即将推出的 Turin CPU 而受到英特尔的批评。其 Zen 5 PC CPU 最近因性能提升不佳而受到批评。

基准测试很难，但最好谨慎对待。然而，该公司的软件生态系统与 Nvidia 建立的 CUDA 堆栈相去甚远。

AMD 花费了数年时间开发 ROCm，它是一套标准的工具、库、驱动程序和编译器。但它仍处于起步阶段。

苏在财报电话会议上表示：“从功能的角度来看， ROCm ......我们在整个过程中获得了很多信心，也学到了很多东西。”

AMD 高管在许多会议上都对 ROCm 重复了同样的话，这意味着这项工作多年来一直在进行中。

AMD 仍然停留在编程层面，落后于基于 OneAPI 的 UXL 基金会的并行编程框架。

不过，ROCm 的开放性符合 AMD 能够处理工作负载的目标。问题是开发人员是否会适应 ROCm。

ROCm 与 CUDA

Nvidia 凭借 CUDA 领先 ROCm 数光年，CUDA 已发展成为成熟的计算程序和数据集。主要垂直行业的 CUDA 可执行文件包括机器人、自动驾驶汽车、医疗保健、金融和量子计算。

CUDA 工具用于生成现实世界中无法获得的合成数据。这些工具和其他工具被整合到 Nvidia 的 AI Enterprise 软件中。

但毫无疑问，Nvidia 的 CUDA 价格昂贵。但它也更容易部署——客户只需输入数据并获得输出。对于那些需要进一步定制的人来说，CUDA 工具的技术难度可以提高。

AMD 的 ROCm 很复杂，但它在工具和模型开发方面提供了更大的灵活性。AMD 还支持开放网络技术。

苏姿丰表示：“我们正与超级以太网联盟以及 UA Link 集团密切合作，以确保我们拥有符合行业标准的强大网络技术。”

正确的步骤

AMD 对 ZT Systems 的收购是该公司为填补漏洞而采取的一系列战略收购中的最新一次。

AMD 进行了有趣的收购，以制定其总体 AI 计划。2022 年，AMD 斥资 490 亿美元收购 Xilinx 的 FPGA 和软件。AMD 拥有 CPU 和 GPU，而 Xilinx 则为其提供了 FPGA 和 ASIC 的三重奏。

该公司还收购了软件公司 Pensando Systems、Silo.AI 和 Nod。

苏姿丰在财报电话会议上表示：“Silo 团队极大地扩展了我们为希望针对 AMD 硬件优化 AI 解决方案的大型企业客户提供服务的能力。”

该公司将继续寻求战略性收购。

苏表示：“我们将继续研究如何积极增强我们的能力，包括有机和无机两种方式。”

参考链接

https://www.hpcwire.com/2024/08/26/amds-ai-plan-the-nvidia-killer-or-a-wasted-effort/

END

????半导体精品公众号推荐????

▲点击上方名片即可关注

专注半导体领域更多原创内容

▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3867内容，欢迎关注。

推荐阅读

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点 “在看” 分享给小伙伴哦

Icbank半导体行业观察

最新精华更多

AMD的豪赌

最新有关Icbank半导体行业观察的文章