谷歌云计算，用了哪些芯片？

Icbank半导体行业观察

最新更新时间：2024-11-06

阅读数：

半导体行业观察" data-pluginname="mpprofile" data-signature="半导体深度原创媒体，百万读者共同关注。搜索公众号：半导体芯闻、半导体产业洞察，阅读更多原创内容">

????如果您希望可以时常见面，欢迎标星????收藏哦~

来源：内容编译自hpcwire，谢谢。

谷歌云计算正在迎来大量硬件，该公司正在进行重大升级，准备在明年将 Nvidia 的 Blackwell GPU 纳入旗下。

10 月下旬宣布的升级包括其名为 Trillium 的新 TPU、自主研发的 Axion CPU 和 Nvidia 的新 H200 GPU 的预览。

新硬件被输入到谷歌的“超级计算机”中，这是一台遍布谷歌云基础设施的大型超级计算机。它包括一套适用于多种工作负载的多样化软件和芯片产品。

谷歌在系统和软件层面重新考虑了其基础设施，为硬件和软件提供了一个通用层。

这也催生了谷歌的超级计算机，它支持传统计算和现代计算。它融合了计算、网络、存储和软件，以满足不同的 AI 和 HPC 消费模式。

谷歌副总裁兼计算和人工智能基础设施总经理 Mark Lohmeyer 在一篇博文中表示，该公司在 10 月下旬还分享了人工智能超级计算机的概念，它“集成了工作负载优化的硬件（TPU、GPU 和 CPU）、开放软件和灵活的消费模型，为最先进的人工智能模型提供支持”。

Lohmeyer 对 Google Cloud 运作方式的技术愿景类似于 Google 公司的精神——欢迎所有硬件和软件，为其提供用户友好的工具，并提供一系列消费选项。

一款名为 Hypercompute Cluster 的新产品就是按照这个思路建立起来的，它是一种高度可扩展的集群系统。超级计算领域正在努力平衡传统的高精度计算和人工智能猜测，因此 Hypercompute Cluster 处理各种工作负载的能力可以弥补模拟和科学计算之间的差距。

Lohmeyer 表示，该集群将结合谷歌的人工智能基础设施技术，“无缝部署和管理大量加速器作为一个单元”。

密集托管功能将多个资源聚集在一起，吞吐量高，因此工作负载可以快速可靠地完成。此功能对于科学计算和 AI 都很重要。

Google 的目标是为超级计算机所执行的任务提供保障。例如，Google 希望通过其消费模型为时间和结果带来可靠性和灵活性。

在软件和硬件层构建硬件和虚拟化层可能很复杂，但 Google 可以通过在 Google Cloud 上进行预配置部署的单一 API 调用使其变得简单。

科学家可以选择一个环境，将集群部署到 Google Cloud，并选择节点数量、CPU 或 GPU 核心以及内存。

Lohmeyer 解释说：“这包括具有框架和参考实现的容器化软件（例如 JAX、PyTorch、MaxText）、编排（例如 GKE、Slurm）以及流行的开放模型（例如 Gemma2 和 Llama3）。”

此功能使 HPC 堆栈的部署变得更容易，因为部署 HPC 堆栈可能相当复杂，因为它们涉及管理硬件和软件。借助 Google Cloud 管理硬件和软件资源，具有技术知识的创意科学家可以确定使用开源 AI 模型补充科学计算的方法。

当全世界都在追求 Nvidia GPU 时，谷歌也为客户提供了更快速、更具成本效益的替代方案来完成他们的 AI 工作。

Google 将 Trillium TPU 添加到其云产品中，该产品现已推出预览版。在 Google I/O 大会上发布的 Trillium TPU 可以扩展到大规模集群，为 Nvidia GPU 提供替代方案，用于训练 AI 模型并缩小规模以进行推理。Trillium 是 TPUv5 产品的后继者。

Trillium 芯片将能够运行继当前 Gemini 大型语言模型之后的 AI 模型。谷歌声称，通过比较 BF16 与 Cloud TPU v5e 的每芯片峰值计算性能，Trillium 的速度提高了 4.7 倍。

Trillium 芯片拥有下一代 HBM 内存，但谷歌并未具体说明它拥有的是 HBM3 还是 HBM3e，Nvidia 在其 H200 和 Blackwell GPU 中使用了后者。TPU v5e 上的 HBM2 容量为 16GB，因此 Trillium 将拥有 32GB 的容量，HBM3 和 HBM3e 均有提供。HBM3e 提供最大的带宽。

服务器舱可承载 256 个 Trillium 芯片，AI 芯片的通信速度将比类似的 TPU v5 舱设置快 2 倍。这些舱可排列成更大的集群，并通过 Jupiter 光路交换网络结构进行通信，该结构可提供 400 Gb/s 的带宽。

谷歌还增加了其自主研发的 Axion CPU，该公司表示，与同类当前基于 x86 的通用工作负载实例相比，该 CPU 可提供“高达 65% 的性价比和高达 60% 的能效”。

Axion CPU 基于 ARMv9 架构和指令集。

Axion 融入了名为 Titanium 的核心基础设施技术，该技术通过各种技术承担大部分计算工作负载，包括定制硅片、网络、基础设施处理单元和块存储。这些技术减轻了 AI 加速器和 CPU 的负载。

Titanium 也得到了升级。谷歌宣布推出搭载 Nvidia H200 Tensor Core GPU 和全新 Titanium ML 网络适配器的 A3 Ultra VM，该适配器经过优化，可为“AI 工作负载提供安全、高性能的云体验”，谷歌表示。

谷歌发言人在一封电子邮件中表示，Titanium ML 网络适配器“包含并构建在”Nvidia 的 ConnectX-7 NIC 上，当与数据中心范围的 4 向轨道对齐网络集成时，可以通过 RoCE 提供 3.2 Tbps 的 GPU 到 GPU 流量。

谷歌在一封电子邮件中表示，超级计算集群将从 A3 Ultra VM 开始提供。

Google Cloud 的理想情况是客户启动 AI 工作负载，从而充分利用多个加速器。然而，该公司在一封电子邮件中表示，本周宣布的 Titanium 更新并未实现 TPU-GPU 互操作性。

Google Cloud 升级是 Nvidia Blackwell GPU 的预热，该 GPU 将于明年加入 Google 的云服务。Google 正在将其自己的“Gen4”液体冷却技术引入 GB200 服务器托盘，但 Google 尚未透露太多细节。

包括 AWS 和微软在内的竞争对手都拥有自己的 AI 基础设施，其中包括自主研发的 CPU 和 AI 加速器。各大公司正投资数十亿美元建立 AI 大型数据中心。

参考链接

https://www.hpcwire.com/2024/11/05/google-cloud-sporting-a-new-look-in-hpc-and-ai-hardware/

END

????半导体精品公众号推荐????

▲点击上方名片即可关注

专注半导体领域更多原创内容

▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3938内容，欢迎关注。

推荐阅读

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点 “在看” 分享给小伙伴哦

Icbank半导体行业观察

最新精华更多

谷歌云计算，用了哪些芯片？

最新有关Icbank半导体行业观察的文章