AI大模型时代,GPU高速互连如何正确破局

发布者:EEWorld资讯最新更新时间:2024-11-05 来源: EEWORLD关键字:AI  大模型  GPU 手机看文章 扫描二维码
随时随地手机看文章

在LLM热潮中,我们不仅要关注GPU本身,还要关注互连技术。随着AI参数量成倍地增加,甚至“上不封顶”地扩展,如果想要服务器扛住这样的“巨浪”,就要编织更多的网,形成非常强大的算力网络;如果想要释放GPU集群的全部潜力,每个节点间的通信都要顺畅无阻,犹如铺设一条条“高速公路”。

从UEC到UALink,取代现有技术

GPU领域,比较典型的两个互连技术是InfiniBand和NVLink/NLSwitch技术,前者用于服务器间连接,可以形成大型AI算力网络,后者可以将GPU和GPU互连,至多让576个GPU实现每秒1.8TB的通信。

毋庸置疑,两种私有协议的性能都很强劲,但它们都非常封闭,在一定程度上制约了技术的持续演进与效能优化潜力。目前,行业更为通用的做法是通过成立联盟,制定公开的协议标准。众人拾柴火焰高,参与的玩家越多,互连技术进化得就越快,协议标准也就越趋于统一。

去年7月,AMD、Arista、博通、思科、EVIDEN等公司联合成立超以太网联盟(Ultra Ethernet Consortium,简称UEC),随后增强型以太网开始取代InfiniBand技术,迅速成为GPU新的加速节点。一些公司也因此获得了丰厚的利润,例如Arista公司的AI集群互连销售额显著增长。

就在10月28日,AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟(Ultra Accelerator Link Consortium,简称UALink联盟),主推AI服务器Scale UP互连协议——UALink。这一协议一经推出便广受关注。UALink是新一代AI/ML集群性能的高速加速器互连技术,拥有低延迟和高带宽的特点,具备高性能内存语义访问的原生支持,可以完美适配GPU等AI加速器的编程模型,在一个超节点内实现一点规模的AI计算节点互连。除此之外,UALink的优势还包括显存共享,支持Switch组网模式,以及超高带宽和超低时延能力等。

区别于专注在Scale Out(横向/水平扩展)的UEC,UALink协议已经成为最具潜力的AI服务器Scale UP(纵向/垂直扩展)互连开放标准,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。

QQ_1730774127741.png

10月28日官网公布的UALink联盟9家创始成员单位

UALink如何在中国市场落地

作为一个互连系统开发标准,UALink在落地过程中需要覆盖多个产业环节,因此成员涵盖了芯片制造商、交换机提供商、服务器提供商等整个产业链的关键角色。然而,由于AI大模型产业在国内具备本土特色,因此UALink如何在中国市顺利场落地,面临着巨大的挑战。

为了打造一个原生支持AI场景的Scale UP开放生态系统,阿里云在今年9月倡议并牵头成立了ALS(ALink System,加速器互连系统)开放生态系统,依托于ODCC(开放数据中心委员会),解决Scale UP互连系统的行业发展规范问题。目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。

目前,ALS已形成从协议到芯片、从硬件设备到软件平台的系统体系,主要包括ALS-D数据面和ALS-M管控面两个组成部分:ALS-D数据面互连采用UALink协议,具备UALink的一切优势,还增加定义了在网计算等特性;ALS-M可为不同芯片方案提供标准化接入方案,同时为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。

QQ_1730774158594.png

ALink System架构示意图

正因为全面兼容国际标准UALink生态,ALS可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力,一级互连64~80个节点,二级互连可达千级节点,提供PB级共享显存和TB级互连带宽。

在今年9月底的云栖大会上,阿里云展示了其面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,开放性地定义了AI计算节点和Scale UP/Scale Out互连系统,可以在统一硬件架构下支持业界主流AI方案,引领AI领域的“一云多芯”。

QQ_1730774184575.png

2024云栖大会阿里云磐久AI Infra 2.0服务器展示区

磐久AI Infra 2.0服务器的有六大亮点:一是计算节点业界密度最高,单机柜支持最大80个AI计算节点;二是计算节点集成阿里自研CIPU 3.0芯片,既能帮助实现Scale Out网络扩展,又能兼顾云网络弹性、安全的要求;三是供电效率高,在业界率先采用400V PSU,单体供电效率可达98%,整体供电效率提高2%;四是节能,机柜级液冷方案可根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%;五是方便运维,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%;六是可靠性高,支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可实时监控、探测各种硬件故障并自愈,硬件故障域也缩减到节点级。

除了积极拥抱UALink和牵头成立ALink System产业生态,阿里云也在积极推动UALink技术生态影响力的建设,在刚刚过去的2024开放计算全球峰会人工智能特别关注议程(Special Focus Tracks)上,阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为'UALink: Pioneering the AI Accelerator Revolution'的演讲,重点阐述了AI服务器Scale UP互连技术领域的发展趋势,UALink标准的路线图,UALink联盟和ALink System产业生态未来的合作潜力,以及阿里云磐久AI Infra 2.0服务器的落地实践思路。

QQ_1730774210501.png

阿里云服务器研发资深总监文芳志和UALink联盟主席Kurtis Bowman联合演讲

对AI来说,Scale UP非常重要

都是增强现有系统能力,处理更大规模能力,为什么要分成Scale-up(向上/垂直扩展)和Scale-out(横向/水平扩展)两张网?

两张网络的目标不同,Scale Out是在计算集群内部,利用外置网卡技术,通过横向扩展机柜的数目,实现到数万甚至数十万张卡的互连;Scale UP是超节点内部,采用GPU直出技术,通过十倍于Scale Out的吞吐能力,达成数十、数百的GPU高效协同。

这两张网,将业务逻辑紧密耦合在一起。可以说,两张网对于AI,尤其是AIGC或LLM都相当重要。AI基础设施的计算效能要求很高,为了最大化达成端到端MFU,需要Scale UP和Scale Out都进行最大程度的优化。由于需要解决的互连问题各不相同,尤其是10倍左右的流程差异,Scale UP需要采用不同于Scale Out的协议设计来将性能发挥到极致。

在这种极致协议的实现落地过程中,需要众多厂商和生态共同参与,一个开放的生态能够最大程度地复用已有技术和解决方案,将整个系统的性能、成本、稳定性做到最佳。但不难预见,无论是UALink,还是ALS,将发挥出协同开放的优势。

QQ_1730775070797.png

值得关注的是,UALink的重要技术基底是Infinity Fabric 协议,Infinity Fabric是一种成熟的高速互连技术,它由AMD开发,在自家的CPU、GPU产品中都有所使用,目前已经迭代到第四代,从最初的CPU间互连已经可以实现GPU间互连。在Infinity Fabric技术的加持下,UALink推进的速度也会很快。


关键字:AI  大模型  GPU 引用地址:AI大模型时代,GPU高速互连如何正确破局

上一篇:边缘 AI:彻底改变实时数据处理和自动化
下一篇:智能无处不在:安谋科技“周易”NPU开启端侧AI新时代

推荐阅读最新更新时间:2024-11-09 11:07

AI机器人迎来多模态模型
前言 在 3 月 18 日,在 GTC 上发布了“Project GR00T”人形基础模型,一举引起了人形机器人行业的巨大反响。根据英伟达的介绍,Project GR00T 是一种多模态人形机器人通用基础模型,“作为机器人的大脑,使它们能够学习技能来解决各种任务。” 言传身教训练机器人 既然作为机器人的大脑,那么“多模态”模型就赋予了机器人理解外部复杂事物的能力,让机器人不光能够理解自然语言,还能通过观察人的行为等来模仿动作,从而学习人的协调性、灵活性,学会更多技能、适应现实世界。因此可以确定的是,如此复杂的模型,所需要的计算平台性能必然不俗。图片来源:pexels 好马配好鞍 配
[机器人]
人工智能设计出数千个新DNA开关,可精准控制基因表达
据《自然》杂志23日发表的论文,美国杰克逊实验室、麻省理工学院和哈佛大学布罗德研究所以及耶鲁大学的团队利用人工智能(AI)技术设计出数千个新的DNA开关。这些新设计的元件能够精准控制基因在不同类型细胞中的表达,为人类健康与医学研究提供了前所未有的可能性。 图形表示顺式调控元件如何发挥作用打开或关闭基因,有望带来更加精确和个性化的基因疗法。图片来源:麻省理工学院和哈佛大学布罗德研究所 尽管近年来,基因编辑和其他基因治疗手段已让科学家能够在活细胞中修改基因,但要在不干扰整个生物体的情况下,只对某一类型的细胞进行基因干预,依然存在挑战。这主要是因为对于控制基因开启和关闭的DNA开关——顺式调节元件(CRE)的理解还不够深入。此次
[医疗电子]
<font color='red'>人工智能</font>设计出数千个新DNA开关,可精准控制基因表达
英飞凌携手采埃孚通过AI算法优化自动驾驶软件和控制单元
采埃孚的AI算法加快了开发速度并将AI整合到其产品中 英飞凌的 AURIXTM TC4x微控制器通过并行处理单元(PPU)支持AI算法 EEmotion:由德国联邦经济事务和气候行动部联合资助的项目 【2024年10月9日, 德国腓特烈港和慕尼黑讯】 为了在无人驾驶的情况下实现卡车在高速公路上的自动跟车、编队行驶和汽车的自动变道,必须能够精确、快速地计算和执行车辆运动。 软件和AI算法可以安全地控制驱动、制动、前后轮转向和减震系统。AI算法的效率越高,越能更好地利用现有算力。 作为EEmotion项目的参与者,英飞凌科技股份公司和采埃孚集团共同开发并实施了用于开发和控制汽车软件的AI算法。该项目由德国联邦经济事务
[汽车电子]
英飞凌携手采埃孚通过<font color='red'>AI</font>算法优化自动驾驶软件和控制单元
Gartner表示CIO必须优先考虑未来12-24个月的AI目标和AI就绪场景
2023年10月18日 - Gartner表示人工智能(AI)是人类与机器交互方式的一次巨大转变,尤其是生成式人工智能(生成式AI)的飞速发展。随着AI已从单纯的IT行动转变为全企业行动,首席信息官(CIO)和IT高管需要重点关注两大关键领域。 Gartner杰出研究副总裁Mary Mesaglio表示:“生成式AI不仅仅是一种技术和商业趋势,更是人机交互方式的一次深刻转变。人类正在转变思路,从机器能为我们做什么,转变为机器能成为我们的什么。机器正在不断演变,从人类的工具进化成人类的队友。Gartner预测,到2025年,在全球90%的企业中,生成式AI将成为员工的伙伴。” Gartner杰出研究副总裁Don
[工业控制]
Gartner表示CIO必须优先考虑未来12-24个月的<font color='red'>AI</font>目标和<font color='red'>AI</font>就绪场景
人工智能如何指导机器人优化锂离子电池
尖端电子产品,包括电动汽车和的智能手机,都依赖于电池,而这些电池的化学成分仍然在很大程度上是通过人工反复试验手动开发的。现在,一项新的研究表明,可以指导快速找到先进的新电池配方。9月27日,一组科学家在《自然通讯》杂志上在线介绍了他们的发现。 开发新电池的传统技术可能需要数年时间,因为研究人员必须对许多可能的组件进行实验。由于需要实现多个相互竞争的目标,如更长的寿命、更大的容量、更快的充电和更高的安全性,使得这一过程变得更加复杂。 卡内基梅隆大学(Carnegie Mellon University)能源技术专家、《自然通讯》(Nature CommunicaTIons)论文的联合高级作者Jay Whitacr
[机器人]
是德科技加入 AI-RAN 联盟,助力推进移动网络 AI 创新
新联盟的工作重心是将人工智能创新融入无线通信技术,提升无线接入网的性能 是德科技为人工智能研究领域提供频谱效率提升、无线接入网络性能优化等专业测量技术 是德科技(Keysight Technologies, Inc.)日前宣布加入 AI-RAN 联盟,致力于推进人工智能(AI)技术和创新在无线接入网(RAN)中的应用。该 联盟成立于 2024 年初,旨在加强科技界、产业界和学术机构之间的合作,推动 AI 与蜂窝技术的融合,从而提高 RAN 性能,增强移动网络的功能。 是德科技加入 AI-RAN 联盟,助力推进移动网络 AI 创新 AI 是一款功能极为强大的工具,有可能彻底改变无线通信网络。 RAN 架构和操作的
[测试测量]
是德科技加入 <font color='red'>AI</font>-RAN 联盟,助力推进移动网络 <font color='red'>AI</font> 创新
利用汽车微控制器上的边缘AI检测驾驶条件
高级驾驶员辅助系统 (ADAS) 能够检测车辆运动和道路状况,这种解决方案可以提醒驾驶员路面不平坦或是车辆正在发生侧滑,从而提升车内外人员的安全性。这种灵活的AutoDevKit系统解决方案套件 (AEKD-AICAR1) 基于在SPC58 C系列汽车 微控制器 上运行的长短时期记忆单元 (L ST M) 递归神经网络 (RNN)。 为驾驶模式部署 边缘AI ——TinyML如何转变驾驶状态检测? 根据最新研究,对于希望创造终极驾驶体验的汽车制造商来说,驾驶模式可能是新的埃尔多拉多(西班牙语“理想国度“的意思)。在2021年发表的一篇论文中,研究人员表明,某些驾驶模式会使在高速公路上行驶的电动汽车的耗电量增加15%
[汽车电子]
利用汽车微控制器上的边缘<font color='red'>AI</font>检测驾驶条件
生成式人工智能(GenAI)——帮助优化全球功率最密集的计算应用
业界需要一种新的供电架构来控制生成式人工智能训练模型的能源消耗 训练生成式人工智能(GenAI)神经网络模型通常需要花费数月的时间,数千个基于GPU并包含数十亿个晶体管的处理器、高带宽SDRAM和每秒数太比特的光网络交换机要同时连续运行。虽然人工智能有望带来人类生产力的飞跃,但其运行时能耗巨大,所以导致温室气体的排放也显著增加。 据《纽约时报》报道,到2027年,人工智能服务器每年的用电量将达到85至134太瓦时,大致相当于阿根廷一年的用电量。 为了应对日益加剧的能耗挑战,AI处理器的供电网络经历了多代的发展。这种全面的演进发展涉及电路架构、电源转换拓扑、材料科学、封装和机械/热工程方面的创新。 生成式人工智能训练
[工业控制]
生成式<font color='red'>人工智能</font>(GenAI)——帮助优化全球功率最密集的计算应用
小广播
最新网络通信文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved