芯片产业进入XPU时代“群殴”GPU
最新更新时间:2024-08-06
阅读数:
股价大幅回调,英伟达遭遇强劲挑战
作者/
IT时报记者
贾天荣
编辑/
郝俊慧
孙妍
英伟达最近有点“烦”。
一个月前的6月18日,这家AI芯片巨头以3.34万亿美元的市值击败微软,登顶世界第一。然而,一个月后,当地时间7月17日盘后,英伟达以6.6%的跌幅居纳斯达克权重股“七巨头”之首,117.99美元的收盘价较历史最高位回调超过12.97%。
事实上,登顶之后,英伟达的股价便一直不太稳定。自2022年AI浪潮兴起之后,如此显著的回调颇为罕见,毕竟作为全球智算芯片的主力厂商,英伟达在人工智能(AI)、高性能计算(HPC)、数据中心以及图形处理单元(GPU)等市场都具有领导地位。
显然,当狂热逐渐冷静之后,GPU的高昂使用成本和高功率能耗等问题逐渐被投资人正视,越来越多GPU之外的AI芯片受到关注。
不久前,2024世界人工智能大会(WAIC2024)RISC-V 和生成式 AI 论坛上,知合计算CEO孟建熠提出,
芯片行业正进入“XPU”时代。
IDC数据显示,2023年的AI服务器以GPU服务器占主导,市场份额92%达87亿美元,NPU、ASIC 和 FPGA等非GPU加速服务器以同比49%的增速占据近8%的市场份额,到2028年中国非GPU服务器市场规模将超过33%。
XPU:通用与专用之战
2016年,英伟达将第一台DGX-1超级计算机交付给一家旧金山的初创公司——OpenAI,8年后,这家初创公司推出的ChatGPT 3.5震惊全球,并拉开了人类向通用人工智能冲刺的序幕。
DGX-1整合了8块P100 GPU芯片,算力为170Tflops(每秒170万亿次浮点计算),成功将OpenAI原本需一年完成的大模型训练周期缩短至一个月。
加速的关键原因在于,深度学习需要处理大量非结构化数据和“蛮算”,这对芯片的多核并行运算、片上存储、带宽、低延时访存等提出了较高需求,而GPU拥有大量并行处理单元,能够同时处理多个任务,可以显著加速深度学习模型训练和推理过程,特别是在处理大规模数据集和复杂计算任务时表现尤为突出。
2022年底,随着OpenAI通过ChatGPT印证,算力超过一定“尺度”后,便会形成人工智能的“智慧涌现”,生成式AI对GPU算力的需求陡增,而英伟达则上演了一出“大象转身”的好戏。
只是,对于“尺度定律”(Scaling Law)的担忧和质疑一直存在。
随着行业需求的激增和计算技术的演进,传统的冯·诺依曼架构面临内存墙和功耗墙的挑战,存储与计算的分离导致了数据传输瓶颈,限制了计算系统的整体效能。GPU尽管通用性强且生态完善,但在高能耗和较低的算力利用效率面前,也开始显露疲态。
在中昊芯英创始人、CEO杨龚轶凡看来,GPU的成熟性和广泛的软件支持虽是其优势所在,却也构成了发展的桎梏。他指出,GPU芯片架构和底层逻辑的固定性,阻碍了大规模的优化升级,若要大幅改变,势必破坏已有的CUDA生态,“它的向后兼容性导致GPU的天花板是比较低的。”
杨龚轶凡认为,随着产业发展,行业逐步落地,算力规模增加,在成本考量变得更为重要的前提下,软硬件一体化的设计理念显得愈发关键。这种设计思路强调硬件与软件的协同优化,旨在针对特定算法和应用场景打造定制化的解决方案,从而实现更高的性能和更低的能耗。
在WAIC2024上,中国RISC-V产业联盟理事长、芯原微电子创始人戴伟民直言,“
GPU 并不一定是 Transformer 的最优算力芯片,有越来越多的专用芯片正在浮出水面,挑战英伟达最先进的产品,显示出技术生态的多样化。
”戴伟民认为,未来的AI时代,随着基础大模型市场格局逐步清晰,针对具体应用场景的AI微调将更加普遍,针对特定AI应用的专用芯片将成为主流。
芯片进入“XPU”时代
如戴伟民所言,随着行业对算力需求的不断提高,越来越多的计算平台开始引入多种不同计算单元来进行加速计算。在GPU面临日益明显的瓶颈之际,专用集成电路(ASIC)和特定领域架构(DSA)的芯片正崛起为潜在的挑战者。
近期AI芯片两个备受瞩目的融资消息均与ASIC芯片(专用集成电路)有关。ASIC是一种为特定应用设计的集成电路,它针对某一类运算或功能进行高度优化,因此在执行这类特定任务时效率极高,缺点是一旦设计完成并制造出来,其功能和结构基本不能再改变。
6月26日,美国新兴的芯片创业公司Etched发布其首款ASIC AI芯片——Sohu。
这款芯片在运行大模型时展现出了惊人的性能,其速度超英伟达H100的20倍
,即便是与今年3月才面世的英伟达顶尖芯片B200相比,Sohu也展现出10倍的优越性能。
Sohu芯片的最大突破在于它直接将Transformer架构嵌入芯片内部。据Etched公司负责人Uberti透露,Sohu采用了台积电的先进4纳米工艺制造,不仅在推理性能上远超GPU和其他通用人工智能芯片,更在能耗控制上达到了新高度。
“
目前,大模型训练芯片还是以GPU为主,不过NPU和ASIC呈现快速增长的趋势,而且增速超过了GPU。
”IDC中国分析师杜昀龙在接受《IT时报》记者采访时表示。
某种意义上,NPU(神经网络处理单元)是专为处理机器学习和深度学习任务而设计的ASIC芯片,它的工作原理是利用其专门设计的硬件结构来执行神经网络算法中的各种数学运算,如矩阵乘法、卷积运算等,这些算法是神经网络训练和推理过程的核心操作。与传统的中央处理单元(CPU)和图形处理单元(GPU)不同,由于在硬件层面优化了算法,提升了芯片的整体性能和能效,NPU可以更低的能耗和更高的效率执行这些操作。
记者注意到,不少国内芯片厂商正奋力自研NPU,以把握AI浪潮。今年年初,中星微电子发布了中国首款嵌入式神经网络处理器(NPU)“星光智能一号”的最新成果,该芯片已实现量产。华为自研的AI处理器昇腾910B也是一款NPU,专门设计用于加速人工智能计算任务。
国家重点实验室执行主任张韵东介绍,NPU采用了“数据驱动并行计算”的架构,彻底颠覆了传统的冯·诺依曼架构。这种数据流(Dataflow)类型的处理器,极大地提升了计算能力与功耗的比例,特别擅长处理视频、图像类的海量多媒体数据,使得人工智能在嵌入式机器视觉应用中可以大显身手。
当然,“群殴”GPU的还有更多XPU。
由谷歌TPU(张量处理单元)发明者之一Jonathan Ross创立的Groq,于今年2月推出ASIC芯片LPU(语言处理器),宣称该LPU推理性能是英伟达GPU的10倍,成本仅为其十分之一。
谁将成为GPU最终挑战者?
“
我们认为未来AI赛道,一半市场是GPU,一半市场是TPU。
”杨龚轶凡曾在 Google 深度参与 Google TPU 2/3/4 的设计与研发,2018年,杨龚轶凡回国成立中昊芯英,专注于国产TPU芯片的研发。据其介绍,目前中昊芯英是国内唯一掌握 TPU 架构训推一体 AI 芯片核心技术的公司,公司自研的 TPU 人工智能训练芯片“刹那®”在处理 AI 计算场景时的算力性能是英伟达A100的近1.5倍,在完成相同训练任务量时的能耗降低 30%,单位算力成本仅为
英伟达A100的
42%。
TPU是一款DSA架构的AI计算芯片,它由谷歌自己设计,并专门用于机器学习工作负载。业界对于TPU的关注,始于Google在2013年的秘密项目。彼时,Google研发 AI机器学习算法芯片,并用于云计算数据中心,取代英伟达 GPU。2016年,AlphaGo击败了韩国棋手李世石,其“大脑”背后便是48个TPU。
相较于其他XPU,TPU最大的优势是和目前LLM大模型的底层架构Transformer同出一源。
被称为人工智能领域“圣杯”的Transformer,源自2017年11月由Google AI研究人员发表的一篇论文《Attention is All You Need》,该模型采用了注意力机制来处理序列数据,从而解决了传统的RNN(循环神经网络)模型在长距离依赖问题上的困境。
尽管真正让Transformer成为全球大模型基石的是OpenAI,但谷歌在基于Transformer架构研发的软硬一体化方案上,始终独具优势。
今年5月,Google发布了第六代TPU,称为Trillium,并表示将于今年晚些时候交付。Google表示,第六代Trillium芯片的计算性能比TPU v5e芯片提高4.7倍,能效比v5e高出67%。Gemini 1.5 Flash、Imagen 3和Gemma 2等大模型,都经过 TPU 训练并提供服务。
从谷歌发布的信息来看,基于TPU训练的大模型效果优异。根据Google的基准测试结果,Gemini Ultra版本在许多测试中都表现出了“最先进的性能”,甚至在大部分测试中完全击败了OpenAI的GPT-4。
“你可以这么理解,TPU是通用的Transformer架构AI芯片。”杨龚轶凡解释,TPU不仅能支持所有Transformer模型,也能支持所有深度学习模型,但它的通用性只体现在基于Transformer的AI赛道里,但除此之外,在其他赛道的运算效果可能远远不如GPU。
无论如何,基于AI芯片的通用和专用之战已经开打,在这场新的战争中,看似“风光无限”的英伟达危机四伏,全世界的人工智能企业在“贪婪”地抢购GPU的同时,纷纷“下注”自研芯片。
据不完全统计,包括Groq、特斯拉的Dojo 2、AWS的Trainium、OpenAI新做的芯片等在内,美国现在有数十家企业和初创公司都在推动类TPU架构的芯片研发和应用。业内人士也表示,
大多数厂商的ASIC架构芯片都只支持少数Transformer模型,在专用性上钻得更深,但通用性差一些,Sohu便是如此。
国产AI芯片的XPU梦想
XPU打败CPU和GPU的梦想早已有之。
早在2020年,ASIC便被认为是下一代AI芯片主流架构,针对特定任务专门设计框架,ASIC芯片能在快速提升算力的同时降低能耗。最近刚被软银收购的英国AI独角兽Graphcore为AI处理器开发的新型智能处理单元(IPU),更是一度被视作可以与英伟达“掰手腕”的秘密武器。
然而,一款芯片从设计到最后大规模生产,是一个漫长的过程,从研发到年产1000片至少需要五年时间,再到年产100万片则需要更久,
这意味着一家AI芯片公司从成立到成熟量产至少需要十年的时间,在任何一个阶段都可能全军覆没。
而英伟达愈发成熟的CUDA生态,让产业链根本没有大规模转移的动力。
这也是为何时至今日,英伟达依然在全球数据中心市场占据85%以上份额的根本原因。
但对于国产芯片厂商而言,近两年逐渐落下的“科技铁幕”却从另一层面打破了英伟达的“软性封锁”,当英伟达高端算力芯片H系列和B系列无法进入中国时,自研成为唯一的出路,各种芯片架构也呈现出百花齐放的繁荣。
不久前的WAIC 2024上,开源的RISC-V架构被认为是非常适合AI的架构。摩尔线程也宣称具备了万卡万P万亿参数通用算力集群能力。
中昊芯英TPU人工智能训练芯片“刹那®”也于去年成功量产,并已在全国多地千卡集群规模的智算中心交付落地。据介绍,“刹那®”以1024 片芯片高速片间互联的能力构建了大规模智算集群“泰则®”,系统集群性能远超传统 GPU 数十倍,可支撑超千亿参数AIGC大模型训练与推理。但杨龚轶凡也坦言,TPU芯片在目前国内的认知普及程度还比较低,很大程度上是因为现在研发并对外提供类TPU芯片的大多是初创公司,谷歌TPU的大集群也并未对外开放,导致客户无法大规模采购和使用这类产品。与互联网服务的即时可扩展性不同,硬件产品的生产需要时间和空间,无法立即响应市场需求的激增。
记者了解到,谷歌可能在今年底停止外部AI算力芯片的采购,转而完全依赖自研的TPU。谷歌的算力总量,结合自研TPU和先前的芯片采购,预计将在今年达到全球算力总量的25%。
“TPU这个赛道会变得越来越重要。”杨龚轶凡认为,未来在整个大模型的AI赛道里面,TPU最有机会成为这个赛道的 “X86”。
杜昀龙也告诉《IT时报》记者,AI 大模型市场推动了训练芯片的需求。推理芯片对技术的要求相对较低,并且推理也是将模型落地实现变现的途径。在大环境的影响下,同时有政策扶持的情况下,国产芯片厂商遍地开花,从不同技术维度,行业维度都有突破性发展。
对于相对小规模的芯片企业来说,开发推理芯片,针对细分行业的应用场景,能给企业带来发展。对于技术过硬,资金雄厚的企业来说,高性能的训练芯片有很大空缺,也是未来发展的良机。
图片/ 英伟达 Etched 中昊芯英 东方IC
-END-
本文内容仅供交流学习之用,不构成任何投资建议,部分图片来自网络,且未能核实版权归属,不为商业用途,如有侵犯,敬请与我们联系info@gsi24.com。