联想陈振宽:通过万全异构智算平台,联想迎接AI 2.0

发布者:EEWorld资讯最新更新时间:2024-04-22 来源: EEWORLD关键字:联想  基础设施  AI 手机看文章 扫描二维码
随时随地手机看文章

“身处以大模型作为基本特征的AI 2.0时代,我们面对多变的市场环境,需要持续进化核心能力,不断打造出满足人工智能和智算需求的核心技术,提供AI导向的基础设施产品组合。”在4月18日举办的联想创新科技大会(2024 Lenovo Tech World)上,联想集团副总裁、中国基础设施业务群总经理陈振宽说道。


就在创新科技大会上,联想正式发布了联想万全异构智算平台,并发起成立异构智算产业生态联盟。陈振宽在接受媒体采访时表示,基于“一横五纵”的战略布局,联想AI导向的基础设施将和联想万全异构智算平台充分融合,并携手异构智算产业生态联盟伙伴,共同助力中国智算生态的繁荣发展与创新。

image.png

联想集团副总裁、中国基础设施业务群总经理陈振宽


AI1.0到2.0发生了什么?


如果根据模型来分的话,AI 1.0时代是以深度学习为代表,而到了2.0时代则主要关注大模型计算。


盘点AI 1.0时代,联想已经通过完善的基础设施组合,帮助中国客户赢得了发展先机。凭借强大的技术积累和创新能力,联想在去年2月打造了“联想问天”本地化服务器品牌,在服务器双品牌战略加持下,“联想问天”被赋予了“全球智慧+本地创新”的能力。基于对智能化转型前瞻性布局,同年8月,联想在中国算力大会发布了联想基础设施业务战略,即“AI赋智、绿色赋能”,打造AI导向的基础设施。


而进入AI 2.0时代,大模型强大的泛化能力和生成能力,推动着人工智能向更多元的应用场景、更深层次的业务流程中走去,带动着中国智算产业迅猛发展。与1.0时代不同,AI 2.0时代用户在AI基础设施领域面临四大挑战。


第一大挑战是如何选择和匹配算力。不同的算法框架。不同的算子库、GPU、服务器、存储和网络的组合,需要进行完整的验证,这使得技术繁杂且周期长。


第二大挑战是如何减少故障中断时间。陈振宽强调,目前千卡集群每月至少有15次的故障断点。在常规的断点续训手段下,每次恢复训练需要几个小时,产生的额外费用超过百万元。随着AI集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长。


第三大挑战是如何改善AI算力利用率。陈振宽引用行业通用的指标MFU(模型算力利用率)来作阐述,他指出当前业内MFU普遍在30%左右,顶尖的集群利用率也只能做到50%。行业需要解决GPU卡利用率,集群通讯效率,AI故障恢复,算法匹配度等系统性问题。


第四大挑战是如何突破散热瓶颈,降低数据中心PUE。尤其是在算力升级带来的能耗飙升的情况下,如何通过先进的散热技术,突破芯片在系统中的散热瓶颈,同时提升能效,降低数据中心PUE。


联想的“一横五纵”


联想执行副总裁兼中国区总裁刘军曾在2024 MWC上,首次介绍了联想“一横五纵”的战略布局。“一横”,是指异构智算平台,能够对通用计算集群、科学计算集群和AI算力集群进行统一管理,并且能通过对多种CPU、GPU、DPU等处理器的异构管理调度,大幅优化算力的使用效率,帮助用户简捷、高效地使用算力资源。“五纵”则是指服务器、存储、软件及超融合、数据网络以及边缘基础设施产品和方案。


为了解决AI 2.0的挑战,联想万全异构智算平台正在从五大方面进行创新。


首先,用户智能匹配算力的算力匹配魔方。基于海量的硬件评测和AI算子算法集成工作,联想构建了AI场景与算法与集群硬件三者匹配关系的算力魔方知识库,来标识AI场景、算法、集群配置这三者的匹配关系。用户只需输入场景和数据,算力魔方即可自动加载最优算法,并调度最佳集群配置。


其次,逼近GPU算力极限的GPU内核态虚拟化。联想研究院开发了在GPU驱动层的内核态虚拟化算法,新算法可以将虚拟化造成的GPU算力损耗降到5%以下,极致情况可以降到1%以下,大幅提升GPU利用率。


第三,提升网络通信效率的联想集合通信算法库。可实现对多类型网络拓扑的实时感知,并以先进算法使数据在拓扑中以最佳路径进行传输。以千卡规模集群为例,采用集成了联想集合通信库的联想异构智算平台做管理调度,可使网络通信效率提升超10%,并且集群规模越大,效果越显著。


第四,减少AI训练中断时间的AI高效断点续训技术。联想异构智算平台对大量的AI训练故障进行了特征采样,开发了预测AI训练故障的AI模型,实现“用AI来预测AI”。在断点前提前优化备份,由此能将断点续训恢复时间缩减到分钟级,大幅提升了训练效率,以千卡集群为例,每月可节约上百万元算力费用支出,让宝贵的AI算力持续可用。


第五,AI与HPC集群超级调度器。这是针对混合集群做资源共享的前沿技术。联想AI与HPC超级调度器架构于AI和HPC调度之上,能够切换AI和HPC的调度沟通,能全局监控任务和动态共享资源,使得用户可以充分利用基础设施的每一分算力。


“‘一横五纵’的布局,是在服务器双品牌战略以及联想‘全栈AI’战略基础上的进一步升级。基于五大产品面向AI的升级,再加上联想万全异构智算平台,这是联想AI基础设施核心竞争力的充分体现。”陈振宽表示。


异构智算产业生态联盟


站在当下AI高速发展的十字路口,陈振宽认为,中国已经成为人工智能创新应用高地,人工智能是发展新质生产力的重要引擎。百花齐放的人工智能应用,需要完整的人工智能生态圈。生态圈中每一个层级都有非常高的壁垒,需要持续大量投入实现创新。联想作为生态圈里基础设施层的一员,正在聚焦三大核心领域,完善AI导向的基础设施。


为此,联想发起成立异构智算产业生态联盟,其优势在于联想能够以链主企业的责任,携手智算产业上下游,让新老伙伴在统一的目标和环境体系下,围绕同一个目标,齐心协力、各取所长,向共同的目标齐头并进,共同推动人工智能规模化落地,共促中国智算产业的繁荣发展。


异构智算产业生态联盟旨在携手成员共同建设一个分工合作、规范有序、安全健康的智算产业生态,加速大模型推动的智算产业化进程,推动AI基础设施的融合发展,共同提升中国智算产业的水平。异构智算生态联盟成立之后,将持续筹备异构智算相关专家研讨会、异构智算联盟高峰论坛等活动,深入探讨异构智算最新产业趋势、研究成果和创新方向。


目前,异构智算生态联盟首批共计16家成员单位,包括10家国产AI芯片厂商。生态联盟成立后,将陆续发布异构智算最新成果,计划推动《国际人工智能算力性能排行榜——AIPerf500》评选,共创及发布《异构智算白皮书》以及《2024国家行业发展报告(智能计算方向)》等内容,引导中国智算产业健康发展。


“智算产业的高速繁荣发展,离不开人工智能产业中每一个努力拼搏,不断创新的企业。联想将持续秉持合作共赢的理念,愿与众多优秀的伙伴们一道,加大资源投入,深耕场景,打磨产品,为中国智算产业的蓬勃发展提供坚实基础。”陈振宽表示,未来联想将持续强化与生态伙伴的合作,共同投入,坚持创新,持续升级万全之力,释放AI无限潜能,为中国智能化转型提速。

关键字:联想  基础设施  AI 引用地址:联想陈振宽:通过万全异构智算平台,联想迎接AI 2.0

上一篇:联想陈振宽:携手生态伙伴共就万全生态,为智能化转型筑牢底座
下一篇:和深圳村田一起,探索阅读力量

推荐阅读最新更新时间:2024-11-02 09:34

2015决战高通 Intel联手三星联想等改写格局
     Ivy Bridge、Haswell处理器都使用了22nm新工艺,但却存在温度过高、超频困难的尴尬,这一方面是因为新工艺本身的天然局限,另一方面则是Intel偷懒,将早年在处理器内部使用的高级钎焊散热材料换成了普普通通的廉价硅脂,效果自然迥异。已经有很多人勇敢地开盖、更换散热材料证明,这是一个严重的错误。   其实对绝大多数普通用户来说,硅脂也是基本够用的,但关键在于,K系列解锁版竟然也不例外。再加上连年来不断限制超频技术,Intel是大有弄死玩家们的倾向。PC、DIY行业本来就不景气了,这样还怎么玩下去?   幸运的是,Intel最终还是听到了百姓的呼声,即将有所改变。   Haswell处理器将在4月份推出加速升级
[手机便携]
消息称 OpenAI 将推出大更新,助力开发者用 AI 模型做软件更快更便宜
10 月 12 日消息,据路透社报道,知情人士透露,人工智能公司 OpenAI 计划在下个月为开发者推出重大更新,以降低基于其人工智能模型的软件应用的开发成本和时间,该公司试图吸引更多的企业使用其技术。 这些更新包括在其用于使用人工智能模型的开发工具中添加内存存储功能。理论上,这可以为应用制造商节省高达 20 倍的成本,解决合作伙伴的一个主要问题,即使用 OpenAI 强大的模型的成本可能会迅速积累,而他们则试图通过开发和销售人工智能软件来建立可持续的业务。 IT之家注意到,该公司还计划推出新的工具,例如视觉功能,将使开发者能够构建具有分析图像并描述它们的能力的应用,这在从娱乐到医疗等领域都有潜在的用例。 这些新功能标志着该公司不
[物联网]
人工智能已到瓶颈!院士“联名”反深度学习 并指出AI未来发展方向
前言: 在刚刚结束的CCF-GAIR大会上,来自清华、加州大学伯克利、斯坦福、哈工大等多所国内外顶级理工科院校的院士齐聚深圳,分享了自己最新的研究。虽然各自研究的细分领域有所不同,但是透过贯穿始终的技术讲演,避不开的事实是,多位院士都在或直接或间接的去“批判”深度学习算法。 演讲中,他们再次明确指出深度学习的缺陷,进而点出,在可以预见的未来里,随着研究的推进,当下的深度学习算法将会逐步被拉下神坛。 不过,顺着学术界走入产业应用,会发现产业界的关注重点是在技术的落地。所谓落地,本质上就是无数应用场景的聚合。所以对于AI企业而言,对业务的探索和用恰当的技术去解决实际问题才是首当其冲的。 因此,深度学习存在缺陷,这一问题短期内并不会妨
[机器人]
马斯克:威胁人类的是深度人工智能,而不是自动化
  特斯拉 CEO 伊隆·马斯克(Elon Musk)近期在 Twitter 上表示,人类应该担心的是深度 人工智能 ,而不是自动化。马斯克正与其他科技行业领袖一同,开发保护性的技术措施,应对深度 人工智能 的发展。下面就随网络通信小编一起来了解一下相关内容吧。   此前,有 Twitter 用户开玩笑地将来自 BI 关于特斯拉无人驾驶汽车的消息发送给马斯克,并要求他确认,“无需人工的自动化技术”不会导致“机器人末日”。马斯克在 Twitter 上重申了他此前的观点,即会给人类带来“末日”风险的并非自动化技术,而是深度 人工智能 。   自动化技术带来的颠覆可能确实会令许多人感到不适,然而自动化技术本身并不是威胁。马斯克和其他科
[网络通信]
天数智芯图像识别在权威的AI竞赛表现第一
近日,斯坦福大学发布了最新DAWNBench深度学习推理榜单。在这份榜单上华为、阿里云、天数智芯等企业上榜。 据介绍,斯坦福大学DAWNBench是人工智能领域最权威的竞赛之一,是用来衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台,其排行榜反映了当前全球业界深度学习平台技术的领先性。推理项目要求参赛机构对50000张图片进行精准识别并分类,平均每张图片的推理耗时越短越好。 天数智芯官方消息显示,天数智芯斩获图像识别性能冠军。天数智芯以平均每张图片耗时1.868ms,性能值比之前榜单最好机构成绩提升30%的表现,获得DAWNBench深度学习推理榜单最新冠军。 DAWNBench官网显示,在“Latency requi
[手机便携]
天数智芯图像识别在权威的<font color='red'>AI</font>竞赛表现第一
雷军和联想,投了这家手术机器人
3年融3轮,又一细分潜力股 近日,北京智愈 医疗 科技有限公司(以下简称“智愈医疗”)正式完成Pre-A++轮融资。 据悉,本轮融资由辰德资本领投,联想之星跟投,老股东顺为资本、礼来亚洲基金(LAV)、众海投资继续加注,金额超6000万元。而所筹金额将用于公司手术 机器人 的临床试验,以及新产品管线的研发布局。 雷军和联想都投了 智愈医疗成立于2021年5月,仅4个月后,就拿到了顺为资本与亦庄控股的融资。截至目前,成立3年多的智愈医疗,已完成3轮融资,而在颇为豪华的资方阵容,最引人注目的还属顺为与联想。 顺为资本,从诞生起就自带流量。 2011年,雷军与有着“独角兽猎手”之称的许达来共同成立了顺为资本,公司名意为“顺势而为”
[机器人]
AI进驻智能家庭本地云端概念值得关注
随着人工智能(AI)、边缘运算(Edge Computing)等技术近年快速发展,智能家庭这个概念所包含的各种消费性电子及家电产品,都将陆续发生革命性的转变。最终,由各种家庭设备所组成的人工智能网路,可能将成为你我看不到的另一个家庭成员。而本地云端的概念及其相关设备,将是实现家庭人工智能网路不可或缺的要素。 在研究机构Ovum负责追踪消费性科技发展的研究员Ronan de Renesse表示,AI在消费性电子领域的应用,近一两年常常成为媒体关注的焦点,但消费性电子与AI结合的趋势,现在才刚开始发展而已。在未来三到五年内,许多消费性电子产品都会搭载AI功能,而且会彼此连结,组成家庭里的人工智能网路。 对硬体产业链而言,这个趋势固然会
[手机便携]
人工智能而生,英特尔公布Cascade Lake-AP处理器详细性能数
        集微网消息,英特尔上周举行的“Supercomputing 2018”活动中发布了一款最多48核心96线程的Cascade Lake advanced performance(Cascade Lake-AP)处理器,在英特尔新公布的详细报告中将Cascade Lake-AP处理器与AMD的双路EPYC-7601进行了对比。         在与AMD双路EPYC-7601的基准性能测试对比中可以发现Linpack线代计算提高了3.4倍,Stream Triad内存带宽提升了1.3倍,NAMD (APOA1,分子动力学)提高了2.1倍,而 YASK (ISO 3DFD,HPC内核调优)则快了3.1倍。
[手机便携]
小广播
最新网络通信文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved