Arm重新定义移动终端AI体验:3nm加持的CPU、GPU性能暴增

发布者:EEWorld资讯最新更新时间:2024-06-06 来源: EEWORLD作者: 付斌关键字:Arm  CPU  GPU 手机看文章 扫描二维码
随时随地手机看文章

在COMPUTEX 2024展会上,Arm CEO Rene Haas表示,到2025年底,将有超过1000亿台Arm设备为AI 做好准备,同时预计将在五年内拿下Windows PC市场50%以上的份额。


适逢Arm发布面向移动端AI优化的3nm的Arm CSS,同时针对移动端AI发布Kleidi软件。可以说,这些创新都是实现未来Arm对于AI宏伟目标的基础。


从TCS到终端CSS


去年,Arm针对Neoverse推出了CSS这样一个解决方案,目标是为了帮助客户快速拥抱AI。所谓CSS全称是Compute Subsystem,可以理解成Arm把一切都打了个包,包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解,就是“半预制菜”。


反观Arm的移动终端产品线,也一直有一个类似的概念,那就是全面计算解决方案(TCS)。


早在2019年,Arm就开始使用全面计算解决方案(TCS)的方式来进行产品的定义以及开发。努力促成CPU、GPU、系统级IP元素的融合,通过方案式开发满足不同客户共同的需求,真正实现1+1>2这样的IP的集合。在这样的战略引导下,Arm在2021年~2023年分别推出了TCS21、TCS22、TCS23。


不过,2024年,Arm没有继续沿用TCS的概念,而是提出全新的Arm终端计算子系统(CSS for Client,下文简称终端CSS)的概念,将最新的Arm计算IP和高级工艺节点上的生产就绪物理实现结合在一起,使合作伙伴能够构建一流的消费者解决方案,从而满足对更高效计算日益增长的需求。


简单来说,Arm终端CSS与TCS最大的不同在于,在TCS的基础上,提供了3nm工艺的CPU和GPU物理实现。


根据Arm终端事业部产品管理副总裁James McNiven的解析,Arm首次为CPU 和 GPU交付物理实现,让构建和部署基于Arm架构的解决方案变得更加简单,确保万无一失。Arm力求提供更多价值,针对3nm工艺进行优化,并与领先的代工厂合作伙伴展开协作,使得能够以物理实现的形式提供 IP。


“我们希望Arm终端CSS是最易于访问AI体验的平台。它结合了软件以及世界上最大的移动设备生态系统之一,将成为新一代产品和服务的基石。Arm终端CSS具备提供一个AI优化的计算平台所需的计算性能和效率。”James McNiven补充道。


可以说,终端CSS是专为AI手机和AI PC而生,它也是TCS的进一步升级转型的全新产品形态,能够有效减少客户芯片开发工作量和上市时间,同时提供可扩展性,以构建差异化的市场定制解决方案。


CPU集群性能巨幅提升


当今大多数移动设备上的AI工作负载都在CPU上运行,而Arm此次也推出了全新的CPU集群,包括的Arm Cortex-X925 CPU 、Arm Cortex-A725 CPU、Arm Cortex-A520 CPU,同时并更新了DynamIQ共享单元(DSU-120)。


在超大核Cortex-X925(此前代号为 Blackhawk)方面,Arm专门更改了Cortex-X的命名规则,改命原因在于其通过结合新设计和微架构改进实现了巨幅性能提升。


Cortex-X925 在 Geekbench 中实现了 36% 的单线程性能增长。以 AI 性能为例,与去年的Cortex-X CPU 相比,词元 (Token) 首次响应时间提高了41%。


之所以性能能够大幅提升,一方面在于解码和矢量设计实现了50% TOPS数的增长,另一方面在于通过更强的可配置性和更大的私有L2缓存大小,保留进出过CPU的指令和数据。此外,Arm的RTL 和物理设计团队之间展开了进一步协作,针对3nm工艺提升频率和效率。



在大核Cortex-A725方面,Arm的工程和设计团队提供了有针对性的更新,重点关注需要卓越持续性能的关键AI和游戏用例。与Cortex-A720相比,其性能效率提高了35%,能效提高了25%。


与Cortex-X925 一样,Cortex-A725的能效提升也源自于微架构的改进,通过Arm先进的物理实现在3nm上提供Cortex-A725的优化实现,同时还为主流消费技术市场提供面积优化的实现。



小核Cortex-A520方面,也在能效上进行了提升,与TCS23中的Cortex-A520相比,效率提高了15%。更新后的Cortex-A520通过更新的实现和先进的3nm物理实现成为可能。



DSU-120方面,针对下一代用例和消费类设备体验进行了增强。包括新的性能和效率特性、新的低功耗模式和主流消费类设备的增强功能,以及保留了为高性能用例扩展到 14个内核的选项,有助于将典型工作负载的功耗显著降低50%,并将整个CPU集群的缓存未命中功耗降低60%,从而减少泄漏并延长消费类设备的电池寿命。


新的低功耗模式,如半切片断电(half slice power down)和快速休眠(quick nap),增强功能支持各种基于人工智能的低强度和高强度工作负载,从生物识别和语音转文本到人工智能智能相机、内容创作和基于机器学习的 AAA 游戏。



除了IP本身在性能方面的提升,Arm也提升了其在安卓上的性能表现。


性能最强、效率最高的Arm GPU


Arm GPU 是人们日常数字生活中不可或缺的一部分,从当今智能手机上的沉浸式游戏体验到一系列基于AI的边缘体验,都能看到其身影。迄今为止,Arm的合作伙伴已经出货了超过100亿个GPU,就比如去年联发科天玑9300 SoC中采用了Arm Immortalis-G720 GPU,随后被vivo和OPPO的旗舰智能手机设备采用。


今年,Arm推出Immortalis-G925 GPU、Mali-G725 GPU和Mali-G625 GPU,并作为终端CSS的重要组成部分。


Immortalis-G925也在名称上进行了调整,以区分不同的设计。Immortalis-G925 配置了 10 个或更多内核,适用于高性能消费技术市场,如旗舰智能手机。


在各种图形应用上,Immortalis-G925 的性能同比提高了37%;在多个AI/ML网络上实现约 34%的性能提升;此外,Arm大幅提高了这个IP光线追踪技术在面对复杂物体时的表现,性能提升高达52%。


在Arm参考平台上进行比较时,Immortalis-G925的性能(fps)比Immortalis-G720 高37%。此外,当提供与Immortalis-G720相当的游戏性能时,Immortalis-G925的功耗降低了30%。



实际在手机游戏中,与Immortalis-G720相比,Immortalis-G925平均性能提高了 46%。其中,《原神》的性能提高了49%,而《罗布乐思》的运行速度提高了46%,其它流行的手机游戏提供了29%~72%的性能提升,包括《使命召唤手游》、《暗黑破坏神:不朽》、《后天》、《堡垒之夜》、《绝地求生》等。


而在AI方面,Immortalis-G925在AI和ML上的推理速度提高了34%。虽然大多数AI 处理都可以在CPU上进行,但GPU为各种AI用例提供加速功能,包括图像分类、图像分割、对象检测、自然语言处理和语音转文本。


与TCS23的Immortalis-G720相比,Immortalis-G925在图像处理(包括分割和分类)中,Immortalis-G925提供41%的性能提升;在超级采样任务中将性能提高到将近30%;在自然语言处理和语音到文本中,性能提升了50%。



Mali-G725方面,可在6~9个内核之间扩展,定位高端手机。不过,它仍然提供与 Immortalis-G925相同的API支持,同时为Immortalis-G925未针对的较低设备层提供引人入胜和身临其境的游戏体验。Mali-G625则可在1~5个内核之间扩展,面向智能手表和入门级移动设备。



无缝启动AI功能


针对AI,Arm还推出了Kleidi软件,利用它可使开发者在部署到任何Arm CPU上时,均能获得优异的AI性能。Kleidi目前主要包括两个软件库,KleidiAI和KleidiCV,顾名思义,一个更偏向于AI工作负载,另一个更偏向于计算机视觉工作负载。


Kleidi将直接嵌入到流行的AI框架中,开发人员无需执行任何操作。这使开发人员能够轻松启用Arm CPU的AI功能,以尽可能高的性能在最广泛的设备上快速构建基于AI的应用程序。



根据James McNiven的解析,KleidiAI能够确保开发者可从Arm终端CSS中最新的 Armv9架构功能中获得最佳性能,例如可伸缩矢量扩展 (Scalable Vector Extensions, SVE)。此外,它也为未来的CPU创新做好了准备,例如可伸缩矩阵扩展 (Scalable Matrix Extensions, SME)。举例来讲,当运行Cortex-X925上时,Kleidi技术运行最新Llama 3和Phi-3 LLM的速度要比参考实现快2.9倍,而且只用不到24小时就能实现。


KleidiCV方面,计算机视觉与AI紧密相连,但这些摄像头管线不仅仅运行神经网络,还有很多传统计算机视觉算法,其性能对于摄像头或社交媒体应用的顺畅运行至关重要。当KleidiCV融入到常用的OpenCV库时,性能便有了显著改进。此外,今年Arm还与OpenCV.ai合作,力求让安卓开发者可以更轻松地将OpenCV纳入到项目中,并从KleidiCV带来的改进中受益。


Arm Kleidi的发展只是一个开始,未来Arm还计划推出更多的库、计算内核和引擎集成。


发力AI手机和AI PC生态


对于用户来说,唯有更好的生态,才能真正发挥AI的价值所在,而这些最终会体现在手机、平板、移动电脑等终端上。


Arm的主要发力点在两方面,一是安卓,二是Windows on Arm(WoA)。


在最新版本的安卓动态性能框架 (Android Dynamic Performance Framework) 中,高端内容的每帧能耗降低了25%,帧速率提高了35%;还对网页浏览器进行了改进,使Chrome性能提高了23%。此外,中国的手机厂商也将这些改进引入到其浏览器中;调整了安卓工作负载在不同CPU核心之间的平衡方式,从而为YouTube节省了高达10%的功耗;此外,针对 Google 的 AV1 视频编解码器进行了软件优化,使当下安卓设备的视频性能最多可提高40%。



今年,对于Windows on Arm生态系统来说也是成果丰硕的一年。除了 Microsoft Office、Dropbox、Zoom、Adobe 套件等,越来越多的应用成为Arm原生应用,比如百度、哔哩哔哩、Chrome浏览器、爱奇艺、搜狗、腾讯QQ音乐等;再比如针对创作者的开源工具Audacity、Blender、OBS Studio,这些应用整合了大量的开源库和开发者工具。



在终端设备方面,根据市场预估,搭载最新内核设计的手机有望年底上市,首发机型或为vivo X200系列。Arm也在为未来的Windows操作系统笔记本电脑奠定基础。


AI要全面融入生活了


事实上,Arm已经在探索AI功能的道路上走了二十多年了。


Armv7架构于2003年首次发布,其中便添加了高级SIMD扩展,也称为Arm NEON指令;而后,Armv8 架构添加了一系列基于AI的规范和指令,包括点积指令、向量矩阵乘法指令和BFLoat16支持,同时通过将向量寄存器数量增加一倍并添加浮点支持来改进高级SIMD扩展;Armv9架构结合了所有这些功能、规格和说明,同时新增了SVE2、SME 和新的SME2。


可以说,Arm早就将这些AI功能,覆盖到了我们生活之中。随着终端CSS和Kleidi的发布,我们的移动终端即将迎来全面的AI变革,未来这些终端也会融入我们的生活。


“Arm作为计算的基石,不断致力于通过新技术的推出,帮助合作伙伴取得成功,以目前的AI为例,我们希望能赋能合作伙伴打造出面向AI应用最卓越的设备、芯片组和 SoC,为消费者的下一代AI体验夯实根基。”James McNiven这样强调道。

关键字:Arm  CPU  GPU 引用地址:Arm重新定义移动终端AI体验:3nm加持的CPU、GPU性能暴增

上一篇:中国引领触觉创新:TITAN Haptics 在 2024 年为工程师提供支持
下一篇:痛批苹果:iOS 18各种抄袭没法看 果粉别谈原创性了

推荐阅读最新更新时间:2024-11-10 11:02

家电行业前忧后患,如何加速实现产品智能化?
2020 年对家电行业来说,有个不太好的开端。    家电大厂第一季度业绩都呈下跌态势,在高库存的背景下,新冠疫情又给大型家电沉重的打击,康佳集团亏损 2.2 亿元 -2.4 亿元,长虹美菱亏损 2.5 亿元 -2.9 亿元,家电销售占重要比重的苏宁易购亏损 4 亿元 -6 亿元,格力电器预计一季度营收同比下降 70%-77%。    不过值得注意的是,在此次疫情期间,虽然传统大家电销量不佳,但是各种智能小家电却成为了新宠。    电商出现可以说是引导小家电销量提升的一大因素,各种小家电在家电需求放缓的背景下,销量反而增长迅速,诸如小熊、小米等。除了智能小家电之外,智能家居的优势也在疫情中凸显。各种无接触交互控制设进一步减少感染的
[嵌入式]
家电行业前忧后患,如何加速实现产品智能化?
日经:Arm中国换帅风波有伏笔
近日,英国设计公司Arm及其子公司Arm中国的换帅风波在行业引起了震荡。 《日经亚洲评论》认为,双方争议的种子可以说在两年前已播下。当时Arm是世界上许多移动设备背后的全球领先知识产权提供商,其大胆地押注了出售该部门多数股权的赌注。 上周三以来,自2016年开始一直由日本软银集团拥有的Arm和Arm中国在任命中国分公司董事长兼首席执行官的事情上发生了激烈的冲突。Arm坚持认为,由于“举报人的证据表明存在违规行为和利益冲突,该公司已罢免了首席执行官Allen Wu。” 但是,Arm中国辩称,这一决定是非法的。也就是说,Arm中国认为其母公司指派来监督中国子公司的其中一位高管实际上已经在几周前被撤职。 在中美关系日益紧张的局势之下,这
[手机便携]
奥地利微电子推出用于Nvidia Tegra等电源管理IC
    新的电源管理芯片AS3722及功率级模块AS3728在Nvidia‘Jetson’参考设计中为Tegra K1移动处理器片上系统提供电源管理。     中国,2014年12月15日——领先的高性能模拟IC和传感器供应商奥地利微电子公司(SIX股票代码:AMS)今日推出AS3722以丰富其电源管理IC(PMICs)产品系列。AS3722将用于移动多核ARM处理器,为Nvidia Tegra K1 移动片上系统(SoC)提供完整的电源控制解决方案。     奥地利微电子今日还推出了AS3728,这是一款搭配AS3722直流-直流控制器使用的8A高压功率级模块。AS3728支持12V高压输入,为处理器核供应高强度电
[电源管理]
iQOO Neo5搭载超级液冷散热系统,CPU温度最高可降10℃
集微网5月20日消息,iQOO Neo5活力版将于本月24日开启预售,在今天官方进一步透露了该机的情况。 官方称iQOO Neo5活力版搭载超级液冷散热系统,全方位覆盖发热源头,CPU温度最高可降低10℃。 根据早前官方的爆料,iQOO Neo5活力版搭载性能铁三角(含骁龙870处理器、LPDDR5内存、UFS3.1闪存),跑分高达742444分,自带「内存融合」技术,支持扩展部分存储转为运行内存,让8GB等效11GB运存,用上了144Hz竞速屏,机身提供极夜黑、冰峰白两种配色。 有数码博主表示,iQOO Neo5活力版其实就是iQOO Neo3的升级版,二者共用一套模具,拍照配置一样,主要是把处理器从骁龙865换成了
[手机便携]
Imagination发布专为自主运算时代的安全关键系统所设计的 CPU IP ─ MIPS I6500-F
新款把高性能与功能安全性结合到ForfAI™智能系统 2017年6月15日 ─ ImaginaTIon chnologies (IMG.L)宣布推出高扩展性的64位PS多重处理解决方案,并已通过严格的评估与验证,可符合ISO 26262 与IEC 61508 标准的功能安全性(FuSa)要求。针对、工业与机器人等新兴的安全关键系统,此方案是处理其运算密集任务的理想选择。I6500-F的功能超越其他的 FuSa CPU IP内核,可为推动这些系统的多核设计提供高性能、高效率的基础,并能在一个系统中扩展至64个异构集簇,每个集簇由多线程、多核MIPS CPU以及其它加速器所组成。 FuSa 对安全关键系统中的所有元件
[机器人]
基于ARM和LPC2214的新型测量仪
  目前,国内外使用的车轮定位仪主要采用接触式的定位方式,由于其测量原理的局限性,其检测操作过程十分复杂,无法实现快速检测,使之难以在火车制造厂和火车检测线中广泛使用。针对这些不足,本文提出并设计了一种以ARM芯片LPC2214为核心的新型测量仪。   1 总体设计   1.1 性能要求   本设计的任务是设计一款手持式的火车车轮参数测量仪,用来检测车轮的磨损程度,确定车轮的工作状况,保证车辆的正常和安全运行。设计的基本原理是使用激光传感器测量车轮相应的参数,将其传给测量仪,实现数据的处理、存储和显示等。根据设计要求,需要测量的车型包括货车、客车和动车3种,车轮型号有20种,并有以下具体的要求:   (1)在存储和显示测量
[测试测量]
基于<font color='red'>ARM</font>和LPC2214的新型测量仪
ARM中异常中断的类型问题分析总结
一、ARM中异常中断的类型: 异常中断名称 含义 复位(Reset) 当处理器复位引脚有效时,系统产生复位异常中断,程序跳转到复位异常中断处理程序处执行。复位异常中断通常用在下面几种情况: 1、系统加电时 2、系统复位时 3、跳转到复位中断向量处执行,称为软复位 未定义的指令 当ARM处理器或者是系统中协处理器认为当前指令未定义时,产生未定义指令异常中断。可以通过该异常中断机制仿真浮点向量运算。 软件中断 (software interrupt SWI) 这是一个由用户定义的中断指令。可以用于用户模式下程序调用特权操作指令。在实时操作系统(RTOS)中可以通过该机制实现系统功能调用 指令预取中止 (Prefech
[单片机]
<font color='red'>ARM</font>中异常中断的类型问题分析总结
ARM:今年A9双核和A7双核仍是主流,年底将发布Mali7系列GPU
    近日,ARM中国市场经理邹诚在炬力平板“三剑客”发布会上,对于ARM芯片架构外来的发展以及Mail系列GPU的规划进行了一些介绍,同时还爆料,将会在今年发布Mali 7系列GPU。 ARM认为,在今年Cortex-A9双核和Cortex-A7双核将成为主流,此外A5双核也将会有一定的市场。而直到明年四核才会真正成为主流,其中占据主导地位的还是Cortex-A9四核,其次是Cortex-A7四核和Cortex-A5四核。到2015年,A15/A12+A7这类Big-little架构的4+4或2+2的方案才有可能真正流行起来。而64位架构的Cortex-A57/A53的4+4或2+2架构,以及Cortex-A53四核架构要等
[手机便携]
小广播
最新手机便携文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved