新型的FPGA器件将支持多样化AI/ML创新进程

发布者:考古专家最新更新时间:2024-03-28 作者: 郭道正 :Achronix半导体中国区总经理关键字:FPGA  AI  ML 手机看文章 扫描二维码
随时随地手机看文章

近日举办的GTC大会把人工智能/机器学习(AI/ML)领域中的算力比拼又带到了一个新的高度,这不只是说明了通用图形处理器(GPGPU)时代的来临,而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临,就像GPU以更高的计算密度和能效胜出CPU一样,各种加速器件在不同的AI/ML应用或者细分市场中将各具优势,未来并不是只要贵的而是更需要对的。


此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点,它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此,AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA,下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向,以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。


先来快速看看Speedster7t的产品亮点:该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表(LUT),高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口,以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上,Speedster7t包含16个GDDR6通道,可提供高达4 Tbps的高速存储带宽;32对SerDes通道,支持1-112Gbps的数据速率;4个400G以太网端口(4× 400G或16× 100G)和2个PCIe Gen5端口,支持16通道(×16)和8通道(×8)配置。


Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是: 足够的算力,灵活可配的计算精度;高带宽大容量低成本的GDDR6(4Tbps带宽, 32GB容量);革命性的全新二维片上网络(2D NoC)路由架构;灵活通用的芯片间互联; 支持用户基于该芯片开发自定义的推理系统,比如单板多片FPGA甚至多板互联以组成更高性能(如1TBbps/64GB,2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计算存储)以支持更大或超大模型推理部署。 


简而言之,相比传统的推理算力平台,Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力; 另外,在传统的FPGA处理功能中,越来越多的用户在该系统中加入机器学习的能力, Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。


一类创新性的高性能FPGA系列产品


Achronix Speedster®7t系列FPGA基于革命性的FPGA架构,该架构经过了高度优化提供了高速、高带宽内外连接,可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络,以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合,Speedster7t系列提高了高性能FPGA的标准。


全新的二维片上网络(2D NoC)提供ASIC级别的性能


Speedster7t系列FPGA芯片具有革命性的2D NoC,可在整个FPGA逻辑阵列中传输数据,并将数据传输到高性能I/O和内存子系统,同时可提供高达20 Tbps的总带宽。凭借2D NoC,在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽;该2D NoC不仅覆盖了芯片全域,而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。


高速接口


无论是支持输入和输出的数据流,还是存储缓冲这些数据,对于高性能计算、机器学习和硬件加速解决方案而言,都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括:


400G以太网:Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口,通过2D NoC连接到FPGA逻辑。


PCI Express Gen5:Speedster7t系列FPGA芯片配备了多个PCle Gen5接口,支持速率达32GT/s。


存储接口:GDDR6 + DDR4/5


Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA,以最低的DRAM成本(每存储位)提供最快的SDRAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽,以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口,以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。


机器学习处理单元


每个Speedster7t FPGA器件都具有可编程的数学计算单元,这些单元被集成至全新的机器学习处理单元(MLP)模块中。每个MLP都是一个高度可配置的计算密集型模块,具有多达32个乘法器/累加器(MAC),支持4到24位整数格式和各种浮点模式,包括Tensorflow的bfloat16格式以及高效的块浮点格式,大大提高了性能。


MLP模块包括紧密集成的嵌入式存储器模块,以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构,该结构可提供市场上基于FPGA的极高TOPS级别运算能力(TOPS即Tera-Operations Per Second,每秒万亿次运算)。


图中文字说明:Register File - 寄存器文件,Fracturable Adder/Accumulator - 可拆分的加法器/累加器,Float MAC - 浮点乘累加单元(MAC),Memory Cascade in - 存储器级联,Operand Cascade in - 操作数级联。


设计工具支持


Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用,从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。


展望:在推理等领域帮助开发者打造综合性能优于先进GPU的应用


随着AI/ML技术在各个领域开始广泛走进应用,Achronix根据Speedster7t FPGA器件的高性能和高带宽特性,选择了推理这一个应用面非常广的技术市场方向,与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发,以期帮助更多的创新者实现突破。


该芯片提供了足够的算力,并利用其片上搭载的二维片上网络(2D NoC)和机器学习处理单元(MLP),各种高速接口和GDDR6高带宽存储接口,提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术,从而可以支持开发者快速去实现创新。


这个策略取得了显著的成果,其中一个领域是加速自动语言识别(ASR)解决方案,它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持,运行Myrtle.ai提供的基于Achronix FPGA的ASR IP,从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。


Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。 在ASR实际性能方面,其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟(包括了预处理和后处理以及与CPU做数据交互的时间)颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。


对于越来越多的其他的推理应用,Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发,以完善其工具链和应用生态,将在2024年推出更好的工具来帮助各种推理应用的开发,使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升,而不用去争抢紧俏的高性能GPU加速卡。



关键字:FPGA  AI  ML 引用地址:新型的FPGA器件将支持多样化AI/ML创新进程

上一篇:Efinix推出车规级集成RISC-V内核的FPGA
下一篇:莱迪思全新版本Radiant设计软件拓展功能安全特性

推荐阅读最新更新时间:2024-11-12 23:16

AI芯片千亿市场待爆发 狂欢的背后落地少!
  人工智能这一项新兴技术,在经历了最近几年的技术积累、升级、发酵之后,正在以 AI 芯片 作为载体而全面崛起。 AI 芯片 正在以一种前所未有的速度颠覆着以安防、手机、无人驾驶汽车、云计算等为首的四大领域,并从它们延展开来,进一步对工业、制造、医疗、教育等传统领域造成巨大冲击,重新塑造着世界格局。下面就随网络通信小编一起来了解一下相关内容吧。   回望中国市场,人工智能与 AI 芯片 技术为中国市场这几十年来埋头追赶的芯片行业打开了一扇新大门,让我国第一次拥有傲立世界前沿科技之林、甚至引领全球科技潮流的机会窗口。    AI芯片市场爆发   目前,如火如荼的人工智能市场已经受到了许多科技巨头公司的关注,例如国内搜索引擎巨头百
[网络通信]
抗击疫情,AI、机器人已整装待发!
目前有哪些新科技被用于对抗新型冠状病毒疫情?这些新兴技术如何用于追踪疫情、防止疫情扩散或是治疗被感染的病患? 在传染病的世界,大流行是最糟的情况,显示传染病已经蔓延到国家的边境之外。尽管全世界目前正在打一场对抗新型冠状病毒(COVID-19)的“疫战”,但这并不是人类第一次遇到这种“看不见的敌人”。根据历史记载,第一次的传染病大流行发生在公元前430年左右的伯罗奔尼撒战争(The Peloponnesian War)期间,据说这场可能是伤寒的大瘟疫导致近半数雅典居民以及四分之一的士兵惨死,几乎摧毁了希腊城邦。 那时人们对于如何治疗这种疾病的症状所知甚少,直到公元前27年左右,罗马人建立了一套军事医疗系统,以便让士兵尽快复原
[物联网]
抗击疫情,<font color='red'>AI</font>、机器人已整装待发!
AI从云端走向终端,推动ASIC需求
人工智能风潮席卷全球,而为了加速AI应用普及,并降低云端运算工作负载,实现更多的创新应用,边缘运算需求与日俱增,AI开始从「云端」走向「终端」,也因而推升ASIC需求; 根据市调机构Ovum预估,2018~2025年,ASIC的市占率将从11%大幅增加至48%。Ovum调查报告指出,在2016年,云端(包含企业、数据中心等)为深度学习晶片的主要营收领域,占了80%。不过,到了2025年,此一比例将会改变,转变成边缘(Edge)占了80%,而云端的比例则降为20%。这边所指的边缘意指终端设备,且以消费性产品为中心(而非小型伺服器或是路由器),包括移动装置(手机、平板)、头戴式显示器(HMD),如AR/VR /MR、智能音箱、机器
[物联网]
康普RUCKUS推出首个由RUCKUS AI 驱动的企业级 Wi-Fi 7 解决方案 —— R770 接入点
凭借 RUCKUS R770,RUCKUS将持续提供目标驱动型网络,赋能主要垂直行业的客户更大程度地发挥 Wi-Fi 7在速度、延迟、容量和连接可靠性方面的优势 中国上海, 2023 年 10 月 19 日 —— 全球优秀的网络连接解决方案提供商康普(纳斯达克股票代码:COMM)旗下品牌RUCKUS推出市场领先的企业级 Wi-Fi 7 接入点(AP)—— R770。该平台将利用 Wi-Fi 7的高级功能和 RUCKUS® 的创新技术,面向RUCKUS所服务的处于挑战性环境中的行业提供更优性能。这一AI驱动型解决方案是RUCKUS 产品组合中的最新成员,为目标驱动型网络提供了更高阶的选择。 RUCKUS
[网络通信]
中科院背书,寒武纪新一代人工智能芯片发布
  在本月6日,中国科学院携手 寒武纪 科技公司,在北京发布了三款新一代 人工智能 芯片,分别为面向低功耗场景视觉应用的 寒武纪 1H8,高性能且拥有广泛通用性的 寒武纪 1H16,以及用于终端 人工智能 产品的寒武纪1M。下面就随网络通信小编一起来了解一下相关内容吧。 中科院背书,寒武纪新一代人工智能芯片发布   寒武纪创立于2016年,是由中科院计算所2008组建的“探索处理器架构与 人工智能 的交叉领域”10人学术团队改建而来。而寒武纪的名字,则是用地质学上生命大爆发的时代来比喻人工智能的未来。   在2016年时,寒武纪就发布了全球首款商用深度学习专用处理器IP——寒武纪1A处理器。寒武纪1A一经出世,便受到了业
[网络通信]
研华边缘AI系统AIR-030面市,赋能机器人和视频分析技术
研华边缘AI系统AIR-030面市,赋能机器人和视频分析技术 2023年,研华推出基于NVIDIA Jetson AGX Orin平台的 AIR-030边缘AI系统系列工控机。 NVIDIA Jetson AGX Orin模块可提供高达275个TOPS和8倍于上一代产品的性能,因此 AIR-030可为AI开发人员提供易于部署、配置的解决方案,以加速AI机器人和AI视觉应用落地。 AIR-030边缘AI解决方案 搭载面向边缘AI的DeviceOn软件,从AI容器部署、AI模型OTA更新、训练到性能优化,推动了AI开发生命周期管理。DeviceOn Edge AI软件还提供从边缘AI设备到云端AI的实时监控和管理。结合
[机器人]
研华边缘<font color='red'>AI</font>系统AIR-030面市,赋能机器人和视频分析技术
华为寒武纪抱团PK苹果 中国芯欲借人工智能逆袭
近期,人工智能芯片领域热点不断,将人工智能再次推上风口浪尖。一枚小小的芯片,不仅引领着整个IT行业的颠覆性技术变革,也集中映射了日趋激烈的中美人工智能核心话语权争夺战。近日,美国总统特朗普否决了中资私募基金对莱迪思(Lattice)半导体公司的收购案,这是继去年福建宏芯收购德国半导体制造商爱思强(Aixtron)被叫停后,美国总统又一次以国家安全名义发布行政命令,禁止中方投资。在海外收购频频遭遇政治阻挠、全球科技巨头同场竞技的背景下,中国科技公司在芯片领域如何弯道超车,成为人工智能时代的领跑者? AI芯片重塑智能手机 因为人工智能芯片的加持,智能手机行业在经历了“参数热”“性价比热”后,终于迎来真正的技术性变革节点。
[半导体设计/制造]
骁龙845旗舰!LG G7 ThinQ发布会确定:主打AI语音/拍照
LG电子在官网宣布,定于5月2日在纽约曼哈顿举办新品发布会,推出G7 ThinQ新旗舰手机。 LG透露,G7 ThinQ计划5月3日率先登陆韩国市场发售。 ThinQ是LG的智能电器新品牌标识,已经在冰洗等产品上出现,首款后缀ThinQ的手机是LG V30s,主打AI拍照。 按照爆料,这一次,LG将在机身左侧单独设置一颗启动ThinQ语音助理的按键,继续增强。 外形方面,G7 ThinQ大概率将采用刘海屏的设计语言,屏幕大小6.1英寸,分辨率QHD+。背部竖排双摄和中置指纹,材质选用的是玻璃,颜色有蓝色、黑色、藏青、玫红、灰色五种。 核心硬件方面,G7 ThinQ将搭载骁龙845芯片,4G/6GB R
[手机便携]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved