在今年五月,英伟达发布了基于全新Ampere架构打造的GPU A100。
据该公司CEO黄仁勋介绍,A100 采用台积电当时最先进的7 纳米工艺打造,拥有 540 亿个晶体管,面积高达 826mm2,GPU 的最大功率也达到了 400W。又因为同时搭载了三星 HBM2 显存、第三代 Tensor Core和带宽高达600GB/s 的新版 NVLink,英伟达的A100在多个应用领域也展现出强悍的性能。
从英伟达提供的数据可以看到,如果用 PyTorch 框架跑 AI 模型,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。而根据MLPerf组织在十月底发布的最新推理基准测试(Benchmark)MLPerf Inference v0.7结果,英伟达A100 Tensor Core GPU在云端推理的基准测试性能是最先进英特尔CPU的237倍。
但英伟达不止步于此。在昨日,他们发布了面向AI超级计算的全球最强GPU——A100 80GB;与此同时,他们还带来了一体式AI数据中心NVIDIA DGX Station A100以及NVIDIA Mellanox 400G InfiniBand产品。
全球最强的AI超算GPU
据英伟达方面介绍,公司全新的 A100 80GB GPU的最大特点在于采用了HBM2E内存技术,能将A100 40GB GPU的高带宽内存增加一倍至80GB,这样的设计也让英伟达成为业内首个实现了2TB/s以上的内存带宽的企业。
“若想获得HPC和AI的最新研究成果,则需要构建最大的模型,而这需要比以往更大的内存容量和更高的带宽。A100 80GB GPU所提供的内存是六个月前推出的前代产品的两倍,突破了每秒2TB的限制,使研究人员可以应对全球科学及大数据方面最严峻的挑战。”NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示。
此外,第三代Tensor Core核心、MIG技术、结构化稀疏以及第三代NVLink和NVSwitch,也是全新GPU能够获得市场认可的保证。
从英伟达提供的资料我们可以看到,该公司的第三代Tensor Core核心通过全新TF32,能将上一代Volta架构的AI吞吐量提高多达20倍;通过FP64,新核心更是能将HPC性能提高多达2.5倍;而通过 INT8,新核心也可以将AI推理性能提高多达20倍,并且支持BF16数据格式。
MIG技术则能将单个独立实例的内存增加一倍,并可最多提供七个MIG,让每个实例具备10GB内存。英伟达方面表示,该技术是一种安全的硬件隔离方法,在处理各类较小的工作负载时,可实现GPU最佳利用率。例如在如RNN-T等自动语言识别模型的AI推理上,单个A100 80GB MIG实例可处理更大规模的批量数据,将生产中的推理吞吐量提高1.25倍。
至于结构化稀疏,则可以将推理稀疏模型的速度提高2倍;包括第三代NVLink和NVSwitch在内的新一代互连技术,则可使GPU之间的带宽增加至原来的两倍,将数据密集型工作负载的GPU数据传输速度提高至每秒600 gigabytes。
除了性能提升以外,基于A100 40GB的多样化功能设计的A100 80GB GPU也成为需要大量数据存储空间的各类应用的理想选择。
以DLRM等推荐系统模型为例,他们为AI训练提供了涵盖数十亿用户和产品信息的海量表单。但A100 80GB可实现高达3倍加速,使企业可以重新快速训练这些模型,从而提供更加精确的推荐;在TB级零售大数据分析基准上,A100 80GB将其性能提高了2倍,使其成为可对最大规模数据集进行快速分析的理想平台;对于科学应用,A100 80GB可为天气预报和量子化学等领域提供巨大的加速。
“作为NVIDIA HGX AI超级计算平台的关键组件,A100 80GB还可训练如GPT-2这样的、具有更多参数的最大模型。”英伟达方面强调。
下一代400G InfiniBand
在发布A100 80GB的同时,英伟达还带了下一代的400G InfiniBand产品。在讲述英伟达的新品之前,我们有必要先了解一下什么是InfiniBand。
所谓InfiniBand,是一种网络通信协议,它提供了一种基于交换的架构,由处理器节点之间、处理器节点和输入/输出节点(如磁盘或存储)之间的点对点双向串行链路构成。每个链路都有一个连接到链路两端的设备,这样在每个链路两端控制传输(发送和接收)的特性就被很好地定义和控制。而早前被英伟达收购的Mellanox则是这个领域的专家。
资料显示,Mellanox为服务器,存储和超融合基础设施提供包括以太网交换机,芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品,其中,更以InfiniBand互连,是这些产品中重中之重。
据英伟达介绍,公司推出的第七代Mellanox InfiniBand NDR 400Gb/s上带来了更低的延迟,与上一代产品相比,新的产品更是实现了数据吞吐量的翻倍。又因为英伟达为这个新品带来了网络计算引擎,这就让其能够获得额外的加速。
英伟达进一步指出,作为一个面向AI超级计算的业界最强大的网络解决方案,Mellanox NDR 400G InfiniBand交换机,可提供3倍的端口密度和32倍的AI加速能力。此外,它还将框式交换机系统的聚合双向吞吐量提高了5倍,达到1.64 petabits/s,从而使用户能够以更少的交换机,运行更大的工作负载。
“基于Mellanox InfiniBand架构的边缘交换机的双向总吞吐量可达51.2Tb/s,实现了具有里程碑意义的每秒超过665亿数据包的处理能力。”英伟达方面强调。而通过提供全球唯一的完全硬件卸载和网络计算平台,NVIDIA Mellanox 400G InfiniBand实现了大幅的性能飞跃,可加快相关研究工作的进展。
“我们的AI客户的最重要的工作就是处理日益复杂的应用程序,这需要更快速、更智能、更具扩展性的网络。NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大规模云基础设施能够以更低的成本和复杂性,实现无与伦比的性能。” NVIDIA网络高级副总裁Gilad Shainer表示。
从他们提供的数据我们可以看到,包括Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等公司在内的全球领先的基础设施制造商,计划将Mellanox 400G InfiniBand解决方案集成到他们的企业级产品中去。此外,包括DDN、IBM Storage以及其它存储厂商在内的领先的存储基础设施合作伙伴也将支持NDR。
全球唯一的千兆级工作组服务器
为了应对不同开发者对AI系统的需求,在推出芯片和连接解决方案的同时,英伟达在2017年还推出一体式的AI数据中心NVIDIA DGX Station。作为世界上首款面向 AI 开发前沿的个人超级计算机,开发者只需要对其执行简单的设置,就可以用Caffe、TensorFlow等去做深度学习训练、高精度图像渲染和科学计算等传统HPC应用,避免了装驱动和配置环境等麻烦,这很适合高校、研究所、以及IT力量相对薄弱的企业。
昨日,英伟达今日发布了全球唯一的千兆级工作组服务器NVIDIA DGX StationA100 。作为开创性的第二代人工智能系统,DGX Station A100加速满足位于全球各地的公司办公室、研究机构、实验室或家庭办公室中办公的团队对于机器学习和数据科学工作负载的强烈需求。而为了支持诸如BERT Large推理等复杂的对话式AI模型,DGX Station A100比上一代DGX Station提速4倍以上。对于BERT Large AI训练,其性能更是提高近3倍。
从性能来看,英伟达方面表示,DGX Station A100的AI性能可达2.5 petaflops,是唯一一台配备四个通过NVIDIA NVLink完全互连的全新NVIDIA A100 Tensor Core GPU的工作组服务器,可提供高达320GB的GPU内存,能够助力企业级数据科学和AI领域以最速度取得突破。
作为唯一支持NVIDIA多实例GPU(MIG)技术的工作组服务器,单一的DGX Station A100最多可提供28个独立GPU实例以运行并行任务,并可在不影响系统性能的前提下支持多用户。
为了支持更大规模的数据中心工作负载,DGX A100系统还将配备全新NVIDIA A100 80GB GPU使每个DGX A100系统的GPU内存容量增加一倍(最高可达640GB),从而确保AI团队能够使用更大规模的数据集和模型来提高准确性。
“全新DGX A100 640GB系统也将集成到企业版NVIDIA DGX SuperPODTM 解决方案,使机构能基于以20 个DGX A100系统为单位的一站式AI超级计算机,实现大规模AI模型的构建、训练和部署。”英伟达方面强调。
该公司副总裁兼 DGX系统总经理Charlie Boyle则表示:“DGX Station A100将AI从数据中心引入可以在任何地方接入的服务器级系统。数据科学和AI研究团队可以使用与NVIDIA DGX A100系统相同的软件堆栈加速他们的工作,使其能够轻松地从开发走向部署。”
从英伟达提供的资料我们可以看到,配备A100 80GB GPU的NVIDIA DGX SuperPOD系统将率先安装于英国的Cambridge-1超级计算机,以加速推进医疗保健领域研究,以及佛罗里达大学的全新HiPerGator AI超级计算机,该超级计算机将赋力这一“阳光之州”开展AI赋能的科学发现。
在今年发布的第二季财报上,英伟达数据中心业务首超游戏,成为公司营收最大的业务板块。从营收增长上看,与去年同期相比,英伟达数据中心业务业务大幅增长167%,由此可以看到英伟达在这个市场影响力的提升以及公司对这个市场的信心。
考虑到公司深厚的技术积累和过去几年收购所做的“查漏补缺”,英伟达必将成为Intel在数据中心的最强劲挑战者。
上一篇:重庆邮电大学成功研发第三代半导体氮化镓功率芯片
下一篇:Imagination解读芯片IP市场:车载+数据中心是风口
推荐阅读
史海拾趣
面对日益激烈的市场竞争,Akros公司积极寻求市场拓展的机会。公司开始参加国际电子展会,与全球各地的客户建立联系。通过展示其独特的技术优势和高质量的产品,Akros逐渐赢得了国际市场的认可。同时,公司还加强了与全球供应链的合作,实现了原材料的全球化采购,降低了生产成本,提高了产品的竞争力。
Boyd Corporation自创立之初,便致力于研发创新的热管理和环境密封解决方案。公司不断投入研发资源,推出了一系列高效、可靠的产品,这些产品在电子行业中迅速获得了广泛应用。通过持续创新,Boyd Corporation逐渐在市场中树立了技术领先的形象,吸引了众多合作伙伴和客户的关注。
Baton Lock公司最初是一家小型电子元件制造商,面临着激烈的市场竞争。然而,公司凭借其研发团队对新型半导体技术的深入研究,成功开发出了一种高效能、低成本的芯片。这一技术创新迅速吸引了市场的关注,Baton Lock的订单量激增,公司规模迅速扩大。
在追求经济效益的同时,A/D Electronics Inc也积极履行社会责任,致力于可持续发展。公司注重环保和节能,采用环保材料和节能技术,减少生产过程中的环境污染和资源消耗。此外,公司还积极参与公益事业,为社会做出贡献。通过这些举措,A/D Electronics Inc不仅赢得了社会的广泛认可,也为企业的长远发展奠定了坚实基础。
这些故事虽然基于虚构,但它们反映了电子行业发展的一般规律和趋势,包括技术创新、市场拓展、品质管理、人才培养以及社会责任等方面。这些元素对于任何一家在电子行业中发展起来的公司来说,都是不可或缺的。
反馈电路在各种电子电路中都获得普遍的应用,反馈是将放大器输出信号(电压或电流)的一部分或全部,回授到放大器输入端与输入信号进行比较(相加或相减),并用比较所得的有效输入信号去控制输出,这就是放大器的反馈过程.凡是回授到放 ...… 查看全部问答∨ |
猎头职位:上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 猎头职位:上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 本人猎头,现阶段手上大量RF,FPGA,HW相关职位,职位多,人才少,特发此贴,希望广大牛人们自荐或推荐,有兴趣的TX请发简历到hunter.sweet@163.com(来信必复)。同时,欢迎咨询和 ...… 查看全部问答∨ |
1 引言 在中国有许多因创伤性颅脑损伤的患者急需抢救,但相当一部分颅内出血患者因未能及时诊断,延误了抢救和治疗时机.因而出现脑血肿或脑疝后压迫脑组织.使脑干和脑实质受到不可逆转的损伤。近红外颅内出血检测设备能在短时间内对颅内出血作 ...… 查看全部问答∨ |
|
硬件平台: 深圳市英蓓特信息技术有限公司的Edukit-IV实验平台 处理器: XSCALE PXA270 FLASH: AM29LV160DB 问题: 今天修改了JFLASHMM源码,想让JFLASHMM支持AM29LV160DB的烧写,出现读ID错误 ...… 查看全部问答∨ |
|
【讨论】电赛的省测大部尘埃落定,你用了MSP430的单片机吗? 比赛结束了,无论成绩如何,都到了应该简单总结的时候。 在这次比赛中有多少同学使用了MSP430单片机作为主控? 你觉得你在使用的过程中有哪些优势?又有那些劣势呢? 欢迎大家开贴总结,会有意外的惊喜。… 查看全部问答∨ |
最近想做做显示屏这块,淘宝上看到OLED现在正常是SPI/IIC控制,但引脚有个地方看不懂 款式一: 这种难道是SPI、IIC两种都可以吗? 如果作为spi的驱动,D0->SCK,D1->MOSI,DC呢?难道是MISO?命令选择怎么用的 用IIC的话,D0->SCL,D1->SD ...… 查看全部问答∨ |
- Allegro MicroSystems 在 2024 年德国慕尼黑电子展上推出先进的磁性和电感式位置感测解决方案
- 左手车钥匙,右手活体检测雷达,UWB上车势在必行!
- 狂飙十年,国产CIS挤上牌桌
- 神盾短刀电池+雷神EM-i超级电混,吉利新能源甩出了两张“王炸”
- 浅谈功能安全之故障(fault),错误(error),失效(failure)
- 智能汽车2.0周期,这几大核心产业链迎来重大机会!
- 美日研发新型电池,宁德时代面临挑战?中国新能源电池产业如何应对?
- Rambus推出业界首款HBM 4控制器IP:背后有哪些技术细节?
- 村田推出高精度汽车用6轴惯性传感器
- 福特获得预充电报警专利 有助于节约成本和应对紧急情况