英伟达全新GPU A100问市，Ampere架构赋予惊人性能

分享到: 微博; QQ; 微信; LinkedIn

在今年五月，英伟达发布了基于全新Ampere架构打造的GPU A100。

See the source image

据该公司CEO黄仁勋介绍，A100 采用台积电当时最先进的7 纳米工艺打造，拥有 540 亿个晶体管，面积高达 826mm2，GPU 的最大功率也达到了 400W。又因为同时搭载了三星 HBM2 显存、第三代 Tensor Core和带宽高达600GB/s 的新版 NVLink，英伟达的A100在多个应用领域也展现出强悍的性能。

从英伟达提供的数据可以看到，如果用 PyTorch 框架跑 AI 模型，相比上一代 V100 芯片，A100 在 BERT 模型的训练上性能提升 6 倍，BERT 推断时性能提升 7 倍。而根据MLPerf组织在十月底发布的最新推理基准测试（Benchmark）MLPerf Inference v0.7结果，英伟达A100 Tensor Core GPU在云端推理的基准测试性能是最先进英特尔CPU的237倍。

但英伟达不止步于此。在昨日，他们发布了面向AI超级计算的全球最强GPU——A100 80GB；与此同时，他们还带来了一体式AI数据中心NVIDIA DGX Station A100以及NVIDIA Mellanox 400G InfiniBand产品。

全球最强的AI超算GPU

据英伟达方面介绍，公司全新的 A100 80GB GPU的最大特点在于采用了HBM2E内存技术，能将A100 40GB GPU的高带宽内存增加一倍至80GB，这样的设计也让英伟达成为业内首个实现了2TB/s以上的内存带宽的企业。

“若想获得HPC和AI的最新研究成果，则需要构建最大的模型，而这需要比以往更大的内存容量和更高的带宽。A100 80GB GPU所提供的内存是六个月前推出的前代产品的两倍，突破了每秒2TB的限制，使研究人员可以应对全球科学及大数据方面最严峻的挑战。”NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示。

此外，第三代Tensor Core核心、MIG技术、结构化稀疏以及第三代NVLink和NVSwitch，也是全新GPU能够获得市场认可的保证。

从英伟达提供的资料我们可以看到，该公司的第三代Tensor Core核心通过全新TF32，能将上一代Volta架构的AI吞吐量提高多达20倍；通过FP64，新核心更是能将HPC性能提高多达2.5倍；而通过 INT8，新核心也可以将AI推理性能提高多达20倍，并且支持BF16数据格式。

MIG技术则能将单个独立实例的内存增加一倍，并可最多提供七个MIG，让每个实例具备10GB内存。英伟达方面表示，该技术是一种安全的硬件隔离方法，在处理各类较小的工作负载时，可实现GPU最佳利用率。例如在如RNN-T等自动语言识别模型的AI推理上，单个A100 80GB MIG实例可处理更大规模的批量数据，将生产中的推理吞吐量提高1.25倍。

至于结构化稀疏，则可以将推理稀疏模型的速度提高2倍；包括第三代NVLink和NVSwitch在内的新一代互连技术，则可使GPU之间的带宽增加至原来的两倍，将数据密集型工作负载的GPU数据传输速度提高至每秒600 gigabytes。

除了性能提升以外，基于A100 40GB的多样化功能设计的A100 80GB GPU也成为需要大量数据存储空间的各类应用的理想选择。

以DLRM等推荐系统模型为例，他们为AI训练提供了涵盖数十亿用户和产品信息的海量表单。但A100 80GB可实现高达3倍加速，使企业可以重新快速训练这些模型，从而提供更加精确的推荐；在TB级零售大数据分析基准上，A100 80GB将其性能提高了2倍，使其成为可对最大规模数据集进行快速分析的理想平台；对于科学应用，A100 80GB可为天气预报和量子化学等领域提供巨大的加速。

“作为NVIDIA HGX AI超级计算平台的关键组件，A100 80GB还可训练如GPT-2这样的、具有更多参数的最大模型。”英伟达方面强调。

下一代400G InfiniBand

在发布A100 80GB的同时，英伟达还带了下一代的400G InfiniBand产品。在讲述英伟达的新品之前，我们有必要先了解一下什么是InfiniBand。

所谓InfiniBand，是一种网络通信协议，它提供了一种基于交换的架构，由处理器节点之间、处理器节点和输入/输出节点(如磁盘或存储)之间的点对点双向串行链路构成。每个链路都有一个连接到链路两端的设备，这样在每个链路两端控制传输(发送和接收)的特性就被很好地定义和控制。而早前被英伟达收购的Mellanox则是这个领域的专家。

资料显示，Mellanox为服务器，存储和超融合基础设施提供包括以太网交换机，芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品，其中，更以InfiniBand互连，是这些产品中重中之重。

据英伟达介绍，公司推出的第七代Mellanox InfiniBand NDR 400Gb/s上带来了更低的延迟，与上一代产品相比，新的产品更是实现了数据吞吐量的翻倍。又因为英伟达为这个新品带来了网络计算引擎，这就让其能够获得额外的加速。

英伟达进一步指出，作为一个面向AI超级计算的业界最强大的网络解决方案，Mellanox NDR 400G InfiniBand交换机，可提供3倍的端口密度和32倍的AI加速能力。此外，它还将框式交换机系统的聚合双向吞吐量提高了5倍，达到1.64 petabits/s，从而使用户能够以更少的交换机，运行更大的工作负载。

“基于Mellanox InfiniBand架构的边缘交换机的双向总吞吐量可达51.2Tb/s，实现了具有里程碑意义的每秒超过665亿数据包的处理能力。”英伟达方面强调。而通过提供全球唯一的完全硬件卸载和网络计算平台，NVIDIA Mellanox 400G InfiniBand实现了大幅的性能飞跃，可加快相关研究工作的进展。

“我们的AI客户的最重要的工作就是处理日益复杂的应用程序，这需要更快速、更智能、更具扩展性的网络。NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大规模云基础设施能够以更低的成本和复杂性，实现无与伦比的性能。” NVIDIA网络高级副总裁Gilad Shainer表示。

从他们提供的数据我们可以看到，包括Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等公司在内的全球领先的基础设施制造商，计划将Mellanox 400G InfiniBand解决方案集成到他们的企业级产品中去。此外，包括DDN、IBM Storage以及其它存储厂商在内的领先的存储基础设施合作伙伴也将支持NDR。

全球唯一的千兆级工作组服务器

为了应对不同开发者对AI系统的需求，在推出芯片和连接解决方案的同时，英伟达在2017年还推出一体式的AI数据中心NVIDIA DGX Station。作为世界上首款面向 AI 开发前沿的个人超级计算机，开发者只需要对其执行简单的设置，就可以用Caffe、TensorFlow等去做深度学习训练、高精度图像渲染和科学计算等传统HPC应用，避免了装驱动和配置环境等麻烦，这很适合高校、研究所、以及IT力量相对薄弱的企业。

昨日，英伟达今日发布了全球唯一的千兆级工作组服务器NVIDIA DGX StationA100 。作为开创性的第二代人工智能系统，DGX Station A100加速满足位于全球各地的公司办公室、研究机构、实验室或家庭办公室中办公的团队对于机器学习和数据科学工作负载的强烈需求。而为了支持诸如BERT Large推理等复杂的对话式AI模型，DGX Station A100比上一代DGX Station提速4倍以上。对于BERT Large AI训练，其性能更是提高近3倍。

从性能来看，英伟达方面表示，DGX Station A100的AI性能可达2.5 petaflops，是唯一一台配备四个通过NVIDIA NVLink完全互连的全新NVIDIA A100 Tensor Core GPU的工作组服务器，可提供高达320GB的GPU内存，能够助力企业级数据科学和AI领域以最速度取得突破。

作为唯一支持NVIDIA多实例GPU（MIG）技术的工作组服务器，单一的DGX Station A100最多可提供28个独立GPU实例以运行并行任务，并可在不影响系统性能的前提下支持多用户。

为了支持更大规模的数据中心工作负载，DGX A100系统还将配备全新NVIDIA A100 80GB GPU使每个DGX A100系统的GPU内存容量增加一倍（最高可达640GB），从而确保AI团队能够使用更大规模的数据集和模型来提高准确性。

“全新DGX A100 640GB系统也将集成到企业版NVIDIA DGX SuperPODTM 解决方案，使机构能基于以20 个DGX A100系统为单位的一站式AI超级计算机，实现大规模AI模型的构建、训练和部署。”英伟达方面强调。

该公司副总裁兼 DGX系统总经理Charlie Boyle则表示：“DGX Station A100将AI从数据中心引入可以在任何地方接入的服务器级系统。数据科学和AI研究团队可以使用与NVIDIA DGX A100系统相同的软件堆栈加速他们的工作，使其能够轻松地从开发走向部署。”

从英伟达提供的资料我们可以看到，配备A100 80GB GPU的NVIDIA DGX SuperPOD系统将率先安装于英国的Cambridge-1超级计算机，以加速推进医疗保健领域研究，以及佛罗里达大学的全新HiPerGator AI超级计算机，该超级计算机将赋力这一“阳光之州”开展AI赋能的科学发现。

在今年发布的第二季财报上，英伟达数据中心业务首超游戏，成为公司营收最大的业务板块。从营收增长上看，与去年同期相比，英伟达数据中心业务业务大幅增长167%，由此可以看到英伟达在这个市场影响力的提升以及公司对这个市场的信心。

考虑到公司深厚的技术积累和过去几年收购所做的“查漏补缺”，英伟达必将成为Intel在数据中心的最强劲挑战者。

关键字：英伟达 Ampere 引用地址：英伟达全新GPU A100问市，Ampere架构赋予惊人性能

上一篇：重庆邮电大学成功研发第三代半导体氮化镓功率芯片
下一篇：Imagination解读芯片IP市场：车载+数据中心是风口

推荐阅读

2018年11月17日 | 铝-空气电池、氢燃料电池、锂电池到底哪家强？

近年来，新能源汽车一直备受关注，与传统燃油汽车相比，新能源汽车有着绿色、节能等优点，但在大家的印象中，它的性能与燃油汽车还存在一定的差距。其实，随着新能源汽车技术的不断升级，特别是电池动力不断提升下，新能源汽车的性能已经逐渐追赶上了燃油汽车。对于电动车来说，理想的电池应该具备：足够能量密度，才能跑更远的路程；足够的功率密度，车才...

2019年11月17日 | 人类不会完全被机器替代，无人化推动快速发展

随着“无人超市”、“无人酒店”、“”等出现，“无人化”不再是一个概念，而是正融入人类的生活。随之而来的是人们的深思：未来，机器人真的会取代人类吗？2018年6月，富士康公司董事长郭台铭公开表示：“我们在10年前就决定要机器人来取代人力，公司内部计划在5年内，把这些工人，我们目标是希望能够拿掉80% ，如果5年做不到，10年内也会做到。” 这...

2020年11月17日 | 洁美科技：目前塑料载带产能紧张半导体客户有小批量供货

近日，洁美科技接受机构调研时表示，离型膜现有的5条线满产，两条韩国的线目前还在调试（之前疫情关系耽误），在月底前可以投入生产，韩国线上了之后产能可以接近翻番；日本的生产线已经进入工厂了，正在安装，预计明年3月份安装完成。主要客户最近上量较快。基膜的生产线预计在明年9月投产，用于生产高端离型膜基膜，替代进口的基膜，低端向国内供应商采...

2021年11月17日 | 东南亚最大光储融合电站！阳光电源引领储能发展新方向

　　近日，阳光电源与东南亚顶级新能源企业Super Energy达成战略合作，为东南亚最大的光储融合电站提供光储一体化解决方案。其中储能容量高达136.24MWh, 创下东南亚单体储能项目新纪录。该电站可长时间、恒功率地输送清洁电力，引领东南亚“新能源+储能”的发展新方向，加速当地能源结构转型升级。　　东南亚新能源市场正蓬勃发展，为实现新能源高...

史海拾趣

富瀚(Fullhan)公司的发展小趣事

记录测试过程中的数据，包括过载电流值、保护动作时间等，以便后续分析和评估。

Akros[台湾超硕股份有限公司]公司的发展小趣事

面对日益激烈的市场竞争，Akros公司积极寻求市场拓展的机会。公司开始参加国际电子展会，与全球各地的客户建立联系。通过展示其独特的技术优势和高质量的产品，Akros逐渐赢得了国际市场的认可。同时，公司还加强了与全球供应链的合作，实现了原材料的全球化采购，降低了生产成本，提高了产品的竞争力。

Boyd Corporation公司的发展小趣事

Boyd Corporation自创立之初，便致力于研发创新的热管理和环境密封解决方案。公司不断投入研发资源，推出了一系列高效、可靠的产品，这些产品在电子行业中迅速获得了广泛应用。通过持续创新，Boyd Corporation逐渐在市场中树立了技术领先的形象，吸引了众多合作伙伴和客户的关注。

Baton Lock公司的发展小趣事

Baton Lock公司最初是一家小型电子元件制造商，面临着激烈的市场竞争。然而，公司凭借其研发团队对新型半导体技术的深入研究，成功开发出了一种高效能、低成本的芯片。这一技术创新迅速吸引了市场的关注，Baton Lock的订单量激增，公司规模迅速扩大。

A/D Electronics Inc公司的发展小趣事

在追求经济效益的同时，A/D Electronics Inc也积极履行社会责任，致力于可持续发展。公司注重环保和节能，采用环保材料和节能技术，减少生产过程中的环境污染和资源消耗。此外，公司还积极参与公益事业，为社会做出贡献。通过这些举措，A/D Electronics Inc不仅赢得了社会的广泛认可，也为企业的长远发展奠定了坚实基础。

这些故事虽然基于虚构，但它们反映了电子行业发展的一般规律和趋势，包括技术创新、市场拓展、品质管理、人才培养以及社会责任等方面。这些元素对于任何一家在电子行业中发展起来的公司来说，都是不可或缺的。

台湾凌通(Generalplus)公司的发展小趣事

可能是光线阈值设置不当，导致指示灯在光线变化时无法正确响应。可尝试调整光敏元件的灵敏度或重新设置光线阈值。

问答坊 | AI 解惑

电子电路中的反馈电路反馈电路在各种电子电路中都获得普遍的应用,反馈是将放大器输出信号(电压或电流)的一部分或全部,回授到放大器输入端与输入信号进行比较(相加或相减),并用比较所得的有效输入信号去控制输出,这就是放大器的反馈过程.凡是回授到放 ...… 查看全部问答∨	猎头职位：上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 猎头职位：上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 本人猎头，现阶段手上大量RF,FPGA,HW相关职位，职位多，人才少，特发此贴，希望广大牛人们自荐或推荐，有兴趣的TX请发简历到hunter.sweet@163.com（来信必复）。同时，欢迎咨询和 ...… 查看全部问答∨
基于MSP430颅内出血检测设备的研制 1 引言　　在中国有许多因创伤性颅脑损伤的患者急需抢救，但相当一部分颅内出血患者因未能及时诊断，延误了抢救和治疗时机．因而出现脑血肿或脑疝后压迫脑组织．使脑干和脑实质受到不可逆转的损伤。近红外颅内出血检测设备能在短时间内对颅内出血作 ...… 查看全部问答∨	PBL405 那位大侠给看一下整流桥PBL405的基本参数是？交流输入电压？输出等参数？ … 查看全部问答∨
JFLASHMM 烧写 AM29LV160DB的问题硬件平台：深圳市英蓓特信息技术有限公司的Edukit-IV实验平台处理器： XSCALE PXA270 FLASH: AM29LV160DB 问题：今天修改了JFLASHMM源码，想让JFLASHMM支持AM29LV160DB的烧写，出现读ID错误 ...… 查看全部问答∨	如何让电机转快些一程序同时控制电机和流水灯，可是电机的转速不够快，调整延时和初值电机都不够快，希望大家指教，谢谢！程序如下#include <iom16v.h>#include <macros.h>#define uint unsigned int#define uchar unsigned char#pragma interrupt_handle ...… 查看全部问答∨
短距离数据传输用USB还是以太网如题，距离也都1-2米。主要还是考虑硬件以及软件编程的复杂程度，把eeprom的数据传输到PC，用哪种比较方便？… 查看全部问答∨	（求助）有谁用CC2500+cc2591做过无线通讯吗？新手做无线，难度太大了。。。有人做过吗？有人能给点建议吗？… 查看全部问答∨
【讨论】电赛的省测大部尘埃落定，你用了MSP430的单片机吗？比赛结束了，无论成绩如何，都到了应该简单总结的时候。在这次比赛中有多少同学使用了MSP430单片机作为主控？你觉得你在使用的过程中有哪些优势？又有那些劣势呢？欢迎大家开贴总结，会有意外的惊喜。… 查看全部问答∨	STM32接OLED问题最近想做做显示屏这块，淘宝上看到OLED现在正常是SPI/IIC控制，但引脚有个地方看不懂款式一：这种难道是SPI、IIC两种都可以吗？如果作为spi的驱动，D0->SCK,D1->MOSI,DC呢？难道是MISO？命令选择怎么用的用IIC的话，D0->SCL,D1->SD ...… 查看全部问答∨

小广播

电子电路中的反馈电路反馈电路在各种电子电路中都获得普遍的应用,反馈是将放大器输出信号(电压或电流)的一部分或全部,回授到放大器输入端与输入信号进行比较(相加或相减),并用比较所得的有效输入信号去控制输出,这就是放大器的反馈过程.凡是回授到放 ...… 查看全部问答∨	猎头职位：上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 猎头职位：上海、北京、南京+ 通信行业+RF、FPGA、HW相关职位~Hot~ 本人猎头，现阶段手上大量RF,FPGA,HW相关职位，职位多，人才少，特发此贴，希望广大牛人们自荐或推荐，有兴趣的TX请发简历到hunter.sweet@163.com（来信必复）。同时，欢迎咨询和 ...… 查看全部问答∨
基于MSP430颅内出血检测设备的研制 1 引言　　在中国有许多因创伤性颅脑损伤的患者急需抢救，但相当一部分颅内出血患者因未能及时诊断，延误了抢救和治疗时机．因而出现脑血肿或脑疝后压迫脑组织．使脑干和脑实质受到不可逆转的损伤。近红外颅内出血检测设备能在短时间内对颅内出血作 ...… 查看全部问答∨	PBL405 那位大侠给看一下整流桥PBL405的基本参数是？交流输入电压？输出等参数？ … 查看全部问答∨
JFLASHMM 烧写 AM29LV160DB的问题硬件平台：深圳市英蓓特信息技术有限公司的Edukit-IV实验平台处理器： XSCALE PXA270 FLASH: AM29LV160DB 问题：今天修改了JFLASHMM源码，想让JFLASHMM支持AM29LV160DB的烧写，出现读ID错误 ...… 查看全部问答∨	如何让电机转快些一程序同时控制电机和流水灯，可是电机的转速不够快，调整延时和初值电机都不够快，希望大家指教，谢谢！程序如下#include <iom16v.h>#include <macros.h>#define uint unsigned int#define uchar unsigned char#pragma interrupt_handle ...… 查看全部问答∨
短距离数据传输用USB还是以太网如题，距离也都1-2米。主要还是考虑硬件以及软件编程的复杂程度，把eeprom的数据传输到PC，用哪种比较方便？… 查看全部问答∨	（求助）有谁用CC2500+cc2591做过无线通讯吗？新手做无线，难度太大了。。。有人做过吗？有人能给点建议吗？… 查看全部问答∨
【讨论】电赛的省测大部尘埃落定，你用了MSP430的单片机吗？比赛结束了，无论成绩如何，都到了应该简单总结的时候。在这次比赛中有多少同学使用了MSP430单片机作为主控？你觉得你在使用的过程中有哪些优势？又有那些劣势呢？欢迎大家开贴总结，会有意外的惊喜。… 查看全部问答∨	STM32接OLED问题最近想做做显示屏这块，淘宝上看到OLED现在正常是SPI/IIC控制，但引脚有个地方看不懂款式一：这种难道是SPI、IIC两种都可以吗？如果作为spi的驱动，D0->SCK,D1->MOSI,DC呢？难道是MISO？命令选择怎么用的用IIC的话，D0->SCL,D1->SD ...… 查看全部问答∨

如何入门pcb画图入门 PCB（Printed Circuit Board，印刷电路板）画图，可以按照以下步骤进行：学习基础知识：了解 PCB 的基本概念、结构和制作工艺，包括 PCB 层次、材料、布线、焊接等。熟悉常见的 PCB 元件，如电阻、电容、晶体管、集成电路等，以及它们的符号和 ...… 查看全部问答∨	单片机如何自学入门作为电子领域的资深人士，你可以通过以下步骤自学入门单片机：选择合适的单片机: 根据你的项目需求和个人偏好选择一款常用的单片机。常见的选择包括AVR、PIC、STM32等系列。考虑到你的经验和背景，可以选择一款功能丰富、性能强大的单片机。学习基 ...… 查看全部问答∨
对于机器学习损失函数入门，请给一个学习大纲以下是一个适用于电子工程师的机器学习损失函数入门的学习大纲：1. 损失函数基础了解损失函数在机器学习中的作用和重要性理解损失函数是用来衡量模型预测结果与实际标签之间差异的函数2. 常见的损失函数学习均方误差（Mean Squared Error，MSE）损 ...… 查看全部问答∨	深度学习怎么入门啊你可能已经具备一定的数学、编程和工程知识，这将有助于你更快地入门深度学习。以下是一些步骤和资源，帮助你开始学习深度学习：掌握基础知识：确保你具备必要的数学基础，包括线性代数、微积分和概率论。了解基本的机器学习概念，如监督学习、无监 ...… 查看全部问答∨
我想fpga软核入门，应该怎么做呢？学习FPGA软核入门需要一些基本的步骤和知识。下面是一些建议：了解FPGA软核的概念：首先，了解什么是FPGA软核以及它的基本原理是非常重要的。FPGA软核是一种可以在FPGA芯片上实现的可重构处理器核心，可以通过编程来定义其功能和行为。选择合适的FP ...… 查看全部问答∨	如何单片机进阶当然，请问有什么我可以帮您的吗？… 查看全部问答∨
请问能否详细地讲解fpga cpu 原理呢？ FPGA（Field-Programmable Gate Array，现场可编程门阵列）和CPU（Central Processing Unit，中央处理器）是两种不同类型的计算设备，它们在设计、功能和应用领域上有着本质的区别。下面我将分别介绍FPGA和CPU的原理，并简要说明它们之间的不同。FP ...… 查看全部问答∨	对于神经网络预测入门，请给一个学习大纲以下是一个针对神经网络预测入门的学习大纲：基础知识：了解预测任务的基本概念和目标，包括时间序列预测、回归预测等。熟悉常用的预测指标，如均方误差（MSE）、均方根误差（RMSE）、平均绝对误差（MAE）等。数据准备：学习如何准备预测任务所需的 ...… 查看全部问答∨
请推荐一些神经网络的基本原理入门教学以下是一些适合入门神经网络基本原理的教学资源推荐：Coursera 上的《神经网络和深度学习》专项课程该课程由 deeplearning.ai 提供，由深度学习领域的专家 Andrew Ng 主讲。课程内容包括神经网络的基本原理、前向传播、反向传播等。适合初学者入门 ...… 查看全部问答∨	对于深度学习语言入门，请给一个学习大纲以下是一个深度学习语言入门的学习大纲：1. Python基础学习Python编程语言的基本语法和特性，包括变量、数据类型、流程控制和函数等。掌握Python常用的标准库和数据结构，如列表、字典、元组和集合等。2. NumPy库学习使用NumPy库进行数组操作和数学 ...… 查看全部问答∨

2020年11月17日 | 英伟达全新GPU A100问市，Ampere架构赋予惊人性能