英特尔全新芯片赋能AI训练性能_历史上今天-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

翻译自——nextplatform，Nicole Hemsoth

Carey Kloss在过去几年密切参与了人工智能硬件的崛起，其中最引人注目的是他构建了第一台Nervana计算引擎。英特尔(Intel)利用这台引擎将其开发成两种独立的产品:一种用于训练，另一种用于推理。

他告诉nextplatform，真正的诀窍是跟上具有平衡架构的培训模型的规模和复杂性不断增长的步伐。考虑到培训所需的计算几乎每季度翻一番，从性能、效率和可伸缩性的角度来看，这比以往任何时候都更重要。

Kloss和英特尔认为，他们终于用Spring Crest深度学习加速器(或者更简单地说，英特尔Nervana NNP-T)找到了平衡的法则。这个名字可能不像“Volta”这样富有诗意，但我们从它目前的状态来看，它很有竞争力，并且在性能/效率和数据移动潜力方面填补了一些空白。

英特尔/Nervana的硬件团队已经采取了一种切实可行的方法，与一些超大规模的公司合作构建一种平衡的芯片，考虑到Facebook是其中的佼佼者，这家社交巨头计划让英伟达的GPU在培训方面拥有更强的竞争力，假设这是一个推论。在我们今年5月举行的下一次人工智能平台活动上，Facebook基础设施主管Vijay Rao指出，他们期待着尝试任何能够在培训和推理方面具备规模优势的架构。

最后，在Hot Chips上，我们看到了更多的关于这个架构的信息，包括一些关于自定义网络Kloss的深入了解，Kloss在收购前帮助最初的Nervana计算引擎构建了这个网络。这个架构给我们留下深刻印象的是，它是为可伸缩性而设计的。虽然确实可以对GPU进行伸缩，但对于大型培训集群来说，按比例移动数据一直是一个棘手的问题。

Nervana/Intel的优势在于，就是从最开始设计培训架构时就只考虑到工作量，尤其是在大多数培训模式不再适合最大芯片的情况下。这意味着专注于向外扩展是有道理的，除了强大的数学单元之外，还需要一些创造性的内存、SerDes和其他HBM技巧。

对于几乎所有的模型，大多数时间都花在乘法/累加(矩阵数学或卷积)上，这意味着需要大量的计算(GPU擅长的东西)，但是大量的读取意味着可以反复使用一块数据，理想情况下从HBM读取一次并使用并行乘法器多次。这是一个很标准的思考训练问题的方法。Kloss说，当他们深入研究工作负载时，乘数、SRAM和最快的HBM是关键，但是平衡起来要困难得多。“需要有足够的SRAM来满足乘数、足够的高速SerDes芯片和HBM，每个都有相同的限制，给定相同的HBM规格。因此，这就是平衡内存、启动内存和关闭内存、网络和计算的诀窍。”

这个平面图，显示了4 HBM2和64通道SerDes与中心计算(24张量处理器/TPCs)、SRAM、PCIe Gen 4 x 16EP和控制块之间的平衡。芯片上共有60mb的分布式内存，全部采用2.5D封装。

其中一个很酷的功能，也是大多数地方都没有注意到的创新，是基于台积电晶圆片上基板(CoWoS)技术。这是一个相当大的die，但考虑到人工智能的工作负载，尺寸为680mm。但是，这与中介层（interposer）没有逻辑关系，它是被动的，在给定设计目标的情况下，这是一个明智的权衡。

下面是我们对TPC[1]的一个真实理解。我们的设计目标是尽可能减少模具面积，包括控制路径逻辑，以及OCP/OAM规格尺寸是固定的。“我们不想把模具区浪费在我们不需要的东西上，”Kloss解释说。我们的指令集很简单;矩阵乘法，线性代数，卷积。我们没有寄存器，一切都是2D、3D或4D的张量。软件中定义了很多东西，包括在打开或关闭die模型时编写相同程序的能力。你可以把它想象成一个等级层次;可以使用相同的指令集在一个组中的两个集群之间移动数据，或者在组之间移动数据，甚至在网络中的晶圆。最终的目的是我们想让软件管理通信变得更简单。”

这将消耗150-200瓦的电量，但这是一个基于ResNet 50部分的推测结果，正如我们所知，这在现实世界中并不具有代表性。我们要到明年才能看到英特尔MLperf的结果，但是Kloss说到那时他们会有几个基准测试，包括自然语言处理和其他工作负载。

红色块是复合数学管道，在这里，矩阵乘法的前运算和后运算可以用乘数数组中的部分乘积来完成，而不需要另一个内存端口来将部分乘积输入红色区域。这样就可以在任何周期上获得输出(预激活和后激活)，并且它与保存在张量中的两个输出张量完全管道化。

到目前为止，我们所看到的一切都回避了一个重要的问题。除了在硅上的一些明显差异外，它的数学单元与Nvidia Volta GPU或TPU 3的张量有什么不同呢?毕竟，乘数不就是乘数吗?

答案可能比看上去要微妙一些。这涉及到权衡取舍、die area和数据移动。

“像这样的乘法器阵列或其他竞争对手，你可以用乘法器得到更密集的数据。一旦你有了密集的乘法器阵列，你就可以用更少的模具面积来做这些乘法器，你可以用你的模具面积来做更多的信息分配或其他事情，”Kloss说。下一个决定是量化(矩阵本身的量化相乘，而不是权重或数据)。英特尔选择32×32，是因为当他们观察通过神经网络运行的尺寸时，它似乎不那么浪费，尤其是在边界条件下。

“如果你想在一个32×32的数组上做一个33×33的乘法，你将会浪费大量的时间在无意义的乘法上，”Kloss解释道。“所以，如果你有一个更大的乘法器阵列(如TPU中的128×128或256×256)，它会通过巨大的矩阵乘法进行运算，但每次遇到边界条件，它就会浪费一些乘数——它们不会被使用。”他的团队分析了更大的死区权衡 (64 64×128×128)但因为有特定数量的TPC和定义内存，使得他们无法得到另一个行或列的TPC面积密度的储蓄。

“节省下来的钱不足以让我们再建一排或一列，而且我们受到模具尺寸的限制——这是回到了Lake Crest第一代神经网络。供应商能构建的量是我们的上限。所以32×32的消元过程是正确的权衡。今天来看，这似乎是一个很好的权衡，一方面不浪费很多乘法器，另一方面拥有足够密集的乘法器阵列。

请记住，在开始使用TPU时，谷歌团队严格使用256×256，但是在第二个版本中，随着工作负载的变化和更多实际模式的出现，谷歌团队减少到128×128。每个芯片上有两个这样的数组v2和v3，每个芯片上有四个这样的数组。另一边的Volta GPU采用了不同的路径，使用4x4x4矩阵(3D而不是2D)。在这一点上进行比较仍然困难，这意味着2020年MLperf的培训结果将更加有趣。

为了在更小的进程节点上获得类似的性能，而SRAM要少得多，它们就必须有更大的die区域。我们可以增加更多的SRAM和更快的网络，因为我们正在用一个更简单的指令集。在这一点上，更有效地利用模具面积将提供直接的动力和性能效益。”

顺便提一下，关于英特尔如何谈论事物的一个快速澄清点:一切都是一个张量。他们不讨论权重，那些只是被认为是另一个“张量”，但是，正如Kloss解释的那样，“我们确实在SRAM中保留了权重，如果它们足够小的话。”我们可以完全控制软件。如果足够小，它们可以存储在本地内存中，但是如果它们更大，我们可以将它们从HBM双缓存到蓝色区域，然后再返回。乘法器阵列只需要从内存库中获取任何权重或非权重的数据，然后读入、乘法器阵列，然后再把它们吐出来。”

我们期望Nervana和Intel能够提供一些定制的功能，其中包括一个复杂的微控制器，它允许定制指令处理工作，而不会使宝贵的模具区域复杂化。可以从HBM中提取几个子例程来运行集群上的任何东西，生成驱动SRAM和乘数的底层指令。这对于像ROI这样的事情很方便。在这种情况下，不需要特殊的逻辑，只需要一个子例程就可以创建一条新的指令。这也有助于许多批次的动态形状和大小的可用性。

NNP-T同时存在于PCIe和夹层因子中。“我们喜欢OAM规范;因为它更容易冷却和逃离这么多高速SerDes的载体，”Kloss说到。

“你可以看到PCIe卡和两个白色的连接器，然后是芯片背面的四个QQSFP连接器:我们必须做所有这些来避开PCIe卡上的所有SerDes，但是对于夹层卡，它都在那里，可以安装在任何OCP或OAM夹层底盘上。这将打开一个完全连接的载波卡或混合网格立方体载波卡的组合(我们更喜欢这样做，因为这意味着在机箱内部少了一个链接)。他说，英特尔不只是想在一个机箱中扩展这些，而是从一个机箱到另一个机箱，从一个机箱到另一个机箱，因此更多的SerDes从机箱的后部出来是很重要的。此外，我们的专有链接速度非常快，延迟也很低，所以在机箱外添加额外的跳转不会影响性能。在其他人可能更喜欢完全连接的地方，我们认为最好让更多的SerDes从盒子里出来，使用混合网格立方体。”

延伸阅读

一款基准测量工具的雏形——MLPerf

由各大领先的科技公司和大学组成的团队发布了一款基准测量工具的雏形——MLPerf，其目的是测量各种AI框架和芯片中不同机器学习任务的训练速度和推理时间。

MLPerf的诞生是小部分公司自我组织进行产品对比的结果。在很长一段时间内，人们都在讨论是否有必要设立一个有意义的AI基准。支持者认为，标准的缺失限制了AI的应用。

MLPerf声明它的基础目标是：

用公平、有帮助的测量方法加速机器学习的发展
对各竞争系统进行公平对比，以鼓励机器学习的发展
保证让所有人都能参与基准评比
既服务于商业群体，也服务于研究领域
基准要可复制，确保结果的可靠

英特尔收购Nervana后的第一张王牌Lake Crest，号称比GPU速度快10倍，年底测试

人工智能硬件平台争夺的序幕才刚刚拉开。随着时间的推移，人们很快发现相比GPU和CPU，FPGA具有的低能耗、高性能以及可编程等特性，十分适合感知计算，而且可以做到快速部署。2015年，英特尔便动用167亿美元收购了当时全球第二大FPGA厂商Altera，也是有史以来最大的一笔收购案。

也是在那一年，凭借拥有号称最快的深度学习框架 neon和首个结合机器智能软硬件云服务的Nervana Cloud，深度学习初创公司 Nervana 被 VentureBeat 评为值得关注的五家深度学习初创公司，次年8月，暗中观察许久的英特尔豪掷4亿美元将仅有48名员工的Nervana收入了囊中。

在整合了 Nervana 的技术之后，英特尔AIPG 计划推出 Crest 家族系列产品线。首先亮相的是一款叫做 Lake Crest 的芯片，它是专为训练DNN而深度定制的ASIC解决方案，预计今年下半年测试，2018年上市。据 Naveen Rao 曾经对媒体介绍，相对于目前最快的GPU， Lake Crest的加速性能是它的10倍。

[1] 在半导体研究和制程上，包括质量判定时，TPC是 Thermo Pressure Cook 中文简称高温高压测试，是半导体质量关键点。

关键字：英特尔 AI 引用地址：英特尔全新芯片赋能AI训练性能

上一篇：凌华科技嵌入式显卡助力提升嵌入式应用的性能
下一篇：中国首款车规级AI芯片，地平线“征程二代”正式量产

伴随着一场大雨，炎热的伏天即将结束，华为Nova 3的热度也似这天气益阳逐渐开始退烧。近半个月来，中端机市场百花齐放，各家厂商纷纷推出了性价比感人的产品，这让华为在市场抢占上处于相当被动的境地。但进入9月，华为每年一部的麦芒新机将会站出来带领华为继续领跑中端机市场。今年的麦芒新机定名为麦芒7，在本月初已经于工信部官网正式入网，下...

2019年08月29日 | 靠人不如靠己，5万亿韩元脱日计划启动

日本宣布将韩国从贸易白名单移出的新政令正式生效！但韩国政府没有“坐以待毙”，随即宣布了旨在应对日本限贸的“原材料·零部件·装备领域研发扶持计划”…… 8月28日，日本政府宣布，将韩国排除在适用贸易优惠白名单国以外的政令正式生效。不久后，据联社报道，韩国政府在同一天公布了旨在应对日本限贸的“原材料·零部件·装备领域研发扶持计划”。报...

2020年08月29日 | 精密传动装置研发企业绿的谐波成功登陆科创板

8月28日，苏州绿的谐波传动科技股份有限 (以下简称绿的谐波) 成功登陆科创板，股票代码688017。本次公开发行股票数量3,010.42万股，全部为公开发行的新股，发行后的总股本为120,416,700股。绿的谐波发行价35.06元，开盘涨85.4%，开盘价报65元/股。据悉，绿的谐波本次计划募集资金5.46亿元，主要用于年产50万台精密项目及研发升级建设项目。绿的谐...

2021年08月29日 | 锂材料价格暴涨还未见顶动力电池企业将会何去何从

不管是磷酸铁锂电池再次压倒三元锂电池，还是三元锂电池占据主导，最核心的锂材料价格一直在飞涨。正负极材料、电解液、隔膜和集流体是锂电池最为关键的几种原材料，最为关键的是正极材料，包括了碳酸锂、氢氧化锂等。据相关机构统计，截止到8月24日，电池级氢氧化锂价格为12.75万元/吨，本月涨幅已达27%；电池级碳酸锂价格为11.3万元/吨，本月涨幅已达24....

史海拾趣

微芯(CMOSIC)公司的发展小趣事

随着全球化的加速发展，微芯生物也积极开展国际合作与交流。他们与国际知名医药企业、科研机构以及高校建立了紧密的合作关系，共同开展新药研发和技术创新。通过国际合作与交流，微芯生物不仅吸收了国际先进的研发理念和技术经验，还为公司的发展带来了更广阔的市场空间和合作机会。

Curtis Industries公司的发展小趣事

Curtis Industries公司在发展的同时，也积极承担社会责任。公司关注环保问题，采用环保材料和节能技术生产产品，减少对环境的影响。此外，公司还积极参与公益活动，支持教育事业和社会福利事业的发展。这些举措不仅提升了公司的社会形象，也为公司的可持续发展注入了新的动力。

灿科盟(Ckmtw)公司的发展小趣事

作为一家专注于连接器产品的企业，灿科盟始终注重技术创新和产品升级。近年来，公司在LED连接器部件生产领域取得了重要突破，成功打破了国外技术垄断。这一技术突破不仅提升了公司的市场竞争力，也为客户提供了更加优质的产品和服务。同时，公司还加大了对新能源、智能家居等新兴领域的研究和开发力度，以应对市场变化和挑战。

思瑞浦微电子科技(3PEAK INCORPORATED)公司的发展小趣事

灿科盟电子实业有限公司成立于2003年8月，注册资金100万。公司创始人凭借在电子行业多年的积累，决定创立自有品牌“CKMTW”，专注于连接器产品的研发与生产。在初创阶段，公司面临着资金紧张、市场竞争激烈等挑战，但凭借坚定的信念和不断的技术创新，逐渐在市场中站稳脚跟。

ALPS公司的发展小趣事

面对国内外市场变化及成本增长的压力，灿科盟在2012年决定在江西省九江市设立新的生产基地。这一基地主要负责产品的生产组装，有效降低了生产成本，提高了交货速度。同时，公司也加强了与当地供应商的合作，确保原材料的稳定供应。

Elpac公司的发展小趣事

Elpac公司深知人才是企业发展的核心动力。因此，公司高度重视人才培养和团队建设。公司建立了完善的人才培训体系，为员工提供多样化的培训和发展机会。同时，公司还鼓励员工积极参与各种创新活动和竞赛，激发员工的创新精神和创造力。这种积极向上的企业文化吸引了大量优秀人才加入Elpac公司，为公司的持续发展提供了有力保障。

问答坊 | AI 解惑

XILNX杯全国高校创新大赛部分学生参赛作品(3) WFIC团队:P :P… 查看全部问答∨	STM （cortex--M3）内核选型 STM32FXXX（cortex--M3）内核！ [ 本帖最后由 daicheng 于 2010-3-22 13:45 编辑 ]… 查看全部问答∨
bootrom中的中断如何调试？在MPC8247的单板上调试BOOTROM，现在感觉不能产生中断，如何调试中断的驱动？… 查看全部问答∨	请教大家一个关于linux打印机驱动的问题请问：在嵌入式linux中，打印机驱动有没有可能做到支持几乎所有型号的打印机，如果可行，请给点建议，如果不行，也请给点原因，谢谢了，小弟刚开始接触这行，老师要求调查下这个问题：）… 查看全部问答∨
时钟芯片DS1302 时钟芯片DS1302… 查看全部问答∨	突然想起个问题，在IAR4.42A下一共用了多少内存在哪能看到？ … 查看全部问答∨
【MSP430共享】在MSP430F1611上实现周期图谱分析及校正基于 F F T的周期图谱分析方法可以有效地从含有噪声的信号中提取有用信息；但是，由于低功耗单片机的速度和内存有限，所以无法实时地完成 F F T运算。为此，我们采用汇编语言编制 F F T程序。采用定点运算来减少运算量和存储量 ...… 查看全部问答∨	求一个只允许直流信号通过阻止任何交流通过的用放大器实现的电路！之前在做AGC的时候遇到这样的问题，把检波后的直流信号通过，交流信号想把他滤除，当时简单的考虑用电感滤掉，结果果断不行，交流分量始终是存在的。后来用有源的opa低通滤波电路，结果也不行，虽然低频。但是始终有交流分量，后来考虑设计一运放的 ...… 查看全部问答∨
1000重金求大神帮忙pic的毕设是个boost为主电路的充电电路，需要采集boost电路中电压模拟量输入单片机(pic单片机) 单片机输出PWM波输入的电压模拟量控制PWM的占空比具体加 Q742986432 详谈 … 查看全部问答∨	几份小资料，分享给大家 \0\0\0eeworldpostqq… 查看全部问答∨

小广播

对于机器学习前沿入门，请给一个学习大纲以下是一个适用于电子领域资深人士的机器学习零基础初学者入门的学习大纲：理论基础：了解机器学习的基本概念和原理，包括监督学习、无监督学习和强化学习等。理解机器学习的分类和应用场景，如分类、回归、聚类、降维等。数学基础：复习基础数学知 ...… 查看全部问答∨	请问能否详细地讲解fpga系统原理呢？ FPGA（Field-Programmable Gate Array，现场可编程门阵列）是一种可以编程的集成电路，它允许用户根据需要配置逻辑电路，而不需要等待定制的芯片制造。FPGA广泛应用于通信、医疗、军事、航空航天、工业控制等领域。以下是FPGA系统原理的详细讲解： ...… 查看全部问答∨
我想机器学习简单入门，应该怎么做呢？要简单入门机器学习，可以按照以下步骤进行：学习基本概念：了解机器学习的基本概念，包括监督学习、无监督学习和强化学习。了解这些概念的基本原理即可。掌握编程技能：学习一门简单易用的编程语言，如Python。Python有丰富的机器学习库和工具，而 ...… 查看全部问答∨	对于深度强化学习入门，请给一个学习大纲以下是深度强化学习入门的学习大纲：第一阶段：基础知识强化学习基础：了解强化学习的基本概念和术语，如状态、动作、奖励、回报等。熟悉强化学习的基本框架和问题描述，如马尔科夫决策过程（MDP）。深度学习基础：理解神经网络的基本结构和工作原 ...… 查看全部问答∨
我想单片机技术应用入门，应该怎么做呢？入门单片机技术应用需要一些基础知识和实践经验，以下是一些建议帮助你开始学习：学习基础知识：掌握电子学基础知识，包括电路原理、电子元件（如电阻、电容、二极管等）的基本概念。了解数字逻辑和数字电路的基础知识，理解逻辑门、集成电路等的工 ...… 查看全部问答∨	想学单片机怎么入门学习单片机是电子领域的一个重要部分，以下是入门单片机的一些步骤和建议：了解基本概念：首先，了解单片机的基本概念和工作原理是非常重要的。单片机是一种集成了中央处理器（CPU）、存储器（RAM、ROM）、输入输出接口（IO）、定时器（Timer）等功 ...… 查看全部问答∨
我想机器学习猫狗大战入门，应该怎么做呢？想要参与猫狗大战这样的机器学习项目，你可以按照以下步骤入门：了解项目背景：首先，了解猫狗大战项目的背景和目标。这是一个经典的图像分类问题，你需要根据提供的猫和狗的图像来训练一个模型，使其能够准确地区分猫和狗。学习图像分类基础知识 ...… 查看全部问答∨	fpga初学者用什么板子对于 FPGA 初学者，选择合适的开发板可以帮助你快速入门 FPGA 的基本原理和开发流程。以下是几款适合初学者的 FPGA 开发板推荐：Xilinx Basys 3：Basys 3 是 Xilinx 推出的低成本 FPGA 开发板，搭载了 Artix-7 系列 FPGA 芯片。它具有丰富的外设和 ...… 查看全部问答∨
fpga怎样才算入门在电子领域，成为 FPGA 入门者意味着你理解了 FPGA 的基本概念、能够使用硬件描述语言（如 Verilog 或 VHDL）进行简单的设计，并且能够使用 FPGA 开发工具进行项目的开发和验证。具体来说，以下几点可以帮助你确定自己是否已经入门了：理论基础：你 ...… 查看全部问答∨	如何做一个深度学习的入门介绍当你准备探索深度学习时，这里有一个简要的入门介绍：1. 深度学习的概念深度学习是机器学习的一个分支，其核心思想是通过模拟人脑神经网络的结构和功能来实现对数据的学习和理解。它能够处理大规模的复杂数据，并从中提取高层次的抽象特征，被广泛 ...… 查看全部问答∨

2019年08月29日 | 英特尔全新芯片赋能AI训练性能