在加州山景城举办了 AI Hardware Summit 会议,这是目前唯一专门致力于开发用于神经网络和计算机视觉硬件加速器生态系统的活动。
会上,来自 AI 芯片初创企业、半导体公司、系统供应商/ OEM、数据中心、企业、金融服务、投资者和基金经理等 250 多位先进技术领导者们,为新兴的 AI 芯片市场构建了一幅全面的架构路线图。
本文作者 Brett Simpson 等人是市场研究机构 Arete Research 的高级分析师。在参加完本次会议后,他们将一些新的观察和所感写下来,形成了这份简短的小报告「AI Silicon: New Dawn for Compute」。从题目可以看出,作者非常看好 AI 芯片的前景。
以下是报告的中文译文:
人工智能硬件峰会的五大要点:
几乎所有使 AI 计算加速的都是 7nm 芯片,由台积电制造。另外,我们还看到了一系列新的高速接口芯片 (Serdes 56 / 112gbs)。
英伟达依旧是训练领域之王,我们将会看到其新款计算卡 Tesla T4(使用了全新的 12nm 制程工艺 图灵架构)的广泛使用。我们认为,它将在 2019 年继续占据主导地位。长远来看,我们对 AI 较少依赖于 CUDA 和 GPU 的状况感到担忧。
我们认为 Intel 的 7nm AI 芯片(由台积电代工)支持 112GBs Serdes 和高速 DRAM。明年,在 Cascade Lake 服务器中,DL Boost INT8 会协助提高深度学习推理性能。
所有的云计算服务商都在开发内部的芯片,加速计划是不公开的。这种垂直推进是对芯片制造商的一个主要威胁。
在五年的时间中,我们看到:新的模拟计算机(神经形态)的进步,纳米线对数字计算的部分挑战,硅光子代替了 SerDes(112GBs 以上),以及更高速的存储器对 AI 性能提升的助益。
未来十年,AI 芯片将不仅是半导体领域最有前途的增长领域之一,还可能扰乱传统的计算机市场。
专门针对 AI 开发的软件还有 99%没写出来。如今,只有不足1% 的云服务器为AI加速服务(今年的服务器总数为 5 百万台),企业服务器则是几乎零举动。训练和推理的工作量正以较低的基数倍增,但市场似乎一致认为,今天的加速硬件(GPUs,CPUs, FPGAs)已经远远满足不了市场的需求——在我们看来,我们需要实现吞吐量的巨大飞跃(100 倍),以扩大 AI 的规模,并让 AI 变得无处无在。
好消息是,即将迎来结构性的创新,但是其作用需要一段时间才能显现出来。
2019 年以后,我们将看到:新的流程技术(7nm),新的计算机功能结构(芯片上的神经网络),新的芯片连接(56/112GBs SerDes),新的内存方法(HBM3,SRAM on-chip 等)和新的包装技术,所有这些都能大规模提升性能。
芯片行业正在进行创新反思,因为芯片的发展不能过多依赖制造业的萎缩来取得进展。机会来了。我们会继续看到,对长期投资 AI 芯片的投资者而言,投资台积电和主要的 DRAM 制造商仍是最佳选择。
我们上周参加了人工智能硬件峰会,了解了很多 AI 芯片替代品的现状。
有一件事是清楚的:我们从未见过如此多的公司(无论大小)像今天这样、进军新的芯片市场,毫无疑问,未来几年将会是一个令人着迷的时期,我们一定能见证这个市场的整合过程。
继谷歌的 TPU 领先之后,每个云计算服务商都在做内部的 AI 芯片。问题在于,要想影响市场的情绪,这一切需要的时间有多长。
毕竟,谷歌的 TPU 芯片已经到了第三代(2016 年中期推出第一代 TPU),但仍然承载不了 Tensorflow(或其他框架)所有工作量。我们认为,其他云计算服务商将在 2020 年验证并量产他们的第一款 AI 芯片。
造新的 AI 芯片,有两种通用方法。
第一种方法是,在系统上进行创新,以更快的 I/O 和外部内存接口(英伟达、英特尔等)为重点来扩展性能。
第二种方法是,把所有的数据集中保留在芯片上(芯片上的神经网络)——包括大量的小核和芯片内存,以减少对外部 DRAM 的需求。第二种方法将在未来 6 个月内实现第一批 AI 芯片的商业化,但我们认为,7nm 工艺才是促使市场为其买单的优势(也就是 2020 年的增长)。
围绕人工智能的软件栈在快速发展,云计算服务商也推出了开源适配器,以支持在其框架中运行的各种芯片(例如 Tensorflow XLA、Facebook Glow)。随着新神经网络的成熟,每个人都会认同可编程性和灵活性的重要性。
这意味着,7nm 芯片潜在的目标是,16 位浮点运算的运算能力至少要达到 10TOPS。人们真正关注的是如何通过提高效率来提高性能,如通过支持稀疏数据结构、降低精度、使用 mini-batching、加快芯片互联速度(112GB Serdes)、使用更快的内存接口(远超 HBM2),以及新的多芯片先进封装。
英特尔:AI 领域的玩家
当人们普遍不再依赖通用 CPU 时,也不再十分信任英特尔计划在未来几年内为 AI 引入一些新的优化措施这件事。
英特尔去年 (2017 年) 的 AI 收入约为 10 亿美元,Xeon CPUs 也将继续在 AI 推理和 AI 训练方面发挥重要作用。
例如,英特尔在 Cascade Lake 的服务器架构中添加了大量新的指令,以提高其推理性能(声称在精度为 INT8 的情况下、性能提升了 11 倍)。我们预计,这些扩展将与 AMD EPYC2 规格区别开来。
我们还相信,英特尔的下一个 ASIC 芯片(将于 2019 年采样)将由台积电代工(7nm),将具有一些关键的专有接口,这将显著提高它的性能。虽然当下 GPU 以低速(PCIE-3)与 CPU 相连,但是我们预计,新的服务器将 PCIE-4(16GB),仍会是数据输入 GPU 的关键瓶颈。
相比之下,我们认为,英特尔将在其 Xeon CPU 和 7nm Nervana 芯片之间构建专有接口,速度可达 112GB。英特尔正计划推出一种新的高带宽内存接口(这对云服务提供商来说,是一个关键的关注点),并积极参与新的多芯片包装。AI 的加速会导致更多的 CPU 被停用,英特尔正寻求通过围绕 Xeon 构建外围解决方案来获取价值。
时间会证明这是否有效,但为了在 2020 年对抗英伟达,这个目标十分明确。
英伟达:标准制定者
英伟达的 GPU 目前仍然是 AI 计算领域的王者,他们有实际的收益(支持所有的框架,所有的云计算服务商,所有的 OEM),他们的新品将有显著的性能提升——我们认为,其 T4 将被广泛采用,其新的 DGX2 服务器将在今年售罄。目前没有什么引人注目的替代品可供选择,我们认为,英伟达将继续占据主导地位(至少到 2019 年),但有两个主要问题让我们怀疑,英伟达是否能长期维持其领导地位:
首先,我们认为,很明显的一点是,随着谷歌和 ONNX 等公司的努力,英伟达的软件护城河 (CUDA) 将变得不那么重要。
云计算服务商正积极提供开源插件,用于替代芯片解决方案,以支持 Tensorflow、Pytorch、CNTK、coff2 等框架,从而降低进入新的 AI 处理器的软件门槛。
其次,是英伟达训练和推理芯片的经济性——虽然它们可以为许多 AI 工作节省 CPU,但是销售卡的超高利润率与昂贵的内存捆绑在一起(V100 是每张卡 1 万美元,P4 可能是每张卡 2000 美元),这只会让云端玩家拥抱其他架构。
图 1: 微软关于计算选择强调了我们的观点,即需要快速发展 GPU。
来源:微软在人工智能硬件峰会上的 PPT
尽管如此,英伟达有巨大的资源来超越竞争对手 (尤其是初创企业),它致力于每年为 AI 推出一种新的架构,可能在 2019 年首次推出 7nm 解决方案。
V100 和 T4 在很大程度上都被视为英伟达在 AI 领域的第一颗转换芯片(不再只是通用 GPU),因为它们是第一个支持张量核心和较低推理精度的芯片(INT8)。
随着英伟达 7nm 芯片的推出,我们期待,其性能在 2019 年会有另一个大的飞跃——有很多大幅提升吞吐量和延迟以提升效率的方法,我们预期,其下一代芯片更像以 AI 为中心的 ASIC,而不是 GPU。
云端的消费者告诉我们,他们使用 V100 GPU 来进行训练的频率很低(低至 15%),因为他们用 GPU 只是为了训练单一的神经网络。他们希望英伟达能将 GPU 虚拟化——尽管对 AI 计算的需求永无止境的,但这可能会给英伟达的 GPU 增长带来压力。
此外,英伟达如今拥有芯片对芯片的快速接口(NVlink2),运行速度为 25Gbs(远远超过仅 8GB 的 PCIE-3 或 16GB 的 PCIE-4)。我们预计,到 2019 年底,英伟达将支持 56Gbs 甚至 112 GB 的服务器,因为有些替代方案可以提升这些规格。
我们认为,英伟达的下一代架构将在 2019 年的 7nm 芯片上出现(超过 Volta / Turing),这将大大决定它能够在多大程度上拉开市场差距。
AI 芯片的替代品——即将到来
随着谷歌 TPU 的推出,每个云计算服务商内部都有了做 AI 芯片的项目,我们认为,这将在未来 18 个月内得到验证。
有些人公开表达了自己的意图。微软甚至在峰会上设立了招聘平台,这就是它渴望建立团队的表现。但有关这些项目的状况,我们无从得知:云计算服务商没有公开他们造芯计划的任何细节,所以我们不知道他们的项目进展。
我们认为,第一代转换芯片将像谷歌两年前对 TPU 的判断一样,专注于推理。Google Brain 的报告指出了一个具有讽刺意味的事实:当芯片行业达到摩尔定律的极限之际,AI 计算却出现了指数级增长,因此,架构(和软件协同设计)将成为关键的推动因素。
谷歌不仅使用 TPU 来处理越来越多的工作量,还用 GPU 测试大量即将上市的新系统。
这 50 多家创业公司的工作都是为了将他们的平台商业化,我们预计在未来 12 个月内会有 6 家公司推出首款转换芯片,将于 2020 年推出第二款(7nm 芯片)。
即使一些人工智能初创企业2019 年的销售额就可能达到 1 亿美元,但我们认为,到 2020 年才会有人超越这个数字。有许多令人印象深刻的初创公司,但其中许多还没有流片,因此很难对其性能进行验证。
云计算服务商们希望了解新的 AI 芯片的系统性能,因此,他们帮助建立了一个新的基准测试标准,名为 MLPerf。
我们认为,这将是分析特定模型的训练时间 (如果不要求准确性) 的关键标准,也有助于与目前市场领军者英伟达的培训平台进行比较 (英伟达尚未加入 MLPerf)。
很明显的一点是,许多初创企业以前从未进入过主要的云数据中心,也从未在前沿制造过芯片。
此外,只有少数参与者之前与云有密切的关系、在以云计算芯片为关键任务构建一个工程团队方面有丰富的经验。
表格 1:MLPerf 将通过一系列数据集和模型限制 AI 芯片的训练时间
来源:MLPerf.com
云加速:巨大的市场机遇
以今天一台典型的云服务器配置为例(包括 2 个插座,10 核 Xeon E5 就是最受欢迎的销售平台之一),有大约 660 毫米的裸片大小来处理主 CPU 计算 (即两个 330 毫米的 CPU 芯片),主要由英特尔提供。但是,针对 AI 加速的服务器(比如英伟达 DGX-1)已经有多达 10 倍的硅芯片大小来处理计算加速,正如图 2 所示。
图 2:与大多数 Xeon 服务器相比,AI 加速训练服务器的芯片面积增加了大约 10 倍
来源:Arete Research. 基于 NVDA 的 DGX-1V 服务器的模具区域。
这个裸芯片大小与 CPU 裸芯片大小的比率只会增加,因为随着时间的推移,每 CPU 4 个加速卡会上升到 6 个和 8 个。
我们相信,谷歌正计划明年将 TPU 芯片数量增加两倍。在训练应用中,英伟达的芯片需求量会继续大幅增长,而且从 2020 年开始,一大批人工智能创业公司将崛起。
但是,鉴于人工智能服务器目前在市场上的渗透率很低 (今年购买的云服务器中,只有不到 1% 的服务器支持加速度),长远来看,台积电机遇很大。
如果我们假设这种渗透率上升到 100 万加速 AI 服务器(今年低于 5 万),并且裸芯片大小通过缩小(即每台 AI 服务器 6,560mm)保持不变,这将转化为大约每年 20 万晶圆,或 30 亿美元的代工收入(假设每片晶圆 15,000 美元,收益率 55%)。这就是为什么我们继续认为台积电将作为 AI 芯片的长期关键受益者之一。
长远来看,还有哪些新技术?
峰会期间还有许多其他新兴技术在 3 - 5 年的视野中看起来很有趣。
显然,人工智能的边缘计算正在智能手机中进行,我们坚信每部智能手机都将在未来 2 - 3 年内拥有专用的计算机视觉 AI 处理器(在相机周围)。
谷歌的 Edge TPU 和英伟达的 DLA 是早期可授权的例子,我们看到 ARM 现在提供专用的 AI 许可证解决方案,而 Qualcomm,华为海思和寒武纪以及联发科则提供一系列智能手机和物联网解决方案。
一系列具有增强 AI 规格的嵌入式 SOC 即将推出,适用于相机,机器人,汽车等。英伟达的 Xavier 就是一个例子。我们将在即将发布的报告中研究自动驾驶汽车的汽车路线图,其中,AI 加速将发挥核心作用。
从长远来看,尽管存在摩尔定律的挑战,我们仍可以看到正在开发的一些新技术,以扩展计算性能。
其中一个更令人印象深刻的演讲来自 Rain Neuromorphics 和 Mythic,他们从五年的时间角度,谈了谈模拟计算商业化,比如使用类似大脑突触那样的松散几何形状,解决功率限制。
此外,Ayar Labs 阐述了为什么他们在硅光子微型化方面的突破,将导致更快的芯片互连(超过 112GB Serdes)的解决方案。
随着 Exascale 计算机预计将在 3 - 4 年内出现在我们面前,我们认为,人工智能正在全面推动反思,以实现性能的指数增长。
必要的披露
整体行业风险:算法变化可能需要比预期更长的时间,ETH 价格可能上涨到足以抵消近期的回报阻碍和难度变化,并且可能出现一种新的 GPU 可挖掘的加密货币,从而推动 GPU 需求。
不断恶化的全球经济环境可能会影响半导体行业,迅速造成严重的供过于求,晶圆厂利用不足,平均售价下降或库存减少。在 09 年期间,半成品销售下降 10%(外存储)。所有部门的竞争都很激烈。
智能手机领域是一个充满活力的市场,有数十家厂商生产着需要复杂软硬件集成技能的产品。虽然所谓「旗舰」设备的市场空间受到区分「黑色平板」(即主要运行 Android OS 的标准触摸屏设备) 困难的限制,但是,很难预测哪一家厂商与哪种特定型号相关。
上一篇:研华发布首款基于“中国芯”ARM高性能处理器工业运算平台
下一篇:推动物联网商业化,Semtech发布设计合作伙伴计划
推荐阅读
史海拾趣
经过多年的发展,Crouzet已经成为全球知名的自动化产品供应商之一。公司在全球拥有20家工厂和5家研发中心,分布在欧洲、亚洲、北美洲等地区。同时,Crouzet还在全球17个国家设有销售网络,为全球客户提供优质的产品和服务。展望未来,Crouzet将继续秉承创新、卓越的理念,不断推动自动化技术的发展,为全球客户提供更加高效、可靠的自动化解决方案。
通过以上五个故事,我们可以看到Crouzet公司在电子行业发展的历程中,始终保持着对技术创新和市场需求的敏锐洞察,通过不断的产品创新和市场拓展,逐步发展成为全球知名的自动化产品供应商之一。
Amphenol Nexus Technologies深知,在电子行业中,合作与共赢是实现持续发展的重要途径。因此,公司积极与产业链上下游的合作伙伴建立紧密的合作关系,共同推动行业的发展。通过与供应商、客户以及同行业企业的合作,Amphenol Nexus Technologies不断提升自身的竞争力,实现了业务的快速增长和市场的持续扩张。
以上便是关于Amphenol Nexus公司在电子行业发展的五个故事。这些故事展示了公司在不同历史阶段的发展轨迹、领导层的智慧和决策、技术创新的努力以及合作共赢的理念。正是这些因素的共同作用,使得Amphenol Nexus Technologies能够在激烈的市场竞争中脱颖而出,成为电子连接器行业的佼佼者。
随着订单的不断增加,Clairex意识到必须提升生产能力以满足市场需求。于是,公司投入大量资金引进了先进的生产设备和技术,并对生产线进行了优化改造。同时,Clairex还建立了严格的质量控制体系,从原材料采购到产品出厂的每一个环节都进行严格把关。这些措施确保了Clairex产品的质量和稳定性,赢得了客户的信任和好评。
Bytes公司在追求经济效益的同时,也积极履行社会责任。公司注重环保和可持续发展,采用环保材料和工艺,降低产品对环境的影响。同时,公司还积极参与公益事业,捐赠资金和物资支持教育、扶贫等事业。这些举措使得Bytes公司赢得了社会的广泛认可和尊重。
请注意,这些故事框架仅供参考,您可以根据具体公司的实际情况和发展历程进行调整和补充。同时,由于我无法获取实时数据和信息,因此建议您在编写具体故事时参考相关公司的官方资料和市场分析报告。
随着Soneet在技术领域取得的成功,公司开始积极拓展市场。Soneet与多家知名电子设备制造商建立了战略合作关系,共同开发新产品。通过与这些合作伙伴的紧密合作,Soneet的产品得以迅速进入全球市场,进一步提升了公司的知名度和影响力。
在激烈的市场竞争中,Arima Lasers Corp始终保持着创新的步伐。公司不断投入研发资源,探索激光技术在各个领域的应用潜力。其中,一项关于激光通信技术的创新项目引起了业界的广泛关注。这项技术利用激光束进行高速数据传输,具有传输速率快、安全性高等优点。随着该技术的商业化应用,Arima Lasers Corp在通信领域取得了重大突破,引领了市场变革的潮流。
BI的定义 BI是Business Intelligence的英文缩写,中文解释为商务智能,用来帮助企业更好地利用数据提高决策质量的技术集合,是从大量的数据中钻取信息与知识的过程。简单讲就是业务、数据、数据价值应用的过程。用图解的方式可以理解为下图: ...… 查看全部问答∨ |
东芝、IR、欧派克、西门康、艾塞斯、富士、SanRex三社、三菱整流桥13049380352孙杰0755-82271081 深圳市欣飞科技有限公司东芝、IR、欧派克、西门康、艾塞斯、富士、SanRex三社、三菱整流桥13049380352孙杰0755-82271081 TOSHIBA 东芝整流桥 25G4B42 20A/800V/6U 50U6P43 50A/1600V/6U 20L6P45 20A/800V/6U 75G6P43 75A/600V/6U 30L6P45/4 ...… 查看全部问答∨ |
举例,在串口通信的时候,我在发送方,以SPACEPARITY校验的方式(也就是校验位强制为0)发送数据,在接收方以奇校验的方式接收数据,那么此时,因发送的数据不同,在接收方就有可能产生校验错误,例如,发送数字0,则在接收方回产生校验错误,发送 ...… 查看全部问答∨ |
DWORD CClockToolDlg::GetPrivateProfileString(LPCTSTR lpAppName, LPCTSTR lpKeyName, LPCTSTR lpDefault, LPTSTR lpReturnedString, DWORD nSize, LPCTSTR lpFileName) { CFile iniFile; PBYTE pFileBuf; CString szBuf; DWORD dwLeng ...… 查看全部问答∨ |
最近想做个IIC接口的键盘,在2410上,不知道该如何处理IIC驱动 特来请教各路高人,大概的意思就是: 通过键盘芯片,在板子上做几个按钮, 然后在WINCE做个应用程序, 当按板子上的按钮后,返回个键值, 把键值给显示出来. 这个样的驱动该怎么 ...… 查看全部问答∨ |
阿牛哥参加两场重量级论坛和展会去第十九届北京国际广播电影电视设备展览会BIRTV了解到广电数字产品一些新趋势,和大连和广州几个广电安防矩阵客户交换名片。去上海参加2010年中国区飞思卡尔技术论坛,聆听上游飞思卡尔和 ...… 查看全部问答∨ |
下面是初始化程序 SysCtlPeripheralEnable(SYSCTL_PERIPH_GPIOD); GPIOPinTypeGPIOInput(GPIO_PORTD_BASE,0XFF); SysCtlPeripheralEnable(SYSCTL_PERIPH_ADC); ADCReferenceSet(ADC_BASE,ADC_REF_INT); SysCtlADCSpeedSet ...… 查看全部问答∨ |
|
刚刚为了开发板的lcd是否是触屏的问题查了一下ti的官网 ,为了方便大家顺便贴出官方板的列表https://estore.ti.com/DK-LM3S9B96-LM3S9B96-Development-Kit-P1902.aspxStellaris DK-LM3S9B96 Development Kit provides a feature-rich development ...… 查看全部问答∨ |
引脚号 引脚名称 方向 功能说明 1 VSS - 模块的电源地 2 VDD - 模块的电源正端 3 V0 - LCD驱动电压输入端 4 RS(CS) H/L 并行的指令/数据选择信号;串行的片选信号 5 R/W(SID) H/L 并行的读写选择信号;串行的数据口 6 E(CLK) ...… 查看全部问答∨ |
- 不止射频:Qorvo® 解锁下一代移动设备的无限未来
- 物联网助力电动车充电设施走向未来
- Nordic Semiconductor推出nRF54L15、nRF54L10 和 nRF54L05 下一代无线 SoC
- 射频 FDA 如何使用射频采样 ADC 来增强测试系统
- 基于OPENCV的相机捕捉视频进行人脸检测--米尔NXP i.MX93开发板
- Nordic Semiconductor nRF54H20 超低功耗 SoC 荣获 2024 年世界电子成就奖 (WEAA)
- 英国测试装配神经系统的无人机:无需经常落地进行检查
- 超宽带的力量:重塑汽车、移动设备和工业物联网体验
- 意法半导体发布面向表计及资产跟踪应用的高适应易连接双无线IoT模块