特斯拉Dojo芯片深度揭秘_历史上今天-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

特斯拉在AI Day推出Dojo深度学习训练用芯片，更准确地说应该是Dojo深度学习训练系统，让特斯拉粉丝兴奋不已，马斯克大神地位进一步加强。不过大部分人冷眼旁观，特斯拉在第二天的股票市场上弱于大势，微涨1.01%，而第二天的纳斯达克指数涨幅为1.19%，特斯拉粉丝认为应该被拉下神坛的英伟达却大涨5.14%，报208.16，创上市以来最高值，至少投资界没人看好特斯拉的训练芯片。

特斯拉Dojo深度学习训练用首秀，实际应该是台积电InFO_SoW (System-on-Wafer)首秀，台积电于2020年6月底在IEEE上发表论文https://ieeexplore.ieee.org/document/9159219，特斯拉是第二个使用此设计方案的人，第一个是Cerebras，不过Cerebras的产品9月份才会正式推出，所以特斯拉算首秀。

图片来源：互联网

目前最强的训练用处理器是英伟达的A100。性能如下表。

图片来源：互联网

特斯拉Dojo性能如下

图片来源：互联网

TF32是Tensor Float 32的缩写，在深度学习中，其实我们对浮点数的表示范围比较看重，而有效数字不是那么重要。在这个前提下，TF直接就把 FP32 中 23 个分数值截短为 10 bits，而指数位仍为 8 bits，总长度为 19 (=1 + 8 +10) bits。借助 NVIDIA 开发的深度学习库，用户可以无感地使用 TF32 而无需任何额外的操作。底层库会自动地将 FP32 转换为 TF32 进行计算，并将结果再转换为 FP32。

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新数据类型，其可以认为是直接将 FP32 的前16位截取获得的。至于设计思路和上面的 TF32 是一样的，都是深度学习对表示范围敏感而对精度不敏感。但是 Google 更加暴力，直接将分数值砍到只剩下 7 bits。

训练领域对精度要求更高，因此FP64必不可少，特别在医疗（模拟心脏）和气象领域（预测大西洋飓风）以及航天领域，汽车领域主要是图像识别精度要求不高，FP32足够，甚至近期有人提出FP8就够了。FP64精度下的性能参数，特斯拉很聪明地不提供，也可能特斯拉的Dojo就不支持FP64精度。英伟达A100是专业训练芯片，提供最全的精度模式，包括FP32和TF32。局部性能弱于特斯拉Dojo，但差距很小，在最常用的BF16精度下，英伟达是比特斯拉强很多的。通常认为推理的精度至少要INT8，而特斯拉觉得训练精度CFP8就够了。英伟达显然不会支持CFP8。

A100有542亿个晶体管，特斯拉Dojo是500亿个，英伟达A100裸晶面积是826平方毫米，特斯拉是645平方毫米，两者都是7纳米，不过英伟达A100要比特斯拉早上1年多，加上英伟达的GPU安培架构在晶体管密度上天生弱势（多说几句，特斯拉晶圆利用效率最高的是2017年的Volta架构有95%，安培架构只有88%，2012年的开普勒和2016年的帕斯卡都有93%），因此，特斯拉明显占优，这也意味着特斯拉的成本更低。不过功耗方面，英伟达明显占优，PCIe版只有250瓦。

图片来源：互联网

实际这是台积电左右互搏，英伟达使用的是Flip-Chip MCM技术，AMD的CPU也是如此，英伟达自己叫Multi-Instance GPU (MIG) ，A100是最多允许7个，也就是8个芯片级联。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具备压倒性优势，理论性能是Flip-Chip MCM两倍以上。且级联数量可达几十乃至上百个，台积电原型达到49个，特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺，而是芯片的3D系统级封装，单凭这一项，足以秒杀三星，即便三星量产0.5纳米，没有先进封装的帮助，所有高性能芯片还是95%在台积电下单。

对AI来说，存储器对指令和数据的搬运（写入和读出）的时间是运算单元运算所消耗时间的几十倍乃至几百倍。换句话说，很多AI芯片所描述的实际算力会因为存储器的因素降低50%甚至90%。即内存墙问题。提高AI处理器最有效的方法是减小运算单元与存储器之间的物理距离。这也是这15年来高性能芯片封装技术发展的主要目标，这不仅可以提高算力，还能降低功耗减少发热。

众所周知，处理器跟内存之间的距离越短，则处理器的运算延迟越低。而这也是当代的高效能处理器普遍内建三级缓存的原因--缓存的容量越大，则处理器需要从内存搬移数据的机率越低，整个系统的效能与功耗也能因而获得明显改善。图上的线宽5微米是RDL（再分布层） 1-3层情况下的结果，如果RDL4-6层，线宽会增加到15/20微米。

图片来源：互联网

特斯拉Dojo核心层，特斯拉为更好系统整合，没有采用正圆形，而是做了一点修改，类似于八边形。

图片来源：互联网

SoW是整体冷盘，不像以前的方案，只有一条线，散热效率大大提升，此外也可以用水冷散热。

SoW通过了服务器领域温度测试标准。图片来源：互联网

图片来源：互联网

优点多多，成本和良率也很好，可以使用成熟的InFO工艺，KGD芯片。

图片来源：互联网

不加任何散热的情况，12英寸晶圆大小最高支持到7千瓦，特斯拉外加散热器，提高到了15000瓦。

图片来源：互联网

英伟达的A100，使用2代HBM内存，存储带宽只有1.6TB/s。特斯拉则大手笔不计成本，全部采用片上SRAM，带宽达到惊人的4TB/s。特斯拉的垂直模式也比业界常用的平面模式要强很多，功率密度大大提升。说回芯片本身的设计，特斯拉和Cerebras如出一辙，Cerebras比特斯拉还要疯狂，CerebrasWSE2单芯片有2.6万亿晶体管，是特斯拉的50倍，芯片面积达46225平方毫米，拥有85万内核，这么大芯片的良率会非常低，估计不到10%，估计单芯片就要50万美元甚至100万美元以上。当然芯片也是台积电制造的，利润的大部分都归台积电。

图片来源：互联网

Cerebras的稀疏矩阵数据流，汽车图像识别中很大一步矩阵值都是零，大面积的空洞即天空，因此属于标准的稀疏矩阵，而医疗、气象领域则多稠密矩阵。算力方面特斯拉300个D1芯片，即12个Dojo单元算力是108PFlops，每个单元是9PFlops，功率是180千瓦，每瓦PFlops算力是0.6。Cerebras是每个单元（即CS-1服务器）含15个WSE2，算力是23PFlops，功率20千瓦（CS-1是水冷设计），每瓦PFlops算力是1.15。不过价格Cerebras可能是特斯拉的10倍甚至更多。

图片来源：互联网

特斯拉的训练节点矩阵架构，跟Cerebras很近似。

特斯拉的垂直运算系统非常新颖，算是亮点。核心技术还是台积电掌握，芯片设计本身平淡无奇，没有什么亮点。

关键字：特斯拉 dojo 深度学习引用地址：特斯拉Dojo芯片深度揭秘

上一篇：RT-Thread商业支持车规级多核安全处理器
下一篇：域控制器引多方“混战”，智能座舱及自动驾驶域成竞争焦点

推荐阅读

2018年08月25日 | 索尼公司新品机器狗Aibo：独特智能，可与人互动

索尼公司昨天宣布其最新的Aibo机器狗正在抵达美国。此次发行的新Aibo机器狗比以前发行的机器狗更时尚。售前服务从9月份开始，10月14日会在美国曼哈顿的索尼广场向美国公众展出。该产品使用先进的相机和传感器技术来感知房间环境，因此它可以自由活动并轻松的找到充电的地方自行充电。所以公司称，该产品的的独特识别设备可以识别100多个面孔，并成功记住与...

2019年08月25日 | 机器人是产业互联网和数字经济拼图的重要部分

日本首相安倍晋三曾把2015年称作是机器人元年。原因在于东京奥运会申办成功后，日本在2015年开始启动机器人产业巨额投资。考虑到奥运会期间东京的外国游客将达到3300万人，可能会引发导游、警备、运输等人手不足，众多大学、企业都在为此研发相关机器人。对日本政府而言，机器人产业成了振兴经济的引擎。在中国市场，机器人产业同样在迎来热潮。和日本...

2020年08月25日 | SYSCLK时钟源三个来源：HSI RC、HSE OSC、PLL

1、 SYSCLK时钟源有三个来源：HSI RC、HSE OSC、PLL2、 MCO[2：0]可以提供4源不同的时钟同步信号,PA83、 GPIO口貌似有两个反向串联的二极管用作钳位二极管。4、 ICode总线，DCode总线、系统总线、DMA总线、总线矩阵、AHB/APB桥5、在使用一个外设之前，必须设置寄存器RCC_AHBENR来打开该外设的时钟6、 STM32复位有三种：系统复位、上电复位、备份...

2021年08月25日 | 51单片机-舵机与按键

1.按键控制舵机桨为了再次领悟舵机的运用，我们使用按键控制舵机桨在我们想要的位置上停留。K8负责控制舵机桨往一个方向不停旋转，K16则控制相反方向旋转。按键模式为支持连按。然后数码管显示高电平持续的时间，如果数码管显示5，则高电平在20ms周期里持续的时间为0.5ms，如果显示的是20，那就是持续2ms的高电平时间。#include <reg52.h> #include <fun...

史海拾趣

品赞(G-Switch)公司的发展小趣事

采用成熟的技术和元器件，具有较高的可靠性和稳定性。

弘凯光电(BRIGHTEK)公司的发展小趣事

2021年，弘凯光电在江苏南通投资建设了集成智慧光源项目，总投资额高达10亿元。这一项目的建成，不仅大幅提升了公司的产能和效率，更为汽车照明、智能家居、3C电子等LED高端应用领域提供了高品质的产品。项目的成功投产，标志着弘凯光电在光电半导体领域的技术实力和市场地位得到了进一步提升。

蜂鸟无线公司的发展小趣事

根据电动机的功率、转速范围等要求，选择合适的PWM生成集成电路，如555定时器、微控制器等。

ADI Electronics Inc公司的发展小趣事

ADI在发展过程中始终坚持创新，不断推出新产品和新技术。例如，在数字化转型的浪潮中，ADI积极拥抱变革，推出了一系列针对物联网、人工智能等新兴领域的解决方案。这些创新举措不仅满足了客户的需求，也进一步巩固了ADI在电子行业的领先地位。

台湾富致(FUZETEC)公司的发展小趣事

自1983年Futaba的VFD产品被福特汽车公司采用后，其在美国三大汽车厂的市场占有率迅速达到100%。这一成就不仅证明了Futaba VFD产品在汽车行业的卓越性能和广泛应用，还推动了其在全球汽车市场上的快速扩张。VFD的抗震性能、良好的温差适应性以及高可靠性，使其在汽车仪表盘和抬头显示器等关键部件中扮演了重要角色。随着新能源汽车的兴起，Futaba的VFD技术也进一步适应市场需求，为新能源汽车提供了更加先进的显示解决方案。

DLG Hanbit公司的发展小趣事

DLG Hanbit公司成立于20世纪90年代初，当时正值电子行业的快速发展时期。公司创始人李先生是一位资深的电子工程师，他看到了半导体行业的巨大潜力，并决定成立一家专注于半导体设计和制造的公司。初创时期，公司面临着资金紧张、技术落后等重重困难，但李先生和团队坚持不懈，通过引进先进技术、加大研发投入，成功开发出了一款具有竞争力的半导体产品，为公司的发展奠定了基础。

问答坊 | AI 解惑

请问哪位了解键盘扫描的IC？请问哪位了解键盘扫描的IC？想要了解一些IC的型号。像ZLG7290，但是它的封装有些大。不知道大家有没有相关的IC推荐？… 查看全部问答∨	跟我学模拟电路这是一本入门经典教材… 查看全部问答∨
PADS2007 系列教程 [ 本帖最后由静若幽兰于 2010-5-15 11:50 编辑 ]… 查看全部问答∨	*奇怪现象，IPCP协商后发IP包无应答。** 我用PC连接手机拨号上移动的GPRS，自己发PPP帧，但是IPCP过程完成后，发TCP连接建立第一包服务器就无应答了，怎么回事啊？下面为发包过程： 1、[发送] 我的LCP_Request 7E FF 7D 23 C0 21 7D 21 7D 21 7D 20 7D 2E 7D 22 7D 26 7D 20 7D 20 7D ...… 查看全部问答∨
VxWorks中的select问题（谁有使用select来收发Tcp或Udp数据） while(true){ assert(errno==0);//这里取错误号等于0 int ret=select(nfds+1,&readFs,NULL,NULL,&timeOut); if( ret>0 ){ assert(errno==0x3d0002);//这里必然 ...… 查看全部问答∨	请问通过超级终端发送AT命令发短信的问题请问一下,我用W880I在UDP模式下发短信(不支持TEXT模式),输入了AT+CMGS之后,在提示符下输入了类似下面的信息: at+cmgs=21 > 089168XXXXXXXXXXXX11000D91683118405057F000000006C8329BFD0E01 X部分为我的手机号码+F,经过两两对换的 ...… 查看全部问答∨
PCI9054 谁能介绍以下PCI9054的情况！它是不是有自己的上层软件的接口函数什么的？如何进行VC++的总线编程？谢谢！… 查看全部问答∨	vhdl语言的时钟 library ieee;use ieee.std_logic_1164.all;use ieee.std_logic_unsigned.all; --库和程序包--实体entity sz is port ( clk ,enb,key,key1,key2,clr:in std_logic ; --输入端口的定义&nbs ...… 查看全部问答∨
【Altera SoC体验之旅】+ 初识ARM DS-5 一直在从事硬件和FPGA的开发，嵌入式一直是个软肋。虽然手头有几块嵌入式的板子，虽然经常下决心要把嵌入式学会，但种种原因，对嵌入式还是有心无力。趁周末有点空，抽了点时间看了下 ARM DS-5。 ...… 查看全部问答∨	CC2530路由节点长短地址获取问题。求助终端节点可以很容易的获取自身和父节点的长短地址，但是我的协调器和路由器都是在Collector里面定义的，唯一的差别就是在烧写之前选择定义为协调器或是路由器。我想着是不是可以用#ifdef的方式，在接收到命令的时候判断本节点是路由节点或者协调 ...… 查看全部问答∨

小广播

我想pic单片机简单入门，应该怎么做呢？要简单入门 PIC 单片机编程，你可以按照以下步骤进行：了解 PIC 单片机：了解 PIC 单片机的基本原理、结构和功能。PIC（Peripheral Interface Controller）单片机是微控制器系列的一种，由 Microchip 公司生产。了解 PIC 单片机的不同型号和系列， ...… 查看全部问答∨	对于深度学习绘图入门，请给一个学习大纲很好的电子资料，总结很详细，有参考价值，谢谢分享 … 查看全部问答∨
请推荐一些深度学习教学入门当然，以下是一些深度学习入门教学资源的推荐：Deep Learning Specialization by Andrew Ng (Coursera): 这是由吴恩达（Andrew Ng）教授在Coursera上提供的一系列课程，涵盖了深度学习的基础知识、神经网络、卷积神经网络、循环神经网络等内容。这 ...… 查看全部问答∨	请问能否详细地讲解fpga点阵原理呢？ FPGA（Field-Programmable Gate Array，现场可编程门阵列）是一种可编程的数字逻辑设备，它允许用户根据自己的需求来配置硬件逻辑。FPGA广泛应用于数字信号处理、通信、图像处理、嵌入式系统等领域。点阵，通常指的是由许多小点组成的阵列，这里可 ...… 查看全部问答∨
我想单片机迅速入门，应该怎么做呢？要迅速入门单片机，你可以按照以下步骤进行：选择适合的单片机平台：鉴于你想要快速入门，选择一个易于上手、拥有丰富资源和社区支持的单片机平台非常重要。常见的选择包括Arduino、Raspberry Pi Pico、ESP32等。学习基本概念：了解单片机的基本概 ...… 查看全部问答∨	对于pcb绘画入门，请给一个学习大纲以下是一个 PCB 绘画入门的学习大纲：第一阶段：基础知识和准备工作理解 PCB（Printed Circuit Board）的基本概念：学习 PCB 是什么以及其在电子领域中的作用。熟悉 PCB 绘画的工具和材料：了解绘制 PCB 所需的工具和材料，如铜板、化学药剂、打孔 ...… 查看全部问答∨
请问能否详细地讲解fpga键盘扫描原理呢？ FPGA键盘扫描主要涉及矩阵键盘的原理和按键消抖处理。矩阵键盘通过行和列的排列，减少I/O端口的使用，实现多个按键的布局。在FPGA中，行信号通常作为FPGA的输出，列信号作为输入。当没有按键被按下时，所有列信号由于上拉电阻的作用呈现高电平；当 ...… 查看全部问答∨	对于深度学习项目入门，请给一个学习大纲以下是深度学习项目入门的学习大纲：基础知识：确保对深度学习的基本概念和原理有一定的了解，包括神经网络结构、前向传播、反向传播等。选择项目：选择一个适合初学者的深度学习项目，例如图像分类、目标检测、文本生成等。确定项目的目标和范围， ...… 查看全部问答∨
对于单片机实战入门，请给一个学习大纲当涉及到单片机实战项目时，一个综合的学习大纲应该包括理论知识的学习、实践项目的设计与实施以及技能的提升和拓展。以下是一个适用于单片机实战入门的学习大纲：1. 理论知识学习掌握单片机的基本原理和结构，包括CPU、存储器、外设等。理解单片机 ...… 查看全部问答∨	我想step fpga 快速入门，应该怎么做呢？对于想快速入门STEP FPGA的电子工程师，以下步骤可能有所帮助：了解FPGA基础知识：在学习STEP FPGA之前，确保你对FPGA的基本概念有所了解。这包括FPGA的结构、工作原理、编程方式等。选择合适的学习资源：在互联网上可以找到大量的FPGA学习资源， ...… 查看全部问答∨

2021年08月25日 | 特斯拉Dojo芯片深度揭秘