历史上的今天

今天是:2024年08月25日(星期日)

正在发生

2021年08月25日 | 特斯拉Dojo芯片深度揭秘

发布者:代码律动 来源: 佐思产研 关键字:特斯拉  dojo  深度学习 手机看文章 扫描二维码
随时随地手机看文章

特斯拉在AI Day推出Dojo深度学习训练用芯片,更准确地说应该是Dojo深度学习训练系统,让特斯拉粉丝兴奋不已,马斯克大神地位进一步加强。不过大部分人冷眼旁观,特斯拉在第二天的股票市场上弱于大势,微涨1.01%,而第二天的纳斯达克指数涨幅为1.19%,特斯拉粉丝认为应该被拉下神坛的英伟达却大涨5.14%,报208.16,创上市以来最高值,至少投资界没人看好特斯拉的训练芯片。

 

特斯拉Dojo深度学习训练用首秀,实际应该是台积电InFO_SoW (System-on-Wafer)首秀,台积电于2020年6月底在IEEE上发表论文https://ieeexplore.ieee.org/document/9159219,特斯拉是第二个使用此设计方案的人,第一个是Cerebras,不过Cerebras的产品9月份才会正式推出,所以特斯拉算首秀。

 

 

图片来源:互联网

 

目前最强的训练用处理器是英伟达的A100。性能如下表。

 

图片来源:互联网

 

特斯拉Dojo性能如下

 

图片来源:互联网

 

TF32是Tensor Float 32的缩写,在深度学习中,其实我们对浮点数的表示范围比较看重,而有效数字不是那么重要。在这个前提下,TF直接就把 FP32 中 23 个分数值截短为 10 bits,而指数位仍为 8 bits,总长度为 19 (=1 + 8 +10) bits。借助 NVIDIA 开发的深度学习库,用户可以无感地使用 TF32 而无需任何额外的操作。底层库会自动地将 FP32 转换为 TF32 进行计算,并将结果再转换为 FP32。

 

Brain Float 16 格式是 Google 在 TensorFlow 中引入的新数据类型,其可以认为是直接将 FP32 的前16位截取获得的。至于设计思路和上面的 TF32 是一样的,都是深度学习对表示范围敏感而对精度不敏感。但是 Google 更加暴力,直接将分数值砍到只剩下 7 bits。

 

训练领域对精度要求更高,因此FP64必不可少,特别在医疗(模拟心脏)和气象领域(预测大西洋飓风)以及航天领域,汽车领域主要是图像识别精度要求不高,FP32足够,甚至近期有人提出FP8就够了。FP64精度下的性能参数,特斯拉很聪明地不提供,也可能特斯拉的Dojo就不支持FP64精度。英伟达A100是专业训练芯片,提供最全的精度模式,包括FP32和TF32。局部性能弱于特斯拉Dojo,但差距很小,在最常用的BF16精度下,英伟达是比特斯拉强很多的。通常认为推理的精度至少要INT8,而特斯拉觉得训练精度CFP8就够了。英伟达显然不会支持CFP8。

 

A100有542亿个晶体管,特斯拉Dojo是500亿个,英伟达A100裸晶面积是826平方毫米,特斯拉是645平方毫米,两者都是7纳米,不过英伟达A100要比特斯拉早上1年多,加上英伟达的GPU安培架构在晶体管密度上天生弱势(多说几句,特斯拉晶圆利用效率最高的是2017年的Volta架构有95%,安培架构只有88%,2012年的开普勒和2016年的帕斯卡都有93%),因此,特斯拉明显占优,这也意味着特斯拉的成本更低。不过功耗方面,英伟达明显占优,PCIe版只有250瓦。

 

图片来源:互联网

 

实际这是台积电左右互搏,英伟达使用的是Flip-Chip MCM技术,AMD的CPU也是如此,英伟达自己叫Multi-Instance GPU (MIG) ,A100是最多允许7个,也就是8个芯片级联。特斯拉是InFO_SoW (System-on-Wafer)。InFO_SoW具备压倒性优势,理论性能是Flip-Chip MCM两倍以上。且级联数量可达几十乃至上百个,台积电原型达到49个,特斯拉的Dojo是25个。台积电的核心优势不是3纳米或2纳米的先进工艺,而是芯片的3D系统级封装,单凭这一项,足以秒杀三星,即便三星量产0.5纳米,没有先进封装的帮助,所有高性能芯片还是95%在台积电下单。

 

对AI来说,存储器对指令和数据的搬运(写入和读出)的时间是运算单元运算所消耗时间的几十倍乃至几百倍。换句话说,很多AI芯片所描述的实际算力会因为存储器的因素降低50%甚至90%。即内存墙问题。提高AI处理器最有效的方法是减小运算单元与存储器之间的物理距离。这也是这15年来高性能芯片封装技术发展的主要目标,这不仅可以提高算力,还能降低功耗减少发热。

 

众所周知,处理器跟内存之间的距离越短,则处理器的运算延迟越低。而这也是当代的高效能处理器普遍内建三级缓存的原因--缓存的容量越大,则处理器需要从内存搬移数据的机率越低,整个系统的效能与功耗也能因而获得明显改善。 图上的线宽5微米是RDL(再分布层) 1-3层情况下的结果,如果RDL4-6层,线宽会增加到15/20微米。

 

图片来源:互联网

 

特斯拉Dojo核心层,特斯拉为更好系统整合,没有采用正圆形,而是做了一点修改,类似于八边形。

 

图片来源:互联网

 

SoW是整体冷盘,不像以前的方案,只有一条线,散热效率大大提升,此外也可以用水冷散热。

 

SoW通过了服务器领域温度测试标准。图片来源:互联网

 

图片来源:互联网

 

优点多多,成本和良率也很好,可以使用成熟的InFO工艺,KGD芯片。

 

图片来源:互联网

 

不加任何散热的情况,12英寸晶圆大小最高支持到7千瓦,特斯拉外加散热器,提高到了15000瓦。

 

图片来源:互联网

 

英伟达的A100,使用2代HBM内存,存储带宽只有1.6TB/s。特斯拉则大手笔不计成本,全部采用片上SRAM,带宽达到惊人的4TB/s。 特斯拉的垂直模式也比业界常用的平面模式要强很多,功率密度大大提升。 说回芯片本身的设计,特斯拉和Cerebras如出一辙,Cerebras比特斯拉还要疯狂,CerebrasWSE2单芯片有2.6万亿晶体管,是特斯拉的50倍,芯片面积达46225平方毫米,拥有85万内核,这么大芯片的良率会非常低,估计不到10%,估计单芯片就要50万美元甚至100万美元以上。当然芯片也是台积电制造的,利润的大部分都归台积电。

 

图片来源:互联网

 

Cerebras的稀疏矩阵数据流,汽车图像识别中很大一步矩阵值都是零,大面积的空洞即天空,因此属于标准的稀疏矩阵,而医疗、气象领域则多稠密矩阵。算力方面特斯拉300个D1芯片,即12个Dojo单元算力是108PFlops,每个单元是9PFlops,功率是180千瓦,每瓦PFlops算力是0.6。Cerebras是每个单元(即CS-1服务器)含15个WSE2,算力是23PFlops,功率20千瓦(CS-1是水冷设计),每瓦PFlops算力是1.15。不过价格Cerebras可能是特斯拉的10倍甚至更多。

 

图片来源:互联网

 

特斯拉的训练节点矩阵架构,跟Cerebras很近似。

 

特斯拉的垂直运算系统非常新颖,算是亮点。核心技术还是台积电掌握,芯片设计本身平淡无奇,没有什么亮点。


关键字:特斯拉  dojo  深度学习 引用地址:特斯拉Dojo芯片深度揭秘

上一篇:RT-Thread商业支持车规级多核安全处理器
下一篇:域控制器引多方“混战”,智能座舱及自动驾驶域成竞争焦点

推荐阅读

索尼公司昨天宣布其最新的Aibo机器狗正在抵达美国。此次发行的新Aibo机器狗比以前发行的机器狗更时尚。售前服务从9月份开始,10月14日会在美国曼哈顿的索尼广场向美国公众展出。该产品使用先进的相机和传感器技术来感知房间环境,因此它可以自由活动并轻松的找到充电的地方自行充电。所以公司称,该产品的的独特识别设备可以识别100多个面孔,并成功记住与...
日本首相安倍晋三曾把2015年称作是机器人元年。原因在于东京奥运会申办成功后,日本在2015年开始启动机器人产业巨额投资。考虑到奥运会期间东京的外国游客将达到3300万人,可能会引发导游、警备、运输等人手不足,众多大学、企业都在为此研发相关机器人。对日本政府而言,机器人产业成了振兴经济的引擎。 在中国市场,机器人产业同样在迎来热潮。和日本...
1、 SYSCLK时钟源有三个来源:HSI RC、HSE OSC、PLL2、 MCO[2:0]可以提供4源不同的时钟同步信号,PA83、 GPIO口貌似有两个反向串联的二极管用作钳位二极管。4、 ICode总线,DCode总线、系统总线、DMA总线、总线矩阵、AHB/APB桥5、在使用一个外设之前,必须设置寄存器RCC_AHBENR来打开该外设的时钟6、 STM32复位有三种:系统复位、上电复位、备份...
1.按键控制舵机桨为了再次领悟舵机的运用,我们使用按键控制舵机桨在我们想要的位置上停留。K8负责控制舵机桨往一个方向不停旋转,K16则控制相反方向旋转。按键模式为支持连按。然后数码管显示高电平持续的时间,如果数码管显示5,则高电平在20ms周期里持续的时间为0.5ms,如果显示的是20,那就是持续2ms的高电平时间。#include <reg52.h> #include <fun...

史海拾趣

问答坊 | AI 解惑

请问哪位了解键盘扫描的IC?

请问哪位了解键盘扫描的IC?想要了解一些IC的型号。 像ZLG7290,但是它的封装有些大。 不知道大家有没有相关的IC推荐?…

查看全部问答∨

跟我学模拟电路

这是一本入门经典教材…

查看全部问答∨

PADS2007 系列教程

[ 本帖最后由 静若幽兰 于 2010-5-15 11:50 编辑 ]…

查看全部问答∨

***奇怪现象,IPCP协商后发IP包无应答。****

我用PC连接手机拨号上移动的GPRS,自己发PPP帧,但是IPCP过程完成后,发TCP连接建立第一包服务器就无应答了,怎么回事啊? 下面为发包过程: 1、[发送] 我的LCP_Request 7E FF 7D 23 C0 21 7D 21 7D 21 7D 20 7D 2E 7D 22 7D 26 7D 20 7D 20 7D ...…

查看全部问答∨

VxWorks中的select问题(谁有使用select来收发Tcp或Udp数据)

while(true){     assert(errno==0);//这里取错误号等于0     int ret=select(nfds+1,&readFs,NULL,NULL,&timeOut);     if( ret>0 ){         assert(errno==0x3d0002);//这里必然 ...…

查看全部问答∨

请问通过超级终端发送AT命令发短信的问题

请问一下,我用W880I在UDP模式下发短信(不支持TEXT模式),输入了AT+CMGS之后,在提示符下输入了类似下面的信息: at+cmgs=21 > 089168XXXXXXXXXXXX11000D91683118405057F000000006C8329BFD0E01  X部分为我的手机号码+F,经过两两对换的 ...…

查看全部问答∨

PCI9054

谁能介绍以下PCI9054的情况!它是不是有自己的上层软件的接口函数什么的?如何进行VC++的总线编程?谢谢!…

查看全部问答∨

vhdl语言的时钟

library ieee;use ieee.std_logic_1164.all;use ieee.std_logic_unsigned.all;  --库和程序包--实体entity sz is    port    (    clk ,enb,key,key1,key2,clr:in std_logic ;  --输入端口的定义&nbs ...…

查看全部问答∨

【Altera SoC体验之旅】+ 初识ARM DS-5

          一直在从事硬件和FPGA的开发,嵌入式一直是个软肋。虽然手头有几块嵌入式的板子,虽然经常下决心要把嵌入式学会,但种种原因,对嵌入式还是有心无力。趁周末有点空,抽了点时间看了下 ARM DS-5。   ...…

查看全部问答∨

CC2530路由节点长短地址获取问题。求助

终端节点可以很容易的获取自身和父节点的长短地址,但是我的协调器和路由器都是在Collector里面定义的,唯一的差别就是在烧写之前选择定义为协调器或是路由器。 我想着是不是可以用#ifdef的方式,在接收到命令的时候判断本节点是路由节点或者协调 ...…

查看全部问答∨
小广播
最新汽车电子文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved