历史上的今天

今天是:2024年11月15日(星期五)

2018年11月15日 | 如果摩尔定律不再适用,我们该如何前进

发布者:HeavenlyWhisper 来源: StarryHeavensAbove关键字:摩尔定律 手机看文章 扫描二维码
随时随地手机看文章

摩尔定律已死”这样的说法我们已经听到很多,不管这么说是不是严谨,摩尔定律的延续非常非常困难是不争的事实。更重要的问题是,在这个背景下,我们该怎么做?这个问题已经有很多讨论,我也有自己的一些思考。正好今天看到黄老板在SC18讲演中的这幅图,正好可以把我的一些想法串起来,不妨和大家分享一下。

 

image.png


在朋友圈写了下面一段话,可以作为一个摘要:

以前,在摩尔定理作用下,我们可以依赖半导体技术的发展“粗放经营”,很多优化的工作都停留在学术圈。现在失去了这个“红利”,我们必须“精耕细作”:找到合适的架构,合适的方法,合适的精度,进行全栈优化。而这些“细活”都需要更多的时间和精力,能否实现依赖于提高生产效率(productivity)的工具。


首先是找到合适的架构,这个在我的公众号文章里已经讨论的太多了。CPU,GPU,DSP,ASIP,ASIC,FPGA,CGRA等等,我们有各种选择,永远是trade-off。在之前摩尔定律可以给我们10x的性能提升的预期下,对于很多应用来说,不需进行太多权衡。现在,如果我们还想要更强的算力,则必须把目光放到其它选择上,更多的使用专用的架构,构成更高效的异构系统。我们已经看到很多这方面的讨论和各种创新(或者“复古”),就不多说了。

 

找到合适的方法是个有趣也更大的话题,多说几句。在HPC的背景下,这部分主要是在讲仿真和AI的结合。我们知道,HPC的很多典型应用都是大规模的数值仿真,比如天气建模和预测,分子动力学,天体运动等等。而这些工作,需要大量的运算资源,消耗大量时间。过去,随着半导体技术的进步,过一段时间我们就自然能有性能大幅提升的系统,可以运行越大越大的模型。但是,现在这个预期越来越难实现。那么,针对这些应用,是否可以找到更高效的硬件架构呢?如果不改进传统的算法,这条路也很困难。在这个背景的下,AI方法似乎又成了“救世主”。现在很多研究是在传统的数值仿真中使用机器学习的方法,或者把仿真和机器学习相结合。具体来说,可以先用传统的仿真方法来训练神经网络模型,然后使用这个神经网络模型的inference结果来代替数值计算,对特定问题的结果进行预测。训练这个神经网络虽然仍然需要大量运算,但inference的成本则非常低。另一方面,神经网络的运算可以很好的使用专用硬件来加速,这就更进一步提升了整体的效率。其实这个思路适用于HPC之外的领域。一般的说,当我们无法直接找到一个合适的硬件架构来加速特定算法的时候,我们该思考的是能否找到对硬件更友好的算法。我之前谈过5G的基带处理用AI方法实现的问题(AI芯片在5G中的机会),也可能有类似的收益。当然,无线通信基带处理已经是高度优化的系统,AI方法要击败传统方法难度要大得多。比如,在基带处理中一般都对比特精度做过非常细致的优化。这就引出下一个问题,选择合适的精度。

 

对于实现成本和运算效率来说,减少比特精度的收益是很大的(下图之前贴过)。


image.png

source: Graphcore



从目前的实践来看,AI算法和传统HPC算法相比,对精度的要求低得多。因此我们看到很多AI芯片主要强调在FP16或者INT8中的精度。可以说,对目前AI芯硬件效率的提升,低比特精度有很大贡献。在HPC领域,如果结合上面讨论的用神经网络模型替代传统算法的方法,这部分优化的空间也很大。再对比一下通信基带处理,我们通常为了能够减少一个比特而做大量的优化和验证。在一个接收机中,不同的算法模块采用不同的比特是很常见的。当然这种优化有一个前提,就是算法必须定型。在目前AI算法还在不断优化的过程当中,同时支持多种精度的硬件就是目前更为合理的选择。

 

下一个话题是全栈优化,我之前也讨论过。毕竟,如果可能,谁不想实现全栈优化呢?现在,这个话题被越来越多的提及,除了对计算效能的需求越来越高,通过单纯优化软件或者硬件都难以满足这个原因之外,另一个重要原因是,在特定领域,比如AI,确实有实现的可能。全栈优化的难度在于探索空间太大,我们不得不分而治之。而对AI来说,目前基于神经网络的方法有个很好的特征,就是可以用比较规则的硬件进行加速,大大缩小了硬件优化的空间。当然,即便是在特定领域,全栈优化也还是个难题,也许最终还是要靠AI来解决,但我们总算有信心往前趟趟路。

 

总得来说,上述这些方向大多还是老生常谈,在过去的几十年有各种各有的研究和实验。但很多相关的工作停留在了学术圈或者研究阶段,而没有大规模的应用。原因主要在下面几个方面:第一是在驱动力方面,或者没有足够的收益,不能提供支持商用的投入产出比;或者没有足够的竞争压力。第二是技术上确实很难实现,比如全栈优化的问题。还有一种情况,我们有一定的驱动力,也知道怎么去做,但就是没办法高效的去做。换句话说,即生产率(productivity)太低导致成本太高。如果阻碍我们前进的关键问题为此,那么最可能的结果是新工具或新的方法学的出现。各个AI Framework对ML/DL快速发展起到的关键作用就是很好的佐证。其实,黄老板在后面也着重讲了这个问题,赞扬了开源领域的各种工具,当然重点还是CUDA和RAPIDS。要应对AI领域给我们带来的各种新挑战,发明新工具或者改造老工具的需求将会非常旺盛。另一方面,不断强化的AI本身在工具中的应用也会越来越普遍,AutoML就是很好的例子。最终也许会真的实现AI设计AI,AI设计计算机。甚至,也许真的像阿西莫夫的科幻小说所描述的,星际旅行的飞船并不是由人类发明,而是由人类设计的AI(金头脑)所发明。

 

写到这里,发现题目起的有点大,上面讲的只是几个点而已。不过,如果我们仔细观察,这些点都是相互关联的,结合在一起又可能形成新的机会,这才是最有趣的地方。毕竟,现在是黄金时代嘛。

 


关键字:摩尔定律 引用地址:如果摩尔定律不再适用,我们该如何前进

上一篇:“芯动北京”中关村IC产业论坛再度来袭
下一篇:“芯”动,还要行动—中关村IC产业论坛,探寻创新发展之路

推荐阅读

据《印度快报》11月5日报道,在过去的九个月中,小米在印度已经出货100多万台小米电视,成为印度智能电视第一品牌。小米电视的海外成长似乎比国内市场还快。不过这只是中国彩电品牌出海战略的一小角。  逼着注意到,最近一个月关于“海外彩电”的消息至少包括:  1. TCL近日调高了全年销量目标,由之前的2560万台目标提升至2830万台,这个规模与全球...
汇编器提供一些伪指令伪指令并不直接转换成操作数而是用于调整存储器中程序的位置定义宏初始化存储器等全部伪指令在表4.2 中给出1 BYTE 保存字节到变量BYTE 伪指令保存存储的内容到SRAM 中为了能提供所要保存的位置BYTE 伪指令前应有标号该伪指令带一个表征被保存字节数的参数该伪指令仅用在数据段内见伪指令CSEG DSEG和ESEG 注意必须带一个参数字...
索尼最新发布的游戏机 PlayStation 5 遇到了一个Bug,该漏洞导致游戏和应用程序无法顺利下载。每当用户想要进行下载时,此下载故障就会反映“排队等待下载”提示或错误状态中。目前,唯一的临时解决方案是将主机重置为出厂设置。已购入主机的多个用户都遇到了故障,作为下载故障的后果,主机对于下载来说变得烦人,并且会卡机而暂时无法使用。对 PS5 ...
动脉网第一时间获悉,近日,心脏介入手术机器人公司梅奥心磁(Meio CadiNav Medical)完成了Pre-A+轮融资。本轮融资由证鸿基金领资,老股东舜安资本等跟投。融资所得将用于补充梅奥心磁自建GMP洁净厂房生产基地的建设,以及推进“提香”心脏电生理房颤手术机器人的临床实验。值得一提的是,梅奥心磁已完成今年第二笔融资,距离上一轮融资仅时隔三个月...

史海拾趣

问答坊 | AI 解惑

K-band Double-balanced Mixer Using GaAs HBT THz Schottky Dio

        We report on a K-band double-balanced mixer using Schottky diodes made with our baseline (Foundry) GaAs HBT technology. The GaAS HBT MBE structure which yields a transistor fmax of 50 GHz ...…

查看全部问答∨

异步电动机直接转矩控制分析与展望(zz)

一、引言 电动机调速是各行各业中电动机应用系统的必需环节。直流电动机因其磁链与转矩电流各自独立,不存在耦合关系,能够获得很好的调速范围和调速精度,静、动态特性均比较好而获得广泛应用。 交流(异步)电动机结构简单却因其磁链与电 ...…

查看全部问答∨

请大家推荐一款内置彩信模块的GPRS模块啊,TR800如何啊?

大家好,最近做一个GPRS彩信猫相关的课题,开始老板让用simcom的模块,说便宜,可是我要自己实现彩信协议,好晕啊。公司现在让我选择一款内置彩信模块的GPRS模块,这样我就可以不用自己实现彩信协议了,哪位大虾用过这方面应用给我推荐一款好吗?现 ...…

查看全部问答∨

HT1621 LCD液晶显示驱动芯片

大家介绍下这个芯片,再提供下“用AT89S51作为主控制器与 HT1621 组成显示系统的电路图!谢谢啊…

查看全部问答∨

使用max3232 双工时,收发出现干扰现象!望达人指点!!

具体现象是这样,当我从max3232向PC机发数据时,此时如果从上位机PC 发数据到max3232,那么刚才从max3232发送到PC的数据就会被干扰。     用示波器观察过了,确实有一个字节的数据失真了,后面的字节没错。而且捕捉到的这个失真的数据 ...…

查看全部问答∨

Code Composer Studio™ IDE v4 免费试用版主要特性与优势

下载您的 Code Composer Studio™ IDE v4 免费试用版,获得 MSP430、C2000、C5000、C6000、Stellaris Cortex-M3、Sitara、Davinci 以及 OMAP 处理器的无缝支持!尊敬的客户,德州仪器 (TI)最新 Code Composer Studio™ 集成开发环境 ...…

查看全部问答∨

4X4键盘矩阵代码分享

module key(   input         clk,   input         rst,   input   [3:0] row,            &nbs ...…

查看全部问答∨

STM指令不是一般的笨,

读个IO的值,要好几个指令才能完成. 而且,连位变量都没有.真的是超级难受啊.…

查看全部问答∨

LPC1114/LPC11U14和LPC1343对比学习(五)UART

终于把支持3种芯片的板子焊接完成了,累死我了,可以继续学习下面的内容了。。。 开发板贴:https://bbs.eeworld.com.cn/viewthread.php?tid=299669&page=1&extra=page%3D1   LPC1114/LPC1343串口特点:    16字节收发 ...…

查看全部问答∨

请教!!

为什么我在解压uCOSV252之后,在C:\\SOFTWARE\\uCOS-II\\TEST_EX1_x86L\\BC45\\SOURCE里面并没有出现所谓的*.ink文件,不知道为什么,请知道的前辈帮解……谢谢!!…

查看全部问答∨
小广播
最新半导体设计/制造文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 市场动态 半导体生产 材料技术 封装测试 工艺设备 光伏产业 平板显示 EDA与IP 电子制造 视频教程

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved