什么是DNN？它对AI发展意味着什么_历史上今天-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

为了让AI加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车中，TFLOP已经成为许多所谓大脑芯片的关键指针，然而，有专家认为这种野蛮处理方式并不可持续……

为了让人工智能(AI)加速器在最短延迟内达到最佳精准度，特别是在自动驾驶车(AV)中，TFLOP(兆次浮点运算)已经成为许多所谓大脑芯片的关键指针。这场竞赛的选手包括Nvidia的Xavier、Mobileye的EyeQ5、特斯拉(Tesla)的全自动驾驶(FSD)计算机芯片，以及NXP-Kalray芯片。

然而，有专家认为这种野蛮处理方式并不可持续。在EE Times的一次独家专访中，DeepScale执行长Forrest Iandola提出其不可持续的理由，是因为AI硬件设计师所持有的许多常见假设已经过时。随着AI应用日益增多，AI供货商从中积累更多的经验，这导致不同的AI任务开始需求不同的技术方法。如果事实的确如此，AI使用者购买AI技术的方式将会改变，供货商也必将做出回应。

20191008NT31P1

DeepScale执行长Forrest Iandola

Iandola表示，就拿神经网络架构搜寻(NAS)为例，其快速发展不仅加快优化深度神经网络(DNN)的搜寻过程，并降低这一过程的成本。他相信有一种方法可以“在目标任务和目标运算平台上建立最低延迟、最高精准度的DNN，”而不是依赖于更大的芯片来处理所有的AI任务。

Iandola设想未来AI芯片或传感器系统(如计算机视觉、雷达或光达)供货商不仅提供硬件，而且还会提供自己的高速、高效的DNN——为应用而设计的DNN架构。任何供货商都会为不同的运算平台匹配各自所需的DNN，如果事实真是如此，那AI竞赛中的所有赌注都将失效。

需要明确的是，目前无论是芯片公司还是传感器供货商都没有提出上述前景。甚至很少有人在特定硬件上运作有针对性AI任务的可能性。

Iandola及其DeepScale团队最近设计了一系列DNN模型，称为“SqueezeNAS”。在最近的一篇报告中，他们声称，当在目标平台上搜寻延迟时，SqueezeNAS“可以建立更快、更准确的模型”。这篇报告推翻了AI小区先前对NAS、乘积累加(MAC)运算和将ImageNet精确度应用于目标任务时所做的一些假设。

DeepScale于2015年由Iandola和Kurt Keutzer教授共同创立，是一家位于加州山景城的新创公司，致力于开发“微型DNN”。两位联合创始人曾在加州大学柏克莱大学分校共事，DeepScale因其快速高效的DNN研究而在科学界备受推崇。

手工设计(Manual designs)

要想真正理解机器学习在计算机视觉方面的最新进展的意义，需要了解其发展历史。

还记得AlexNet网络结构模型在2012年赢得ImageNet影像分类竞赛吗？这为研究人员打开了竞争的大门，让他们专注于ImageNet研究，并寻找能够在计算机视觉任务上达到最高精准度的DNN，以此开展竞争。

20191008NT31P2

ImageNet分类错误统计。(数据源：ResearchGate)

通常，这些计算机视觉研究人员依靠专家工程师，他们会手工设计快速且高精准度的DNN架构。

从2012年到2016年，他们提高了计算机视觉的准确性，但都是透过大幅增加执行DNN所需资源来实现这一目标。Iandola解释，例如，赢得2014年ImageNet比赛冠军的VGGNet，其使用的运算量是AlexNet的10倍，参数是AlexNet的2倍。

到2016年，学术研究界发现利用增加DNN的资源需求来提高准确性“不可持续”。SqueezeNet便是研究人员寻找的众多替代方案之一，由Iandola及其同事在2016年发表，它展示出在微小预算(低于5MB)参数下ImageNet的“合理的准确性”。

Squeezenet引发了两个重大变化。相对于SqueezeNet和其他早期运算而言，MobileNetV1能够大幅度减少MAC的数量，Shufflenetv1是为行动端CPU实现低延迟而优化的DNN。

利用机器学习改善机器学习

如前所述，所有这些先进DNN都是透过手工设计和调整神经网络架构开发而成。由于手工流程需要专业的工程师大量的除错，这很快就成为一个成本太高、耗时太久的提议。

因而基于机器学习，实现人工神经网络设计自动化的理念，NAS应运而生。NAS是一种搜寻最佳神经网络架构的算法，并改变了AI格局。Iandola称，“到2018年，NAS已经开始构建能够以较低延迟运行的DNN，并且比以前手工设计的DNN产生更高的准确性。”

强化学习(Reinforcement Learning)

随后，计算机视觉界开始使用基于机器学习的强化方法——强化学习。换句话说，“机器学习得到回馈来改善机器学习，”Iandola解释。在基于强化学习的NAS下，未经训练的强化学习获得建议，指定层数和参数来训练DNN架构。一旦对DNN进行训练，训练运作的结果将作为回馈，从而推动强化学习执行更多DNN来展开训练。

经证明，基于强化学习的NAS是有效的。Google MnasNet就是一个很好的例子，它在ImageNet延迟和准确性方面都优于ShuffleNet。但它也有一个关键的弱点：成本太高。基于强化学习的搜寻通常需要数千个GPU天(GPU day)，以训练数百乃至数千个不同的DNN，才能生成理想的设计。“Google负担得起，”Iandola表示，但大多数其他公司负担不起。

现实地说，一个基于强化学习的NAS要训练一千个DNN，每个DNN通常需要一个GPU天。考虑到目前亚马逊(Amazon)云端服务平台的价格，Iandola估计，一个使用基于强化学习的NAS搜寻所花费的云端运算时间可能耗资高达7万美元。

超级网络(Supernetwork)

在这种情况下，去年底出现了一种新的NAS类型，称为基于“超级网络”的搜寻。它的典型代表包括FBNet(Facebook柏克莱网络)和SqueezNet。

20191008NT31P3

搜寻时间减少100倍。(数据源：DeepScale)

Iandola解释：“超级网络采用一步到位的方法，而不是培训1,000个独立的DNN。”例如，一个DNN有20个模块，每个模块有13个选项。若为每个模块选择一个最喜欢的选项，“你正在以10个DNN训练运作花费为代价，一次性训练一个汇集了千兆种DNN设计的DNN，”Iandola解释。

结果显示，基于超级网络的NAS可以在10个GPU天的搜寻时间内建立DNN，其延迟和准确性优于MnasNet。“这让搜寻成本从7万多美元减少到大约700美元的亚马逊云端服务GPU时间，”Iandola说。

“10个GPU天”的搜寻时间相当于在一台如衣柜般大小的8 GPU机器上花费一天的时间，”Iandola解释。

20191008NT31P4

基于强化学习与基于超级网络的NAS比较。(数据源：DeepScale)

过时的假设

机器学习的简短历史向我们展示神经结构搜寻的出现如何为计算机视觉研究奠定基础。但是在这个过程中，它也反驳了研究团体早期的一些假设，Iandola指出。

那么，哪些假设需要纠正呢？

Iandola称，大多数AI系统设计者认为，ImageNet分类中最精确的神经网络可以为目标任务提供最精确的骨干网络。但计算机视觉包括许多AI任务——从目标检测、分割和3D空间到目标追踪、距离估计和自由空间等。“并非所有任务都是平等的，”Iandola强调。

ImageNet的准确性与目标任务的准确性没有太紧密的关联。“这没法保证。”他说。

来看由Iandola团队创建的SqueezeNet。Iandola解释，这是一个小型的神经网络，它的ImageNet分类精准度明显低于VGG，但在“用于辨识一组影像中相似斑块的任务”时，它比VGG更准确。

随着分类任务达到极限，Iandola坚信是时候为不同的任务设计不同的神经网络了。

另一个普遍的假设是“在目标运算平台上减少MAC将产生更低的延迟。”然而，最近的研究说明，减少MAC与减少延迟并无太大关联。“拥有较少MAC的神经网络并不总是能够实现较低的延迟，”Iandola指出。

在Iandola的SqueezeNAS报告中，他坚持认为，不仅仅是不同的AI任务需要不同的DNN。为目标运算平台(如CPU、GPU或TPU的特定版本)选择合适的DNN也非常重要。

例如，他引用了为不同智能型手机优化网络的FBNet作者的话。他们发现DNN在iPhonex上运作得很快，但在三星Galaxy S8上执行得很慢。在报告中，Iandola的团队总结，“即使MAC的数量保持不变，不同的卷积维数也会根据处理器和核心实现决定运作得更快或更慢。”

对自动驾驶的影响

今天，DeepScale已经与多家汽车供货商建立了合作关系，包括Visteon、Hella Aglaia Mobile Vision GmbH和其他未透露名称的公司。DeepScale一直在开发微型DNN，该公司声称，他们在保证最先进的性能的同时，它们需要的运算量更少。

在SqueezNas的报告中，Iandola和他的同事解释，其团队使用基于超级网络的NAS来设计一个用于语义分割的DNN，用于辨识道路、车道、车辆和其他物体的精确形状等具体任务。“我们对NAS系统进行配置，以优化Cityscapes语义分割数据集的高精准度，同时在小型车辆级运算平台上实现低延迟。”

随着SqueezNAS的发展，DeepScale对自己的定位是：在优化DNN、AI硬件和特定AI任务之间的协同关系方面成为先行者。

随着AI芯片即将席卷市场，Iandola认为系统设计师必须明智地选择加速器。他们应该确切地考虑硬件应该执行哪种AI任务，以及硬件加速器应该在哪种神经网络上运作。

安全摄影机、自动驾驶车和智能型手机都将使用AI芯片。考虑到每个系统所需的速度、准确性、延迟和应用程序大不相同，确定合适的硬件和NAS就变得至关重要。

Iandola表示，对于OEM车厂来说，要把一个测试版自动驾驶车变成一个商业产品，必须把目前储存在自动驾驶车后行李箱中的刀锋服务器抽取出来。Iandola预测，汽车制造商可能会要求硬件芯片公司提供适合硬件平台的优化DNN。

对于Nvidia这样的公司来说，这可能不成问题，因为它的GPU得到了一个大型软件生态系统的支持。然而，大多数其他AI硬件供货商将会吓出一身冷汗。

此外，随着一系列新的传感器——摄影机、光达和雷达——被设计进自动驾驶车，汽车OEM将面临一些残酷的现实，例如，每个传感器可能使用不同类型的神经网络。另一个例子是，不同品牌设计的光达使用不同的AI硬件。Iandola指出，“今天，无论是传感器供货商还是AI处理器公司都没有提供针对其硬件进行优化推荐的神经网络。”

Iandola表示，OEM车厂和一级零组件供货商将开始要求优化DNN，以匹配特定硬件和AI任务，这将无法避免。“我们相信，使用NAS优化目标运算平台上的低延迟变得越来越重要。”

随着基于超级网络的NAS出现，NAS的成本已经在下降。因此，现在可能是时候让硬件供货商开始寻找自己的优化DNN。当被问及DeepScale是否计划透过合作、授权或为AI硬件公司开发优化DNN来填补这一缺口时，Iandola说，“我们还没有真正考虑过这个问题。”

关键字：DNN AI 引用地址：什么是DNN？它对AI发展意味着什么

上一篇：Arm开放指令集，对今后的IoT发展意味着什么？
下一篇：最后一页

推荐阅读

2018年10月15日 | STM32F4的4k备份SRAM

1、基地址：#define BKPSRAM_BASE ((uint32_t)0x40024000)2、大小为4k备份域还包括仅可由 CPU 访问的 4 KB 备份 SRAM，可被 32 位、16 位、8 位访问。使能低功耗备份调压器时，即使处于待机或 VBAT 模式，备份 SRAM 的内容也能保留。一直存在 VBAT 时，可以将此备份 SRAM 视为内部 EEPROM。3、4、需要掉电保...

2019年10月15日 | PIC16F877的应用--AD转换器

PIC16F877单片机片内有８路１０位Ａ／Ｄ转换器，引脚②～⑤为ＡＮ０～ＡＮ３、⑦～⑩为ＡＮ４～ＡＮ７。ＭＰＬＡＢ－ＩＣＤ的实验板上16F877单片机的ＲＡ０口接了一只供有电压的１０ｋΩ电位器，在Ｄ口（ＲＤ０～ＲＤ７）接了８只ＬＥＤ，如附图所示。笔者用１６Ｆ８７７Ａ／Ｄ转换通道其中一路作Ａ／Ｄ转换，以说明Ａ／Ｄ转换编写程序的方法和在线调试及...

2020年10月15日 | 工业机器人产业链分析

机器人包括了工业机器人、服务机器人和特种机器人。2019 年工业机器人市场规模 189 亿美元，占机器人总体营收的 54%。中国工业机器人销售额为 57 亿美元，约占全球市场的 1/3。 2015-2019 年，国内工业机器人行业销售额平均增速高于全球水平。2015-2019 年全球工业机器人市场的平均增速为 12%，而中国市场的平均增速达到 17%。主要原因是不...

2021年10月15日 | 彭博专栏：全球芯片荒最新数据透露业界囤货的迹象

全球最大晶圆代工制造商台积电今天举行法说会，看好第4季营收可望持续成长；总裁魏哲家表示，台积电全年美元营收将成长24%。彭博信息专栏作家高灿鸣（Tim Culpan）今天撰文表示，全球半导体订单持续涌入，但台积电的最新报数据却透露出，这种强劲需求开始看似业界在囤货。这种情况在供应链瓶颈缓解时，恐变成令人头大的问题。台积电今天公布破纪录的获利...

史海拾趣

ASSMANN WSW components公司的发展小趣事

ASSMANN WSW components公司的创立源于一个对电子行业充满热情的家族。起初，它只是一个小型家族企业，专注于为当地电子市场提供连接器和其他基础电子元件。然而，凭借其出色的产品质量和专业的服务态度，ASSMANN WSW逐渐赢得了客户的信任和好评。随着时间的推移，公司的业务范围逐渐扩大，不仅在国内市场取得了显著成绩，还开始进军国际市场。

Graseby Infrared公司的发展小趣事

检查控制线路的保险丝是否熔断，热继电器是否动作，停止按钮是否闭合良好，以及各控制按钮和接触器的触头是否接触良好。

ACEINNA公司的发展小趣事

穿戴好绝缘手套和鞋子，避免直接接触带电部分。

Honda Tsushin Kogyo Co Ltd公司的发展小趣事

为了进一步扩大市场份额，Honda Tsushin Kogyo可能实施了全球化战略。公司积极寻求国际合作机会，与全球范围内的电子产品制造商建立了稳定的合作关系。同时，公司还可能在海外设立生产基地或销售网点，以便更好地服务当地市场。通过全球化战略的实施，Honda Tsushin Kogyo不仅提升了品牌知名度，还增强了企业的国际竞争力。

Elprotronic Inc.公司的发展小趣事

随着电子行业的不断发展，客户对电子元器件的需求也在不断变化。Elprotronic Inc.紧跟市场趋势，不断推出具有创新性的产品和技术。其中，一项名为“高速数据传输技术”的创新成果引起了业界的广泛关注。这项技术可以大幅提高数据传输速度，同时保证数据的稳定性和安全性。这一突破性的技术创新为Elprotronic Inc.赢得了更多客户的信赖和支持，也进一步巩固了公司在行业中的地位。

常州能动(ENDRIVE)公司的发展小趣事

随着环保意识的日益增强，常州能动积极响应国家政策，加大环保投入。公司引进了先进的环保设备和技术，对生产过程中的废弃物进行无害化处理。同时，公司还注重节能减排和资源循环利用，推动公司向绿色、低碳、可持续发展的方向迈进。这些努力不仅提升了公司的社会形象，也为公司的长远发展打下了坚实基础。

问答坊 | AI 解惑

快被主任催死了，大家帮帮忙啊本人为DSP新手，现在在开发一块5502的硬件电路。一开始很顺利，装入CCS及sdconfig后直接能进入且能编译，但在编译XF口，下电以后，再次上电就不能进到CCS内了。查过它的最小系统，电源能正常工作，且上电时序是对的，晶振也正常工作。测复位芯片复 ...… 查看全部问答∨	PLC主板加扩展模块实现优越组合功能介绍： ○ 编程软件兼容日本三菱FXGP_WIN-C梯形图软件,在应用中相当于三菱的FX1N； ○ 工作电源AC18V或DC24V,带有防雷击保护电路； ○ 主板有20路I/0输入输出，其中输入12路，输出8路（有继电器输出和晶体管输出两种型号）； ○ 本机采用高 ...… 查看全部问答∨
网络监控产品和IP Camera 产品情况分析目前国内的网络监控产品和IP Camera 产品方案可以说是五花八门，林林总总．第一线的元器件供应商有华为海思和ＴＩ　产品；这两家公司目前都有国内一些大公司在使用产品方案，他们也在媒体上大量宣传产品．ＴＩ　和代理商ＷＰＧ硬盘供应商ＳＥ ...… 查看全部问答∨	求救：光耦隔离，电阻的阻值怎么计算啊？我想用光耦隔离输入信号，当 VInput 为高电平时，光耦截止，Voutput输出高电平，当 VInput 为低电平时，光耦导通，Voutput输出低电平，光耦用的是 TLP521，请教 R1,R2的阻值怎么计算？谢谢啊！！！ datasheet看不太懂，各位大侠帮帮忙啊 ...… 查看全部问答∨
WinCE 6.0短信截获最近要做魅族M8短信截获功能，有什么方法可以实现啊，我看了M8机器上没有cemapi.dll所以使用cemapi和mapirule都不可以，还有什么其他的方法可以实现啊，谢谢！… 查看全部问答∨	"抽象窗口系统"和“C++ To C编译器” 本人预售"抽象窗口系统"和“C++ To C编译器”软件，又需要的朋友请联系QQ:29600731… 查看全部问答∨
WinCE5.0 与 Access 在WinCE5.0下，我用.net2005开发程序怎么连接Access(WinCE5.0下为PockAccess) 用ADO.NET连接SQL CE没问题，但现在需要直接连接Access，不知道有什么好办法网上找到用IntheHand，但像在CE5.0下用不了。也想过用RDA将Windows下的Access数据同 ...… 查看全部问答∨	着急！！Wince OS调用GetDiskFreeSpaceEx为什么返回值为零？ _ULARGE_INTEGER freespace,totalspace,userspace; if(::GetDiskFreeSpaceEx(_T("SD Memory Card:\\\\"),&userspace,&totalspace,&freespace)==FALSE); { GET_STRING(TARMS_XXX, _T("SDCard Not Available")) } ..... 总之我的 ...… 查看全部问答∨
wince 下 LoadImage failed.... 我在VS2005下编写wince程序,加载一幅位图,失败了. hbitmap=(HBITMAP)::LoadImage(g_hInst,L"Wallpaper1.bmp",IMAGE_BITMAP,0,0,0); nErr = GetLastError();// <-- 错误返回1814, 是怎么回事,请大家帮忙. 我是想 ...… 查看全部问答∨	Verilog 模拟 PS2 1.明确接线关系，只需接4根线，VCC要 5V，3.3我测试过不能用，时钟和数据线要用bidir双向口线，FPGA可以不用外接上拉电阻。另外，USB键盘也可以用，只要用一个转接头转成PS2即可。 2.读取基本的键盘数据，不需要FPGA发送任何数据， ...… 查看全部问答∨

小广播

请问能否详细地讲解FPGA仿真波形原理呢？ FPGA（Field Programmable Gate Array，现场可编程门阵列）是一种可以通过软件编程来定义其硬件功能的集成电路。在FPGA设计和开发过程中，仿真是一个非常重要的步骤，它可以帮助工程师验证设计的正确性，预测电路的行为，并在实际硬件实现之前发现 ...… 查看全部问答∨	我想技术深度学习入门，应该怎么做呢？要深入学习深度学习技术，你可以按照以下步骤进行：掌握基础知识：首先要对深度学习的基础知识有清晰的理解，包括神经网络结构、激活函数、损失函数、优化算法等。建议通过阅读经典的深度学习教材或者参加在线课程来学习这些基础知识。学习数学基 ...… 查看全部问答∨
fpga入门野火开发板怎么样野火开发板在FPGA入门领域中是一个相当受欢迎的选择，特别是在中国地区。野火开发板通常配备了丰富的外设和接口，提供了良好的学习和实验平台，适合初学者入门使用。以下是一些野火开发板的特点和优势：丰富的外设和接口：野火开发板通常具有丰富 ...… 查看全部问答∨	请问能否详细地讲解fpga LUT存储原理呢？ FPGA（现场可编程门阵列）是一种可编程的集成电路，它允许用户根据需要配置其逻辑功能。FPGA的核心组成部分之一是查找表（LUT，Look-Up Table），它是一种存储和实现数字逻辑电路的高效方式。下面是FPGA中LUT存储原理的详细说明： LUT的定义： LUT ...… 查看全部问答∨
我想单片机基础入门，应该怎么做呢？入门单片机基础需要逐步学习和实践，以下是一些建议：了解单片机基本概念：单片机是一种集成电路，内置了中央处理器（CPU）、存储器（ROM、RAM）、输入/输出端口（I/O口）等功能模块，可以用来控制各种设备和执行特定任务。了解单片机的基本构成和 ...… 查看全部问答∨	对于数据分析神经网络入门，请给一个学习大纲很好的电子资料，总结很详细，有参考价值，谢谢分享 … 查看全部问答∨
深度学习几天入门深度学习是一个复杂的领域，通常几天的时间可能并不足以完全入门。入门深度学习需要掌握一定的数学基础、编程技能以及深度学习的基本概念和原理，这些都需要一定的学习时间和实践经验。然而，如果你已经有一定的数学基础和编程经验，并且愿意投入大 ...… 查看全部问答∨	嵌入式和fpga哪个容易入门嵌入式系统和FPGA（现场可编程门阵列）都是电子工程师广泛应用的领域，但它们的入门难度和学习曲线可能有所不同，具体取决于个人的背景和兴趣。下面是它们各自的特点：嵌入式系统：概念简单：嵌入式系统通常是基于微处理器或微控制器的系统，用于控 ...… 查看全部问答∨
单片机初学用什么板子的作为电子工程师，你在初学单片机编程时可以考虑使用以下几种常见的开发板：Arduino Uno：Arduino Uno是一款非常流行的入门级开发板，适合初学者快速上手。它基于Atmega328P单片机，具有丰富的资源和社区支持，可以轻松实现各种项目。STM32 Discover ...… 查看全部问答∨	对于单片机数据编程入门，请给一个学习大纲以下是针对单片机数据编程入门的学习大纲：第一阶段：基础知识数据类型：了解单片机中常用的数据类型，包括整型、字符型、浮点型等。数据存储：学习单片机中数据的存储方式，包括RAM、ROM等。第二阶段：数据处理数据输入与输出：学习如何从外部获取 ...… 查看全部问答∨

2019年10月15日 | 什么是DNN？它对AI发展意味着什么