解析瑞萨的DRP-AI3，可重构处理器如何提高边缘AI处理效能-电子工程世界

本文作者：Shingo Kojima，瑞萨电子嵌入式处理高级首席工程师

人工智能（AI）处理在各个领域都有广泛应用，如工厂、物流、医疗、服务机器人和安全摄像头等，用于进行环境识别、决策控制和运动控制等任务。系统需要在各种类型的程序中实时处理先进的AI。系统需要实时处理各种先进的AI程序，并嵌入到边缘设备中，以快速响应环境变化。而且，人工智能芯片在嵌入式设备中执行高级人工智能处理时需要消耗更少的功耗，并且严格限制散热。

为了满足这些市场需求，瑞萨电子开发了DRP-AI3（AI3 动态可重构处理器）作为 AI 加速器，用于高速 AI 推理处理，兼具边缘设备所需的低功耗和灵活性。这种经过多年迭代的可重构AI加速器处理器技术，被嵌入到面向AI应用的RZ/V系列MPU中。

RZ/V2H是RZ/V系列的高端新产品，其电源效率比之前的产品高约10倍。 RZ/V2H MPU能够响应人工智能的进一步发展和机器人等应用的复杂要求。本文将介绍RZ/V2H如何解决发热挑战，实现高实时处理速度，并为配备AI的产品实现更高的性能和更低的功耗。

DRP-AI3 加速器可高效处理裁剪 AI 模型

裁剪或剪枝（pruning）作为提高人工智能处理效率的典型技术，可以省略对识别精度影响不大的计算。然而，AI模型中随机存在不影响识别精度的计算是很常见的。这就造成了硬件处理的并行性和裁剪的随机性之间存在差异，导致处理效率低下。

虑模型中的计算是不是都是必要？如果不是的话，有没有可能简化模型来减少计算量和存储占用。本文主要谈的就是这一类方法，称为模型压缩（Model compression）。它是软件方法，应用成本低，而且与硬件加速方法并不矛盾，可以相互加成。细分来说，模型压缩又可分很多方法，如剪枝（Pruning）、量化（Quantization）、低秩分解（Low-rank factorization）、知识蒸馏（Knowledge distillation）。每一子类方法展开都可以是很大的话题，所以我们一个个来，今天主要只限于pruning方法。它基于一个假设，或者说目前的共识。就是DNN的过参数化（Over-parameterization）。我们知道，深度神经网络与其它很多机器学习模型一样，可分为训练和推理两个阶段。训练阶段是根据数据学习模型中的参数（对神经网络来说主要是网络中的权重）；推理阶段中将新数据喂进模型，经过计算得出结果。而过参数化是指训练阶段我们需要大量的参数来捕捉数据中的微小信息，而一旦训练完成到了推理阶段，我们并不需要这么多的参数。这样的假设就支持我们可以在部署前对模型进行简化。模型压缩中的pruning和quantization两类方法正是基于这样的前提。模型简化后有很多好处，包括但不限于：1）最直接的好处就是计算量的减小，从而使计算时间更少，功耗更小。2）Memory footprint变小，可以放到更低端的设备上跑。还有个额外的性能好处是本来需要既慢又耗电的DRAM参与，现在有可能放在SRAM就搞定。3）Size更小的包有利于应用发布和更新。如一些手机市场会对应用的大小有限制，另外也有利于车OTA升级。有了『理论』上的启发后，下一个问题就是how。显然不能拿了模型瞎剪，因为这样精度可以会下降得很厉害以至无法接受。当然，也有情况会在pruning后精度提高的，这说明原模型过似合（overfit）了，pruning起到了regularization的作用。就一般情况下讲，核心问题是成如何有效地裁剪模型且最小化精度的损失。其实这不是一个新的问题，对于神经网络的pruning在上世纪80年代末，90年代初左右就有研究了。如论文《Comparing Biases for Minimal Network Construction with Back-Propagation》提出了magnitude-based的pruning方法，即对网络中每个hidden unit施加与其绝对值相关的weight decay来最小化hidden unit数量。又如上世纪90年代初当时经典的论文《Optimal brain damage》与《Second order derivatives for network pruning: Optimal Brain Surgeon》分别提出OBD和OBS方法，它们基于损失函数相对于权重的二阶导数（对权重向量来说即Hessian矩阵）来衡量网络中权重的重要程度，然后对其进行裁剪。但因为当时的大环境下，神经网络（那时没有deep neural network，只有neural network，或为区分称为shadow neural network）并不是机器学习的一个特别主流的分支，因此之后的很长一段时间也没有大量开枝散叶，但他们对问题的梳理定义和解决问题思路对二十多年后的很多工作产生了深远的影响。到了2012年，我们都知道深度学习一战成名，大放异彩。之后刷榜之风兴起且愈演愈烈，大家的注意力就是提高精度。于是大趋势就是不断地加深加重网络以提高精度，ImageNet准确率每年都创新高。2015-16年期间，Hang Song等人发表了一系列对深度神经网络进行模型压缩的工作。如《Learning both weights and connections for efficient neural networks》，《EIE: Efficient inference engine on compressed deep neural network》。其中《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》获得了ICLR 2016的best paper。其中对当时经典网络AlexNet和VGG进行了压缩。结合pruning，quantization和huffman encoding等多种方法，将网络size压缩了几十倍，性能获得成倍的提升。其中对于pruning带来的精度损失，使用了iterative pruning方法进行补偿，可以让精度几乎没有损失。这让大家意识到DNN参数冗余程度如此之大，可榨油水如此之多。之后这几年，模型压缩领域变得越丰富，越来越多的相关工作衍生出各种玩法。从network pruning的粒度来说，可以分为结构化剪枝（Structured pruning）和非结构化剪枝（Unstructured pruning）两类。早期的一些方法是基于非结构化的，它裁剪的粒度为单个神经元。如果对kernel进行非结构化剪枝，则得到的kernel是稀疏的，即中间有很多元素为0的矩阵。除非下层的硬件和计算库对其有比较好的支持，pruning后版本很难获得实质的性能提升。稀疏矩阵无法利用现有成熟的BLAS库获得额外性能收益。因此，这几年的研究很多是集中在structured pruning上。Structured pruning又可进一步细分：如可以是channel-wise的，也可以是filter-wise的，还可以是在shape-wise的。

为了解决这个问题，瑞萨电子优化了其独特的基于 DRP 的 AI 加速器 (DRP-AI) 的裁剪功能。通过分析典型图像识别AI模型（CNN模型）中裁剪模式特征和裁剪方法与识别精度的关系，确定了既能实现高识别精度又能实现高效裁剪率的AI加速器的硬件结构，并应用于DRP-AI3设计中。此外，瑞萨还开发了软件减轻针对该 DRP-AI3 优化的 AI 模型的大小。该软件将随机裁剪模型配置转换为高效并行计算，从而实现更高速的AI处理。特别是，瑞萨电子的高度灵活的裁剪支持技术（灵活的N:M裁剪技术）可以根据AI模型中局部剪枝率的变化动态改变周期数，从而可以根据用户所需的功耗、运行速度、识别精度。

DRP-AI3、DRP 和 CPU 协同运行的异构架构特性

使用 AI 加速器 (DRP-AI3)、DRP 和 CPU 进行多线程和流水线处理

具有 DRP（动态可重新配置有线逻辑硬件）的低抖动和高速机器人应用

例如，服务机器人需要先进的人工智能处理来识别周围环境。另一方面，决定和控制机器人的行为也需要不使用人工智能的基于算法的处理。然而，当前的嵌入式处理器（CPU）缺乏足够的资源来实时执行这些不同类型的处理。瑞萨电子开发了异构架构技术，使DRP、DRP-AI3和CPU能够协同工作，从而解决了这个问题。

如图1所示，动态可重构处理器（DRP）可以在执行应用程序的同时动态切换电路连接配置。根据要处理的内容，在每个操作时钟上打开芯片上的运算单元。由于仅使用必要的运算电路，因此DRP比CPU处理消耗更少的功率并且可以实现更高的速度。此外，与CPU相比，由于缓存未命中和其他原因而导致频繁的外部存储器访问会降低性能，DRP可以提前在硬件中构建必要的数据路径，从而减少内存访问时的性能下降。

DRP还具有动态可重构功能，每次算法改变时都会切换电路连接信息，从而能够利用有限的硬件资源进行处理，即使在需要处理多种算法的机器人应用中也是如此。

DRP 在处理图像识别等流数据时特别有效，其中并行化和流水线化直接提高了性能。另一方面，诸如机器人行为决策和控制之类的程序需要在改变条件和处理细节的同时进行处理，以响应周围环境的变化。 CPU 软件处理可能比 DRP 中的硬件处理更适合于此。将处理分配到正确的位置并以协调的方式运行非常重要。瑞萨电子的异构架构技术允许 DRP 和 CPU 协同工作。

图 1：灵活的动态可重配置处理器 (DRP) 特性

MPU 和 AI 加速器 (DRP-AI3) 架构的概述如图 2 所示。机器人应用使用基于 AI 的图像识别与非 AI 决策和控制算法的复杂组合。因此，具有用于 AI 处理的 DRP (DRP-AI3) 和用于非 AI 算法的 DRP 的配置将显着提高机器人应用程序的吞吐量。

图2：基于DRP-AI 3的异构架构配置

评估结果

(1) AI模型处理性能评估

搭载该技术的RZ/V2H的AI加速器的处理性能最高可达8 TOPS（每秒8万亿次乘积运算）。此外，对于经过裁剪的AI模型，运算周期数可以与裁剪量成比例地减少，从而与裁剪前的模型相比，实现最高相当于80 TOPS的AI模型处理性能。这比之前的RZ/V产品的处理性能提高了约80倍，这是一个显着的性能提升，足以跟上AI的快速演进（图3）。

图 3：DRP-AI3 测量峰值性能比较

一方面，随着AI处理速度的加快，基于算法的无AI图像处理（例如AI前处理和AI后处理）的处理时间正在成为相对瓶颈。在AI-MPU中，部分图像处理程序被卸载到DRP，从而有助于提高整个系统处理时间。（图4）

图 4：异构架构加速图像识别处理

在功效方面，AI加速器的性能评估显示，在运行主要AI模型时，其功效达到了全球顶级水平（约10TOPS/W）。（图5）

图5：真实AI模型的功效

我们还证明，可以在配备 RZ/V2H 的评估板上执行相同的 AI 实时处理，无需风扇，其温度与现有市场配备风扇的设备相当。（图6）

图 6：无风扇 RZ/V2H 板与带风扇 GPU 的发热比较

(2) 机器人应用的应用示例

例如，典型的机器人应用之一的SLAM（同时定位和建图）具有复杂的配置，需要多个程序进程来并行进行机器人位置识别和AI处理的环境识别。瑞萨电子 DRP 使机器人能够即时切换程序，并且与 AI 加速器和 CPU 并行运行已被证明比单独 CPU 运行快约 17 倍，并将功耗降低至单独 CPU 运行水平的 1/12。

结论

瑞萨电子开发了 RZ/V2H，这是一款独特的 AI 处理器，它结合了端点所需的低功耗和灵活性，以及裁剪 AI 模型的处理能力，并且能效比以前的产品提高了 10 倍（10 TOPS/W）。

瑞萨电子将及时发布响应人工智能发展的产品，预计人工智能将变得越来越复杂，并将有助于部署以智能和实时方式响应终端产品的系统。

关键字：瑞萨 AI DRP NPU 引用地址：解析瑞萨的DRP-AI3，可重构处理器如何提高边缘AI处理效能

上一篇：Arm Neoverse CSS N3 助力快速实现出色能效
下一篇：东芝推出带有嵌入式微控制器的SmartMCD™系列栅极驱动IC

推荐阅读最新更新时间：2024-11-12 11:56

瑞萨电子展示12款应用方案借物联网实现智能社会

　　在2014年度(第三届)工业计算机及嵌入式系统展上，瑞萨电子集中展出了其在工业自动化、智能电网、电机控制、医疗电子、安防监控、家电等领域的12款最新应用解决方案亮相，并展示了其致力于通过物联网技术和方案，实现智能社会的美好愿望。　　瑞萨电子(中国)有限公司董事长兼总经理CEO堤敏之先生表示，随着物联网的发展以及社会智能互联步伐的加快，瑞萨电子将以前以产品为导向的战略，转变为以解决方案为导向，致力于为客户提供多样化的应用解决方案，以满足智能社会的互联需求。　　他表示，在汽车半导体领域，瑞萨电子保持着第一的市场地位，拥有业界最先进、最安全的产品和方案。物联网时代，瑞萨电子将这种优势强势向工业、物联网等热门应用领域扩张

[嵌入式]

瑞萨亮相慕尼黑上海电子展，展示AI、IoT、智慧出行全新方案

瑞萨电子中国将携多款面向人工智能、物联网及智慧出行的解决方案亮相2020慕尼黑上海电子展“e星球创新应用科技园”。展会将于2020年7月3日至5日在上海青浦的国家会展中心盛大召开，创新应用科技园位于中心内5.2H展馆。我们的技术专家将在现场向您展示系统解决方案，呈现瑞萨电子如何通过创新引领未来。当您将我们的产品嵌入次世代IoT、AI和智慧出行应用时，您将领略到业界领先企业对瑞萨电子差异化产品的青睐。物联网及人工智能移动物体追踪该方案采用具有DRP（动态可配置处理器）技术的瑞萨RZ/A2M微处理器（MPU）以及仅一台摄像机进行图像采集，控制和视觉处理。控制信号驱动机械臂的运动，以实现物体的识别、追踪和精确抓取

[物联网]

<font color='red'>瑞萨</font>亮相慕尼黑上海电子展，展示<font color='red'>AI</font>、IoT、智慧出行全新方案

人工智能有望出现中美双引擎

中国研发的无人驾驶车队在广州南沙正式上路西班牙《国家报》网站报道称，中国正经历一场真正的人工智能革命，其实力已经可以与目前该行业的领导者美国相竞争。中国人工智能企业依图科技联合创始人兼首席执行官朱珑说：“在我看来，未来5至10年，人工智能领域会出现中美双引擎的格局。” 增势迅猛近几年来，中国人工智能领域发展迅猛。英国广播公司网站不久前以《人工智能：英、中、美上演“三国演义”》为题报道称，从2012年至今，中国的人工智能领域有1354家企业，投资总额1448亿元﹔2017年人工智能的投资总额超过622亿元，相比2012年的6亿元翻了上百倍。不久前，机器之心和Comet Labs（彗星实验室）联合发布了人工智能公司榜单。该

[机器人]

首款4G+AI投屏OTT智能家居硬件搭载瑞芯微RK3228A

爱奇艺今年4月发布的电视果4K，全新开启人工智能投屏看电视新体验；6月再发新品电视果 4G ，均采用瑞芯微Rockchip投屏核芯RK3228A，不仅升级了人工智能等投屏体验，更是集 AI投屏、4G轻宽带、mini路由等多重使用场景于一身，满足用户多样化的需求。全球首款4G人工智能投屏智能硬件电视果4G是全球首款4G人工智能投屏智能硬件，率先将极速4G网络与人工智能投屏融合，是首款支持7模16频的投屏设备，支持全球网络运营商，插入手机SIM卡即可通过4G网络，将4K超高清视频投至大屏流畅观看，也可作为无线热点连接更多设备上网娱乐，极大拓展电视果娱乐使用场景。核芯技术伙伴瑞芯微RK3228A 电视果4

[嵌入式]

全球人工智能与制造业融合的现状及思考

　　人工智能在制造业的融合应用是促进实体经济发展的重点方向，是制造业数字化、网络化、智能化转型发展的关键领域。发达国家政府和产业界均高度重视这一趋势，近年来纷纷采取行动推进基础性研究及产业实践部署，传统的制造业生产范式正在人工智能的驱动下被进一步改变。　　 1、人工智能技术正在向制造业多个环节广泛渗透　　随着人工智能技术在生活领域的快速传播，越来越多来自不同领域的学者及科研人员开始尝试着将制造领域的专有知识注入到人工智能模型中，并将其与制造业中的典型软件、系统及平台相集成，形成了一系列融合创新技术、产品与模式。　　美国欧特克创新软件平台Fusion360 　　产品研发方面，美国工业设计软件巨头欧特克推出的产品创新软件平台

[机器人]

欧盟委员会将起草人工智能法案

欧盟委员会将从2018年春季开始起草人工智能相关法案。欧盟委员会负责数字经济与社会事务的委员玛丽亚·加布里埃尔22日在德国慕尼黑举行的2018年“数字生活设计”大会上透露这一消息。她说:“我们从事的大多数工作岗位都将改变,我们必须为此做好准备。” 加布里埃尔说,对欧盟凭借自身优势在数字化方面取得进展感到乐观。“不是说我们在互联网大型企业方面落后,就意味着在电子工业、机器人和汽车等领域也落后。” 欧洲议会曾在去年年初首次建议欧盟委员会起草法案,规范人工智能及机器人的使用和管理。一年一度的“数字生活设计”大会是欧洲乃至全球知名的一个网络和数字创新会议,创办于2005年,侧重创新、数字、科学和文化的交叉对话。本次大会20日至22日在

[机器人]

AI PC 明年开始普及：内存 16GB 起步、算力超过 40 TOPS，Arm 要挑战 X86

1 月 18 日消息，集邦咨询近日发布报告，预估 2024 年全球 AI 服务器（包含 AI Training 及 AI Inference）超过 160 万台，同比增长超过 40%。 2025 年开始普及集邦咨询认为 2024 年下半年陆续有厂商会推出 AI PC（算力达到 40 TOPS），而且伴随着英特尔 2024 年年底前推出 Lunar Lake，AI PC 有望在 2025 年逐渐普及。 IT之家注：TOPS 是 Tera Operations Per Second 的缩写，1TOPS 代表处理器每秒钟可进行一万亿次（10^12）操作。集邦咨询认为有两股主要力量推动 AI PC 商用和落地：其一，由终端应用需求

[家用电子]

任正非谈人工智能：投资不要遍地开花很可能满盘皆输！

眼下, 人工智能火了!诸如百度、阿里巴巴、京东等科技公司都在探索并尝试将人工智能应用到企业的未来发展中。 30日,中新经纬客户端从华为心声社区微信号获悉,华为创始人任正非在人工智能应用GTS研讨会上讲了他对人工智能的看法，让我们看看他是怎么说的：任正非认为，人工智能研究是华为的一个使能器，促使公司各项管理进步，从而构筑活的“万里长城”。谁能最低成本地提供高质量的服务谁就是这个世界最后的赢家。不要随议论的忽悠而迷失方向。而在具体的操作层面，任正非表示，首先高质量的数据是人工智能的前提和基础，高质量数据输出要作为作业完成的标准。其次要聚焦投入，敢于投资。但也不要全面开花，要急用先行小步快跑，聚焦在确定性业务、人工消耗大的项

[嵌入式]

热门资源推荐
热门放大器推荐

小广播