历史上的今天

今天是:2024年11月02日(星期六)

2021年11月02日 | 提高AI模型数据吞吐量 芯动力发明神经网络权值存储的方案

发布者:云淡风轻2014 来源: 爱集微关键字:AI 手机看文章 扫描二维码
随时随地手机看文章

随着AI芯片的计算能力越来越强,以及神经网络模型越来越深,AI处理器在进行训练或推理时,需要读取大量的权值数据用于计算,而大量的数据吞吐,无疑会降低AI芯片的运算能力。

为了降低芯片的功耗和成本,相关人员在神经网络权值存储方面做了深度研究,目前主流的存储方案有高速DDR(双倍速率同步动态随机存储器)结合Cache缓存或者采用超大容量的SRAM(静态随机存取存储器),进一步还有采用乒乓缓存的方案。

然而,上述方案仍然存在种种弊端,比如传输带宽大、存储占用空间大或者难以使芯片的吞吐量达到较优状态,导致芯片的功耗和成本居高不下。

为此,芯动力在2021年5月7日申请了一项名为“神经网络权值存储方法、读取方法及相关设备”的发明专利(申请号:202110498031.4),申请人为珠海市芯动力科技有限公司。

根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。

首先,让我们来看看目前现有技术中的神经网络权值存储和读取方案是怎么样的,如上图所示,在神经网络权值存储方面,现有技术提出了高速DDR存储结合L2Cache(二级缓存)的方案。神经网络各层的权值存储在DDR中,处理器在计算时,通过高速DDR接口把待处理的权值加载到Cache中,但是,在处理器计算能力越强的情况下,该方案所需的DDR传输带宽也就越大,不利于降低芯片的功耗和成本。

为此,上图为该专利中发明的神经网络权值存储和读取架构的示意图,该架构包括:处理器、小容量的SRAM、DDR和DMA控制器。其中,SRAM被划分静态内存和循环缓存两块存储区,静态内存用于固化神经网络中的出现下溢的层,循环缓存用于预取和存储神经网络中未出现下溢的层。

DMA控制器用于从DDR中读取神经网络权值并向循环缓存中写入读取的权值,处理器用于从静态内存或循环缓存中读取权值以进行计算,比如GEMM(通用矩阵乘)运算等。

在该结构中,会把出现缓存下溢的神经网络层的取值固化到静态内存中,有利于解决循环缓存下溢的问题,当神经网络各层中不存在出现下溢的层时,将获取到的对应权值累积长度的最大值设定为循环缓存的最大存储空间,从而有利于解决循环缓存上溢的问题。并能够以较小的SRAM空间和较低的DDR传输带宽达到芯片较优的吞吐量,以降低芯片的功耗和成本。

最后,上图为这种神经网络权值存储方法的流程示意图,DMA控制器在系统初始化时将神经网络首层的权值固化在静态随机存取存储器的静态内存中,并获取静态随机存取存储器的循环缓存中神经网络各层的权值累积长度,将根据权值累计长度将各层中的目标层的权值固化在静态内存中。

DMA控制器执行下一次获取权值累积长度的操作,重复执行多次获取权值累积长度的操作,直至各层中不存在目标层。此时,DMA控制器会根据各层中不存在目标层时对应的权值累积长度设定循环缓存的大小。

以上就是芯动力发明的神经网络权值存储及读取方法,该方案在系统初始化时就将神经网络首层的权值固化在静态随机存取存储器的静态内存中,有利于解决循环缓存上溢和下溢的问题,从而使芯片达到较优的吞吐量,也可以降低芯片的功耗和成本。


关键字:AI 引用地址:提高AI模型数据吞吐量 芯动力发明神经网络权值存储的方案

上一篇:HomePod mini新颜色或在11月第一周开售
下一篇:WiFi芯片涨20%?联发科:不评论价格

推荐阅读

芯科技消息(文/雷明正),中国大陆福建晋华集成电路公司和台湾联华电子公司2日遭美方起诉共谋窃取美国半导体厂美光的商业机密。联电一早公告声明,表示美国政府起诉内容实际上与先前美光对公司提起民事诉讼所主张的内容相同。对于美国检察官办公室未事先通知联电,并未给予讨论事件始末机会表示遗憾。联电特别强调,针对此类指控,都将严正以对。晋华和...
一场如何看待当前我国电力市场的讨论,正在吸引着行业内外的目光。有支持者,亦有批评者。支持者认为,我国电力市场实现完美破局。批评者认为,我国的电力市场即不像美国、也不像英国、更不像澳大利亚,是“四不像”。 我们应该如何评价 今天的电力市场? 如何看待 当前的电力市场面临的机遇与挑战? 行业莫衷一是。 随着开水缓缓倒入杯子,...
金相分析仪的工作原理简单来说就是 光学 显微技术,它将图像进行显微放大之后,用于观察、分析和记录金属材料表面及心部的结构属性。就拿铁碳合金的碳结构来说吧,就像钢铁一样,根据含碳量的不同,可以分为不同种的钢铁,共析钢、亚共析钢还有白口铸铁等等,含碳成分不同,用金相分析仪来观察得出的金相组织也各不相同。也许有的材料碳成分的多少是一样的...
一直以来,汽车操作系统纷繁复杂,让人眼花缭乱。 一年前,佐思汽研将“汽车操作系统”分为四类:1)基础型汽车操作系统:指汽车底层操作系统,如AliOS、QNX、Linux等,包含所有的底层组件,如系统内核、底层驱动等,有的还包含虚拟机。2)定制型汽车操作系统:指在基础型操作系统之上进行深度定制化开发(包括系统内核修改),最终(Tier1和主机厂一起)...

史海拾趣

问答坊 | AI 解惑

变频器压频比的正确设定

摘 要: 结合变频调速的基本控制方式,讨论了电机参数及负载的机械特性与变频器的基准电压、基准频率的关系,以及具体应用中的设定方法。 关键词: 压频比、基准电压、基准频率。 一、前 言: 随着变频调速技术的发展,变频器调速已成为交流调速的 ...…

查看全部问答∨

32位ARM嵌入式处理器的调试技术

32位ARM嵌入式处理器的调试技术…

查看全部问答∨

FLUKE 196 双通道万用数字示波表拆机清晰图

本人手中的一款便携式示波表的拆机图。供大家参考。另附上操作手册和本人找到的部分器件的datasheet。有部分关键器件本人无法找到datasheet,有资料的朋友可上传供大家分析用。 DSCN2310.JPG DSCN2311.JPG DSCN2312.JPG DSCN2316.JPG ...…

查看全部问答∨

如何编写固件升级程序

我做网络的,对编程不了解,但是最近对固件升级程序非常感兴趣。想在这个方向上学习一下。 但是现在一点头绪都没有,有没有高手指点下呀,不胜感激,问题如下: 1,一般的固件升级程序都用什么语言编写的啊 2,从开始编写程序,到生成一个升级文 ...…

查看全部问答∨

模拟USB拔插的逻辑过程

目标:想要实现USB设备拔插的模拟。也就是说,物理上USB设备并没有拔出再插入的动作,但是在逻辑上,USB设备掉了,然后又重新连接上了。现在这个功能基本能实现,但是不稳定,容易出现USB设备掉。 我自己写了一个小的字符驱动(usbPortdisplay.c) ...…

查看全部问答∨

15000转的电机用什么传感器啊?

请教15000转的电机用什么传感器啊?…

查看全部问答∨

DM3730 /dm6446哪个更适合做运动检测与跟踪?

我看了DM3730 和dm6446的DATASHEET, 感觉前者的频率更高一些,而且开发板的价钱更便宜,我想问问大家,如果是搞运动目标的检测与跟踪的应用的话,哪个芯片更合适呢?   谢谢!…

查看全部问答∨

【设计工具】白皮书:通过赛灵思Virtex-7 产品系列以及高级综合实现TeraFLOP 性能

        FPGA 通常与大多数可编程逻辑、高 I/O 引脚数以及大型定点 DSP 阵列有关。虽然FPGA并不是以其浮点处理能力而著称,但该项特性却非常出色。浮点运算符是通过可编程逻辑查看表 (LUT) 和 DSP 处理单元 (DS ...…

查看全部问答∨
小广播
最新手机便携文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved