随着AI芯片的计算能力越来越强,以及神经网络模型越来越深,AI处理器在进行训练或推理时,需要读取大量的权值数据用于计算,而大量的数据吞吐,无疑会降低AI芯片的运算能力。
为了降低芯片的功耗和成本,相关人员在神经网络权值存储方面做了深度研究,目前主流的存储方案有高速DDR(双倍速率同步动态随机存储器)结合Cache缓存或者采用超大容量的SRAM(静态随机存取存储器),进一步还有采用乒乓缓存的方案。
然而,上述方案仍然存在种种弊端,比如传输带宽大、存储占用空间大或者难以使芯片的吞吐量达到较优状态,导致芯片的功耗和成本居高不下。
为此,芯动力在2021年5月7日申请了一项名为“神经网络权值存储方法、读取方法及相关设备”的发明专利(申请号:202110498031.4),申请人为珠海市芯动力科技有限公司。
根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。
首先,让我们来看看目前现有技术中的神经网络权值存储和读取方案是怎么样的,如上图所示,在神经网络权值存储方面,现有技术提出了高速DDR存储结合L2Cache(二级缓存)的方案。神经网络各层的权值存储在DDR中,处理器在计算时,通过高速DDR接口把待处理的权值加载到Cache中,但是,在处理器计算能力越强的情况下,该方案所需的DDR传输带宽也就越大,不利于降低芯片的功耗和成本。
为此,上图为该专利中发明的神经网络权值存储和读取架构的示意图,该架构包括:处理器、小容量的SRAM、DDR和DMA控制器。其中,SRAM被划分静态内存和循环缓存两块存储区,静态内存用于固化神经网络中的出现下溢的层,循环缓存用于预取和存储神经网络中未出现下溢的层。
DMA控制器用于从DDR中读取神经网络权值并向循环缓存中写入读取的权值,处理器用于从静态内存或循环缓存中读取权值以进行计算,比如GEMM(通用矩阵乘)运算等。
在该结构中,会把出现缓存下溢的神经网络层的取值固化到静态内存中,有利于解决循环缓存下溢的问题,当神经网络各层中不存在出现下溢的层时,将获取到的对应权值累积长度的最大值设定为循环缓存的最大存储空间,从而有利于解决循环缓存上溢的问题。并能够以较小的SRAM空间和较低的DDR传输带宽达到芯片较优的吞吐量,以降低芯片的功耗和成本。
最后,上图为这种神经网络权值存储方法的流程示意图,DMA控制器在系统初始化时将神经网络首层的权值固化在静态随机存取存储器的静态内存中,并获取静态随机存取存储器的循环缓存中神经网络各层的权值累积长度,将根据权值累计长度将各层中的目标层的权值固化在静态内存中。
DMA控制器执行下一次获取权值累积长度的操作,重复执行多次获取权值累积长度的操作,直至各层中不存在目标层。此时,DMA控制器会根据各层中不存在目标层时对应的权值累积长度设定循环缓存的大小。
以上就是芯动力发明的神经网络权值存储及读取方法,该方案在系统初始化时就将神经网络首层的权值固化在静态随机存取存储器的静态内存中,有利于解决循环缓存上溢和下溢的问题,从而使芯片达到较优的吞吐量,也可以降低芯片的功耗和成本。
上一篇:HomePod mini新颜色或在11月第一周开售
下一篇:WiFi芯片涨20%?联发科:不评论价格
推荐阅读
史海拾趣
随着产品线的不断丰富和市场需求的持续增长,Cotco公司开始加大市场拓展力度。公司积极参加国内外各类电子行业展览和交流活动,与潜在客户和合作伙伴建立了广泛的联系。同时,Cotco也注重品牌建设,通过赞助行业活动、开展公益事业等方式提升品牌知名度和美誉度。经过几年的努力,Cotco已经成为电子行业内一个响当当的名字。
EBG RESISTORS LLC公司成立于XXXX年,由几位电子工程师共同创立。初创时期,公司面临着资金短缺、市场竞争激烈等多重挑战。然而,创始人们凭借对电阻器技术的深厚理解和热情,坚持研发高质量、高性能的电阻器产品。他们夜以继日地工作,不断优化产品设计和生产工艺,终于在市场上赢得了客户的认可。
2022年12月,中移物联网的OneNET城市物联网平台在2022中国移动全球合作伙伴大会上亮相。该平台以城市为核心,整合了各类物联网资源,为城市管理、公共服务等领域提供了全方位的物联网解决方案。OneNET城市物联网平台的推出,标志着中移物联网在物联网领域的技术实力和市场地位得到了进一步提升。
在电子行业中,品质是企业生存和发展的关键。Caliber公司深知这一点,从原材料采购到生产制造的每一个环节,都严格把控品质。公司建立了完善的质量管理体系,通过不断的技术改进和工艺优化,确保每一款产品的品质都达到行业最高标准。正是这种对品质的执着追求,让Caliber的产品在市场上获得了良好的口碑,也为公司的长期发展奠定了坚实的基础。
然而,Cyrix的发展并非一帆风顺。1997年,该公司被美国国民半导体公司收购。这一收购为Cyrix带来了新的机遇和挑战。在新的母公司旗下,Cyrix继续推出了一系列新的CPU产品,但市场竞争的激烈使得其面临巨大的压力。
在成功推出数学协处理器后,Cyrix于1992年推出了其第一款CPU——486SLC和486DLC。这两款产品旨在与英特尔的486SX和486DX竞争,并因其引脚兼容性和低廉的价格而广受制造商欢迎。尽管其性能略逊于英特尔的同类产品,但Cyrix凭借价格优势在市场上占据了一席之地。
摘 要: 结合变频调速的基本控制方式,讨论了电机参数及负载的机械特性与变频器的基准电压、基准频率的关系,以及具体应用中的设定方法。 关键词: 压频比、基准电压、基准频率。 一、前 言: 随着变频调速技术的发展,变频器调速已成为交流调速的 ...… 查看全部问答∨ |
|
本人手中的一款便携式示波表的拆机图。供大家参考。另附上操作手册和本人找到的部分器件的datasheet。有部分关键器件本人无法找到datasheet,有资料的朋友可上传供大家分析用。 DSCN2310.JPG DSCN2311.JPG DSCN2312.JPG DSCN2316.JPG ...… 查看全部问答∨ |
|
我做网络的,对编程不了解,但是最近对固件升级程序非常感兴趣。想在这个方向上学习一下。 但是现在一点头绪都没有,有没有高手指点下呀,不胜感激,问题如下: 1,一般的固件升级程序都用什么语言编写的啊 2,从开始编写程序,到生成一个升级文 ...… 查看全部问答∨ |
|
目标:想要实现USB设备拔插的模拟。也就是说,物理上USB设备并没有拔出再插入的动作,但是在逻辑上,USB设备掉了,然后又重新连接上了。现在这个功能基本能实现,但是不稳定,容易出现USB设备掉。 我自己写了一个小的字符驱动(usbPortdisplay.c) ...… 查看全部问答∨ |
|
我看了DM3730 和dm6446的DATASHEET, 感觉前者的频率更高一些,而且开发板的价钱更便宜,我想问问大家,如果是搞运动目标的检测与跟踪的应用的话,哪个芯片更合适呢? 谢谢!… 查看全部问答∨ |
【设计工具】白皮书:通过赛灵思Virtex-7 产品系列以及高级综合实现TeraFLOP 性能 FPGA 通常与大多数可编程逻辑、高 I/O 引脚数以及大型定点 DSP 阵列有关。虽然FPGA并不是以其浮点处理能力而著称,但该项特性却非常出色。浮点运算符是通过可编程逻辑查看表 (LUT) 和 DSP 处理单元 (DS ...… 查看全部问答∨ |
- 消息称苹果、三星超薄高密度电池均开发失败,iPhone 17 Air、Galaxy S25 Slim手机“变厚”
- 美光亮相2024年进博会,持续深耕中国市场,引领可持续发展
- Qorvo:创新技术引领下一代移动产业
- BOE独供努比亚和红魔旗舰新品 全新一代屏下显示技术引领行业迈入真全面屏时代
- OPPO与香港理工大学续约合作 升级创新研究中心,拓展AI影像新边界
- 古尔曼:Vision Pro 将升级芯片,苹果还考虑推出与 iPhone 连接的眼镜
- 汇顶助力,一加13新十年首款旗舰全方位实现“样样超Pro”
- 汇顶科技助力iQOO 13打造电竞性能旗舰新体验
- BOE(京东方)全新一代发光器件赋能iQOO 13 全面引领柔性显示行业性能新高度