3D DRAM存算一体架构，清华团队发布

最新更新时间：2024-08-10

阅读数：

半导体行业观察" data-pluginname="mpprofile" data-signature="半导体深度原创媒体，百万读者共同关注。搜索公众号：半导体芯闻、半导体产业洞察，阅读更多原创内容">

????如果您希望可以时常见面，欢迎标星????收藏哦~

ISCA（International Symposium on Computer Architecture）是计算机体系结构领域的最顶级会议，本届会议于2024年6月29日至7月3日在阿根廷首都布宜诺斯艾利斯隆重召开。会议共收到423篇投稿，接收54篇论文，录用率约为12.8%。清华大学集成电路学院发表了国际首款面向视觉AI大模型的三维DRAM存算一体架构，受到学术界和产业界的共同关注。

论文题目为Exploiting Similarity Opportunities of Emerging Vision AI Models on Hybrid Bonding Architecture，尹首一教授，胡杨副教授为本文通信作者，岳志恒为论文第一作者，论文合作者还包括香港科技大学涂锋斌助理教授，上海交通大学李超教授等。团队提出的三维集成DRAM存算一体架构（如图1所示），大幅突破存储墙瓶颈，并基于三维集成架构特点，实现相似性感知计算，进一步提高AI大模型的计算效率。

图 1 三维DRAM存算一体架构

研究背景

人工智能大模型的火爆出圈，颠覆了人们对于传统AI的认知，已被部署在多领域，取得优异表现。但不断增大的模型同时引入了巨大的存储开销。而芯片外的存储单元与芯片上的计算单元之间的频繁搬移受制于存储带宽约束，需要付出巨大代价。这被称为“存储墙”瓶颈。

近存计算与“滩前问题”

传统存算分离架构，由于计算与片外DRAM存储的距离远，访问的延迟功耗高。面对带宽的迫切需求，近年来HBM（High Bandwidth Memory）高带宽存储被广泛采用作为解决方案 [1] 。HBM将8-12层存储单元垂直堆叠，使用1024个硅通孔（TSV）作为数据通道，有效提高了存储带宽。再以先进封装方式将HBM芯片与计算芯片在silicon interposer上集成，将计算芯片与存储芯片近距离集成封装，实现计算单元与存储单元之间数据的较短距离传输，‌通过“近存计算”提高处理性能。

然而，高带宽近存方案仍受到“滩前问题”制约，无法进一步突破存储瓶颈。滩前问题是指，假设计算芯片是一个海岛，则可以放置数据I/O通道的位置为岛的沙滩位置，而沙滩的长度则是可以放置I/O的总长度。当受到信号串扰等因素约束时，相邻的I/O位置受限，从而导致2.5D近存集成方案下I/O数量无法进一步提升，从而难以提升带宽。

二维存内计算与“工艺瓶颈问题”

为进一步提高计算单元可用带宽，基于DRAM的存内计算进一步将计算单元集成在存储阵列内部。具体而言，在每个存储Bank周围集成计算单元，Bank数据读出后，被相邻计算单元立即处理，实现了Bank级别的存内计算，有效解决了二维近存方案的滩前问题。

然而当计算单元集成在DRAM内部时，计算电路需采用DRAM工艺。与先进逻辑工艺相比，集成于DRAM 阵列内的计算电路性能有差距、面积代价高。同时，引入的计算单元将挤占DRAM存储阵列面积，造成DRAM自身的存储容量下降。例如，Samsung HBM-PIM在引入存内计算单元后，存储容量减少了50% [2] 。

三维存算融合架构，

从存储“墙”到存储“桥”

针对近存架构的带宽瓶颈和二维存内计算架构的工艺瓶颈问题，研究团队首次探索了三维立体存算一体架构方案。此方案通过将计算单元与 DRAM 存储单元在垂直方向堆叠，单元间以金属铜柱作为数据通道互联，有效解决了“滩前问题”，能任意位置放置数据 I/O，大幅提高数据通路密度。DRAM 阵列与计算逻辑可独立制造，逻辑电路不受 DRAM 工艺限制，不影响存储容量。在本架构中，DRAM 阵列由基本 DRAM Bank 组成，每个 DRAM Bank 与对应的计算 Bank 通过hybrid bonding工艺在垂直方向堆叠，二者通过高密度铜柱交互数据。互连铜柱距离短、寄生容抗小，数据通路等效于互连线直连，每个 DRAM Bank 与对应的计算 Bank 构成了Bank级存算一体单元（如图1所示）。

团队同时探索了Bank级存算一体架构下的设计空间，包括DRAM Bank适配的计算Bank算力，计算Bank的片上缓存大小，三维集成引入的面积开销等；并深入分析了三维架构的硬件可靠性及散热问题，实现了完整的存算一体架构设计，大幅突破了存储墙瓶颈，对AI大模型运算，提供了有力的支持。

相似性感知的三维存算一体架构

为进一步提升系统性能，设计团队提出了相似性感知三维存算一体架构。实验发现，激活数据在存储阵列内连续存储时，局部区域数据具有相似性，本文归结为存储数据的簇相似效应。利用此特性，设计团队提出在三维存算一体架构内，每个计算 Bank 能够独立且并行地挖掘对应 DRAM Bank 内数据的相似性，并利用相似数据完成计算加速，提升系统性能。

该存算一体设计克服了三个关键技术难点：1.如何寻找相似数据。由于DRAM Bank空间大，遍历搜索相似数据将引入极大的功耗和时间开销；2. 如何利用相似数据。先前存算一体单元并未针对数据相似性特点设计，无法充分挖掘其带来的性能增益；3. 如何平衡相似数据。由于在三维存算一体架构内，不同的计算Bank独立并行，因此系统性能受制于负载最重的计算Bank。本存算一体架构为解决以上困难，提出了三项关键技术：

1. 基于热点机制的DRAM Bank相似数据搜索方案

研究团队提出采用热点机制完成快速的相似数据搜索。热点数据为具有区域信息代表性的数据，即其与区域内多数数据有高相似性。本设计采用内容可寻址单元收集不同区域的热点数据，新数据从 DRAM Bank 读出时先在该单元内快速搜索匹配区域热点数据，此热点数据作为参考值与后续读出数据执行差分操作（如图 2 所示）。由于数据之间存在相似性，因此差分结果往往具有高稀疏特性，可被用于计算加速。

图 2 相似性感知的硬件加速单元

2. 针对相似数据特性的渐进式稀疏计算单元

当 DRAM Bank 数据读出并经预处理单元差分操作后，由于热点数据与 DRAM Bank 内区域数据具有相似性，异或结果往往在高比特位存在大量 0值。针对这一稀疏特性，存算一体架构设计了渐进式稀疏检测机构。先将完整数据按权重位置分块，判断数据比特块是否全为 0，若全0则直接跳过对应数据块计算，非0部分由计分牌硬件单元迅速定位有效数据。完成稀疏检测后，计分牌单元选择将非冗余数据块送入PE阵列进行计算，从而跳过了稀疏比特，提高了计算效率（如图 3 所示）。

图 3 渐进式稀疏计算单元

3. 针对数据相似性差异的负载均衡机制

本存算一体架构采用 Bank 级并行，不同计算单元对应的 DRAM Bank 内数据相似性可能存在较大差别（如图 4 所示）。这是因为数据相似性由硬件单元在运行时动态检测，无法在任务映射时提前判别。针对不同计算 Bank 任务不均衡的问题，本方案借助 DRAM Bank 间的数据相似性，对任务负载进行压缩处理，并在不同计算 Bank 间重分配任务，减少对片间路由网络带宽的挤占，实现 Bank 级别的负载均衡和性能提升。

图 4 由于数据相似性差异导致的负载不均衡

本工作完成了存算一体架构设计、单元电路实现及性能功耗面积分析。实验结果显示在系统性的AI任务负载上，本架构相比公开报道的高算力AI芯片 [3-5] ，提升了3.34～9.61倍有效计算吞吐（如图5所示），以及5.69∼28.13倍计算能效（如图6所示）。三维立体方案同时提升了3.82∼10.98倍面积效率。

图 5 有效吞吐提升

图 6 有效能效提升

总结

传统2D/2.5D集成方案由于存储与计算单元之间缓慢的数据搬移，引发存储墙问题。三维存算一体架构方案通过将计算单元在物理上与存储单元垂直集成，大幅缩减了数据读写延迟，提高了数据搬移效率，大幅提升了AI模型处理性能。这将有助于解决当前大语言模型在传统硬件上所面临的显著内存瓶颈问题。

参考链接

[1] J. Lee et al., "13.4 A 48GB 16-High 1280GB/s HBM3E DRAM with All-Around Power TSV and a 6-Phase RDQS Scheme for TSV Area Optimization," 2024 IEEE International Solid-State Circuits Conference (ISSCC), San Francisco, CA, USA, 2024, pp. 238-240, doi: 10.1109/ISSCC49657.2024.10454440.

[2] Jin Hyun Kim et al., Aquabolt-XL: Samsung HBM2-PIM with in-memory processing for ML accelerators and beyond, Hotchip33

[3] Drago Ignjatovic ́, Daniel W. Bailey, and Ljubisa Bajic ́. The wormhole ai training processor. In 2022 IEEE International Solid- State Circuits Conference (ISSCC), volume 65, pages 356–358, 2022.

[4] Thomas Norrie, Nishant Patil, Doe Hyun Yoon, George Kurian, and David Patterson. The design process for google’s training chips: Tpuv2 and tpuv3. IEEE Micro, PP(99):1–1, 2021.

[5] Norman P. Jouppi, Doe Hyun Yoon, Matthew Ashcraft, Mark Gottscho, Thomas B. Jablin, George Kurian, James Laudon, Sheng Li, Peter Ma, Xiaoyu Ma, Thomas Norrie, Nishant Patil, Sushma Prasad, Cliff Young, Zongwei Zhou, and David Patterson. Ten lessons from three generations shaped google’s tpuv4i : Industrial product. In 2021 ACM/IEEE 48th Annual International Symposium on Computer Architecture (ISCA), pages 1–14, 2021.