“内存墙”一词最早出现于20世纪90年代中期,当时弗吉尼亚大学的研究人员William Wulf和Sally McKee合著了“Hitting the Memory Wall: Implications of the Obvious”(撞上内存墙:显而易见的影响)一文。该研究揭示了由于处理器速度与动态随机存取存储器(DRAM)性能之间的差距而导致的内存带宽瓶颈问题。
这些发现指出了工程师们在过去三十年中一直试图克服的根本性障碍。而人工智能(AI)、图形技术和高性能计算(HPC)的兴起,更是加剧了这一挑战的难度。
现代大型语言模型(LLM)的训练参数超过万亿,需要持续访问数据,并且每秒需要PB级的带宽。新型LLM尤其需要极高的内存带宽来进行训练和快速推理,而且增长势头丝毫没有放缓的迹象。预计LLM市场规模将从2024年的约50亿美元增长到2033年的超过800亿美元。CPU和GPU在性能、内存带宽和延迟方面的差距日益扩大,这一点显而易见。
HBM在AI领域的崛起
HBM是满足AI最具挑战性工作负载需求的理想解决方案,英伟达、AMD、英特尔和谷歌等行业巨头都在使用HBM进行其规模最大的AI训练和推理工作。与标准双倍数据速率(DDR)或GDDR DRAM相比,HBM在相似的DRAM尺寸下提供更高的带宽和更佳的能效。
它结合了垂直堆叠的DRAM芯片、宽数据通路以及一种全新的物理实现方式,将处理器和内存安装在硅中介层上。这种硅中介层允许数千根导线将处理器连接到每个HBM DRAM。
更宽的数据总线能够高效地传输更多数据,从而提高带宽、降低延迟并提升能效。虽然这种新的物理实现方式会增加系统复杂性和成本,但其带来的性能和能效提升通常是值得的。
JEDEC于2025年4月发布的HBM4标准标志着HBM架构向前迈出了关键一步。它通过将每个设备的独立通道数量翻倍来提高带宽,从而实现对DRAM中数据的更灵活访问。物理实现方式保持不变,DRAM和处理器封装在中介层上,与HBM3相比,这允许更多的线路用于数据传输。
虽然HBM内存系统的实现仍然比其他DRAM技术更复杂、成本更高,但HBM4架构在容量和带宽之间实现了良好的平衡,为AI的快速发展提供了一条可行的发展路径。
AI的未来内存需求
随着LLM以每年30%至50%的速度增长,内存技术将持续面临挑战,以满足行业对性能、容量和能效的需求。随着AI的不断发展并拓展到边缘计算领域,诸如高级AI代理和多模态模型等对功耗要求较高的应用将带来新的挑战,例如散热管理、成本和硬件安全。
AI的未来将继续像依赖计算能力一样依赖内存创新。半导体行业拥有悠久的创新历史,而AI带来的机遇为该行业提供了强大的动力,使其在可预见的未来继续投资和创新。