开云体育 存储器行业加大对下一代时期“HBM-PNM”的磋议力度


HBM4的推出,逻辑芯片的制造工艺已采用5纳米或更小的先进工艺,裁汰了PNM时期的实施门槛。
跟着HBM4行将量产,存储器半导体行业正全力参加下一代时期“HBM-PNM”的磋议。此举备受关爱,被视为为以“可盘算存储器”为中心的新时间作念准备,该时间径直在存储器里面惩办盘算,突破了以显卡(GPU)为中心的架构的放肆。
据业内东说念主士11日透露,由三星电子、英伟达、加州大学圣地亚哥分校、哥伦比亚大学和延世大学构成的长入磋议团队最近在arXiv上发表了一篇对于AMMA(多芯片内存中心架构)时期的论文,展示了HBM-PNM时期的可行性。
PNM(近内存惩办)时期通过将非常的盘算单位摈弃在HBM堆栈的逻辑芯片上,径直在内存阁下实行盘算。现存的PIM(内存内惩办)当作将盘算电路摈弃在存储单位里面,而PNM的上风在于偶而在保捏内存容量的同期,收场更复杂、更广博的盘算。
当今,大型话语模子(LLM)就业的最大瓶颈在于解码阶段的注重力机制。在对长高下文进行解码注重力时,GPU朝上95%的盘算智力处于闲置景色,导致内存带宽险些被统统行使。
即使是Rubin GPU,分析也娇傲,其盘算中枢(占封装面积的67%,功耗的73%)在万古辰启动的情况下实践行使率仅为4%至5%阁下。这酿成了资源花费,亦然导致功耗增多和发烧问题的主要原因。
跟着HBM4的推出,逻辑芯片的制造工艺已采用5纳米或更小的先进工艺,裁汰了PNM时期的实施门槛。该磋议团队冷落的AMMA决议移除了现存GPU的盘算芯片,并将16个HBM-PNM立方体以4×4网格结构聚会起来。这使得封装内的内存带宽擢升至44TB/s,约为现存架构的两倍。
在实践磋议中,与NVIDIA H100比拟,AMMA架构将注重力延长裁汰了15.5倍,能耗裁汰了6.9倍。其速率也比下一代Rubin GPU快1.8到2.5倍,能效提高了2.6到3.1倍。尤其值得一提的是,它在惩办百万级(1M Context)的超长高下文推理和智能体责任负载方面推崇出色。
磋议团队暗意:“通过这项磋议,咱们旨在阐述以内存为中心的架构有后劲成为GPU以外的新式架构,并促进对下一代系统的磋议,在这些系统中,开云体育以内存为中心的加快器在异构平台中施展着重要作用。”
在摩尔定律的发展的几十年里,惩办器、存储器等组件贬抑发展,惩办器算力、存储器存储量皆得到了大幅擢升。但与之而来的,等于“存储墙”、“带宽墙”、“功耗墙”等问题。由于惩办器的峰值算力每两年增长3.1倍,而动态存储器的带宽每两年增长1.4倍,存储器的发展速率远逾期于惩办器,收支1.7倍。CPU时钟速率与片外内存和磁盘驱动器I/O速率之间的差距越来越大。比如,动态马上存储器DRAM(Dynamic Random Access Memory)是芯片鸿沟“最巨额单一产物”,精密工业制造的金冠之一,被喻为聚聚合央惩办器(CPU)的“数据高速公路”。其功能是暂存正在启动的多样关节和数据,是一种易失性存储器,即断电后数据就丢失。DRAM由于其较差的可膨胀性和极高的想象资本敏锐性(每比特资本),其发展相对较慢,在10nm时期节点就遭逢了天花板。
存储墙导致访存时延高,收尾低,存储器的数据观望速率跟不上惩办器的数据惩办速率,存算性能失配。为了冲破存储墙,仍是冷落了巨额的磋议责任来优化DRAM架构,上文提到的近存盘算等于一种,此外还有存内盘算等阶梯。
存内盘算是在内存中完成部分盘算,在惩办器中完成部分盘算。相较于内存盘算将盘算所需的所稀有据放入到内存中,系数盘算由惩办器完成,存内盘算裁汰了数据在内存与高速缓存,高速缓存与CPU之间移动的能耗,提高内存盘算系统的性能。其中枢上风在于高算力、低功耗、低延长,主要分为端侧(小算力低功耗)、边侧(中算力及时惩办)和云侧(高算力)。典型应用鸿沟包括:终局及物联网(IoT)场景、边际盘算及AI揣测场景以及云霄/大限制盘算场景。
开云体育中国一站式服务官网*声明:本文系原作家创作。著述内容系其个东说念主不雅点,本人转载仅为共享与商酌,不代表本人赞赏或招供,如有异议,请有关后台。
思要赢得半导体产业的前沿洞见、时期速递、趋势领路开云体育,关爱咱们!