- +1
Flash HBM將HBM內(nèi)存容量擴大10倍以上

本文由半導(dǎo)體產(chǎn)業(yè)縱橫(ID:ICVIEWS)編譯自pc.watch
HBF模塊樣品預(yù)計于2026年下半年出貨。
超寬帶DRAM 模塊技術(shù)HBM(高帶寬內(nèi)存)的衍生產(chǎn)品最近成為科技媒體的熱門話題。它們分別是移動 HBM和閃存 HBM。這次,筆者想簡單介紹一下Flash HBM或高帶寬閃存(HBF)。Flash HBM或HBF的概念非常簡單。我們先從傳統(tǒng)的技術(shù)HBM(高帶寬存儲器)說起。
HBM 由一個存儲器部分(DRAM 芯片稱為核心芯片)和位于底部的基礎(chǔ)芯片(邏輯芯片)組成,其中符合 HBM 標(biāo)準(zhǔn)的專用 DRAM 芯片使用硅通孔 (TSV)技術(shù)以三維方式堆疊。
DRAM 芯片(核心芯片)的數(shù)量取決于 HBM 的代數(shù)。例如,第五代HBM3E堆疊了 12 或 16 個核心芯片。核心芯片的顯存容量為 16Gbit 或 24Gbit。假設(shè)核心芯片的顯存容量為 16Gbit(2GB),堆疊了 12 個芯片,則一個 HBM 模塊的顯存容量為 24GB(192Gbit)。
八個HBM 模塊與 GPU 或 SoC 等尖端大規(guī)模邏輯芯片安裝在同一中介層上,總內(nèi)存容量達(dá) 192GB。從 GPU 的角度來看,HBM 相當(dāng)于內(nèi)存層次結(jié)構(gòu)中的主內(nèi)存。此外,DRAM 芯片的內(nèi)存容量將增加到 24Gbit(3GB),堆疊層數(shù)將增加到 16。假設(shè)安裝在中介層上的 HBM 模塊數(shù)量為 8 個,則 HBM 的總內(nèi)存容量將為 384GB(48GB 模塊 x 8 個)。
現(xiàn)在,讓我們將核心芯片從DRAM 換成 NAND 閃存。假設(shè) NAND 閃存芯片(核心芯片)的內(nèi)存容量為 256Gbit,堆疊 16 個核心芯片,則每個模塊(HBF 模塊)的內(nèi)存容量將達(dá)到 512GB。512/48 = 10.7,512/24 = 21.3,因此每個模塊的內(nèi)存容量是 DRAM 核心芯片的 10 到 20 倍。這就是HBF(高帶寬閃存)。如果將 8 個 HBF 與 GPU 安裝在同一個中間板上,我們可以獲得 4,096GB 的大容量主內(nèi)存。

Flash HBM(又稱HBF)的特性(左)和基本結(jié)構(gòu)(右)。
HBF 由 NAND 閃存和閃存存儲供應(yīng)商 Sandisk 發(fā)明。其 I/O 帶寬與 HBM DRAM 核心芯片大致相同,并聲稱能夠以與 HBM 相近的成本將內(nèi)存容量提高 8 到 16 倍,同時顯著降低功耗。512GB 模塊的 I/O 數(shù)據(jù)速度高達(dá) 1.6TB/s,接近 HBM4 DRAM 核心芯片的速度。其外部尺寸(平面尺寸和高度)也與 HBM4 模塊大致相同。

堆疊DRAM 芯片的 HBM(左)和堆疊 NAND 閃存芯片的 HBF(右)與 GPU 組合后的總存儲容量。單個 HBM 的存儲容量為 24GB(16 個 12Gbit 芯片或 12 個 16Gbit 芯片),單個 HBF 的存儲容量為 512GB(16 個 256Gbit 芯片)。
HBM高成本限制了AI服務(wù)器性能的提升
Sandisk 聲稱,HBF 架構(gòu)是通過收集幾家大型人工智能 (AI) 公司的信息而設(shè)計的。大型機器學(xué)習(xí)模型,例如大型語言模型 (LLM),具有極其龐大的參數(shù)數(shù)量。例如,該公司表示,存儲 1.8 萬億 (1.8T) 個具有 16 位權(quán)重的參數(shù)需要 3,600GB 的內(nèi)存。

大規(guī)模語言模型(LLM) 的存儲需求示例(左)和相應(yīng)的 HBF 示例(右)。
目前HBM模塊的最大容量為192GB至384GB,因此很難存儲3600GB的數(shù)據(jù)。雖然理論上是可行的,但這會將DRAM的成本推高到不切實際的水平。
近年來,DRAM 內(nèi)存容量的單位成本下降幅度不如以往。我們預(yù)計價格每年僅會下降約 5%。盡管如此,自 2020 年代以來,大規(guī)模機器學(xué)習(xí)模型所需的內(nèi)存容量一直在快速增長。雖然由于 HBM 容量的擴展,GPU 模塊產(chǎn)品的主內(nèi)存容量正在增加,但與所需內(nèi)存容量之間的差距卻在不斷擴大。
此外,2020年HBM成本占GPU模塊產(chǎn)品成本的近一半(48%),但預(yù)計到2025年將上升到三分之二以上(68%)。HBM是一種基于DRAM的高帶寬存儲器,這使得優(yōu)先考慮低成本的邊緣AI服務(wù)器難以提高性能,即擴大主存儲器容量(HBM容量)。

左圖為DRAM每單位內(nèi)存容量的單位成本,中圖為大規(guī)模語言模型(LLM)的參數(shù)數(shù)量,以及機器學(xué)習(xí)用GPU/TPU主內(nèi)存容量的變化趨勢,右圖為HBM成本占GPU模塊(GPU、HBM、中間板等)總成本的比例變化趨勢。
NAND閃存高帶寬模塊的優(yōu)缺點
因此,通過使用單位存儲容量成本低于DRAM 的 NAND 閃存作為高帶寬存儲模塊 (HBF),可以在抑制存儲成本上升的同時顯著擴展主存儲容量。然而,NAND 閃存存在讀寫性能不對稱的問題。讀取速度與 DRAM 一樣快,原則上沒有使用壽命(可以無限次讀?。懭胨俣缺?DRAM 慢,并且可重寫的次數(shù)有限(最多 10,000 次)。
因此,NAND 閃存不適用于 AI 學(xué)習(xí)服務(wù)器,因為在模型調(diào)整過程中,參數(shù)重寫會頻繁發(fā)生。NAND 閃存適用于基于推理的服務(wù)器,因為這類服務(wù)器不經(jīng)常發(fā)生參數(shù)重寫。SanDisk 聲稱,它適用于邊緣推理服務(wù)器,這類服務(wù)器優(yōu)先考慮降低成本、功耗和安裝空間。

HBF的主要用于邊緣AI推理服務(wù)器。下方的紅色圖表似乎是HBF的核心芯片(NAND閃存)的布局(中央的粗豎條是TSV區(qū)域)。

標(biāo)準(zhǔn)3D NAND 閃存的內(nèi)部結(jié)構(gòu)(左)和用于高帶寬模塊 (HBF) 的 3D NAND 閃存的內(nèi)部結(jié)構(gòu)(右)。兩者均為示意圖。對于 HBF,存儲單元陣列被劃分為多個塊,從而顯著增加 I/O 數(shù)量至 1,024 個,并提高了 I/O 帶寬。
HBF的推理性能與無限大容量的HBM幾乎相同
如果將HBM DRAM核心芯片替換為HBF NAND閃存核心芯片,推理性能會下降多少?SanDisk以LLMLlama 3.1(4050億個參數(shù))為例,比較了推理過程的幾個步驟,發(fā)現(xiàn)HBF相比HBM(假設(shè)內(nèi)存容量無限大)的性能下降幅度小于2.2%(GPU亦然)。
HBF 和 GPU 組合的推理性能與 HBM 相當(dāng)接近,但實際上 HBM 的顯存容量不可能無限大,因此性能差距有望進一步縮小。

這是模擬比較Llama 3.1(4050 億個參數(shù))與 HBM(假設(shè)內(nèi)存容量無限大)和 HBF 處理性能的結(jié)果。從左到右,這些過程分別為Attn QKV Projection、Attn Output Projection、FFN Up-Projection、FFN Down-Projection、Final Linear和LLM Decode Pass 的平均值??v軸表示權(quán)重讀取速度。
SK海力士參與開發(fā)
SK海力士將與Sandisk合作開發(fā)HBF并制定其規(guī)范。SK海力士是主要的DRAM和NAND閃存制造商,也是最大的HBM供應(yīng)商。TSV技術(shù)對HBF至關(guān)重要。Sandisk目前尚無TSV技術(shù)量產(chǎn)的記錄,因此SK海力士是理想的合作伙伴。SK海力士擁有HBM(也采用TSV技術(shù))的量產(chǎn)記錄,并且對NAND閃存非常了解。
HBF模塊樣品預(yù)計于2026年下半年出貨,搭載HBF模塊的AI推理服務(wù)器預(yù)計將于2027年初問世。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認(rèn)同,如有異議,請聯(lián)系后臺。
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2026 上海東方報業(yè)有限公司




