Re: [請益] 為何記憶體可以隨便調漲毛利率那麼高
先說我個人看法: CXL DRAM, 不是HBM,
股票的話 就是MRVL,
但是我沒有買MRVL, 不要找我負責
※ 引述《maplefff (降息の恐怖嘎鱷)》之銘言:
: ※ 引述《Pixma258 (鄉民們!別爭了!!)》之銘言:
: : 乳題,為何記憶體可以瘋漲價成這樣
: : 川狗一句話都不敢出來叫
: : 但晶圓不行,漲價要漲的小心奕奕
: : 川狗不時出來叫
: : 如要論記憶體和晶圓,晶圓製造技術門檻更高
: : 而且對AI基建晶圓重要性也絕對不會輸記憶體
: : 有沒有記憶體可以隨便喊漲那麼高的毛利率
: : 晶圓不行
: : 股價更是晶圓瘋漲成這樣,晶圓卻被倒貨
: : 實在看不懂,想請教一下大家
: 「HBM容量每GPU大概每年增長40%以上
以電腦架構來看,
HBM 不會一直這樣快速增長上去,
HBM的速度非常快, 價格/成本極貴,
就像是快取一樣的地位,
不應該一整塊全部都是HBM,
傳統電腦架構的設計是每一層的存取大小比例是10-1000倍的差距,
比方說16kb register,
16mb cache,
16gb ram,
16tb ssd/hdd,
當然,
每一層的速度也是差了1000倍以上
所以HBM 跟傳統DRAM的比例應該是10-1000倍的大小比例,
但是這幾年的AI競爭被某一兩家不用公布財報的公司給搞爛,
因為不用公布財報,
錢也都是借來或是投資人給的,
所以他們是用最暴力最奢侈的方式在搞AI競爭,
從前的多層次存取架構,
被搞成暴力法的100% HBM,
他們不需要在乎成本價格,
只要他的速度比你快一倍,
你在AI 競爭上面就完全出局
過去幾年就是在這樣的變態競爭下,
把Nvidia GPU 跟 HBM吵到非常不合理的程度,
有人不想跟著這樣玩,
就會被華爾街跟主流媒體罵說沒有AI競爭力,
不信,
你去看看2015-2025這十年,
某公司的自研AI晶片每年都被華爾街教訓要求關掉部門改用NVDA GPU,
這部分就不多說了
回到主題,
但是這種"Game of Chicken" = 「膽小鬼博弈」,
總有玩不下去, 有人退場的時候,
首先是GPU,
開始有人受不了輝達稅 Nvidia tax,
開始有人自己研發AI 晶片,
接下來就是 HBM 稅,
同樣的道理,
之前不論是AI模型公司或是CSP,
扣完輝達稅都是賠錢在給客戶使用,
現在 HBM 漲價漲成這樣,
扣完HBM的成本,
CSP也幾乎是賠錢在給客戶使用,
當然信仰夠的蘋果跟輝達可以加價賣,
但是大部分的公司是沒有信仰可以加價賣的
這時候只能走回傳統的電腦架構設計,
HBM 跟 DRAM 比例要回到 1:1000 以上的比例,
犧牲一些記憶體效能
至於有沒有TSM 台積電稅,
有的,
已經十幾年了,
但是台積電收費比較合理,
唯一的缺點是你必須排隊幾年,
所以大家也就都給台積電代工,
說要給別家公司代工都只是說說而已,
因為價格跟成本沒有比較省, 反而更貴
: 這條需求曲線的陡峭程度,是DRAM供給端 14% 的晶圓產能增長,
: 乘以 9% 的密度提升,很難追上的
: 在硬體領域,因為解碼階段KV快取的極高頻寬
: 和極高記憶體容量的要求,也導致了HBM獨特的地位。即便是HBM漲價三五倍,
: 把錢花在HBM上帶來的邊際token產出提升,仍然比花在其他地方要划算的多。
: 其他幾個記憶體路線,SRAM,HBF,CXL,PIM,
: 目前都無法在HBM的主力賽道KV快取/解碼階段上正面競爭,
: 起碼未來5年甚至更長時間,不太可能找到替代路線」
: https://x.com/fi56622380/status/2070029693810847988?s=20
: ////////////
: 只要LLM還是當前自回歸生成(AR, Autoregressive Generation)工程範式,
: 每生成1個token都需要搬運KV快取計算上文每一個token和下文的注意力(Attention)
: 那記憶體問題就是供給側無解的問題, 因為LLM對記憶體頻寬擴展的需求會是
: token生成長度二次方增長.
: 將token生成長度1M token -> 10M token, 記憶體頻寬需要擴展100倍
: 這遠遠高於現實世界工廠建設和製程優化的速度.
: 要解決該問題, 唯一的方法是從算法根本上去解決.
: 我很久之前就認為文本Diffusion模型很可能是下一代新工程範式
: 從流形假設的觀點看Diffusion的生成更穩定, 從工程實踐去看其生成更有效率
: 文本Diffusion模型可以一次性讀取KV快取就透過GPU迭代生成大量token
: 目前工程實踐可以做到一次生成256 token以上, 這表示KV快取搬運減少256倍
: 而未來顯然會更長. 這會把當前的記憶體受限問題重新拉回到GPU, 算力受限問題上
: 關鍵的轉折點會落在什麼時候上下文長度已經長到這個效益無法忽視
: 文本Diffusion模型, 隨著前陣子Google釋出開源DiffusionGemma, 使用起來差距
: 跟同參數量的AR模型已經在1~2個世代之內. 這表示文本Diffusion已經誇過研究階段
: 正式進入工程實踐和大規模部署可能.
LLM inference 目前真正的的solution 是:
CXL + in/near memory + Compression
已經在做了,
已經有晶片出貨了,
有幾家CSP廠正在部署,
市場只有一家晶片廠有這個solution,
短時間五到十年內也只有這家晶片廠有能力做,
因為CXL是他家定義的,
memory controller storage read channel 業界第一,
完全沒對手十幾年的那種,
那麼你會懷疑 為何這麼厲害之前公司會那麼鳥,
請配合美光的另一篇新聞服用,
2023年之前的記憶體市場慘到幾乎全部記憶體廠都快倒了,
這家業界唯一的memory controller storage channel 當然也是快倒
下面有空再說
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1782458086.A.529.html
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章