Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
: 沒關係,偷偷告訴你一個Insight
: 今年NeurIPS 2025有一篇超重量級的論文
: Introducing Nested Learning
: 這篇文論的重要程度不亞於Attention is all you need
: 甚至可以說有過之而無不及
: Transfomer架構只是發明了蒸氣機
: Nested Learning這篇論文,簡直就是熱力學定律的等級了
: 基本上等於宣告Transformer架構過時了(因為是一種扁平和單一頻率的特例)
: 未來三到五年,全面轉向Nested Learning的時代
: 以下文字是我先寫一版,再請Gemini潤稿的洞察
: --------這是AI潤稿的分隔線--------
: 當前 AI 發展正受制於一道物理鐵律:記憶體牆(Memory Wall)。傳統 Transformer 架
: 構依賴 KV Cache 維持上下文,這本質上是一種「以頻寬換取長度」的低效策略。隨
: 著上下文長度 T 的增加,Attention 機制的計算複雜度呈 O(T^2) 增長,而推論時
: 的記憶體搬運量呈 O(T) 線性增長。在 HBM 頻寬成長遠落後於 GPU 算力的現狀下,這
: 種依賴儲存大量未經壓縮原始狀態的架構,註定會從 Compute-Bound 跌落至 IO-Bound
: 的深淵。
: Nested Learning 的出現,透過對記憶與推理本質的重新理解,為此困境帶來了典範轉移
: 級別的解答。
: 其核心突破在於「推論即訓練」的數學創新——Nested Learning 揭示了
: Attention 機制在本質上等價於單步的梯度下降更新。基於此,HOPE 架構不再被動地檢
: 索歷史,而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題,轉化為
: 僅需固定算力的狀態更新問題,從根本上粉碎了記憶體牆。
: 在應用層面,這種架構徹底重塑了 AI 的個性化能力。HOPE 的動態記憶機制(Fast
: Weights) 不再依賴傳統模型那種外掛式的提示詞(Prompting)來「模擬」短期記憶,
: 而是透過梯度更新,將使用者的偏好與習慣即時「內化」為模型參數的一部分。這不
: 僅在工程上根除了重複處理提示詞的算力浪費,更在體驗上創造出具備「演化能力」的專
: 屬模型,讓 AI 隨著每一次互動變得更懂你。
: 這一變革預示著當前 HBM 需求高速增長的趨勢將顯著放緩,技術改革的方向將轉向針對
: 不同更新層級的硬體特化:
: 邊緣裝置 (Edge): 承載高頻更新的快層,將不再單純追求頻寬,而是轉向追求大容量
: SRAM 與極致的能效比,以支撐毫秒級的狀態寫入與計算。
: 雲端中心 (Cloud): 承載低頻更新的慢層,為了處理更複雜的邏輯推理與龐大的智能結
: 構,將演化出針對非歐幾何的特化運算單元,以在雙曲空間中實現更高維度的高效推理。
: ----------這是AI潤稿的分隔線-----------
: 你各位要小心HBM市場在2026年末的崩潰反轉
: 短期因為各種高頻信號,還是會持續推高HBM的市場價格
: 然後記憶體因為這些需求訊號,會瘋狂擴廠
: 等到「基於超大KV Cache的Transfomer架構」路徑依賴崩潰
: 新架構全面轉向HOPE的時侯
: 嘻嘻 刺激囉~~~
小弟不才,關於技術的部份看不懂
但還是想請教
1.現有transfomer架構因為需要死背硬記,所以需要超大規模記憶體
來對應長文本、圖像,甚至影片,到長影片所需的記憶體規模已經
不具備實際可行性或是沒有經濟價值
這部分Nested Learning具備絕對優勢,面對長文本、圖像,甚至長影片
對記憶體的需求成長可控
2.Nested Learning具備持續學習的能力,這點是transformer不具備的
基於以上兩點,即使現在還有很多缺點,未來也絕對有Nested Learning
的一席之地(因為transformer在這些地方的劣勢是結構性的,無法改變)
請問我這理解有沒有哪邊有問題?
如果未來Nested Learning大規模佈署,在產業面上的影響
1.SRAM的需求會大幅增加,Nested Learning需要的不是大量的HBM來記憶
而是需要能快速響應的SRAM來對應CMS
2.算力的需求暴增,相比現在的transformer是卡在記憶體數量與頻寬
Nested Learning因為需要Backward Pass,需要的是數倍的算力
3.由上面兩點推測,封裝需求也會改變,HBM+GPU的封裝需求成長減緩
如CoWoS,相對的interposer、載板也不需要那麼大,所以這些產業
成長會放緩
我腦容量不夠,這是我想像力的極限了
什麼雙曲空間已經超出我認知範圍
不過還是想問一下我這樣理解有沒有什麼問題
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.23.5 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765642720.A.94D.html
→
12/14 00:22,
2小時前
, 1F
12/14 00:22, 1F
→
12/14 00:22,
2小時前
, 2F
12/14 00:22, 2F
→
12/14 00:23,
2小時前
, 3F
12/14 00:23, 3F
→
12/14 00:23,
2小時前
, 4F
12/14 00:23, 4F
→
12/14 00:24,
2小時前
, 5F
12/14 00:24, 5F
→
12/14 00:24,
2小時前
, 6F
12/14 00:24, 6F
→
12/14 00:25,
2小時前
, 7F
12/14 00:25, 7F
討論串 (同標題文章)
完整討論串 (本文為第 14 之 16 篇):
Stock 近期熱門文章
PTT職涯區 即時熱門文章