Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
看板Stock (股票)作者minazukimaya (水無月真夜)時間6小時前 (2025/12/13 03:06)推噓43(44推 1噓 31→)留言76則, 35人參與討論串10/11 (看更多)
※ 引述《LDPC (Channel Coding)》之銘言:
: @@我是不知道其他世界線 我們公司有引入各種AI Tool
: 比方說在slack 我要開一個data bucket權限 (公司機密資料 權限最高級那種)
: 來測試我新模型 然後我就slack打serval (IT機器人公司方案)
: 他就開始一步步核對 然後最後一步還跟我說有各種data access 時間限制
: 然後就幫我設定好 然後最一關簽呈就是人類IT 這些步驟效率超越傳統IT很多
: 隨時都可以叫IT機器人幫我處理各種事情 前置作業大量弄好 只要一兩個人類做最後確認
: 同樣的 我在openai企業版(有專門設計給企業版) 這個整合內部公司所有文件資料
: 有一次我要設計模型 我就問這方面模型有誰設計過 結果他就拉出過去
: 三年各種歷史設計報個 還有各種benchmark 因為openai企業版可以整合公司資料庫
: 一下子我就能站在過去歷史巨人 不需要去問哪個部門之前幹過啥
: ai coding現在最大用途就是寫測試工具 真他x的好用 設計模型完之後 叫ai幫我寫
: script去做下游端大量測試
: 其他ai tool還有infenrece端可以直接調用prompt和觀察模型反應 以及notion
: 這種線上報告也引用自家ai tool 快速搜尋資料都挺方便
: 然後我們自己設計給下游顧客的ai tool 如果顧客說他工作時間沒縮短
: 那我們就拿不下訂單 現在垂直整合領域已經殺到紅血 每個tool 越蓋越先進QQ
: 我好想躺平 已經每天工時飆到16hr....... 改天再寫寫去NeurIPS看到的跡象
: Hinton/Jeff Dean/Yoshua Bengio/何凱明 任何你知道大神都去這今年NeurIPS
: 結論就是大廠真的要幹架了 Google DeepMind新政策 禁止發paper
: QQ 不發paper延伸意義就是 現在開始 狗家不會在開放他們自家模型設計秘密
: 目標就是要胖揍開放愛和其他競爭者...
: 目前狗家大量研究員生氣中 這次還有很多菁英邀請制度線下聚會 跑去蹭了NV/META
: 看到一堆海外的博士生在現場跪求進去Meta 線下聚會.......QQ
: 據說開放愛線下聚會是最難進去的 連地點和門路在哪都不知 只能被動邀請
沒關係,偷偷告訴你一個Insight
今年NeurIPS 2025有一篇超重量級的論文
Introducing Nested Learning
這篇文論的重要程度不亞於Attention is all you need
甚至可以說有過之而無不及
Transfomer架構只是發明了蒸氣機
Nested Learning這篇論文,簡直就是熱力學定律的等級了
基本上等於宣告Transformer架構過時了(因為是一種扁平和單一頻率的特例)
未來三到五年,全面轉向Nested Learning的時代
以下文字是我先寫一版,再請Gemini潤稿的洞察
--------這是AI潤稿的分隔線--------
當前 AI 發展正受制於一道物理鐵律:記憶體牆(Memory Wall)。傳統 Transformer 架
構依賴 KV Cache 維持上下文,這本質上是一種「以頻寬換取長度」的低效策略。隨
著上下文長度 T 的增加,Attention 機制的計算複雜度呈 O(T^2) 增長,而推論時
的記憶體搬運量呈 O(T) 線性增長。在 HBM 頻寬成長遠落後於 GPU 算力的現狀下,這
種依賴儲存大量未經壓縮原始狀態的架構,註定會從 Compute-Bound 跌落至 IO-Bound
的深淵。
Nested Learning 的出現,透過對記憶與推理本質的重新理解,為此困境帶來了典範轉移
級別的解答。
其核心突破在於「推論即訓練」的數學創新——Nested Learning 揭示了
Attention 機制在本質上等價於單步的梯度下降更新。基於此,HOPE 架構不再被動地檢
索歷史,而是主動將資訊即時壓縮為模型權重。這將原本受限於頻寬的檢索問題,轉化為
僅需固定算力的狀態更新問題,從根本上粉碎了記憶體牆。
在應用層面,這種架構徹底重塑了 AI 的個性化能力。HOPE 的動態記憶機制(Fast
Weights) 不再依賴傳統模型那種外掛式的提示詞(Prompting)來「模擬」短期記憶,
而是透過梯度更新,將使用者的偏好與習慣即時「內化」為模型參數的一部分。這不
僅在工程上根除了重複處理提示詞的算力浪費,更在體驗上創造出具備「演化能力」的專
屬模型,讓 AI 隨著每一次互動變得更懂你。
這一變革預示著當前 HBM 需求高速增長的趨勢將顯著放緩,技術改革的方向將轉向針對
不同更新層級的硬體特化:
邊緣裝置 (Edge): 承載高頻更新的快層,將不再單純追求頻寬,而是轉向追求大容量
SRAM 與極致的能效比,以支撐毫秒級的狀態寫入與計算。
雲端中心 (Cloud): 承載低頻更新的慢層,為了處理更複雜的邏輯推理與龐大的智能結
構,將演化出針對非歐幾何的特化運算單元,以在雙曲空間中實現更高維度的高效推理。
----------這是AI潤稿的分隔線-----------
你各位要小心HBM市場在2026年末的崩潰反轉
短期因為各種高頻信號,還是會持續推高HBM的市場價格
然後記憶體因為這些需求訊號,會瘋狂擴廠
等到「基於超大KV Cache的Transfomer架構」路徑依賴崩潰
新架構全面轉向HOPE的時侯
嘻嘻 刺激囉~~~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.205.172 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765566374.A.FED.html
推
12/13 03:10,
6小時前
, 1F
12/13 03:10, 1F
遙遙領先,狗家的硬體和計算架構和前沿論文研究,具有高度的一致性
互相加成,互相協同,full-stack優化
等到其他大廠醒悟過來,發現Nested learning才是正確方向
決定要放棄Transfomer時,狗家已經領先一年到一年半了
不信你丟給ai問,可以多問幾間互相比對
當然,要用正確的方式問才會得到正確的答案
你要先有足夠的背景知識才能識破關鍵點,問出最重要的問題
問問題的能力,大概就是新時代最重要的能力了XD
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:16:47
噓
12/13 03:22,
5小時前
, 2F
12/13 03:22, 2F
推
12/13 03:24,
5小時前
, 3F
12/13 03:24, 3F
推
12/13 03:27,
5小時前
, 4F
12/13 03:27, 4F
推
12/13 03:41,
5小時前
, 5F
12/13 03:41, 5F
如果是以「當前同等能力模型」作為基準 答案是不會
因為Transformer+KV Cache是一種很低效的推論模型
低密度的無壓縮資訊儲存+重覆計算AttentionMap
導致超大量的能源浪費(算力和資料搬運成本兩者都是)
Nested Learning使用正確的層級特化結構的話 在推論期可以省下五到十倍的能源消耗
不過,架構優化和模型能力提升是兩步走的
在架構優化釋放出來的算力,最終會導致模型繼續依照Scaling Law擴大
所以結果是「省了十倍的能耗,那模型就能再大十倍」(這不是正確的數學,只是比喻)
算力需求永遠存在,因為文明的本質就是計算
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:55:45
推
12/13 03:55,
5小時前
, 6F
12/13 03:55, 6F
需要從更細致的視角去切入
SRAM也是記憶元件 HBM也是 Host DRAM(LPDDR)也是
計算也一樣 tensor core是計算元件 systolic array也是計算元件
近存運算也是計算元件
所以「在哪裡計算,在哪裡儲存,如何搬運資料」從來就不是一個單一命題
一切都要從架構與系統級的視角下去拆解,才會根據需求得出一個答案
這也是為什麼邊緣層和雲端層會發展出不同的計算架構 因為需求不同
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 03:59:39
推
12/13 04:03,
5小時前
, 7F
12/13 04:03, 7F
推
12/13 04:08,
5小時前
, 8F
12/13 04:08, 8F
→
12/13 04:08,
5小時前
, 9F
12/13 04:08, 9F
→
12/13 04:08,
5小時前
, 10F
12/13 04:08, 10F
推
12/13 04:59,
4小時前
, 11F
12/13 04:59, 11F
→
12/13 04:59,
4小時前
, 12F
12/13 04:59, 12F
→
12/13 04:59,
4小時前
, 13F
12/13 04:59, 13F
研究(Model Refinement)時代和擴增(Scaling)時代是輪流出現的
Ilya Sutskever最近有一篇訪談可以看看
正如他所說,接下來時代巨輪要轉回模型改進了
不過,等到模型改進得差不多,又會重啟擴增時代
這兩個時代的過度也是漸變的,不是一刀切
「文明的本質就是計算」
你如果看不懂這一大堆Big Tech誰會贏,那也沒差
買2330 永遠是對的
推
12/13 05:07,
4小時前
, 14F
12/13 05:07, 14F
感謝GOOG爆噴一波,現在YTD 90%了(真是出乎我意料..11月初時我本來已經躺平了)
https://i.imgur.com/NHJP572.png

不過我在11月底賣掉一部份GOOG撿了NVDA,作整體部位Rebalance
然後今天就吃了一根超~~~級大的,腳麻了,哭啊
推
12/13 05:08,
4小時前
, 15F
12/13 05:08, 15F
→
12/13 05:08,
4小時前
, 16F
12/13 05:08, 16F
嘻嘻 其實這篇只是我得到的洞察的一小角而已
真正重要的我沒說,不過這篇其實有很多引子
比方說在模型最深層(最慢層),需要非歐幾何的雙曲空間語義空間
(提示: Transfomer的語義空間是平面的)
這在Nested Learning論文裡是完全沒提的,是另幾篇資訊幾何學的研究
推
12/13 05:10,
4小時前
, 17F
12/13 05:10, 17F
→
12/13 05:10,
4小時前
, 18F
12/13 05:10, 18F
→
12/13 05:13,
4小時前
, 19F
12/13 05:13, 19F
考慮一個五層結構,最淺兩層(L1~L2)在邊緣,三層(L3~L5)在雲端
你猜猜看L1需要多少參數量? 答案可能出乎你意料的小
完全不需要放在NAND
而且從最快層的「權重即時更新」需求來看,也不能可能放在NAND
推
12/13 05:14,
4小時前
, 20F
12/13 05:14, 20F
推
12/13 05:15,
4小時前
, 21F
12/13 05:15, 21F
→
12/13 05:15,
4小時前
, 22F
12/13 05:15, 22F
→
12/13 05:15,
4小時前
, 23F
12/13 05:15, 23F
HBM的頻寬和速度很重要 這敘述沒問題
不過HBM的總需求是容量(Capcity)決定的
猜猜看如果把最深層的語義空間從平面換成雙曲,參數量會變成多少?
有論文可以查的,查查看
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 05:44:36
推
12/13 05:53,
3小時前
, 24F
12/13 05:53, 24F
→
12/13 05:53,
3小時前
, 25F
12/13 05:53, 25F
→
12/13 05:53,
3小時前
, 26F
12/13 05:53, 26F
→
12/13 05:53,
3小時前
, 27F
12/13 05:53, 27F
→
12/13 05:53,
3小時前
, 28F
12/13 05:53, 28F
我覺得你關注錯重點,HOPE架構的工程實作不是論文中最重要的部份
數學表達才是,這篇論文就算把HOPE架構整個去掉
純理論的部份就有相當於熱力學定律的價值
這代表一種更接近「知識、記憶、推理」的物理本質的理論
從而讓各大模型研究商能在巢狀學習的理論範式下,自由去探索各自的工程實現
類比於你有了熱力學定律之後,各種形式的熱機都有理論依據了
你看我前面對於未來模型的敘述(雲邊協同、不同語義空間的五層結構)
這和論文中簡化過的HOPE模型壓根就不是一回事對吧
因為HOPE模型的設計只是要作為論文的實證用途
而不是真正具備下一代模型的「工程可行性」&「商業可行性」的實作
至於下一代實作「可能會長什麼樣子」
那自然是不會在這裡解釋了...
反正即使我提了 99.99%的股板眾也是鴨子聽雷啊
推
12/13 06:03,
3小時前
, 29F
12/13 06:03, 29F
狗家員工內線消息
我要是真信了 你就是在內線交易囉!!!
就事論事 TPUv7沒有明顯針對Nested learning的痛點去優化
(當然也沒有明顯不能跑的理由,依然可以跑)
至於v8之後怎麼設計,現在也沒有公開消息
比起雲端,我覺得現在是邊緣的計算架構沒跟上Nested Learning的需求
推
12/13 06:07,
3小時前
, 30F
12/13 06:07, 30F
→
12/13 06:08,
3小時前
, 31F
12/13 06:08, 31F
有 嘻嘻
你再回去翻翻我2019年談AI革命的文章
當時也是一樣,完全沒有人看懂我說什麼
→
12/13 06:09,
3小時前
, 32F
12/13 06:09, 32F
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 06:11:00
→
12/13 06:21,
3小時前
, 33F
12/13 06:21, 33F
→
12/13 06:21,
3小時前
, 34F
12/13 06:21, 34F
→
12/13 06:21,
3小時前
, 35F
12/13 06:21, 35F
推
12/13 06:26,
2小時前
, 36F
12/13 06:26, 36F
→
12/13 06:26,
2小時前
, 37F
12/13 06:26, 37F
推
12/13 06:28,
2小時前
, 38F
12/13 06:28, 38F
如果根據手機上最快層的即時更新需求去推導
很明顯是要SRAM,而且不能和L1 Cache共用
既然要能放進整個最快層的權重,即使以INT4/INT8高度壓縮,也需要很大一塊SRAM
考慮到除了慢權重(預訓練參數)之外還要放快權重(記憶狀態)
加一加要個2~4MB的獨立SRAM是跑不掉的
推
12/13 06:29,
2小時前
, 39F
12/13 06:29, 39F
→
12/13 06:29,
2小時前
, 40F
12/13 06:29, 40F
→
12/13 06:29,
2小時前
, 41F
12/13 06:29, 41F
真der 天網近了 悔改吧
推
12/13 06:31,
2小時前
, 42F
12/13 06:31, 42F
→
12/13 06:32,
2小時前
, 43F
12/13 06:32, 43F
推
12/13 06:33,
2小時前
, 44F
12/13 06:33, 44F
我故意的 實際上Gemini Canvas寫小作文可以調長度
調越長它會試著擴寫 解釋的更清楚 但是我偏不 嘻嘻
說真的,看不懂的人,就把我整篇文字+NL的論文都餵給AI
然後再問AI就好啦,時代都是這樣了,要善用AI啊
推
12/13 06:34,
2小時前
, 45F
12/13 06:34, 45F
推
12/13 06:34,
2小時前
, 46F
12/13 06:34, 46F
→
12/13 06:34,
2小時前
, 47F
12/13 06:34, 47F
→
12/13 06:34,
2小時前
, 48F
12/13 06:34, 48F
推
12/13 06:36,
2小時前
, 49F
12/13 06:36, 49F
→
12/13 06:36,
2小時前
, 50F
12/13 06:36, 50F
一般來說我是看未來3~5年的,再遠的我也看不到了
所以2019那篇講的是2019~2024的AI革命
這篇講的是2025~2030「通往AGI之路」
推
12/13 06:37,
2小時前
, 51F
12/13 06:37, 51F
推
12/13 06:38,
2小時前
, 52F
12/13 06:38, 52F
→
12/13 06:38,
2小時前
, 53F
12/13 06:38, 53F
回到上述的五層系統
你完全可以把最深層的(物理定律、道德價值、信念)基底層
靜態權重完全鎖定不更新,來防止惡意注入
論文提示的是一種數學架構,你理解了整個數學架構的話
實務上你完全有各種工程實作的細節去彌合你的需求
當然我完全同意這種動態學習的系統,在正式上線前一定要經過嚴格的對齊測試
不過這不會構成「永遠不會有能夠動態學習的系統」的理由
推
12/13 06:42,
2小時前
, 54F
12/13 06:42, 54F
推
12/13 06:44,
2小時前
, 55F
12/13 06:44, 55F
推
12/13 06:44,
2小時前
, 56F
12/13 06:44, 56F
→
12/13 06:45,
2小時前
, 57F
12/13 06:45, 57F
推
12/13 06:47,
2小時前
, 58F
12/13 06:47, 58F
看你每一層的更新頻率怎麼設定
再以五層模型舉例的話
雲端的L3可能是event-driven更新、L4可能是每天更新一次
L5就如上述所說,最好是不要亂更新
推
12/13 06:53,
2小時前
, 59F
12/13 06:53, 59F
→
12/13 06:54,
2小時前
, 60F
12/13 06:54, 60F
買2330 永遠正確
鐵打的Foundry,流水的Design House
推
12/13 06:57,
2小時前
, 61F
12/13 06:57, 61F
推
12/13 06:58,
2小時前
, 62F
12/13 06:58, 62F
推
12/13 06:58,
2小時前
, 63F
12/13 06:58, 63F
爽到Apple 躺平到最後天上掉餡餅 賽道重置
抱緊GOOG大腿就贏那些花了幾百億美金看別人車尾燈的
推
12/13 06:59,
2小時前
, 64F
12/13 06:59, 64F
→
12/13 06:59,
2小時前
, 65F
12/13 06:59, 65F
推
12/13 07:00,
2小時前
, 66F
12/13 07:00, 66F
推
12/13 07:01,
2小時前
, 67F
12/13 07:01, 67F
推
12/13 07:04,
2小時前
, 68F
12/13 07:04, 68F
推
12/13 07:04,
2小時前
, 69F
12/13 07:04, 69F
推
12/13 07:06,
2小時前
, 70F
12/13 07:06, 70F
→
12/13 07:08,
2小時前
, 71F
12/13 07:08, 71F
不過,最深層語義改用雙曲,這可能是這篇文章裡最弱的推定
因為用現有的硬體算雙曲空間,那個運算量之驚人
光一個龐加萊距離就比內積(歐幾里德距離)高不止十倍運算量了
所以在專算雙曲的特化硬體內建之前
很有可能就是平面或球面加減用了
「切換深層語義空間」本質上就是「計算量 vs 記憶體容量/頻寬」的交換與權衡
雖然最終一定是會切到雙曲,但是這個改變要幾年發生,很難預估
快的話可能三五年,慢的話可能十年
推
12/13 07:16,
2小時前
, 72F
12/13 07:16, 72F
→
12/13 07:16,
2小時前
, 73F
12/13 07:16, 73F
※ 編輯: minazukimaya (146.70.205.172 日本), 12/13/2025 07:21:06
推
12/13 07:18,
2小時前
, 74F
12/13 07:18, 74F
推
12/13 07:19,
2小時前
, 75F
12/13 07:19, 75F
推
12/13 07:24,
1小時前
, 76F
12/13 07:24, 76F
討論串 (同標題文章)
完整討論串 (本文為第 10 之 11 篇):
Stock 近期熱門文章
PTT職涯區 即時熱門文章