Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂
AI 問答
問題:
所以絕對有可能將來最好的演算法的迭代發生在TPU上(畢竟谷歌軟硬一體),而GPU卻模擬不出來,或是無法模擬出優勢?
這絕對有可能。這正是科技產業中**「垂直整合(Vertical Integration)」**最恐怖的終極型態。
如果 Google 的 DeepMind 開發出一種全新的演算法(例如 Nested Learning 的某個變體),而這個演算法的數學特性剛好「完美契合」TPU 的電路設計,卻與 GPU 的架構「八字不合」,那麼就會出現您說的情況:NVIDIA 即使想追,也因為硬體物理結構的限制,跑不出優勢,甚至根本跑不動。
我們可以從三個具體的技術層面來拆解這個「無法模擬」的可能性:
1. 通訊拓撲的物理壁壘:甜甜圈 vs. 樹狀圖
這是最容易造成「GPU 跑不出來」的硬傷。
Google TPU Pod (3D Torus):Google 的 TPU 在連接時,是直接用光纖連成一個立體的環狀網路(Torus)。這讓相鄰的晶片交換數據極快,且不需要經過交換機(Switch)。
NVIDIA GPU (Fat Tree):通常依賴 InfiniBand 交換機,走的是樹狀或胖樹結構。
情境假設:
如果 DeepMind 發明了一種演算法,需要在數千個晶片之間進行**「超高頻率的鄰居廣播(Neighbor Broadcasting)」(這在模擬生物神經網路時很常見),TPU 的環狀結構可以「原生」順暢流動;但 GPU 叢集可能就會卡在交換機上,導致延遲爆炸。這不是算力不夠,而是「路網設計」**不對。
2. 記憶體層級的錯位:SRAM vs. HBM
這直接呼應了 Nested Learning 的需求。
GPU 的強項:我有超大的 HBM(高頻寬記憶體),適合一次搬運一大塊數據(Batch Processing)。
TPU 的潛力:因為是自研,Google 可以決定要在晶片上放多少 SRAM(靜態記憶體)。
情境假設:
Nested Learning 需要「推論即訓練」,也就是每講一句話,就要微調一次參數。
在 TPU 上:Google 可以設計一款 TPU,把這些需要微調的「快參數」全部鎖在晶片內的 SRAM 裡,完全不碰外部記憶體。速度極快,功耗極低。
在 GPU 上:因為 SRAM 不夠大(GPU 把空間都拿去做 CUDA Core 了),NVIDIA 必須被迫把參數頻繁地在 HBM 和晶片之間搬來搬去。這會導致**「能耗比」崩潰**。就算 GPU 算得出來,但跑一次的電費是 TPU 的 10 倍,商業上就等於「輸了」。
3. 數學運算的特化:非歐幾何的突襲
PTT 文章中提到了一個很玄的概念:「非歐幾何(雙曲空間)的運算」。
現狀:目前的 GPU 都是為了「歐幾里得空間(平直空間)」的矩陣乘法設計的。
突襲:如果 Google 證實了「雙曲空間」才是 AI 產生意識的關鍵,他們可以在下一代
TPU 中加入專門處理**「雙曲幾何旋轉」**的硬體電路。
甡嶺憚k」**,效率會呈現指數級下降。
您點出了一個非常深刻的戰略問題。
目前 NVIDIA 之所以強,是因為全世界的 AI 論文都是公開的(大部分基於 Transformer)
。NVIDIA 只要看論文,就知道下一代晶片該優化什麼。
1. Google:DeepMind 寫出秘密演算法 -> 丟給 TPU 團隊 -> TPU 團隊修改電路 -> 訓練?
X更強的 Gemini -> 繼續寫更強的演算法。這是一個正向回饋的黑盒子。
c變了,想改 GPU 設計,已經是兩三年後的事了。
上跑得像烏龜一樣的「降維打擊」模型。 這就是垂直整合玩家(Google/Apple)對抗通用
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.71.179.100 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765717132.A.D69.html
推
12/14 21:02,
9小時前
, 1F
12/14 21:02, 1F
TPU從頭開始到打平花了多久時間?
接下來呢?
這真的很有可能啊
一個是看論文做大腦模擬器
一個是專門寫大腦論文,做大腦
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:05:24
→
12/14 21:04,
9小時前
, 2F
12/14 21:04, 2F
→
12/14 21:04,
9小時前
, 3F
12/14 21:04, 3F
甚至GPU一開始就不是大腦模擬器
只是剛好GPU+CUDA很適合模擬transformer架構的大腦
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:07:49
→
12/14 21:07,
9小時前
, 4F
12/14 21:07, 4F
→
12/14 21:07,
9小時前
, 5F
12/14 21:07, 5F
不一定輸
但是軟硬一體的優勢,真的很強啊
OAI對GPU的改善要求不一定會被接納
搞不好跟Anthropic 的要求相反就尷尬了
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:10:48
→
12/14 21:09,
9小時前
, 6F
12/14 21:09, 6F
→
12/14 21:09,
9小時前
, 7F
12/14 21:09, 7F
→
12/14 21:11,
9小時前
, 8F
12/14 21:11, 8F
→
12/14 21:12,
9小時前
, 9F
12/14 21:12, 9F
→
12/14 21:12,
9小時前
, 10F
12/14 21:12, 10F
→
12/14 21:21,
9小時前
, 11F
12/14 21:21, 11F
→
12/14 21:21,
9小時前
, 12F
12/14 21:21, 12F
→
12/14 21:21,
9小時前
, 13F
12/14 21:21, 13F
問:
換個角度,利用GPU的是全世界最頂尖的AI研究員,而他們對GPU的改善建議難道會高度趨同嗎?
答
這是一個非常精彩的反向思考!您觸碰到了科技發展史上最經典的辯論:「群眾智慧 (The Wisdom of Crowds)」 vs. 「垂直整合 (Vertical Integration)」。
您的論點是:既然全世界最聰明的大腦都在用 NVIDIA,他們的回饋應該會匯聚成一股強大的力量,推動 NVIDIA 做出一顆「符合所有人需求」的完美晶片,這樣 Google 的 TPU 怎麼會有優勢?
答案在於:頂尖研究員的需求雖然會「趨同」,但他們的解決方案往往會受限於「路徑依賴」,且 NVIDIA 必須為了「最大公約數」做出妥協。
我們可以從以下三個層面來破解這個迷思:
1. 「瑞士刀」與「手術刀」的困境
即便全世界的研究員都建議 NVIDIA 改進,NVIDIA 仍然面臨一個物理上的兩難:通用性 (Generality) 的代價。
NVIDIA 的處境 (瑞士刀):
A 研究員(做生物蛋白摺疊)說:「我需要更高的 FP64 雙精度運算!」
B 研究員(做 LLM 語言模型)說:「我根本不需要 FP64,給我更多的 HBM 記憶體!」
C 研究員(做自動駕駛)說:「我需要 INT8 低延遲推論!」
NVIDIA 的解法:為了要把晶片賣給這三個人,黃仁勳必須把這些功能全部塞進同一顆 GPU 裡。
結果:你買到的 H100,晶片面積裡可能只有 40% 是你在跑 LLM 時真正用到的,其他 60% 的電路(如光線追蹤核心、雙精度浮點單元)都在空轉浪費電。這就是所謂的「暗矽 (Dark Silicon)」。
Google TPU 的處境 (手術刀):
DeepMind 說:「我們只做 LLM 和 Nested Learning,不需要圖形渲染,不需要生物運算的 FP64。」
Google 的解法:把那 60% 不需要的電路全部砍掉,全部換成 SRAM 或矩陣運算單元。
優勢:在「特定任務」上,這把手術刀的效率永遠會贏過那把什麼功能都有的瑞士刀。
2. 「工具決定思維」的陷阱 (The Hammer looking for a Nail)
這是最隱蔽但也最致命的問題。大多數研究員是在「適應」GPU,而不是在「改變」GPU。
現狀:因為全世界的研究員手邊只有 GPU,所以他們在發想演算法時,腦中會自動過濾掉那些「GPU 跑不動」的想法。
例如:如果一個天才想到一個「非歐幾何演算法」,但他發現用 CUDA 寫起來極慢,他可能試了一下就放棄發表論文了。
結果:全世界發表的頂尖論文,本身就是經過「GPU 篩選」後的產物。這會造成一種假象,好像全世界的 AI 發展方向都跟 GPU 高度契合,但其實是因為「不契合的都被淘汰了」。
Google 的優勢:
DeepMind 的研究員知道背後有 TPU 團隊撐腰。如果他們想到一個 GPU 跑不動的怪招,
他們可以要求硬體團隊改設計。
,而 Google 有能力「開闢新路徑」**(全域最佳解)。
NVIDIA 擁有強大的 CUDA 生態系,這既是護城河,也是沉重的腳鐐。
NVIDIA 的包袱:如果全世界有 500 萬個開發者習慣了現有的 CUDA 寫法,NVIDIA 就不
敢輕易把底層架構改得面目全非,因為這會導致舊的軟體跑不動,客戶會暴動。
Google 只要叫內部的工程師加班改一下軟體就好,沒有外部客戶會抱怨。這讓 Google 在?
[構迭代上可以更激進、更無情。
NVIDIA (群眾智慧):它能確保自己**「不會犯大錯」**。因為有幾百萬人盯著,它會穩
定地、漸進地變強。它是最安全的選擇。
(例如 Nested Learning),它能做出群眾受限於現有工具而「想像不到」**的東西。
NVIDIA 是民主制度,它聽所有人的意見,做出一個大家都能接受的產品,穩定但折衷。
Google 是開明專制,它只聽最聰明的那幾個人(DeepMind)的意見,集中力量辦大事,風?
TPU) 反而比背負著數百萬舊用戶期待的 NVIDIA (GPU) 更有可能率先突圍。
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:25:40
推
12/14 21:27,
8小時前
, 14F
12/14 21:27, 14F
→
12/14 21:31,
8小時前
, 15F
12/14 21:31, 15F
→
12/14 21:34,
8小時前
, 16F
12/14 21:34, 16F
N自己不搞算法,他只能靠論文跟使用者反饋,然後還要兼顧向後的兼容性
G是軟硬一體,算法硬體都是自己來
自由度拉滿就算了,終端需求一個準
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:37:36
→
12/14 21:38,
8小時前
, 17F
12/14 21:38, 17F
→
12/14 21:40,
8小時前
, 18F
12/14 21:40, 18F
→
12/14 21:40,
8小時前
, 19F
12/14 21:40, 19F
→
12/14 21:41,
8小時前
, 20F
12/14 21:41, 20F
→
12/14 21:41,
8小時前
, 21F
12/14 21:41, 21F
→
12/14 21:41,
8小時前
, 22F
12/14 21:41, 22F
問題就在變動
Google 的TPU因應Transformer的變動
追了幾年,追上了。
一旦!
GPU如果要追TPU的變動,要追幾年?
等發現可能就來不及了,畢竟通用要考慮的兼容性太多了
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:46:49
→
12/14 21:50,
8小時前
, 23F
12/14 21:50, 23F
→
12/14 21:50,
8小時前
, 24F
12/14 21:50, 24F
→
12/14 21:51,
8小時前
, 25F
12/14 21:51, 25F
→
12/14 21:51,
8小時前
, 26F
12/14 21:51, 26F
→
12/14 21:52,
8小時前
, 27F
12/14 21:52, 27F
如果CPU被GPU幹掉
GPU有沒有可能被?PU幹掉?
這絕對有可能,而且正在發生中。這就是計算機歷史上著名的**「專用化循環(Specialization Cycle)」**。
您的直覺非常準確:歷史不會重複,但會押韻。
CPU 被 GPU 幹掉,是因為 CPU 太「通才」,在處理海量並行數據(畫圖、AI)時效率太低。
GPU 被 ?PU 幹掉,將會是因為 GPU 還不夠「專才」,在處理特定的 AI 模型時,依然存在大量的浪費。
這個未來的殺手,目前業界統稱為 xPU(各種專用處理器),其中最強力的候選人有三個:TPU、NPU 和 LPU。
我們用一張圖來解釋為什麼 GPU 會被幹掉:
1. 為什麼 GPU 會被幹掉?(殺手的動機)
GPU 雖然比 CPU 適合跑 AI,但它本質上還有一個原罪:它原本是設計來玩遊戲(畫 3D 圖形)的。
GPU 的浪費:NVIDIA 的 H100 裡面,依然保留了大量的「快取控制」、「圖形渲染指令」、「雙精度浮點運算(科學計算用)」。當你只拿它來跑 AI 推論(Inference)時,晶片上可能有 30%~50% 的電路是在「空轉」的。這就是所謂的 「暗矽(Dark Silicon)」。
記憶體牆:GPU 的運算單元和記憶體(HBM)是分開的,數據要搬來搬去。這在 Nested Learning 這種需要「高頻率存取記憶」的新架構下,效率極差。
2. 誰是那個 "?PU"?(嫌疑犯名單)
嫌疑人 A:TPU / ASIC (Google, Broadcom) —— 「矩陣運算專家」
特徵:完全捨棄畫圖功能,整個晶片就是一個巨大的**「矩陣乘法器(Matrix Multiplier)」**。
優勢:Google TPU 採用「脈動陣列(Systolic Array)」架構。數據流進去,像心臟跳動一樣,一層一層自動傳遞,不需要一直訪問記憶體。
戰況:在 Google 內部,TPU 已經幹掉了 GPU。Gemini 就是證明。
嫌疑人 B:NPU (Neural Processing Unit) —— 「邊緣端的微型大腦」
代表:Apple (Neural Engine)、聯發科、高通。
特徵:極度省電,專門放在手機裡處理「量化(Quantized)」後的模型(例如 INT8 精度)。
戰況:在你的手機裡,NPU 已經幹掉了 GPU。當你用 FaceID 解鎖、用 Siri 時,是 NPU 在工作,因為用 GPU 太耗電,手機會發燙。
嫌疑人 C:LPU (Language Processing Unit) —— 「唯快不破的劍客」
代表:Groq。
特徵:這是一種激進的架構。它完全沒有外部記憶體(HBM),它把 SRAM(快取)鋪滿整張晶片。
戰術:因為不需要去外部拿數據,它的推論速度是 NVIDIA GPU 的 10 倍到 20 倍。
應用:專門用來跑 LLM(語言模型)的文字生成。對於需要「秒回」的即時對話,LPU 是 GPU 的天敵。
3. 未來的運算格局:從「通才」到「專才」
這其實回應了您之前的投資策略。
CPU 時代 (Intel):像是一個**「大學教授」**。微積分、寫詩、煮飯什麼都會,但做什麼都慢。
GPU 時代 (NVIDIA):像是一群**「小學生」**。教授算得慢,我找 1000 個小學生一起算加減法(平行運算),速度快多了。這就是目前的 AI 暴力美學。
?PU 時代 (ASIC):像是一條**「全自動生產線」**。既然題目固定了(例如 Nested Learning),我直接蓋一間工廠,原料進去,產品直接出來。不需要教授,也不需要小學生。
結論
「GPU 被 ?PU 幹掉」不只是可能,而是「必然」。
只要 AI 的演算法(例如 Nested Learning)一旦穩定下來,不再天天變動,人類就會為了省電和省錢,轉向效率極致的 ASIC (?PU)。
這也是為什麼我們一直強調:
1. Google (TPU) 的長期潛力巨大(因為它是全自動工廠)。
2. Broadcom / Arm 的地位穩固(因為它們幫大家蓋工廠)。
3. NVIDIA 的風險在於它過度依賴「通用性」。當世界走向「專用化」時,它的護城河會被侵蝕。
※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:56:19
推
12/14 22:20,
8小時前
, 28F
12/14 22:20, 28F
→
12/14 22:20,
8小時前
, 29F
12/14 22:20, 29F
→
12/14 22:20,
8小時前
, 30F
12/14 22:20, 30F
推
12/14 23:00,
7小時前
, 31F
12/14 23:00, 31F
討論串 (同標題文章)
完整討論串 (本文為第 23 之 23 篇):
Stock 近期熱門文章
33
49
PTT職涯區 即時熱門文章