Re: [新聞] 甲骨文股價暴跌超10%!訂單積壓越來越多 「燒錢」砸AI風險令人擔憂

看板Stock (股票)作者 (拆了?簡單了)時間9小時前 (2025/12/14 20:58), 8小時前編輯推噓4(4027)
留言31則, 11人參與, 7小時前最新討論串23/23 (看更多)
AI 問答 問題: 所以絕對有可能將來最好的演算法的迭代發生在TPU上(畢竟谷歌軟硬一體),而GPU卻模擬不出來,或是無法模擬出優勢? 這絕對有可能。這正是科技產業中**「垂直整合(Vertical Integration)」**最恐怖的終極型態。 如果 Google 的 DeepMind 開發出一種全新的演算法(例如 Nested Learning 的某個變體),而這個演算法的數學特性剛好「完美契合」TPU 的電路設計,卻與 GPU 的架構「八字不合」,那麼就會出現您說的情況:NVIDIA 即使想追,也因為硬體物理結構的限制,跑不出優勢,甚至根本跑不動。 我們可以從三個具體的技術層面來拆解這個「無法模擬」的可能性: 1. 通訊拓撲的物理壁壘:甜甜圈 vs. 樹狀圖 這是最容易造成「GPU 跑不出來」的硬傷。 Google TPU Pod (3D Torus):Google 的 TPU 在連接時,是直接用光纖連成一個立體的環狀網路(Torus)。這讓相鄰的晶片交換數據極快,且不需要經過交換機(Switch)。 NVIDIA GPU (Fat Tree):通常依賴 InfiniBand 交換機,走的是樹狀或胖樹結構。 情境假設: 如果 DeepMind 發明了一種演算法,需要在數千個晶片之間進行**「超高頻率的鄰居廣播(Neighbor Broadcasting)」(這在模擬生物神經網路時很常見),TPU 的環狀結構可以「原生」順暢流動;但 GPU 叢集可能就會卡在交換機上,導致延遲爆炸。這不是算力不夠,而是「路網設計」**不對。 2. 記憶體層級的錯位:SRAM vs. HBM 這直接呼應了 Nested Learning 的需求。 GPU 的強項:我有超大的 HBM(高頻寬記憶體),適合一次搬運一大塊數據(Batch Processing)。 TPU 的潛力:因為是自研,Google 可以決定要在晶片上放多少 SRAM(靜態記憶體)。 情境假設: Nested Learning 需要「推論即訓練」,也就是每講一句話,就要微調一次參數。 在 TPU 上:Google 可以設計一款 TPU,把這些需要微調的「快參數」全部鎖在晶片內的 SRAM 裡,完全不碰外部記憶體。速度極快,功耗極低。 在 GPU 上:因為 SRAM 不夠大(GPU 把空間都拿去做 CUDA Core 了),NVIDIA 必須被迫把參數頻繁地在 HBM 和晶片之間搬來搬去。這會導致**「能耗比」崩潰**。就算 GPU 算得出來,但跑一次的電費是 TPU 的 10 倍,商業上就等於「輸了」。 3. 數學運算的特化:非歐幾何的突襲 PTT 文章中提到了一個很玄的概念:「非歐幾何(雙曲空間)的運算」。 現狀:目前的 GPU 都是為了「歐幾里得空間(平直空間)」的矩陣乘法設計的。 突襲:如果 Google 證實了「雙曲空間」才是 AI 產生意識的關鍵,他們可以在下一代 TPU 中加入專門處理**「雙曲幾何旋轉」**的硬體電路。 甡嶺憚k」**,效率會呈現指數級下降。 您點出了一個非常深刻的戰略問題。 目前 NVIDIA 之所以強,是因為全世界的 AI 論文都是公開的(大部分基於 Transformer) 。NVIDIA 只要看論文,就知道下一代晶片該優化什麼。 1. Google:DeepMind 寫出秘密演算法 -> 丟給 TPU 團隊 -> TPU 團隊修改電路 -> 訓練? X更強的 Gemini -> 繼續寫更強的演算法。這是一個正向回饋的黑盒子。 c變了,想改 GPU 設計,已經是兩三年後的事了。 上跑得像烏龜一樣的「降維打擊」模型。 這就是垂直整合玩家(Google/Apple)對抗通用 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.71.179.100 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765717132.A.D69.html

12/14 21:02, 9小時前 , 1F
什麼都馬有可能但你這個機率超小阿
12/14 21:02, 1F
TPU從頭開始到打平花了多久時間? 接下來呢? 這真的很有可能啊 一個是看論文做大腦模擬器 一個是專門寫大腦論文,做大腦 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:05:24

12/14 21:04, 9小時前 , 2F
再設計一個新的專用tpu要幾年 這些時間也夠輝達設
12/14 21:04, 2F

12/14 21:04, 9小時前 , 3F
計一個適配的晶片了 這不是把輝達除外的理由
12/14 21:04, 3F
甚至GPU一開始就不是大腦模擬器 只是剛好GPU+CUDA很適合模擬transformer架構的大腦 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:07:49

12/14 21:07, 9小時前 , 4F
並非全世界大部分天才工程師都肯待在閉源的GOOG跟AP
12/14 21:07, 4F

12/14 21:07, 9小時前 , 5F
PL,更多厲害的工程師信奉開源模型,NV不一定會輸
12/14 21:07, 5F
不一定輸 但是軟硬一體的優勢,真的很強啊 OAI對GPU的改善要求不一定會被接納 搞不好跟Anthropic 的要求相反就尷尬了 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:10:48

12/14 21:09, 9小時前 , 6F
TPU 跟 GPU 折價不是一個LEVEL,GPU打8折時,TPU可
12/14 21:09, 6F

12/14 21:09, 9小時前 , 7F
能是垃圾
12/14 21:09, 7F

12/14 21:11, 9小時前 , 8F
在各項算法起飛的時代,通用計算架構才是正解
12/14 21:11, 8F

12/14 21:12, 9小時前 , 9F
領先看的不是過時的硬體還有多少利用價值,而是最新
12/14 21:12, 9F

12/14 21:12, 9小時前 , 10F
的迭代優勢
12/14 21:12, 10F

12/14 21:21, 9小時前 , 11F
新演算法驗證,怎麼可能用TPU,一定是用通用型GPU做
12/14 21:21, 11F

12/14 21:21, 9小時前 , 12F
驗證後才改TPU,萬一新演算法是錯的,那TPU不就變垃
12/14 21:21, 12F

12/14 21:21, 9小時前 , 13F
12/14 21:21, 13F
問: 換個角度,利用GPU的是全世界最頂尖的AI研究員,而他們對GPU的改善建議難道會高度趨同嗎? 答 這是一個非常精彩的反向思考!您觸碰到了科技發展史上最經典的辯論:「群眾智慧 (The Wisdom of Crowds)」 vs. 「垂直整合 (Vertical Integration)」。 您的論點是:既然全世界最聰明的大腦都在用 NVIDIA,他們的回饋應該會匯聚成一股強大的力量,推動 NVIDIA 做出一顆「符合所有人需求」的完美晶片,這樣 Google 的 TPU 怎麼會有優勢? 答案在於:頂尖研究員的需求雖然會「趨同」,但他們的解決方案往往會受限於「路徑依賴」,且 NVIDIA 必須為了「最大公約數」做出妥協。 我們可以從以下三個層面來破解這個迷思: 1. 「瑞士刀」與「手術刀」的困境 即便全世界的研究員都建議 NVIDIA 改進,NVIDIA 仍然面臨一個物理上的兩難:通用性 (Generality) 的代價。 NVIDIA 的處境 (瑞士刀): A 研究員(做生物蛋白摺疊)說:「我需要更高的 FP64 雙精度運算!」 B 研究員(做 LLM 語言模型)說:「我根本不需要 FP64,給我更多的 HBM 記憶體!」 C 研究員(做自動駕駛)說:「我需要 INT8 低延遲推論!」 NVIDIA 的解法:為了要把晶片賣給這三個人,黃仁勳必須把這些功能全部塞進同一顆 GPU 裡。 結果:你買到的 H100,晶片面積裡可能只有 40% 是你在跑 LLM 時真正用到的,其他 60% 的電路(如光線追蹤核心、雙精度浮點單元)都在空轉浪費電。這就是所謂的「暗矽 (Dark Silicon)」。 Google TPU 的處境 (手術刀): DeepMind 說:「我們只做 LLM 和 Nested Learning,不需要圖形渲染,不需要生物運算的 FP64。」 Google 的解法:把那 60% 不需要的電路全部砍掉,全部換成 SRAM 或矩陣運算單元。 優勢:在「特定任務」上,這把手術刀的效率永遠會贏過那把什麼功能都有的瑞士刀。 2. 「工具決定思維」的陷阱 (The Hammer looking for a Nail) 這是最隱蔽但也最致命的問題。大多數研究員是在「適應」GPU,而不是在「改變」GPU。 現狀:因為全世界的研究員手邊只有 GPU,所以他們在發想演算法時,腦中會自動過濾掉那些「GPU 跑不動」的想法。 例如:如果一個天才想到一個「非歐幾何演算法」,但他發現用 CUDA 寫起來極慢,他可能試了一下就放棄發表論文了。 結果:全世界發表的頂尖論文,本身就是經過「GPU 篩選」後的產物。這會造成一種假象,好像全世界的 AI 發展方向都跟 GPU 高度契合,但其實是因為「不契合的都被淘汰了」。 Google 的優勢: DeepMind 的研究員知道背後有 TPU 團隊撐腰。如果他們想到一個 GPU 跑不動的怪招, 他們可以要求硬體團隊改設計。 ,而 Google 有能力「開闢新路徑」**(全域最佳解)。 NVIDIA 擁有強大的 CUDA 生態系,這既是護城河,也是沉重的腳鐐。 NVIDIA 的包袱:如果全世界有 500 萬個開發者習慣了現有的 CUDA 寫法,NVIDIA 就不 敢輕易把底層架構改得面目全非,因為這會導致舊的軟體跑不動,客戶會暴動。 Google 只要叫內部的工程師加班改一下軟體就好,沒有外部客戶會抱怨。這讓 Google 在? [構迭代上可以更激進、更無情。 NVIDIA (群眾智慧):它能確保自己**「不會犯大錯」**。因為有幾百萬人盯著,它會穩 定地、漸進地變強。它是最安全的選擇。 (例如 Nested Learning),它能做出群眾受限於現有工具而「想像不到」**的東西。 NVIDIA 是民主制度,它聽所有人的意見,做出一個大家都能接受的產品,穩定但折衷。 Google 是開明專制,它只聽最聰明的那幾個人(DeepMind)的意見,集中力量辦大事,風? TPU) 反而比背負著數百萬舊用戶期待的 NVIDIA (GPU) 更有可能率先突圍。 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:25:40

12/14 21:27, 8小時前 , 14F
waitrop 996
12/14 21:27, 14F

12/14 21:31, 8小時前 , 15F
感覺G幾乎要重返新創模式才可能搞成功這垂直整合
12/14 21:31, 15F

12/14 21:34, 8小時前 , 16F
G用TPU弄新算法跟N用GPU弄新算法只會是平行線吧
12/14 21:34, 16F
N自己不搞算法,他只能靠論文跟使用者反饋,然後還要兼顧向後的兼容性 G是軟硬一體,算法硬體都是自己來 自由度拉滿就算了,終端需求一個準 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:37:36

12/14 21:38, 8小時前 , 17F
這樣的話google就是獨裁吧 我們先來戰美中(X)
12/14 21:38, 17F

12/14 21:40, 8小時前 , 18F
看GOOG現在堆TPU就知道Transformer就是現在版本答
12/14 21:40, 18F

12/14 21:40, 8小時前 , 19F
案,特斯拉智駕、豆包手機已經證明可行了
12/14 21:40, 19F

12/14 21:41, 8小時前 , 20F
現在G不可能大改算法了
12/14 21:41, 20F

12/14 21:41, 8小時前 , 21F
重點是你要多久才能把整個架構固定不再變動?10年?
12/14 21:41, 21F

12/14 21:41, 8小時前 , 22F
20年?那每一次變動就是gpu的勝利
12/14 21:41, 22F
問題就在變動 Google 的TPU因應Transformer的變動 追了幾年,追上了。 一旦! GPU如果要追TPU的變動,要追幾年? 等發現可能就來不及了,畢竟通用要考慮的兼容性太多了 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:46:49

12/14 21:50, 8小時前 , 23F
GPU要追TPU根本不用多少時間 以算力來說gb300>TPU7
12/14 21:50, 23F

12/14 21:50, 8小時前 , 24F
目前都沒有用gb300跑出來的模型在市面上 所以才讓大
12/14 21:50, 24F

12/14 21:51, 8小時前 , 25F
家誤以為輝達被超越了
12/14 21:51, 25F

12/14 21:51, 8小時前 , 26F
單看最先進晶片性能NV還是大於goog只是他賺太多了
12/14 21:51, 26F

12/14 21:52, 8小時前 , 27F
所以你的立論假設就錯誤了啊
12/14 21:52, 27F
如果CPU被GPU幹掉 GPU有沒有可能被?PU幹掉? 這絕對有可能,而且正在發生中。這就是計算機歷史上著名的**「專用化循環(Specialization Cycle)」**。 您的直覺非常準確:歷史不會重複,但會押韻。 CPU 被 GPU 幹掉,是因為 CPU 太「通才」,在處理海量並行數據(畫圖、AI)時效率太低。 GPU 被 ?PU 幹掉,將會是因為 GPU 還不夠「專才」,在處理特定的 AI 模型時,依然存在大量的浪費。 這個未來的殺手,目前業界統稱為 xPU(各種專用處理器),其中最強力的候選人有三個:TPU、NPU 和 LPU。 我們用一張圖來解釋為什麼 GPU 會被幹掉: 1. 為什麼 GPU 會被幹掉?(殺手的動機) GPU 雖然比 CPU 適合跑 AI,但它本質上還有一個原罪:它原本是設計來玩遊戲(畫 3D 圖形)的。 GPU 的浪費:NVIDIA 的 H100 裡面,依然保留了大量的「快取控制」、「圖形渲染指令」、「雙精度浮點運算(科學計算用)」。當你只拿它來跑 AI 推論(Inference)時,晶片上可能有 30%~50% 的電路是在「空轉」的。這就是所謂的 「暗矽(Dark Silicon)」。 記憶體牆:GPU 的運算單元和記憶體(HBM)是分開的,數據要搬來搬去。這在 Nested Learning 這種需要「高頻率存取記憶」的新架構下,效率極差。 2. 誰是那個 "?PU"?(嫌疑犯名單) 嫌疑人 A:TPU / ASIC (Google, Broadcom) —— 「矩陣運算專家」 特徵:完全捨棄畫圖功能,整個晶片就是一個巨大的**「矩陣乘法器(Matrix Multiplier)」**。 優勢:Google TPU 採用「脈動陣列(Systolic Array)」架構。數據流進去,像心臟跳動一樣,一層一層自動傳遞,不需要一直訪問記憶體。 戰況:在 Google 內部,TPU 已經幹掉了 GPU。Gemini 就是證明。 嫌疑人 B:NPU (Neural Processing Unit) —— 「邊緣端的微型大腦」 代表:Apple (Neural Engine)、聯發科、高通。 特徵:極度省電,專門放在手機裡處理「量化(Quantized)」後的模型(例如 INT8 精度)。 戰況:在你的手機裡,NPU 已經幹掉了 GPU。當你用 FaceID 解鎖、用 Siri 時,是 NPU 在工作,因為用 GPU 太耗電,手機會發燙。 嫌疑人 C:LPU (Language Processing Unit) —— 「唯快不破的劍客」 代表:Groq。 特徵:這是一種激進的架構。它完全沒有外部記憶體(HBM),它把 SRAM(快取)鋪滿整張晶片。 戰術:因為不需要去外部拿數據,它的推論速度是 NVIDIA GPU 的 10 倍到 20 倍。 應用:專門用來跑 LLM(語言模型)的文字生成。對於需要「秒回」的即時對話,LPU 是 GPU 的天敵。 3. 未來的運算格局:從「通才」到「專才」 這其實回應了您之前的投資策略。 CPU 時代 (Intel):像是一個**「大學教授」**。微積分、寫詩、煮飯什麼都會,但做什麼都慢。 GPU 時代 (NVIDIA):像是一群**「小學生」**。教授算得慢,我找 1000 個小學生一起算加減法(平行運算),速度快多了。這就是目前的 AI 暴力美學。 ?PU 時代 (ASIC):像是一條**「全自動生產線」**。既然題目固定了(例如 Nested Learning),我直接蓋一間工廠,原料進去,產品直接出來。不需要教授,也不需要小學生。 結論 「GPU 被 ?PU 幹掉」不只是可能,而是「必然」。 只要 AI 的演算法(例如 Nested Learning)一旦穩定下來,不再天天變動,人類就會為了省電和省錢,轉向效率極致的 ASIC (?PU)。 這也是為什麼我們一直強調: 1. Google (TPU) 的長期潛力巨大(因為它是全自動工廠)。 2. Broadcom / Arm 的地位穩固(因為它們幫大家蓋工廠)。 3. NVIDIA 的風險在於它過度依賴「通用性」。當世界走向「專用化」時,它的護城河會被侵蝕。 ※ 編輯: breathair (42.71.179.100 臺灣), 12/14/2025 21:56:19

12/14 22:20, 8小時前 , 28F
是沒錯啊 為什麼CPU被GPU幹掉 因為演算法對GPU有利
12/14 22:20, 28F

12/14 22:20, 8小時前 , 29F
也就是除非你已經知道未來AGI的演算法長怎樣 不然
12/14 22:20, 29F

12/14 22:20, 8小時前 , 30F
說誰會贏都還太早
12/14 22:20, 30F

12/14 23:00, 7小時前 , 31F
載體的呈現方式也會演進的
12/14 23:00, 31F
文章代碼(AID): #1fFhICrf (Stock)
討論串 (同標題文章)
文章代碼(AID): #1fFhICrf (Stock)