Re: [新聞] OpenAI危險了!DeepSeek正式發佈V3.2 性能勝GPT-5 High追平谷歌Gemini-3.0
※ 引述《xross (xross)》之銘言:
: 才沒幾天
: Deepmind 就又突然出個 Deep Think 版 也是強調 IMO ICPC 數學 AI
: "gold medal winning IMO and ICPC technologies"
: https://x.com/demishassabis/status/1996683917991334300
: 時間點上 不是巧合吧
: 怎麼看都像是逼對方出招啊
: 說好的垃圾時間呢???
關於這個贏得IMO金牌的Gemini pro Deep Think功能,
7/21 Google的DeepMind官網,就已經公開說明,
之後會製作一個版本,交給專家小組(包括數學家)測試後,於Google AI Ultra平台推出。
We will be making a version of this Deep Think model available to a set of
trusted testers, including mathematicians, before rolling it out to Google AI
Ultra subscribers.
https://i.imgur.com/4uwgTa3.png

也就是說,這本來就是計畫好要推出的東西,
只是七月到現在需要先給專家測試過用戶版本。
官網公告
https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think-
officially-achieves-gold-medal-standard-at-the-international-mathematical-
olympiad/
縮網址
https://reurl.cc/KOe5Wm
順帶一提,GPT那邊也是一樣,
以下是科學人訪問OPEN AI的IMO競賽用模型的研發工程師,文章日期是今年8/21,
他們說期待在未來的模型中整合競賽用模型的推理能力。
Those contributed alot to the success here, and now we and others at OpenAI
are applying thembeyond math. It’s not in GPT-5, but in future models, we’
re excited tointegrate these capabilities.
https://i.imgur.com/wXHkN0t.png

有提到八月初推出的GPT5,並沒有包含IMO競賽模型的推論能力在內。
所以之後應該是還有精彩對決可以看。
科學人訪談網址
https://www.scientificamerican.com/article/openai-model-earns-gold-medal-score
-at-international-math-olympiad-and/
縮網址
https://reurl.cc/bNVo2E
從兩篇文章看來,IMO競賽模型最主要擅長的似乎是花時間思考,處理複雜的任務。
此外最特別的是,兩家公司的模型都分別在競賽過程中,六題中只回答了五題,
有一題是在模型判斷自己不會之後,選擇不回答。
這代表這類深度思考模型可能具備不知道就承認不知道的能力。
這種能力是靠「後訓練」鍛鍊出來的,大家常說的scaling是「預訓練」。
「後訓練」強化推理能力主要有以下這些方法:
1. RLHF(以人類偏好訓練)
2. PPO / DPO
3. CoT 強化訓練(chain-of-thought fine-tuning)
4. 推理微調(reasoning fine-tuning)
5. RAI(Reinforced Active Instruction)
6. Q* 類 self-consistency 或自我反思訓練(self-training)
7. 用大量人工標註或模型自產的推理軌跡做強化學習
8. 蒐集更高品質的推理數據做微調
(以上是GPT5.1列的,拿給Gemini 3.0 pro檢查過)
根據Gemini 3.0 pro解說的內容,
比喻來說,預訓練鍛鍊的是,類似人類全智商的潛力,本質是晶體智力的極致,
例如看過的所有書跟網路資訊。這部分目前已經很難再拉出差距。
後訓練鍛鍊的則是模擬臨機應變的能力,利用思維鏈模擬推理,找出最佳解答路徑,
比喻來說類似人類的流體智力,ARC-AGI-2的測試成績就是在測這個,
簡言之,模型會模擬人類活用潛能的能力。
現在各家在比的是看誰做後訓練的技巧更高段,或許會拉出明顯差距?
======
晶體智力是透過家庭學校跟自學得到的知識、技能與常識,這是靠後天獲得的。
流體智力則是天生的能力,像馬蓋仙那樣臨機應變,或是像科學家那樣突發奇想,
人類的這種能力很難靠後天培養,而且據說會隨著年齡衰退QQ
ARC-AGI-2的成績 (這個測驗的測試方法看起來很像WAIS智力測驗的知覺推理)
https://arcprize.org/arc-agi/2/ 測驗簡介
https://arcprize.org/leaderboard 排行榜圖表
https://i.imgur.com/s3E6SRB.png

排行榜截圖
Gemini 3.0 pro Deep Think高達45%
Claude Opus 4.5 Thinking 64k: 37.6%
Gemini 3.0 pro: 31.1%
GPT 5 pro: 18.3%
GPT 5.1 Thinking (High): 17.6%
Grok 4 Thinking: 16.0%
這個測驗有找人類來測試 人類中聰明的專家小組施測結果是98-100%
人類一般人平均是60幾~70幾 據說人類小學生大概30幾
--
在下沒有鼓吹買AI相關股的意思 請慎防AI相關股泡沫崩壞
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 45.250.255.20 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1764910836.A.5F1.html
推
12/05 13:05,
1小時前
, 1F
12/05 13:05, 1F
※ 編輯: LoveSports (45.250.255.20 日本), 12/05/2025 13:10:23
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章