Re: [新聞] OpenAI危險了！DeepSeek正式發佈V3.2 性能勝GPT-5 High追平谷歌Gemini-3.0

看板Stock (股票)作者LoveSports (我要當一個渣攻)時間3月前 (2025/12/05 13:00)推噓5(5推 0噓 3→)

留言8則, 6人參與討論串5/6 (看更多)

※ 引述《xross (xross)》之銘言： : 才沒幾天 : Deepmind 就又突然出個 Deep Think 版也是強調 IMO ICPC 數學 AI : "gold medal winning IMO and ICPC technologies" : https://x.com/demishassabis/status/1996683917991334300 : 時間點上不是巧合吧 : 怎麼看都像是逼對方出招啊 : 說好的垃圾時間呢??? 關於這個贏得IMO金牌的Gemini pro Deep Think功能， 7/21 Google的DeepMind官網，就已經公開說明，之後會製作一個版本，交給專家小組(包括數學家)測試後，於Google AI Ultra平台推出。 We will be making a version of this Deep Think model available to a set of trusted testers, including mathematicians, before rolling it out to Google AI Ultra subscribers. https://i.imgur.com/4uwgTa3.png

也就是說，這本來就是計畫好要推出的東西，只是七月到現在需要先給專家測試過用戶版本。官網公告 https://deepmind.google/blog/advanced-version-of-gemini-with-deep-think- officially-achieves-gold-medal-standard-at-the-international-mathematical- olympiad/ 縮網址 https://reurl.cc/KOe5Wm 順帶一提，GPT那邊也是一樣，以下是科學人訪問OPEN AI的IMO競賽用模型的研發工程師，文章日期是今年8/21，他們說期待在未來的模型中整合競賽用模型的推理能力。 Those contributed alot to the success here, and now we and others at OpenAI are applying thembeyond math. It’s not in GPT-5, but in future models, we’ re excited tointegrate these capabilities. https://i.imgur.com/wXHkN0t.png

有提到八月初推出的GPT5，並沒有包含IMO競賽模型的推論能力在內。所以之後應該是還有精彩對決可以看。科學人訪談網址 https://www.scientificamerican.com/article/openai-model-earns-gold-medal-score -at-international-math-olympiad-and/ 縮網址 https://reurl.cc/bNVo2E 從兩篇文章看來，IMO競賽模型最主要擅長的似乎是花時間思考，處理複雜的任務。此外最特別的是，兩家公司的模型都分別在競賽過程中，六題中只回答了五題，有一題是在模型判斷自己不會之後，選擇不回答。這代表這類深度思考模型可能具備不知道就承認不知道的能力。這種能力是靠「後訓練」鍛鍊出來的，大家常說的scaling是「預訓練」。「後訓練」強化推理能力主要有以下這些方法： 1. RLHF（以人類偏好訓練） 2. PPO / DPO 3. CoT 強化訓練（chain-of-thought fine-tuning） 4. 推理微調（reasoning fine-tuning） 5. RAI（Reinforced Active Instruction） 6. Q* 類 self-consistency 或自我反思訓練（self-training） 7. 用大量人工標註或模型自產的推理軌跡做強化學習 8. 蒐集更高品質的推理數據做微調 (以上是GPT5.1列的，拿給Gemini 3.0 pro檢查過) 根據Gemini 3.0 pro解說的內容，比喻來說，預訓練鍛鍊的是，類似人類全智商的潛力，本質是晶體智力的極致，例如看過的所有書跟網路資訊。這部分目前已經很難再拉出差距。後訓練鍛鍊的則是模擬臨機應變的能力，利用思維鏈模擬推理，找出最佳解答路徑，比喻來說類似人類的流體智力，ARC-AGI-2的測試成績就是在測這個，簡言之，模型會模擬人類活用潛能的能力。現在各家在比的是看誰做後訓練的技巧更高段，或許會拉出明顯差距？ ====== 晶體智力是透過家庭學校跟自學得到的知識、技能與常識，這是靠後天獲得的。流體智力則是天生的能力，像馬蓋仙那樣臨機應變，或是像科學家那樣突發奇想，人類的這種能力很難靠後天培養，而且據說會隨著年齡衰退QQ ARC-AGI-2的成績 (這個測驗的測試方法看起來很像WAIS智力測驗的知覺推理) https://arcprize.org/arc-agi/2/ 測驗簡介 https://arcprize.org/leaderboard 排行榜圖表 https://i.imgur.com/s3E6SRB.png

排行榜截圖 Gemini 3.0 pro Deep Think高達45% Claude Opus 4.5 Thinking 64k: 37.6% Gemini 3.0 pro: 31.1% GPT 5 pro: 18.3% GPT 5.1 Thinking (High): 17.6% Grok 4 Thinking: 16.0% 這個測驗有找人類來測試人類中聰明的專家小組施測結果是98-100% 人類一般人平均是60幾~70幾據說人類小學生大概30幾 -- 在下沒有鼓吹買AI相關股的意思請慎防AI相關股泡沫崩壞 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 45.250.255.20 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1764910836.A.5F1.html