[新聞] 谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首！輾壓o3與Claude 4

看板Stock (股票)作者buffon (簡單)時間15小時前 (2025/06/06 16:06)推噓37(37推 0噓 30→)

留言67則, 43人參與討論串1/2 (看更多)

原文標題：谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首！輾壓o3與Claude 4 原文連結： https://news.cnyes.com/news/id/6009666 發布時間： 2025-06-06 15:10 記者署名：鉅亨網新聞中心原文內容：谷歌 (GOOGL-US) 深夜攜全新 Gemini 2.5 Pro 強勢歸來，僅用一個月碾壓舊版 Gemini 2.5。數學、程式設計、推理全面封神，穩坐所有榜單第一名，全面領先競爭對手如 o3、 Claude 4 和 DeepSeek-R1 。這次升級的 Gemini 2.5 Pro 在效能上展現出驚人的提升。其在整體 Elo 分數上提升了 24 分，尤其是在 Web Arena 上的 Elo 分數更是大幅躍升 35 分，達到 1443 分。在 LMArena 排行榜上，其 Elo 分數躍升 24 分，達到 1470 分，穩居榜首，並在所有領域都排名第一，這充分證明了其在處理複雜任務方面的強大能力。Google 官博介紹稱，這次發布的是 Gemini 2.5 Pro 的升級預覽版，被譽為 Google 迄今為止最聰明的模型。此外，Gemini 2.5 Pro 無論是數學、程式設計還是推理能力，都刷新了業界的「最先進水準」（SOTA），穩居所有榜單之首，徹底碾壓了包括 o3、Claude 4 和 DeepSeek-R1 在內的所有競爭對手，為人工智慧的發展樹立了新的里程碑。 token 價格不變性價比極高更令人振奮的是，儘管性能實現了質的飛躍，新版本 Gemini 2.5 Pro 的 token 價格卻保持不變，這使得其具備極高的性價比。與市場上的競爭對手相比，Gemini 2.5 Pro 的輸出價格僅為 o3 的四分之一，與 Claude 4 相比更是顯著經濟。這對廣大開發者和企業而言，無疑是一大利好消息，意味著他們能夠以更低的成本獲得頂級的 AI 能力，加速創新應用開發和部署。新版 Gemini 2.5 Pro (06-05) 還引入了多項創新功能，進一步提升了模型的可用性和開發效率。其中最引人注目的便是高達 32k 的「思考預算」（Thinking Budget）功能，以及改進的函數呼叫能力。「思考預算」功能導入提升開發靈活性這些新特性賦予了開發者更大的靈活性和精確度，使其能夠更有效地控制模型運行的成本和延遲，實現更為複雜和客製化的 AI 解決方案。根據 Google 官方部落格的介紹，此次發布的 Gemini 2.5 Pro 是一個升級預覽版，是 Google 迄今為止最聰明的模型，預計在幾週後將成為普遍可用的穩定版本，非常適合企業級應用，滿足各行各業對高效能 AI 的需求。在程式設計領域，Gemini 2.5 Pro 的表現同樣令人印象深刻。它在 Aider Polyglot 等高難度程式設計基準測試中名列前茅，展現了卓越的程式碼生成、理解和除錯能力。同時，在 GPQA 和被譽為「人類最後考試」（HLE）等極具挑戰性的基準測試中，Gemini 2.5 Pro 也展現了頂尖性能。這些測試全面評估了模型的數學、科學、知識和推理能力，其優異的表現再次證明了 Gemini 2.5 Pro 的綜合實力。此外，Google 也針對先前 2.5 Pro 版本的用戶回饋進行了改進，顯著提升了其風格和結構，現在它能提供更有創意、格式更優的回答，使其在內容生成和交流互動方面更加自然流暢。目前，開發者已可透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開始使用更新的 2.5 Pro 進行開發。其便捷的存取方式和強大的功能，將極大地促進 AI 技術的應用創新。同時，Gemini 2.5 Pro 也已在 Gemini App 中正式上線，讓廣大普通用戶也能體驗到其尖端 AI 能力所帶來的便利與智慧。網友實測驗證強大實力為了驗證 Gemini 2.5 Pro 在真實任務中的表現，眾多網友紛紛進行了實測，結果令人驚嘆。一張「劈柴圖」的廣泛流傳，暗示著業界普遍認為 Gemini 已是「獸中之王」。在編碼能力方面，其對 o3 和 Claude 4 的碾壓已不再是空談——新版 Gemini 2.5 Pro 成功通過了六邊形物理模擬測試，證明了其在複雜物理環境建模和模擬方面的卓越能力。更令人驚豔的是，它還能透過 Three.js 創造出逼真的 3D DNA 模型，展現出強大的圖形處理和視覺化能力。資料科學家 Diego 進行了一項引人注目的測試：他讓 Gemini 2.5 Pro 06-05 編寫一段 Python 程式碼，用於視覺化單行道中交通燈的工作原理，並要求車輛以隨機速率進入。程式碼運行後的效果顯示，動畫整體精美，運行流暢，沒有明顯問題。作為對比，GPT 4.5 生成的程式碼效果則顯得畫面粗糙，車輛也不符合物理規律，這凸顯了 Gemini 2.5 Pro 在程式設計和模擬精確度方面的顯著優勢。Diego 先前也測試了 Claude Sonnet 3.7 和 Grok 3，這些對比進一步鞏固了 Gemini 2.5 Pro 在 AI 領域的領先地位。 Google Gemini 2.5 Pro (06-05) 的發布，標誌著 Google 在人工智慧領域又邁出了堅實的一步。其卓越的性能、高效的成本效益以及不斷創新的功能，無疑將加速 AI 技術的普及和應用。隨著「李在明時代」的開啟，我們預期 Google 將繼續引領 AI 技術的發展，為全球用戶帶來更多創新與便利。心得/評論： google 的 chrome 面臨被法院強制出售的威脅不過 Gemini 2.5 Pro 則是帶來了好消息 Web Arena 上的 Elo 達到 1443 分 LMArena 排行榜上，Elo 達到 1470 分，穩居榜首內文還提到 "高達 32k 的「思考預算」（Thinking Budget）功能" 不過我看不懂這是啥 XD 另外最後一段提到 "李在明時代"也很莫名不知道想表達什麼總之, 這最新推出的 Gemini 2.5 Pro 照內文所說目前是輾壓一切的存在分享給各位股東參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.94.2 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1749197206.A.B11.html

推

huyee

06/06 16:10, 15小時前 , 1^F

06/06 16:10, 1^F

推

bamama56

06/06 16:11, 15小時前 , 2^F

06/06 16:11, 2^F

→

batterykugua

06/06 16:16, 15小時前 , 3^F

06/06 16:16, 3^F

推

FirePopcorn

06/06 16:16, 15小時前 , 4^F

06/06 16:16, 4^F

推

gk1329

06/06 16:20, 14小時前 , 5^F

06/06 16:20, 5^F

推

losage

06/06 16:20, 14小時前 , 6^F

06/06 16:20, 6^F

→

gk1329

06/06 16:20, 14小時前 , 7^F

06/06 16:20, 7^F

推

chrischiu

06/06 16:22, 14小時前 , 8^F

06/06 16:22, 8^F

→

dalensona

06/06 16:23, 14小時前 , 9^F

06/06 16:23, 9^F

推

wahaha99

06/06 16:27, 14小時前 , 10^F

06/06 16:27, 10^F

→

wahaha99

06/06 16:27, 14小時前 , 11^F

06/06 16:27, 11^F

推

Colaman

06/06 16:28, 14小時前 , 12^F

06/06 16:28, 12^F

推

cute15825

06/06 16:29, 14小時前 , 13^F

06/06 16:29, 13^F

→

josephpu

06/06 16:31, 14小時前 , 14^F

06/06 16:31, 14^F

推

tsubasawolfy

06/06 16:32, 14小時前 , 15^F

06/06 16:32, 15^F

→

tsubasawolfy

06/06 16:33, 14小時前 , 16^F

06/06 16:33, 16^F

推

Heedictator

06/06 16:35, 14小時前 , 17^F

06/06 16:35, 17^F

→

orz811017

06/06 16:38, 14小時前 , 18^F

06/06 16:38, 18^F

推

huabandd

06/06 16:40, 14小時前 , 19^F

06/06 16:40, 19^F

→

huabandd

06/06 16:40, 14小時前 , 20^F

06/06 16:40, 20^F

→

huabandd

06/06 16:40, 14小時前 , 21^F

06/06 16:40, 21^F

推

XXXXGAX

06/06 16:40, 14小時前 , 22^F

06/06 16:40, 22^F

推

bpq302302

06/06 16:44, 14小時前 , 23^F

06/06 16:44, 23^F

推

sweetantt

06/06 16:46, 14小時前 , 24^F

06/06 16:46, 24^F

推

chalon

06/06 16:59, 14小時前 , 25^F

06/06 16:59, 25^F

推

stlinman

06/06 17:15, 14小時前 , 26^F

06/06 17:15, 26^F

→

okbon

06/06 17:16, 14小時前 , 27^F

06/06 17:16, 27^F

→

okbon

06/06 17:17, 14小時前 , 28^F

06/06 17:17, 28^F

→

okbon

06/06 17:17, 14小時前 , 29^F

06/06 17:17, 29^F

推

TameFoxx

06/06 17:18, 13小時前 , 30^F

06/06 17:18, 30^F

→

TameFoxx

06/06 17:18, 13小時前 , 31^F

06/06 17:18, 31^F

→

TameFoxx

06/06 17:19, 13小時前 , 32^F

06/06 17:19, 32^F

→

and123698745

06/06 17:20, 13小時前 , 33^F

06/06 17:20, 33^F

推

dongdong0405

06/06 17:26, 13小時前 , 34^F

06/06 17:26, 34^F

推

Lhmstu

06/06 17:33, 13小時前 , 35^F

06/06 17:33, 35^F

推

TameFoxx

06/06 17:40, 13小時前 , 36^F

06/06 17:40, 36^F

→

nashpan7

06/06 17:43, 13小時前 , 37^F

06/06 17:43, 37^F

推

banbanzon

06/06 17:45, 13小時前 , 38^F

06/06 17:45, 38^F

→

fantasystar

06/06 17:50, 13小時前 , 39^F

06/06 17:50, 39^F

→

fantasystar

06/06 17:50, 13小時前 , 40^F

06/06 17:50, 40^F

→

fantasystar

06/06 17:50, 13小時前 , 41^F

06/06 17:50, 41^F

推

Lecwei

06/06 17:51, 13小時前 , 42^F

06/06 17:51, 42^F

推

banbanzon

06/06 17:58, 13小時前 , 43^F

06/06 17:58, 43^F

推

roots5071

06/06 18:14, 13小時前 , 44^F

06/06 18:14, 44^F

→

roots5071

06/06 18:14, 13小時前 , 45^F

06/06 18:14, 45^F

→

roots5071

06/06 18:14, 13小時前 , 46^F

06/06 18:14, 46^F

推

deathoflove

06/06 18:17, 13小時前 , 47^F

06/06 18:17, 47^F

推

y2eww2r

06/06 18:19, 12小時前 , 48^F

06/06 18:19, 48^F

→

lavign

06/06 18:21, 12小時前 , 49^F

06/06 18:21, 49^F

推

ezreal1315

06/06 18:21, 12小時前 , 50^F

06/06 18:21, 50^F

推

NTUT56

06/06 18:27, 12小時前 , 51^F

06/06 18:27, 51^F

推

cpz

06/06 19:07, 12小時前 , 52^F

06/06 19:07, 52^F

→

cpz

06/06 19:07, 12小時前 , 53^F

06/06 19:07, 53^F

推

NTUT56

06/06 19:08, 12小時前 , 54^F

06/06 19:08, 54^F

→

NTUT56

06/06 19:08, 12小時前 , 55^F

06/06 19:08, 55^F

→

NTUT56

06/06 19:09, 12小時前 , 56^F

06/06 19:09, 56^F

推

strlen

06/06 19:09, 12小時前 , 57^F

06/06 19:09, 57^F

→

NTUT56

06/06 19:10, 12小時前 , 58^F

06/06 19:10, 58^F

推

chysh

06/06 19:43, 11小時前 , 59^F

06/06 19:43, 59^F

→

chysh

06/06 19:43, 11小時前 , 60^F

06/06 19:43, 60^F

→

annawat

06/06 20:12, 11小時前 , 61^F

06/06 20:12, 61^F

推

Forestier

06/07 01:27, 5小時前 , 62^F

06/07 01:27, 62^F

推

cwhgraham

06/07 02:34, 4小時前 , 63^F

06/07 02:34, 63^F

→

cwhgraham

06/07 02:34, 4小時前 , 64^F

06/07 02:34, 64^F

推

Toge

06/07 05:18, 1小時前 , 65^F

06/07 05:18, 65^F

→

Toge

06/07 05:18, 1小時前 , 66^F

06/07 05:18, 66^F

推

Toge

06/07 05:24, 1小時前 , 67^F

06/07 05:24, 67^F

‣ 返回看板[ Stock ] 學術

‣ 更多 buffon 的文章

文章代碼(AID): #1eGg6MiH (Stock)

討論串 (同標題文章)

完整討論串 (本文為第 1 之 2 篇)：

排序：最舊先 | 最新先 | 留言數

[新聞] 谷歌Gemini 2.5升級「全能王」推理、程

buffon

15小時前, 06/06

Re: [新聞] 谷歌Gemini 2.5升級「全能王」推理、程

LDPC

5小時前, 06/07

在新視窗開啟完整討論串 (共2篇)

Stock 近期熱門文章

Re: [新聞] 谷歌Gemini 2.5升級「全能王」推理、程

[ Stock ]

LDPC

5小時前, 06/07

[新聞] 川普稱馬斯克「可憐的傢伙」:這段時間不

[ Stock ]

haha98

7小時前, 06/07

[新聞] 與馬斯克鬧翻白宮官員：川普可能轉讓特

[ Stock ]

keel90135

7小時前, 06/06

[新聞] 川習破冰通話互邀訪！難脫稀土依賴川

7小時前, 06/06

8小時前, 06/06

[情報] 114年06月06日信用交易統計

8小時前, 06/06

9小時前, 06/06

Re: [情報] 5月非農就業&失業率&平均每小時工資

9小時前, 06/06

PTT職涯區即時熱門文章

4小時前, 06/07

Re: [情報] 渣打帳戶2年無存提紀錄列入暫停交易帳戶

5小時前, 06/07

5小時前, 06/07

Re: [轉錄] 日本人：日本科技已經完全落後於中國

6小時前, 06/07

7小時前, 06/06

Re: [閒聊] 生育率跟房價有顯著相關吧？

[ home-sale ]

hs3559152

7小時前, 06/06

[情報] 渣打帳戶2年無存提紀錄列入暫停交易帳戶

[ Bank_Service ]

TZUYIC

8小時前, 06/06

[請益]到底人民希望房價崩還是漲?崩盤流量密碼呢

8小時前, 06/06

文章代碼(AID): #1eGg6MiH (Stock)