[新聞] 谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首!輾壓o3與Claude 4

看板Stock (股票)作者 (簡 單)時間15小時前 (2025/06/06 16:06), 編輯推噓37(37030)
留言67則, 43人參與, 1小時前最新討論串1/2 (看更多)
原文標題: 谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首!輾壓o3與Claude 4 原文連結: https://news.cnyes.com/news/id/6009666 發布時間: 2025-06-06 15:10 記者署名: 鉅亨網新聞中心 原文內容: 谷歌 (GOOGL-US) 深夜攜全新 Gemini 2.5 Pro 強勢歸來,僅用一個月碾壓舊版 Gemini 2.5。數學、程式設計、推理全面封神,穩坐所有榜單第一名,全面領先競爭對手如 o3、 Claude 4 和 DeepSeek-R1 。 這次升級的 Gemini 2.5 Pro 在效能上展現出驚人的提升。其在整體 Elo 分數上提升了 24 分 ,尤其是在 Web Arena 上的 Elo 分數更是大幅躍升 35 分,達到 1443 分 。 在 LMArena 排行榜上,其 Elo 分數躍升 24 分,達到 1470 分,穩居榜首,並在所有領 域都排名第一,這充分證明了其在處理複雜任務方面的強大能力 。Google 官博介紹稱, 這次發布的是 Gemini 2.5 Pro 的升級預覽版,被譽為 Google 迄今為止最聰明的模型 。 此外,Gemini 2.5 Pro 無論是數學、程式設計還是推理能力,都刷新了業界的「最先進 水準」(SOTA),穩居所有榜單之首,徹底碾壓了包括 o3、Claude 4 和 DeepSeek-R1 在內的所有競爭對手,為人工智慧的發展樹立了新的里程碑。 token 價格不變 性價比極高 更令人振奮的是,儘管性能實現了質的飛躍,新版本 Gemini 2.5 Pro 的 token 價格卻 保持不變,這使得其具備極高的性價比。與市場上的競爭對手相比,Gemini 2.5 Pro 的 輸出價格僅為 o3 的四分之一,與 Claude 4 相比更是顯著經濟。 這對廣大開發者和企業而言,無疑是一大利好消息,意味著他們能夠以更低的成本獲得頂 級的 AI 能力,加速創新應用開發和部署。 新版 Gemini 2.5 Pro (06-05) 還引入了多項創新功能,進一步提升了模型的可用性和開 發效率。其中最引人注目的便是高達 32k 的「思考預算」(Thinking Budget)功能,以 及改進的函數呼叫能力。 「思考預算」功能導入 提升開發靈活性 這些新特性賦予了開發者更大的靈活性和精確度,使其能夠更有效地控制模型運行的成本 和延遲,實現更為複雜和客製化的 AI 解決方案。根據 Google 官方部落格的介紹,此次 發布的 Gemini 2.5 Pro 是一個升級預覽版,是 Google 迄今為止最聰明的模型,預計在 幾週後將成為普遍可用的穩定版本,非常適合企業級應用,滿足各行各業對高效能 AI 的 需求。 在程式設計領域,Gemini 2.5 Pro 的表現同樣令人印象深刻。它在 Aider Polyglot 等 高難度程式設計基準測試中名列前茅,展現了卓越的程式碼生成、理解和除錯能力。 同時,在 GPQA 和被譽為「人類最後考試」(HLE)等極具挑戰性的基準測試中,Gemini 2.5 Pro 也展現了頂尖性能。這些測試全面評估了模型的數學、科學、知識和推理能力, 其優異的表現再次證明了 Gemini 2.5 Pro 的綜合實力。 此外,Google 也針對先前 2.5 Pro 版本的用戶回饋進行了改進,顯著提升了其風格和結 構,現在它能提供更有創意、格式更優的回答,使其在內容生成和交流互動方面更加自然 流暢。 目前,開發者已可透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開始使用更 新的 2.5 Pro 進行開發。其便捷的存取方式和強大的功能,將極大地促進 AI 技術的應 用創新。同時,Gemini 2.5 Pro 也已在 Gemini App 中正式上線,讓廣大普通用戶也能 體驗到其尖端 AI 能力所帶來的便利與智慧。 網友實測 驗證強大實力 為了驗證 Gemini 2.5 Pro 在真實任務中的表現,眾多網友紛紛進行了實測,結果令人驚 嘆。一張「劈柴圖」的廣泛流傳,暗示著業界普遍認為 Gemini 已是「獸中之王」。 在編碼能力方面,其對 o3 和 Claude 4 的碾壓已不再是空談——新版 Gemini 2.5 Pro 成功通過了六邊形物理模擬測試,證明了其在複雜物理環境建模和模擬方面的卓越能力。 更令人驚豔的是,它還能透過 Three.js 創造出逼真的 3D DNA 模型,展現出強大的圖形 處理和視覺化能力。 資料科學家 Diego 進行了一項引人注目的測試:他讓 Gemini 2.5 Pro 06-05 編寫一段 Python 程式碼,用於視覺化單行道中交通燈的工作原理,並要求車輛以隨機速率進入。 程式碼運行後的效果顯示,動畫整體精美,運行流暢,沒有明顯問題。 作為對比,GPT 4.5 生成的程式碼效果則顯得畫面粗糙,車輛也不符合物理規律,這凸顯 了 Gemini 2.5 Pro 在程式設計和模擬精確度方面的顯著優勢。Diego 先前也測試了 Claude Sonnet 3.7 和 Grok 3,這些對比進一步鞏固了 Gemini 2.5 Pro 在 AI 領域的 領先地位。 Google Gemini 2.5 Pro (06-05) 的發布,標誌著 Google 在人工智慧領域又邁出了堅實 的一步。其卓越的性能、高效的成本效益以及不斷創新的功能,無疑將加速 AI 技術的普 及和應用。隨著「李在明時代」的開啟,我們預期 Google 將繼續引領 AI 技術的發展, 為全球用戶帶來更多創新與便利。 心得/評論: google 的 chrome 面臨被法院強制出售的威脅 不過 Gemini 2.5 Pro 則是帶來了好消息 Web Arena 上的 Elo 達到 1443 分 LMArena 排行榜上,Elo 達到 1470 分,穩居榜首 內文還提到 "高達 32k 的「思考預算」(Thinking Budget) 功能" 不過我看不懂這是啥 XD 另外 最後一段提到 "李在明時代"也很莫名 不知道想表達什麼 總之, 這最新推出的 Gemini 2.5 Pro 照內文所說 目前是輾壓一切的存在 分享給各位股東參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.133.94.2 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1749197206.A.B11.html

06/06 16:10, 15小時前 , 1F
極限體能王
06/06 16:10, 1F

06/06 16:11, 15小時前 , 2F
柯南恐失業
06/06 16:11, 2F

06/06 16:16, 15小時前 , 3F
用起來感覺變笨了
06/06 16:16, 3F

06/06 16:16, 15小時前 , 4F
有漲價嗎
06/06 16:16, 4F

06/06 16:20, 14小時前 , 5F
AI變跑分車欠體惹
06/06 16:20, 5F

06/06 16:20, 14小時前 , 6F
誰說算力不重要?
06/06 16:20, 6F

06/06 16:20, 14小時前 , 7F
大家比誰跑分高= =
06/06 16:20, 7F

06/06 16:22, 14小時前 , 8F
下一個是pro max
06/06 16:22, 8F

06/06 16:23, 14小時前 , 9F
Gemini2.5 Pro真的很好用
06/06 16:23, 9F

06/06 16:27, 14小時前 , 10F
目前使用上體感 Gemini 2.5 pro 真的最強
06/06 16:27, 10F

06/06 16:27, 14小時前 , 11F
不過文學、美學領域可能還是ChatGPT
06/06 16:27, 11F

06/06 16:28, 14小時前 , 12F
Gemini 2.5 Pro 目前覺得很好用、智商真的高
06/06 16:28, 12F

06/06 16:29, 14小時前 , 13F
Gemini真的好用 缺點是慢了點 但現在flash也很強==
06/06 16:29, 13F

06/06 16:31, 14小時前 , 14F
跟grok比起來gemini挺快的
06/06 16:31, 14F

06/06 16:32, 14小時前 , 15F
誰會拿文組用的4.5去測這個...
06/06 16:32, 15F

06/06 16:33, 14小時前 , 16F
要比好歹拿閹割版的O4mini
06/06 16:33, 16F

06/06 16:35, 14小時前 , 17F
下個月又換人了
06/06 16:35, 17F

06/06 16:38, 14小時前 , 18F
2.5 pro超讚 內部用爽爽
06/06 16:38, 18F

06/06 16:40, 14小時前 , 19F
gemini一直以來在準確度比較高,但在創意或是特定
06/06 16:40, 19F

06/06 16:40, 14小時前 , 20F
範圍之外的思考略輸chatgpt,有些gemini撈不到的東
06/06 16:40, 20F

06/06 16:40, 14小時前 , 21F
西chatgpt撈的到
06/06 16:40, 21F

06/06 16:40, 14小時前 , 22F
好的繼續跌
06/06 16:40, 22F

06/06 16:44, 14小時前 , 23F
手機的機迷你助理爛到流湯
06/06 16:44, 23F

06/06 16:46, 14小時前 , 24F
谷哥重返王座
06/06 16:46, 24F

06/06 16:59, 14小時前 , 25F
我昨天攤平 拜託別烙賽
06/06 16:59, 25F

06/06 17:15, 14小時前 , 26F
aistudio.google.com 推一下谷哥大善人!可以玩看看
06/06 17:15, 26F

06/06 17:16, 14小時前 , 27F
才兩年就追上了 再1-2年看看
06/06 17:16, 27F

06/06 17:17, 14小時前 , 28F
G哥認真不是開玩笑的
06/06 17:17, 28F

06/06 17:17, 14小時前 , 29F
神擋殺神
06/06 17:17, 29F

06/06 17:18, 13小時前 , 30F
aistudio直接給你免費用到爽
06/06 17:18, 30F

06/06 17:18, 13小時前 , 31F
基本上大家的策略就是不停地蒐集用戶資料
06/06 17:18, 31F

06/06 17:19, 13小時前 , 32F
來發展更強的模型
06/06 17:19, 32F

06/06 17:20, 13小時前 , 33F
全能住宅改造王
06/06 17:20, 33F

06/06 17:26, 13小時前 , 34F
Google黑繼續視而不見
06/06 17:26, 34F

06/06 17:33, 13小時前 , 35F
好用加一,已經轉過來了
06/06 17:33, 35F

06/06 17:40, 13小時前 , 36F
google不知道哪裡得罪美國政府
06/06 17:40, 36F

06/06 17:43, 13小時前 , 37F
還是克勞狄最好用
06/06 17:43, 37F

06/06 17:45, 13小時前 , 38F
油管字幕自動翻譯成繁中依舊很笨
06/06 17:45, 38F

06/06 17:50, 13小時前 , 39F
看來 agentic coding 還是 Claude 4 厲害,不過其他
06/06 17:50, 39F

06/06 17:50, 13小時前 , 40F
部分 Gemini 贏了。你各位要小心,GOOG 以後只會往
06/06 17:50, 40F

06/06 17:50, 13小時前 , 41F
上不會往下!
06/06 17:50, 41F

06/06 17:51, 13小時前 , 42F
占營收50% 的chrome要被拆了 這沒用啦
06/06 17:51, 42F

06/06 17:58, 13小時前 , 43F
現在只剩阿婆老屁精沒跟上AI大隊伍 可憐啊
06/06 17:58, 43F

06/06 18:14, 13小時前 , 44F
Chatgpt Gemini都有訂閱,說真的gemini 好用太多,
06/06 18:14, 44F

06/06 18:14, 13小時前 , 45F
資料準確報告詳細還不會一直鬼打牆,剛剛已經退cha
06/06 18:14, 45F

06/06 18:14, 13小時前 , 46F
tgpt 訂閱了,留一個就好
06/06 18:14, 46F

06/06 18:17, 13小時前 , 47F
拆分eps提高繼續噴
06/06 18:17, 47F

06/06 18:19, 12小時前 , 48F
06/06 18:19, 48F

06/06 18:21, 12小時前 , 49F
o系列才有推理能力,用4.5比…
06/06 18:21, 49F

06/06 18:21, 12小時前 , 50F
股價很慘
06/06 18:21, 50F

06/06 18:27, 12小時前 , 51F
chatgpt關鍵字限制很多,一個不爽就違反規則罷工
06/06 18:27, 51F

06/06 19:07, 12小時前 , 52F
剛剛試用了,確實比ChatGPT 和DeepSeek 聰明,ChatG
06/06 19:07, 52F

06/06 19:07, 12小時前 , 53F
PT 是最笨的
06/06 19:07, 53F

06/06 19:08, 12小時前 , 54F
昨天要chatgpt幫我畫stark industries在那邊跟我說
06/06 19:08, 54F

06/06 19:08, 12小時前 , 55F
版權問題拒畫
06/06 19:08, 55F

06/06 19:09, 12小時前 , 56F
gemini就沒問題
06/06 19:09, 56F

06/06 19:09, 12小時前 , 57F
啊能生吉卜力嗎
06/06 19:09, 57F

06/06 19:10, 12小時前 , 58F
gemini一定可以
06/06 19:10, 58F

06/06 19:43, 11小時前 , 59F
思考預算就是限制AI在有限的預算內給你結論,才不會
06/06 19:43, 59F

06/06 19:43, 11小時前 , 60F
為了給你太完美的答案鑽牛角尖浪費token(錢)
06/06 19:43, 60F

06/06 20:12, 11小時前 , 61F
軟體愈來愈卷
06/06 20:12, 61F

06/07 01:27, 5小時前 , 62F
gemini進步超快 之前1.5版爛的要命啥都不會回答
06/07 01:27, 62F

06/07 02:34, 4小時前 , 63F
當初gpt就是靠google提出的演算法才做出這種大語言
06/07 02:34, 63F

06/07 02:34, 4小時前 , 64F
模型的
06/07 02:34, 64F

06/07 05:18, 1小時前 , 65F
騙人,我寫程式他都常常跟我說我搞定不了我放棄了
06/07 05:18, 65F

06/07 05:18, 1小時前 , 66F
Grok 還比它有耐心太多了
06/07 05:18, 66F

06/07 05:24, 1小時前 , 67F
我用的還是pro喔
06/07 05:24, 67F
文章代碼(AID): #1eGg6MiH (Stock)
文章代碼(AID): #1eGg6MiH (Stock)