Re: [新聞] 谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首！輾壓o3與Claude 4

看板Stock (股票)作者LDPC (Channel Coding)時間17小時前 (2025/06/07 02:07)推噓98(100推 2噓 364→)

留言466則, 54人參與討論串2/2 (看更多)

這幾天比較有趣的消息是 Mary Meeker的新報告她在29年前開始寫了一份 internet trends report 成功預測網路用戶成長廣告行動網路等因為internet互聯網路 (The Internet Report” (1995) ) (1995年她在Morgan Stanley寫的報告預測多媒體電腦等 https://ibb.co/6RshM1Bp ) 細節可以看這 https://www.bondcap.com/report/it95/ 最近她寫了一份Trends – Artificial Intelligence 340頁報告 https://tenten.co/learning/mary-meeker/ 有趣的地方在於訓練成本跟推理成本這邊訓練成本在急遽上升但推理成本也在顯著下降這意味者在應用端成本不在是門檻這也意味者誰先推出一桶漿糊大模型提高使用用戶黏性誰就會贏得市場而訓練成本就是那個護城河就像台G那個高昂成本為了複製先進晶片就是護城河另外一個有趣點在大網路時代 Google花了11年才得到八億用戶黏性(使用產品) Chatgpt只用17個月就辦到了另外AI的成本接觸也在大幅下降逐漸變成公共設施那種概念報告也註明其他領域顯著受到AI領域影響顯著的大幅進展回到股點現在在打大模型使用用戶黏度戰就是狗家跟openai和claude 這之前幾篇也提到過了狗家現在就是用一千個廖化調參數下游任務打一個呂布科學家臉家跟亞麻(shopping experience) 屬於第二梯次然後軟家無法評價@@ 這場大模型戰役少說得在打個一兩年下好離手@@b 然後老黃繼續受益摘錄其他跟股點有關的開發者生態的繁榮：以 NVIDIA 生態系統為例其開發者數量在七年內增長了 6 倍達到 600 萬同樣谷歌的 Gemini 生態系統也報告了同比 5 倍的開發者增長達到 700萬這龐大的開發者群體是 AI 應用和創新的基石。專利申請的激增美國與計算相關的專利授權量經歷了兩次顯著的爆發式增長第一次是在網景公司 (Netscape) 1995 年上市之後，第二次則是在 ChatGPT 2022 年發布之後，且後者的增長勢頭更為迅猛。 ChatGPT的桌面用戶留存率在 27 個月內從約 50% 攀升至 80% 遠高於同期谷歌搜索的留存率這充分證明了 AI 工具的用戶粘性和不可替代性移動端應用參與度的飆升- 美國活躍用戶在 ChatGPT 移動應用程序上花費的每日時長在短短 21 個月內增長了驚人的 202%. 與此同時用戶的會話時長和每用戶每日會話次數也呈現出顯著的增長趨勢。 AI 助力工作效率提升- 超過 72% 使用 AI 聊天機器人的美國受僱成年人表示，這些工具顯著幫助他們更快、更好地完成工作任務。 **老黃股點 https://ibb.co/fsZKnh7 (參照https://www.pttweb.cc/bbs/Stock/M.1747509845.A.030 ) 老黃的開發社群還在指數成長這也是一種護城河@@b -- 中文 https://reurl.cc/OYK5Yr https://reurl.cc/NYKbYx 你也可以下載完後丟給gpt 去問股點@@b https://www.bondcap.com/report/pdf/Trends_Artificial_Intelligence.pdf ※ 引述《buffon (簡單)》之銘言： : 原文標題： : 谷歌Gemini 2.5升級「全能王」推理、程式皆拿榜首！輾壓o3與Claude 4 : 原文連結： : https://news.cnyes.com/news/id/6009666 : 發布時間： : 2025-06-06 15:10 : 記者署名： : 鉅亨網新聞中心 : 原文內容： : 谷歌 (GOOGL-US) 深夜攜全新 Gemini 2.5 Pro 強勢歸來，僅用一個月碾壓舊版 Gemini : 2.5。數學、程式設計、推理全面封神，穩坐所有榜單第一名，全面領先競爭對手如 o3、 : Claude 4 和 DeepSeek-R1 。 : 這次升級的 Gemini 2.5 Pro 在效能上展現出驚人的提升。其在整體 Elo 分數上提升了 : 24 分，尤其是在 Web Arena 上的 Elo 分數更是大幅躍升 35 分，達到 1443 分。 : 在 LMArena 排行榜上，其 Elo 分數躍升 24 分，達到 1470 分，穩居榜首，並在所有領 : 域都排名第一，這充分證明了其在處理複雜任務方面的強大能力。Google 官博介紹稱， : 這次發布的是 Gemini 2.5 Pro 的升級預覽版，被譽為 Google 迄今為止最聰明的模型 : 。 : 此外，Gemini 2.5 Pro 無論是數學、程式設計還是推理能力，都刷新了業界的「最先進 : 水準」（SOTA），穩居所有榜單之首，徹底碾壓了包括 o3、Claude 4 和 DeepSeek-R1 : 在內的所有競爭對手，為人工智慧的發展樹立了新的里程碑。 : token 價格不變性價比極高 : 更令人振奮的是，儘管性能實現了質的飛躍，新版本 Gemini 2.5 Pro 的 token 價格卻 : 保持不變，這使得其具備極高的性價比。與市場上的競爭對手相比，Gemini 2.5 Pro 的 : 輸出價格僅為 o3 的四分之一，與 Claude 4 相比更是顯著經濟。 : 這對廣大開發者和企業而言，無疑是一大利好消息，意味著他們能夠以更低的成本獲得頂 : 級的 AI 能力，加速創新應用開發和部署。 : 新版 Gemini 2.5 Pro (06-05) 還引入了多項創新功能，進一步提升了模型的可用性和開 : 發效率。其中最引人注目的便是高達 32k 的「思考預算」（Thinking Budget）功能，以 : 及改進的函數呼叫能力。 : 「思考預算」功能導入提升開發靈活性 : 這些新特性賦予了開發者更大的靈活性和精確度，使其能夠更有效地控制模型運行的成本 : 和延遲，實現更為複雜和客製化的 AI 解決方案。根據 Google 官方部落格的介紹，此次 : 發布的 Gemini 2.5 Pro 是一個升級預覽版，是 Google 迄今為止最聰明的模型，預計在 : 幾週後將成為普遍可用的穩定版本，非常適合企業級應用，滿足各行各業對高效能 AI 的 : 需求。 : 在程式設計領域，Gemini 2.5 Pro 的表現同樣令人印象深刻。它在 Aider Polyglot 等 : 高難度程式設計基準測試中名列前茅，展現了卓越的程式碼生成、理解和除錯能力。 : 同時，在 GPQA 和被譽為「人類最後考試」（HLE）等極具挑戰性的基準測試中，Gemini : 2.5 Pro 也展現了頂尖性能。這些測試全面評估了模型的數學、科學、知識和推理能力， : 其優異的表現再次證明了 Gemini 2.5 Pro 的綜合實力。 : 此外，Google 也針對先前 2.5 Pro 版本的用戶回饋進行了改進，顯著提升了其風格和結 : 構，現在它能提供更有創意、格式更優的回答，使其在內容生成和交流互動方面更加自然 : 流暢。 : 目前，開發者已可透過 Google AI Studio 和 Vertex AI 中的 Gemini API 開始使用更 : 新的 2.5 Pro 進行開發。其便捷的存取方式和強大的功能，將極大地促進 AI 技術的應 : 用創新。同時，Gemini 2.5 Pro 也已在 Gemini App 中正式上線，讓廣大普通用戶也能 : 體驗到其尖端 AI 能力所帶來的便利與智慧。 : 網友實測驗證強大實力 : 為了驗證 Gemini 2.5 Pro 在真實任務中的表現，眾多網友紛紛進行了實測，結果令人驚 : 嘆。一張「劈柴圖」的廣泛流傳，暗示著業界普遍認為 Gemini 已是「獸中之王」。 : 在編碼能力方面，其對 o3 和 Claude 4 的碾壓已不再是空談——新版 Gemini 2.5 Pro : 成功通過了六邊形物理模擬測試，證明了其在複雜物理環境建模和模擬方面的卓越能力。 : 更令人驚豔的是，它還能透過 Three.js 創造出逼真的 3D DNA 模型，展現出強大的圖形 : 處理和視覺化能力。 : 資料科學家 Diego 進行了一項引人注目的測試：他讓 Gemini 2.5 Pro 06-05 編寫一段 : Python 程式碼，用於視覺化單行道中交通燈的工作原理，並要求車輛以隨機速率進入。 : 程式碼運行後的效果顯示，動畫整體精美，運行流暢，沒有明顯問題。 : 作為對比，GPT 4.5 生成的程式碼效果則顯得畫面粗糙，車輛也不符合物理規律，這凸顯 : 了 Gemini 2.5 Pro 在程式設計和模擬精確度方面的顯著優勢。Diego 先前也測試了 : Claude Sonnet 3.7 和 Grok 3，這些對比進一步鞏固了 Gemini 2.5 Pro 在 AI 領域的 : 領先地位。 : Google Gemini 2.5 Pro (06-05) 的發布，標誌著 Google 在人工智慧領域又邁出了堅實 : 的一步。其卓越的性能、高效的成本效益以及不斷創新的功能，無疑將加速 AI 技術的普 : 及和應用。隨著「李在明時代」的開啟，我們預期 Google 將繼續引領 AI 技術的發展， : 為全球用戶帶來更多創新與便利。 : 心得/評論： : google 的 chrome 面臨被法院強制出售的威脅 : 不過 Gemini 2.5 Pro 則是帶來了好消息 : Web Arena 上的 Elo 達到 1443 分 : LMArena 排行榜上，Elo 達到 1470 分，穩居榜首 : 內文還提到 "高達 32k 的「思考預算」（Thinking Budget）功能" : 不過我看不懂這是啥 XD : 另外 : 最後一段提到 "李在明時代"也很莫名 : 不知道想表達什麼 : 總之, 這最新推出的 Gemini 2.5 Pro 照內文所說 : 目前是輾壓一切的存在 : 分享給各位股東參考 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1749233267.A.BCC.html

推

sdbb

06/07 02:16, 17小時前 , 1^F

06/07 02:16, 1^F

→

sdbb

06/07 02:17, 17小時前 , 2^F

06/07 02:17, 2^F

推

sdbb

06/07 02:20, 17小時前 , 3^F

06/07 02:20, 3^F

→

sdbb

06/07 02:21, 16小時前 , 4^F

06/07 02:21, 4^F

推

stlinman

06/07 02:22, 16小時前 , 5^F

06/07 02:22, 5^F

推

karta018

06/07 02:22, 16小時前 , 6^F

06/07 02:22, 6^F

推

coffee112

06/07 02:33, 16小時前 , 7^F

06/07 02:33, 7^F

推

HiuAnOP

06/07 02:36, 16小時前 , 8^F

06/07 02:36, 8^F

→

LDPC

06/07 02:38, 16小時前 , 9^F

06/07 02:38, 9^F

推

mmnnoo

06/07 02:40, 16小時前 , 10^F

06/07 02:40, 10^F

※ 編輯: LDPC (76.21.72.78 美國), 06/07/2025 02:49:25

推

ProTrader

06/07 02:54, 16小時前 , 11^F

06/07 02:54, 11^F

→

ProTrader

06/07 02:55, 16小時前 , 12^F

06/07 02:55, 12^F

※ 編輯: LDPC (76.21.72.78 美國), 06/07/2025 03:05:31

推

NTUT56

06/07 03:07, 16小時前 , 13^F

06/07 03:07, 13^F

推

qwe78971

06/07 03:08, 16小時前 , 14^F

06/07 03:08, 14^F

→

qwe78971

06/07 03:08, 16小時前 , 15^F

06/07 03:08, 15^F

→

qwe78971

06/07 03:08, 16小時前 , 16^F

06/07 03:08, 16^F

還是有意義啊成長速度和人口數量(對比全人口)意味者新科技滲透率到普羅大眾速度大internet時代產業變遷落地場景大概是個10~15年週期每個階段硬體基建軟體滲透外面使用者adopt 都可以解讀為科技滲透對比人口使用數現在最好參考點就是internet 他是至少完整走過如讓一個新科技滲透至整體人口科技滲透對比人口大多是參考這個 https://en.wikipedia.org/wiki/Early_adopter 現在主要是要透過對比資料來反推接下來可能性比方七巨頭都是目標兩年內消滅20~50%碼農用ai生產工具輔助寫程式但是外面一般民眾需要多少時間去adopt這新科技? 有多少人還是認為ai是泡沫? 一般來說early adopter佔總人口13.5% early majority佔34% 轉折點會是late majority(34%) 那意味者70~80%總人口這時候AI落地場景會大量出現一般聽到現在大模型初戰 10億使用戶會是一個基本門票用的就是搶early adopter 簡言之用戶成長速度和數量黏著性就是科技滲透率和市場佔有率最簡當評定方法 https://reurl.cc/2KR6AE 這也可以成為投資股票方向的一個引則目前來說現在還是AI大基建時代而現一班用戶還大多為early adopter 等到20億人口使用時差不多就要進入earl/late majority時代改買應用公司諸如databrick 因此作為配股現在理應就是半導體(/NVDA/AVGO/MU/TSM) 預計兩年後可以轉往其他應用層那時候外面民眾大多是成為可習慣AI 以iphone出現時代2007 等到智慧手機有early majority大約是2010~2012 用戶使用量和總人口比數以及黏著性會指出這玩意到底是不是泡沫以及是不是準備好到下個時代以元宇宙為例他從來沒有突破過 early adopter人口數量說到底人口使用成長速度就是最暴力簡單解讀新科技散透速度

→

qwe78971

06/07 03:08, 16小時前 , 17^F

06/07 03:08, 17^F

→

qwe78971

06/07 03:08, 16小時前 , 18^F

06/07 03:08, 18^F

→

qwe78971

06/07 03:08, 16小時前 , 19^F

06/07 03:08, 19^F