[新聞] GPT-5.2正式亮相!長文件推理逼近滿分、企業應用大進化

看板Stock (股票)作者 (無法顯示人物名稱)時間4天前 (2025/12/12 08:33), 編輯推噓145(1527212)
留言371則, 160人參與, 2天前最新討論串1/2 (看更多)
原文標題: GPT-5.2正式亮相!長文件推理逼近滿分、企業應用大進化 原文連結: https://ai.ettoday.net/news/3082692 發布時間: 2025年12月12日 06:09 記者署名: 吳立言 原文內容: OpenAI 今(12日)正式推出全新一代模型 GPT-5.2,主打專業知識工作、長任務代理( agentic workflows)與複雜專案處理能力。OpenAI 表示,GPT-5.2 是目前最強大的模型 系列,包含 Instant、Thinking 與 Pro 三種版本,將率先於 ChatGPT 付費用戶陸續開 放,本日同步於 API 全面上線。 OpenAI 指出,GPT-5.2 的設計目標是協助專業人士提升效率,從製作試算表、簡報、撰 寫程式碼,到解析影像、理解長文件、運用工具與執行多步驟任務。根據官方數據,一般 企業戶平均每天可節省 40~60 分鐘,重度用戶甚至可省下每周10 小時以上。 GPT-5.2 Thinking 在多項專業與推理評測創下新高,其中包含: GDPval(知識工作評測):在 44 種職業任務測試中,GPT-5.2 Thinking 與產業專家相 比 70.9% 達到平手或勝出,首次達到「整體專家級表現」。 程式能力:在 SWE-Bench Pro 實際軟體工程測試中達到 55.6% 正確率,刷新既有紀錄。 SWE-bench Verified(Python):提升至 80%。 高難度數學 FrontierMath(Tier 1–3):提升至 40.3%,為新 SOTA(state of the art)。 AIME 2025(競賽數學):達到罕見的 100%。 這代表該模型在真實世界的工作流程中,更能自主偵錯、完成功能開發、重構大型程式碼 庫及協助工程團隊提升開發速度。 GPT-5.2 在多項核心能力上也明顯提升。首先,長上下文推理表現突破新高,在 OpenAI MRCRv2 測試中,模型於 256k tokens 的 4-needle 任務中接近 100% 準確率,特別是在 128k~256k 範圍仍維持高度穩定,意味著能更可靠處理動輒數十萬字的合約、研究論文 與大型專案文件。 視覺理解方面同樣強化,GPT-5.2 Thinking 在科學圖表辨識(CharXiv)中的錯誤率約減 半,在專業介面理解(ScreenSpot-Pro)更大幅領先前代,使其更適用於金融、營運、工 程與設計等高度依賴視覺資訊的領域。工具調用能力則刷新紀錄,在 τ2-bench Telecom 多輪任務中成功率達 98.7%,能更完整處理跨步驟流程,例如客服案件、資料擷 取與一條龍分析生成。 至於科研能力,GPT-5.2 在 GPQA Diamond 高難度理科題目中也取得 92~93% 的高分, OpenAI 稱已有研究團隊在其協助下於統計學問題上產生具研究價值的證明,並經外部專 家驗證,展現其在科學與數學研究上的實質潛力。 API 定價部分,GPT-5.2 為每百萬字元 1.75 美元(輸入)與 14 美元(輸出), GPT-5.2 Pro 則為每百萬字元 21 美元(輸入)與 168 美元(輸出)。OpenAI 表示,雖 然 GPT-5.2 單位成本較高,但由於模型在推理效率與生成品質上更精準,實際完成同等 品質任務所需的總成本反而有機會降低。GPT-5.2 提供三個版本: Instant:快速、涵蓋大多數日常任務 Thinking:適合深度推理、文件分析、程式碼與大專案 Pro:最強版本,適合困難領域與最高品質需求 OpenAI 表示 GPT-5.2 整體輸出更一致、有條理,並針對敏感內容(心理健康、自傷訊息 等)加強安全應答。ChatGPT Plus/Pro/Business/Enterprise 今日起陸續開放, GPT-5.1 將在三個月後從 ChatGPT 中下架(API 不受影響)。 心得/評論: 已反應? 這次發布後好像沒啥人在意 AI真的要泡沫化了嗎? 感覺OpenAI一直強調多強好像對一般使用者來說根本無感 Gemini有完整生態系 還送2TB雲端空間 又能一個人購買多人共享 然後生成圖片又強 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.218.53.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1765499634.A.473.html

12/12 08:35, 4天前 , 1F
gemini 便宜又大碗
12/12 08:35, 1F

12/12 08:35, 4天前 , 2F
gemini 不後悔中
12/12 08:35, 2F

12/12 08:36, 4天前 , 3F
瑟瑟呢! 奧特曼也唬爛嘴!
12/12 08:36, 3F

12/12 08:36, 4天前 , 4F
沒用了,永遠被gemini踩在腳下摩擦
12/12 08:36, 4F

12/12 08:37, 4天前 , 5F
話說grok被蛋雕了嗎
12/12 08:37, 5F

12/12 08:37, 4天前 , 6F
競爭對消費者是好事
12/12 08:37, 6F

12/12 08:37, 4天前 , 7F
一般人用不到的關係吧 通常都只是查查東西 畫畫圖
12/12 08:37, 7F

12/12 08:37, 4天前 , 8F
抱歉 估狗也會下去
12/12 08:37, 8F

12/12 08:38, 4天前 , 9F
不錯喔
12/12 08:38, 9F

12/12 08:39, 4天前 , 10F
這邊一片看衰 那我知道穩不穩了
12/12 08:39, 10F

12/12 08:39, 4天前 , 11F
圖咧! 菇菇當初訂閱歐噴醬是為了圖!
12/12 08:39, 11F

12/12 08:42, 4天前 , 12F
谷歌被吹到獨自跳水
12/12 08:42, 12F

12/12 08:42, 4天前 , 13F
grok蠻好用的呀
12/12 08:42, 13F

12/12 08:42, 4天前 , 14F
gpt 比較好用
12/12 08:42, 14F

12/12 08:43, 4天前 , 15F
gemini根本弱智 速度慢 又常常a問題完了問b問題跟
12/12 08:43, 15F

12/12 08:43, 4天前 , 16F
我講a問題
12/12 08:43, 16F

12/12 08:43, 4天前 , 17F
記者可以去 了
12/12 08:43, 17F

12/12 08:43, 4天前 , 18F
持續競爭是好事 台股3W6就靠鏟子商cc
12/12 08:43, 18F

12/12 08:43, 4天前 , 19F
隨時被取代
12/12 08:43, 19F

12/12 08:44, 4天前 , 20F
繼續吹
12/12 08:44, 20F

12/12 08:44, 4天前 , 21F
瑟瑟Ai呢?沒有就掰掰
12/12 08:44, 21F

12/12 08:44, 4天前 , 22F
繼續競爭 鏟子供應鏈發大財
12/12 08:44, 22F

12/12 08:44, 4天前 , 23F
等他們不競爭 台灣就走向日本失落20年
12/12 08:44, 23F

12/12 08:44, 4天前 , 24F

12/12 08:45, 4天前 , 25F
好了啦 奧特曼
12/12 08:45, 25F

12/12 08:45, 4天前 , 26F
因為有對手了
12/12 08:45, 26F

12/12 08:45, 4天前 , 27F
GPT-99.9出的時候叫我、謝謝
12/12 08:45, 27F

12/12 08:46, 4天前 , 28F
加強後訓練之後各家最新模型ARC-AGI-2高達50幾趴
12/12 08:46, 28F

12/12 08:46, 4天前 , 29F
同一個類神經網路透過後訓練加強能力
12/12 08:46, 29F

12/12 08:46, 4天前 , 30F
Grok走即時資訊串流鏈的樣子?
12/12 08:46, 30F

12/12 08:46, 4天前 , 31F
不用吹,拿幾題測試下去就知道了,上次gemini是真的
12/12 08:46, 31F

12/12 08:46, 4天前 , 32F
拉開差距
12/12 08:46, 32F

12/12 08:47, 4天前 , 33F
真的厲害就不用自己發新聞了
12/12 08:47, 33F

12/12 08:47, 4天前 , 34F
代表預訓練難以再突破 不用推出GPT6就能有大幅進步
12/12 08:47, 34F

12/12 08:48, 4天前 , 35F
美國比較多企業用戶 已經用習慣GPT不會輕易換Gemini
12/12 08:48, 35F

12/12 08:49, 4天前 , 36F
OPEN AI得為了那些企業用戶趕上差距
12/12 08:49, 36F

12/12 08:49, 4天前 , 37F
晚了就不要了
12/12 08:49, 37F

12/12 08:49, 4天前 , 38F
過幾天開源的要發新模型
12/12 08:49, 38F

12/12 08:50, 4天前 , 39F
現在其實已經很夠一般人使用了阿....算力過剩了
12/12 08:50, 39F
還有 292 則推文
還有 1 段內文
12/12 13:24, 4天前 , 332F
grok, gemini GPT都有買 文字還是GPT最好
12/12 13:24, 332F

12/12 13:31, 4天前 , 333F
gemini3幻覺很多
12/12 13:31, 333F

12/12 13:36, 4天前 , 334F
關鍵字:付費
12/12 13:36, 334F

12/12 13:41, 4天前 , 335F
要談色的去找Grok就好了吧 我問個四家AI軍事上如何
12/12 13:41, 335F

12/12 13:42, 4天前 , 336F
運用 討論到他對GPT的看法 他扯到"按在螢幕上親到
12/12 13:42, 336F

12/12 13:42, 4天前 , 337F
斷電"(比喻GPT很會討好諂媚用戶 不過是GPT先把Grok
12/12 13:42, 337F

12/12 13:42, 4天前 , 338F
評得很爛)
12/12 13:42, 338F

12/12 13:44, 4天前 , 339F
看起來Grok很擅長寫激情戲 不過我沒看過其他家怎麼
12/12 13:44, 339F

12/12 13:44, 4天前 , 340F
寫 而且這單純是個意外=_=
12/12 13:44, 340F

12/12 13:44, 4天前 , 341F
整體絕對還是gpt比較強 Gemini是整合跟福利好 喔還
12/12 13:44, 341F

12/12 13:44, 4天前 , 342F
有可以精準畫圖
12/12 13:44, 342F

12/12 13:49, 4天前 , 343F
抱歉了我跳到gemini
12/12 13:49, 343F

12/12 14:01, 4天前 , 344F
來不及了 聲量遠不及Gemini 3輾壓時的聲量
12/12 14:01, 344F

12/12 14:27, 4天前 , 345F
gemini整合太強,650怎樣都比GPT600划算
12/12 14:27, 345F

12/12 14:27, 4天前 , 346F
又有雲端,各種AI整合,圖表生成還沒有中文錯誤
12/12 14:27, 346F

12/12 14:36, 4天前 , 347F
我一路付費用到5.1,代處理EXCEL或TXT都還是幻覺錯
12/12 14:36, 347F

12/12 14:36, 4天前 , 348F
誤一堆,5.2一樣不期不待。真的有想換google方案試
12/12 14:36, 348F

12/12 14:36, 4天前 , 349F
試了。
12/12 14:36, 349F

12/12 14:39, 4天前 , 350F
再不出招就沒人要了!畢竟g工具太多了
12/12 14:39, 350F

12/12 14:42, 4天前 , 351F
都買就好
12/12 14:42, 351F

12/12 14:43, 4天前 , 352F
兩個直接買一年也才16K左右
12/12 14:43, 352F

12/12 14:43, 4天前 , 353F
但依鄉民的能力絕對可以產出10x產值
12/12 14:43, 353F

12/12 14:44, 4天前 , 354F
g還是有不擅長之處
12/12 14:44, 354F

12/12 14:44, 4天前 , 355F
但目前c跟g幾乎可以處理我所有問題了
12/12 14:44, 355F

12/12 15:25, 4天前 , 356F
原來改版了喔,難怪覺得今天回覆風格怎麼又變了
12/12 15:25, 356F

12/12 15:31, 4天前 , 357F
有在coding的都知道 gemini根本屌虐...
12/12 15:31, 357F

12/12 15:39, 4天前 , 358F
現在的模型對一般人來說差不多夠了,gemini送兩T空
12/12 15:39, 358F

12/12 15:39, 4天前 , 359F
間根本王炸
12/12 15:39, 359F

12/12 16:04, 4天前 , 360F
以前硬體擠牙膏現在軟體擠牙膏了嗎?
12/12 16:04, 360F

12/12 18:11, 3天前 , 361F
不錯 兩個一起搭配,很好用
12/12 18:11, 361F

12/13 01:24, 3天前 , 362F
我還是覺得各有優勢 ChatGPT 最厲害的是 我不用說
12/13 01:24, 362F

12/13 01:24, 3天前 , 363F
得很清楚它也知道我想講什麼
12/13 01:24, 363F

12/13 01:24, 3天前 , 364F
Gemini 如果沒有講清楚 它很容易會誤解
12/13 01:24, 364F

12/13 06:20, 3天前 , 365F
Gemini pro試用一個月想退了,還是GPT好用
12/13 06:20, 365F

12/13 09:07, 3天前 , 366F
一起用 我都一次用五個 ChatGPT, Gemini Grok
12/13 09:07, 366F

12/13 09:07, 3天前 , 367F
Claude, Meta AI
12/13 09:07, 367F

12/13 09:29, 3天前 , 368F
Gemini好用
12/13 09:29, 368F

12/13 13:21, 3天前 , 369F
我還是偏好GPT Gemini的介面不知為何就是有點不順
12/13 13:21, 369F

12/13 13:21, 3天前 , 370F
12/13 13:21, 370F

12/13 17:49, 2天前 , 371F
都訂閱 Claude Gemini GPT 一起上
12/13 17:49, 371F
文章代碼(AID): #1fEsBoHp (Stock)
文章代碼(AID): #1fEsBoHp (Stock)