[新聞] 緊咬Anthropic!OpenAI同日推GPT-5.3-Codex 跑分碾壓Opus 4.6

看板Stock (股票)作者 (QQ)時間4小時前 (2026/02/06 22:25), 編輯推噓21(22166)
留言89則, 27人參與, 3小時前最新討論串1/1
原文標題: 緊咬Anthropic!OpenAI同日推GPT-5.3-Codex 跑分碾壓Opus 4.6 原文連結: https://ai.ettoday.net/news/3114219 發布時間: 2026年02月6日 08:48 記者署名: 吳立言 原文內容: 兩大 AI 巨頭 Anthropic 與 OpenAI 於今日接連發布重大更新。Anthropic 首先發表 Cl aude Opus 4.6,主打極長文本處理能力OpenAI 一小時後隨即宣布推出 GPT-5.3-Codex ,並公布數據顯示其在編碼實戰測試中展現出顯著的領先優勢。 Claude Opus 4.6:導入深度思考機制與多代理協作 Anthropic 此次更新重點聚焦於大規模資訊處理與邏輯穩定性。Claude Opus 4.6 將上下 文視窗(Context Window)擴展至 100 萬 Token,相較於前代版本提升 5 倍之多。技術 層面上,該模型導入了「思考決策點」功能,使模型能辨識問題複雜度,自主決定是否啟 動深度推理流程。 此外,Opus 4.6 強化了多代理(Multi-agent)協作能力,並在長文本記憶留存率上提升 近 4 倍,旨在解決長對話中常見的指令遺忘與邏輯斷層問題,針對大型專案的架構分析 提供了更穩定的基礎。 GPT-5.3-Codex:優化生成效率與 OS 層級操控 面對 Anthropic 的挑戰,OpenAI 推出的 GPT-5.3-Codex 則在編碼基準測試中交出了亮 眼成績。數據顯示,該模型在 SWE-bench Pro(57%)、TerminalBench 2.0(76%) 及 O SWorld(64%) 等測試中,皆取得目前業界最高水準。 除了跑分優勢,GPT-5.3-Codex 在開發體驗上有兩項核心突破: 中途干預能力(Mid-task Steerability): 支持任務執行過程中的即時引導與動態更新 ,大幅降低複雜開發任務的錯誤成本。 效能密度提升: 生成相同內容所需 Token 數降至 5.2-Codex 的一半以下,且每 Token 生成速率提升超過 25%,顯著優化了推理成本與延遲。 這兩款模型的發布顯示出兩家公司發展策略的差異化:Claude 傾向於成為具備超長記憶 與深度邏輯的「數位大腦」;而 GPT-5.3-Codex 則朝向具備系統操作能力、高效率且可 高度受控的「執行工具」進化。 隨著 GPT-5.3-Codex 正式上線,開發者將有機會直接對比這兩款頂尖模型在實際工作流 中的表現差異。 心得/評論: Google Gemini表示:....... 現在AI變成跟智慧型手機一樣比跑分了 這兩款token都一下子就用完了 Open醬看起來真的急了 以前是領頭羊 現在被追趕著不擠牙膏了 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.178.34 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1770387954.A.56C.html

02/06 22:27, 4小時前 , 1F
跑分是啥鬼東西
02/06 22:27, 1F

02/06 22:27, 4小時前 , 2F
每個月輪流測不同工具,目前來說還真的各有各優點
02/06 22:27, 2F

02/06 22:27, 4小時前 , 3F
最近open醬的更新看來不錯,急了
02/06 22:27, 3F

02/06 22:28, 4小時前 , 4F
google 下去
02/06 22:28, 4F

02/06 22:30, 4小時前 , 5F
Gemini強在多模態和notebooklm生簡報,Claude生出
02/06 22:30, 5F

02/06 22:30, 4小時前 , 6F
的文本就是比較嚴謹和有邏輯性,Chatgpt感覺就中庸
02/06 22:30, 6F

02/06 22:30, 4小時前 , 7F
版本
02/06 22:30, 7F

02/06 22:37, 4小時前 , 8F
哪個模型能降低記憶體的需求就是利多
02/06 22:37, 8F

02/06 22:38, 4小時前 , 9F
歐噴醬最近中文很強,給股票分析模型還會有(噴爆)
02/06 22:38, 9F

02/06 22:38, 4小時前 , 10F
等字眼....
02/06 22:38, 10F

02/06 22:40, 4小時前 , 11F
Gemini寫程式跟老頑固博士生一樣,不停不做就是不做
02/06 22:40, 11F

02/06 22:41, 4小時前 , 12F
搞不好被餵進了PTT股板當學習資料
02/06 22:41, 12F

02/06 22:45, 4小時前 , 13F
緊咬 是落後者的動詞
02/06 22:45, 13F

02/06 22:47, 4小時前 , 14F
寫程式還是喜歡claude
02/06 22:47, 14F

02/06 22:48, 4小時前 , 15F
手機用戶通常主力一隻,寫程式很多人是claude, code
02/06 22:48, 15F

02/06 22:48, 4小時前 , 16F
x, gemini三個都打開來用好嗎
02/06 22:48, 16F

02/06 22:49, 4小時前 , 17F
Claude, codex左右互搏,gemini負責ui設計
02/06 22:49, 17F

02/06 22:50, 4小時前 , 18F
其實我覺得codex寫code略強一點,但Claude很適合當
02/06 22:50, 18F

02/06 22:50, 4小時前 , 19F
老師
02/06 22:50, 19F

02/06 22:52, 4小時前 , 20F
看新聞說claude比較強的人一看就知道沒用真的用過,
02/06 22:52, 20F

02/06 22:52, 4小時前 , 21F
就算5.2都不輸
02/06 22:52, 21F

02/06 22:53, 4小時前 , 22F
Gpt目前速度有感提升
02/06 22:53, 22F

02/06 22:53, 4小時前 , 23F
openAI是不是有派臥底啊?
02/06 22:53, 23F

02/06 22:53, 4小時前 , 24F
這兩個打架 受傷的是其他軟體公司
02/06 22:53, 24F

02/06 22:55, 4小時前 , 25F
看我跑分, 好像之前安卓機出來會說的話
02/06 22:55, 25F

02/06 22:55, 4小時前 , 26F
codex一口氣寫出想要的功能機率比較高
02/06 22:55, 26F

02/06 23:05, 4小時前 , 27F
說codex比較屌是沒用過claude code+skills喔 幹根
02/06 23:05, 27F

02/06 23:05, 4小時前 , 28F
本屌打codex
02/06 23:05, 28F

02/06 23:06, 4小時前 , 29F
擠牙膏喔 人家出你才出
02/06 23:06, 29F

02/06 23:09, 3小時前 , 30F
Codex 5.3抓bug能力有嚇到。講了一下某步驟的數字
02/06 23:09, 30F

02/06 23:09, 3小時前 , 31F
跟原始資料有落差而已,他就開始順著開著文檔內的
02/06 23:09, 31F

02/06 23:09, 3小時前 , 32F
位址一個script爬過一個檢查。然後要求系統權限開
02/06 23:09, 32F

02/06 23:09, 3小時前 , 33F
始對每個步驟模擬進行跟除錯。最後跟你說是哪個地
02/06 23:09, 33F

02/06 23:09, 3小時前 , 34F
方有問題,問你要不要修正。修完後還說我順便幫你
02/06 23:09, 34F

02/06 23:09, 3小時前 , 35F
其他關聯的script都修改好了。
02/06 23:09, 35F

02/06 23:10, 3小時前 , 36F
這次發表的都是專門寫程式的 跑分不用看了都垃圾
02/06 23:10, 36F

02/06 23:11, 3小時前 , 37F
codex之前就蠻強的只是速度真的太慢了
02/06 23:11, 37F

02/06 23:11, 3小時前 , 38F
這次明顯把短板改進 速度提升許多 就還不錯了
02/06 23:11, 38F

02/06 23:12, 3小時前 , 39F
現在codex基本能與opus並駕其驅甚至部份超越
02/06 23:12, 39F

02/06 23:12, 3小時前 , 40F
opus價格太貴了也是劣勢就是了
02/06 23:12, 40F

02/06 23:13, 3小時前 , 41F
然後前兩天codex也出了寫程式專用的App 那個讚
02/06 23:13, 41F

02/06 23:14, 3小時前 , 42F
CLI就留給那些臭酸老肥宅跟裝逼仔用
02/06 23:14, 42F

02/06 23:14, 3小時前 , 43F
電腦發明都幾年了還在回去弄CLI 低能到有剩
02/06 23:14, 43F

02/06 23:16, 3小時前 , 44F
另外skills基本就是脫褲子放屁 跟MCP一樣遲早過氣
02/06 23:16, 44F

02/06 23:17, 3小時前 , 45F
skills底層就是提示詞工程 最後全都會整合進LLM裡
02/06 23:17, 45F

02/06 23:17, 3小時前 , 46F
還在那邊玩skills 都是過渡期在用的廢物功能
02/06 23:17, 46F

02/06 23:18, 3小時前 , 47F

02/06 23:18, 3小時前 , 48F

02/06 23:18, 3小時前 , 49F

02/06 23:19, 3小時前 , 50F
Openclaw作者都這樣說了 推文的你真的有用過?
02/06 23:19, 50F

02/06 23:20, 3小時前 , 51F

02/06 23:22, 3小時前 , 52F
現在模型進步太快 有人不是每天刷推特 不曉得不是他
02/06 23:22, 52F

02/06 23:22, 3小時前 , 53F
現在就華爾街帶風向說openai不行 跟去年講goog一樣
02/06 23:22, 53F

02/06 23:22, 3小時前 , 54F
的套路 故意打壓股價
02/06 23:22, 54F

02/06 23:22, 3小時前 , 55F
的錯 他的印象還留在寫程式=claude
02/06 23:22, 55F

02/06 23:22, 3小時前 , 56F
Openclaw作者一開始也是只用claude 後來交叉使用才
02/06 23:22, 56F

02/06 23:23, 3小時前 , 57F
自己比較出優劣
02/06 23:23, 57F

02/06 23:24, 3小時前 , 58F
讓我想起了vim還是emacs還是vscode比較好的討論..
02/06 23:24, 58F

02/06 23:24, 3小時前 , 59F
在此預言, 不會有結論....
02/06 23:24, 59F

02/06 23:25, 3小時前 , 60F
我以前碰過幾個vim死忠仔 共同特徵就是又老又肥脾氣
02/06 23:25, 60F

02/06 23:25, 3小時前 , 61F
陰陽怪氣 甚至其中一個連git都不會用只用小烏龜
02/06 23:25, 61F

02/06 23:26, 3小時前 , 62F
裝逼仔+老肥宅 無一例外
02/06 23:26, 62F

02/06 23:26, 3小時前 , 63F
不會進步的工程師 在傳產一待就是20年 20年如一日
02/06 23:26, 63F

02/06 23:26, 3小時前 , 64F
這就是CLI愛好者的形象
02/06 23:26, 64F

02/06 23:27, 3小時前 , 65F
Coding用很兇的人,全部都會用啦,各有優缺點,但
02/06 23:27, 65F

02/06 23:27, 3小時前 , 66F
體感,codex最強,只是速度慢。並不像車子一樣,大
02/06 23:27, 66F

02/06 23:27, 3小時前 , 67F
部分人選一種品牌
02/06 23:27, 67F

02/06 23:27, 3小時前 , 68F
不過就無聊抬槓 在軟缸板講這個就是大爆炸然後被桶
02/06 23:27, 68F

02/06 23:28, 3小時前 , 69F
現在寫程式就在比拼工具練了,誰還在拿模型互比
02/06 23:28, 69F

02/06 23:28, 3小時前 , 70F
本來就是交叉使用 但我最近有點懶的 主力就codex就
02/06 23:28, 70F

02/06 23:28, 3小時前 , 71F
好 claude太貴了啦 用沒幾次額度就沒了三洨
02/06 23:28, 71F

02/06 23:29, 3小時前 , 72F
當然要互比 像Gemini就是垃圾 我說寫程式
02/06 23:29, 72F

02/06 23:29, 3小時前 , 73F
規格丟上去就等收割了,到底有啥額度問題
02/06 23:29, 73F

02/06 23:29, 3小時前 , 74F
寫程式SOTA就是codex claude 沒了
02/06 23:29, 74F

02/06 23:30, 3小時前 , 75F
其它都是浪費時間 時間就是金錢
02/06 23:30, 75F

02/06 23:30, 3小時前 , 76F
華爾街現在吹gemini 一狗票人也認為goog很強,開始
02/06 23:30, 76F

02/06 23:30, 3小時前 , 77F
要被套了
02/06 23:30, 77F

02/06 23:31, 3小時前 , 78F
當然gemini強項本來就在生圖之類的 可理解啦
02/06 23:31, 78F

02/06 23:31, 3小時前 , 79F
狗家也有投資Antropic 大概是一個打消費一個打企業
02/06 23:31, 79F

02/06 23:32, 3小時前 , 80F
說好要聯合把歐噴醬幹死 二打一
02/06 23:32, 80F

02/06 23:32, 3小時前 , 81F
巨頭血戰連續劇 讓窩們繼續看下去
02/06 23:32, 81F

02/06 23:33, 3小時前 , 82F
離線ai值得期待嗎?
02/06 23:33, 82F

02/06 23:37, 3小時前 , 83F
Codex一直都屌打G
02/06 23:37, 83F

02/06 23:37, 3小時前 , 84F
網頁版Gemini最近在一些實時跑分排名上還偷偷變笨
02/06 23:37, 84F

02/06 23:39, 3小時前 , 85F
把dickshit放哪裡?
02/06 23:39, 85F

02/06 23:43, 3小時前 , 86F
用AI寫是很爽 但感覺人類背的責任反而又更多了
02/06 23:43, 86F

02/06 23:43, 3小時前 , 87F
以前維護一個專案 -> 用AI寫後變成要維護三專案以上
02/06 23:43, 87F

02/06 23:54, 3小時前 , 88F
但GOOG強的點不只GEMINI阿XD
02/06 23:54, 88F

02/06 23:55, 3小時前 , 89F
99估狗
02/06 23:55, 89F
文章代碼(AID): #1fXVdoLi (Stock)
文章代碼(AID): #1fXVdoLi (Stock)