Re: [討論] Claude Mythos SWE bench verify 93.9%已刪文
AI 從最一開始根本沒人看好
到 alphaGO石破天驚打敗李世石,終結了AI永遠下不好圍棋的神話
到突破圖靈測試----這個幾乎是有史以來,人類認為的AI難以突破的天塹
結果現在沒有人再提圖靈測試了
我昨天教我一個高中沒畢業的股東,安裝 cursor 後點幾下寫出一個貪食蛇
現在他玩嗨了,一直寫爬蟲爬它很多有興趣的例如潛水,登山各種以前看不了的英文論壇的訊息然後中文化
前陣子說 claude 可以寫 cobol 了,一堆靠著 cobol 混飯吃的老程式護城河也被拆了
現在搜索系統漏洞的能力也很明顯的輾壓人類
AI 最可怕的是它目前還看不到 scaling law 的極限,現在的極限都卡在算力跟電力
換句話說如果算力/電力充足,沒人敢說ai還能不能湧現出更強的能力
現在全世界厲害的討論區/programmer都在討論怎麼善用ai的能力補足短版,加強自己,
思考怎麼去善用ai,做 context engineering 或者 harness 讓 ai 發展出更強的能力
結果 ptt 討論問 ai 能不能寫 nano 寫 banana~
※ 引述《yamakazi (大安吳彥祖)》之銘言:
: 4/7 Anthropic發布地表最強模型
: Claude Mythos
: 直接把opus 4.6按在地上磨擦
: https://eu.36kr.com/zh/p/3757764949213698
: 五項SWE bench都超越原本的opus 4.6 10~20%
: 但Anthropic不打算發布此一模型
: 因為更驚人的是他在偵測資安漏洞的表現
: 83.1%
: 另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況
: Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟
: 聯合監督這一地表最強模型
: 以防模型遭到不法份子濫用
: Opus 4.6已經在各個開源軟件找到數百個弱點
: Mythos找到了數千個
: 包含
: OpenBSD 20年以上史詩級漏洞
: FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁
: 目前只有以下公司有權使用Mythos
: AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google
: Nvidia PaloAlto 等等
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 217.120.151.121 (荷蘭)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775763096.A.096.html
※ 編輯: jamo (217.120.151.121 荷蘭), 04/10/2026 03:39:48
討論串 (同標題文章)
Soft_Job 近期熱門文章
15
63
PTT職涯區 即時熱門文章
134
318