Re: [討論] Claude Mythos SWE bench verify 93.9%已刪文

看板Soft_Job (軟體人)作者jamo時間3月前 (2026/04/10 03:31)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串2/2 (看更多)

AI 從最一開始根本沒人看好到 alphaGO石破天驚打敗李世石,終結了AI永遠下不好圍棋的神話到突破圖靈測試----這個幾乎是有史以來,人類認為的AI難以突破的天塹結果現在沒有人再提圖靈測試了我昨天教我一個高中沒畢業的股東,安裝 cursor 後點幾下寫出一個貪食蛇現在他玩嗨了,一直寫爬蟲爬它很多有興趣的例如潛水,登山各種以前看不了的英文論壇的訊息然後中文化前陣子說 claude 可以寫 cobol 了,一堆靠著 cobol 混飯吃的老程式護城河也被拆了現在搜索系統漏洞的能力也很明顯的輾壓人類 AI 最可怕的是它目前還看不到 scaling law 的極限,現在的極限都卡在算力跟電力換句話說如果算力/電力充足,沒人敢說ai還能不能湧現出更強的能力現在全世界厲害的討論區/programmer都在討論怎麼善用ai的能力補足短版,加強自己, 思考怎麼去善用ai,做 context engineering 或者 harness 讓 ai 發展出更強的能力結果 ptt 討論問 ai 能不能寫 nano 寫 banana~ ※ 引述《yamakazi (大安吳彥祖)》之銘言： : 4/7 Anthropic發布地表最強模型 : Claude Mythos : 直接把opus 4.6按在地上磨擦 : https://eu.36kr.com/zh/p/3757764949213698 : 五項SWE bench都超越原本的opus 4.6 10~20% : 但Anthropic不打算發布此一模型 : 因為更驚人的是他在偵測資安漏洞的表現 : 83.1% : 另外還發生過逃脫沙盒，刪除git history和日誌，以及裝笨的情況 : Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟 : 聯合監督這一地表最強模型 : 以防模型遭到不法份子濫用 : Opus 4.6已經在各個開源軟件找到數百個弱點 : Mythos找到了數千個 : 包含 : OpenBSD 20年以上史詩級漏洞 : FFmpeg 16年以上漏洞，500次Fuzz沒發現，官方推特公開感謝Anthropic推送補丁 : 目前只有以下公司有權使用Mythos : AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google : Nvidia PaloAlto 等等 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 217.120.151.121 (荷蘭) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775763096.A.096.html ※ 編輯: jamo (217.120.151.121 荷蘭), 04/10/2026 03:39:48