[討論] Claude Mythos SWE bench verify 93.9%

看板Soft_Job (軟體人)作者 (大安吳彥祖)時間1小時前 (2026/04/08 21:30), 編輯推噓1(100)
留言1則, 1人參與, 46分鐘前最新討論串1/1
4/7 Anthropic發布地表最強模型 Claude Mythos 直接把opus 4.6按在地上磨擦 https://eu.36kr.com/zh/p/3757764949213698 五項SWE bench都超越原本的opus 4.6 10~20% 但Anthropic不打算發布此一模型 因為更驚人的是他在偵測資安漏洞的表現 83.1% 另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況 Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟 聯合監督這一地表最強模型 以防模型遭到不法份子濫用 Opus 4.6已經在各個開源軟件找到數百個弱點 Mythos找到了數千個 包含 OpenBSD 20年以上史詩級漏洞 FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁 目前只有以下公司有權使用Mythos AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google Nvidia PaloAlto 等等 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.167.67.113 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775655045.A.22B.html

04/08 22:42, 46分鐘前 , 1F
人類已經追不上了
04/08 22:42, 1F
文章代碼(AID): #1frbY58h (Soft_Job)
文章代碼(AID): #1frbY58h (Soft_Job)