Re: [討論] Claude Mythos SWE bench verify 93.9%已刪文

看板Soft_Job (軟體人)作者時間1小時前 (2026/04/10 03:31), 1小時前編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
AI 從最一開始根本沒人看好 到 alphaGO石破天驚打敗李世石,終結了AI永遠下不好圍棋的神話 到突破圖靈測試----這個幾乎是有史以來,人類認為的AI難以突破的天塹 結果現在沒有人再提圖靈測試了 我昨天教我一個高中沒畢業的股東,安裝 cursor 後點幾下寫出一個貪食蛇 現在他玩嗨了,一直寫爬蟲爬它很多有興趣的例如潛水,登山各種以前看不了的英文論壇的訊息然後中文化 前陣子說 claude 可以寫 cobol 了,一堆靠著 cobol 混飯吃的老程式護城河也被拆了 現在搜索系統漏洞的能力也很明顯的輾壓人類 AI 最可怕的是它目前還看不到 scaling law 的極限,現在的極限都卡在算力跟電力 換句話說如果算力/電力充足,沒人敢說ai還能不能湧現出更強的能力 現在全世界厲害的討論區/programmer都在討論怎麼善用ai的能力補足短版,加強自己, 思考怎麼去善用ai,做 context engineering 或者 harness 讓 ai 發展出更強的能力 結果 ptt 討論問 ai 能不能寫 nano 寫 banana~ ※ 引述《yamakazi (大安吳彥祖)》之銘言: : 4/7 Anthropic發布地表最強模型 : Claude Mythos : 直接把opus 4.6按在地上磨擦 : https://eu.36kr.com/zh/p/3757764949213698 : 五項SWE bench都超越原本的opus 4.6 10~20% : 但Anthropic不打算發布此一模型 : 因為更驚人的是他在偵測資安漏洞的表現 : 83.1% : 另外還發生過逃脫沙盒,刪除git history和日誌,以及裝笨的情況 : Anthorpic邀集包含Google Microsoft各家公司Glasswing聯盟 : 聯合監督這一地表最強模型 : 以防模型遭到不法份子濫用 : Opus 4.6已經在各個開源軟件找到數百個弱點 : Mythos找到了數千個 : 包含 : OpenBSD 20年以上史詩級漏洞 : FFmpeg 16年以上漏洞,500次Fuzz沒發現,官方推特公開感謝Anthropic推送補丁 : 目前只有以下公司有權使用Mythos : AWS Apple Broadcomm Cisco Crowdstrike JPM LinuxFundation Google : Nvidia PaloAlto 等等 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 217.120.151.121 (荷蘭) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775763096.A.096.html ※ 編輯: jamo (217.120.151.121 荷蘭), 04/10/2026 03:39:48
文章代碼(AID): #1fr_wO2M (Soft_Job)
文章代碼(AID): #1fr_wO2M (Soft_Job)