Re: [請益] 軟體失業是遲早的事吧
※ 引述《oopFoo (3d)》之銘言:
: ※ 引述《SkankHunt42 (凱子爸)》之銘言:
: : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36
: : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
: : → yamakazi: 才奇怪吧 10/15 09:36
: : 沒有要ㄉ一ㄤ誰的意思
: : 就是這benchmark到底存不存在
: 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。
: https://github.com/SWE-bench/SWE-bench
: swe-bench是拿github已解決的issues來作為測試。
: https://openai.com/index/introducing-swe-bench-verified/
我覺得單純大家討論的沒有共通基準線而已
Leetcode跟codeforces所有的問題人類自己做過而且已經有解答的
那我們也不挑hard的題目
我是否可以說medium題目人類參賽者的基準就是通過率100%?
如果我說人類表現,我會看常態分佈的數據,而不是所有人的最高得分
對「用戶通過率」「提交通過率」、「平均所需解題時間」做出分析
: swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動
: 測試的題目,大部分都非常簡單。15分鐘內解決
: 例如variable referenced before assignment
: 或者parameter ignored。deprecation warning
: 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。
15min~1hour的題目目前在verified中有261題 已經是過半數的程度了
您所所說的 "小於15分鐘的題目" 數量是194題 大約2/5不到
整體分布的話 15分鐘以上的題目其實才是過半的存在
另外
variable referenced before assignment, parameter ignored, deprecation warning
這些問題確實可能90%+有經驗的工程師完全沒有問題
但除了這些問題以外的呢? 我覺得各位可能也猜不出一個比率
在ooFoo給出的openai連結中有這麼一段話:
As supplementary information (not used for dataset filtering), we further ask
annotators to estimate how much time it would take an experienced software
engineer who has had a few hours to familiarize themselves with the codebase
to write a patch solving the issue.
翻譯成中文就是:
我們進一步請標註者估算一位有經驗的軟體工程師在花費幾小時熟悉程式碼庫後,撰寫修
復問題的補丁所需時間。
所以OpenAI的假設前提是「這個有經驗的工程師實際上是已經花費幾小時事先熟悉
codebase」作為基準,而不是隨便找一個有經驗的python工程師叫他直接上就能用
同樣的時間幹出來
就我來看 15min~1hour的題目:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
dataset的內容 其中一題
https://github.com/astropy/astropy/issues/13235
這題被評估需要15min~1hour
雖然相應的PR是刪除code 但我想你還是需要對專案有基礎的了解 才能看懂討論
或者至少 你應該要有numpy的基礎功力吧?
https://code.djangoproject.com/ticket/30608
https://github.com/django/django/pull/11532/files
這題也是15min~1hour的題目
這種題目 你至少也需要有encoding相關的知識還有專案的熟悉度
這算不算需要一點domain知識?
另外請注意:類似這樣難度甚至以上的題目占比3/5而且橫跨12個專案
https://www.swebench.com/
還有目前分數榜來看 甚至還有算出平均所需的token金錢成本
那我在評估人類的時候 是否要計算他的時間成本?時間是否列入評估的基準?
如果依照openai設計的難易度評估基準,這些工程師是針對個別專案有一定熟悉度的
所以各位討論所謂"人類基準",到底是:
1. 同樣水準的人類在各領域的統合表現
(我在我們班 我數學考0分國文80分, 他數學100分國文60分,
所以我們班的水準是數學100分國文80分)
2. 在同領域具備相同範圍年資或經驗與專案熟悉度的人所展現的平均表現
3. 不管領域,我就從senior中隨機挑五百人做樣本
如果有人覺得基準是1,那也沒問題,那就是你跟我討論的基準與定義不同。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.2.216.14 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760678990.A.2B4.html
※ 編輯: SkankHunt42 (149.22.87.54 日本), 10/17/2025 21:44:57
推
10/17 23:56,
6小時前
, 1F
10/17 23:56, 1F
※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:01:11
※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:05:06
討論串 (同標題文章)
Soft_Job 近期熱門文章
PTT職涯區 即時熱門文章