Re: [請益] 軟體失業是遲早的事吧

看板Soft_Job (軟體人)作者 (凱子爸)時間3周前 (2025/10/17 13:29), 3周前編輯推噓7(7023)
留言30則, 7人參與, 2周前最新討論串16/17 (看更多)
※ 引述《oopFoo (3d)》之銘言: : ※ 引述《SkankHunt42 (凱子爸)》之銘言: : : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36 : : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36 : : → yamakazi: 才奇怪吧 10/15 09:36 : : 沒有要ㄉ一ㄤ誰的意思 : : 就是這benchmark到底存不存在 : 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。 : https://github.com/SWE-bench/SWE-bench : swe-bench是拿github已解決的issues來作為測試。 : https://openai.com/index/introducing-swe-bench-verified/ 我覺得單純大家討論的沒有共通基準線而已 Leetcode跟codeforces所有的問題人類自己做過而且已經有解答的 那我們也不挑hard的題目 我是否可以說medium題目人類參賽者的基準就是通過率100%? 如果我說人類表現,我會看常態分佈的數據,而不是所有人的最高得分 對「用戶通過率」「提交通過率」、「平均所需解題時間」做出分析 : swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動 : 測試的題目,大部分都非常簡單。15分鐘內解決 : 例如variable referenced before assignment : 或者parameter ignored。deprecation warning : 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。 15min~1hour的題目目前在verified中有261題 已經是過半數的程度了 您所所說的 "小於15分鐘的題目" 數量是194題 大約2/5不到 整體分布的話 15分鐘以上的題目其實才是過半的存在 另外 variable referenced before assignment, parameter ignored, deprecation warning 這些問題確實可能90%+有經驗的工程師完全沒有問題 但除了這些問題以外的呢? 我覺得各位可能也猜不出一個比率 在ooFoo給出的openai連結中有這麼一段話: As supplementary information (not used for dataset filtering), we further ask annotators to estimate how much time it would take an experienced software engineer who has had a few hours to familiarize themselves with the codebase to write a patch solving the issue. 翻譯成中文就是: 我們進一步請標註者估算一位有經驗的軟體工程師在花費幾小時熟悉程式碼庫後,撰寫修 復問題的補丁所需時間。 所以OpenAI的假設前提是「這個有經驗的工程師實際上是已經花費幾小時事先熟悉 codebase」作為基準,而不是隨便找一個有經驗的python工程師叫他直接上就能用 同樣的時間幹出來 就我來看 15min~1hour的題目: https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified dataset的內容 其中一題 https://github.com/astropy/astropy/issues/13235 這題被評估需要15min~1hour 雖然相應的PR是刪除code 但我想你還是需要對專案有基礎的了解 才能看懂討論 或者至少 你應該要有numpy的基礎功力吧? https://code.djangoproject.com/ticket/30608 https://github.com/django/django/pull/11532/files 這題也是15min~1hour的題目 這種題目 你至少也需要有encoding相關的知識還有專案的熟悉度 這算不算需要一點domain知識? 另外請注意:類似這樣難度甚至以上的題目占比3/5而且橫跨12個專案 https://www.swebench.com/ 還有目前分數榜來看 甚至還有算出平均所需的token金錢成本 那我在評估人類的時候 是否要計算他的時間成本?時間是否列入評估的基準? 如果依照openai設計的難易度評估基準,這些工程師是針對個別專案有一定熟悉度的 所以各位討論所謂"人類基準",到底是: 1. 同樣水準的人類在各領域的統合表現 (我在我們班 我數學考0分國文80分, 他數學100分國文60分, 所以我們班的水準是數學100分國文80分) 2. 在同領域具備相同範圍年資或經驗與專案熟悉度的人所展現的平均表現 3. 不管領域,我就從senior中隨機挑五百人做樣本 如果有人覺得基準是1,那也沒問題,那就是你跟我討論的基準與定義不同。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.2.216.14 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760678990.A.2B4.html ※ 編輯: SkankHunt42 (149.22.87.54 日本), 10/17/2025 21:44:57

10/17 23:56, 3周前 , 1F
y的基準很明顯是 4.不管啦人類就是比AI爛 吧
10/17 23:56, 1F
※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:01:11 ※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:05:06

10/18 10:21, 3周前 , 2F
ai有ai的好處,例如github都訓練過了。知識非常淵博,但
10/18 10:21, 2F

10/18 10:23, 3周前 , 3F
無判斷能力(不想在這爭辯,這但書太多)。所以ai很快,但
10/18 10:23, 3F

10/18 10:25, 3周前 , 4F
需要人類引導。人類需要時間學新的code base,但能有效
10/18 10:25, 4F

10/18 10:27, 3周前 , 5F
解決問題。今天ai發展的方向不對,應該ai幫忙解釋程式碼,
10/18 10:27, 5F

10/18 10:28, 3周前 , 6F
讓人來寫程式碼。ai解釋不見的正確,但會加速人類的學習
10/18 10:28, 6F

10/18 10:28, 3周前 , 7F
速度。其實大家經驗這麼久了,寫程式的時間可能1/10都不到
10/18 10:28, 7F

10/18 10:29, 3周前 , 8F
大部分時間都是想問題,找解決方式,跟其它人溝通。然後
10/18 10:29, 8F

10/18 10:30, 3周前 , 9F
現在ai強調寫程式,但我看來是最不適合的位置。但真正花
10/18 10:30, 9F

10/18 10:33, 3周前 , 10F
時間,而ai可以幫忙的,反而發展很慢。當然這跟ai要取代
10/18 10:33, 10F

10/18 10:34, 3周前 , 11F
人類的hype有關。但llms發展這麼久了,llms的優缺點其實
10/18 10:34, 11F

10/18 10:36, 3周前 , 12F
都蠻清楚了。這些benchmark就算比了,也沒太大意義。人類
10/18 10:36, 12F

10/18 10:38, 3周前 , 13F
有判斷能力,ai知識淵博(但會hallucination),找出好的配
10/18 10:38, 13F

10/18 10:42, 3周前 , 14F
合,才是避免ai泡沫的方法。
10/18 10:42, 14F

10/18 12:03, 3周前 , 15F
你講的我完全同意,人腦跟LLM各有優缺,這也是我一直
10/18 12:03, 15F

10/18 12:03, 3周前 , 16F
在強調的
10/18 12:03, 16F

10/18 15:58, 3周前 , 17F
oopFoo講得有道理
10/18 15:58, 17F

10/19 06:16, 3周前 , 18F
工程師難免用工程師思維,AI服務的不只是工程師,反
10/19 06:16, 18F

10/19 06:16, 3周前 , 19F
而9成以上不是工程師。怎麼會是要AI教學自己來寫扣呢
10/19 06:16, 19F

10/19 06:16, 3周前 , 20F
。本來發展方向就是AI代寫扣沒錯。反而是專業領域或
10/19 06:16, 20F

10/19 06:16, 3周前 , 21F
許可以用小眾專業AI教工程師寫扣,大眾使用的沒什麼
10/19 06:16, 21F

10/19 06:16, 3周前 , 22F
大問題,只是大眾多數來說需求都講不清楚。
10/19 06:16, 22F

10/19 15:06, 3周前 , 23F
就是這樣啊 但是行銷這樣講吹不出泡沫 然後有些人就
10/19 15:06, 23F

10/19 15:06, 3周前 , 24F
超好帶……
10/19 15:06, 24F

10/20 01:40, 3周前 , 25F
我不懂為什麼要糾結vibe coding會不會造成失業,現在美
10/20 01:40, 25F

10/20 01:40, 3周前 , 26F
國的狀況就是CS的new grad找工作如地獄難度, 因為LLM幾
10/20 01:40, 26F

10/20 01:41, 3周前 , 27F
乎等於2-3年經驗的junior, 以致於錄取門檻大大提昇
10/20 01:41, 27F

10/22 17:22, 2周前 , 28F
推 oopFoo 的見解,可惜這裡有些只想無腦洗 AI>humans
10/22 17:22, 28F

10/22 17:23, 2周前 , 29F
這樣若說他們的表現說明 AI > humans 好像也沒錯,
10/22 17:23, 29F

10/22 17:24, 2周前 , 30F
畢竟你直接請 AI 比較它都不會給這麼無聊的見解。
10/22 17:24, 30F
文章代碼(AID): #1eyTHEAq (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1eyTHEAq (Soft_Job)