Re: [請益] 軟體失業是遲早的事吧

看板Soft_Job (軟體人)作者 (3d)時間3周前 (2025/10/17 08:01), 編輯推噓27(270138)
留言165則, 15人參與, 3周前最新討論串15/17 (看更多)
※ 引述《SkankHunt42 (凱子爸)》之銘言: : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36 : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36 : → yamakazi: 才奇怪吧 10/15 09:36 : 沒有要ㄉ一ㄤ誰的意思 : 就是這benchmark到底存不存在 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。 https://github.com/SWE-bench/SWE-bench swe-bench是拿github已解決的issues來作為測試。 https://openai.com/index/introducing-swe-bench-verified/ swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。 測試的題目,大部分都非常簡單。15分鐘內解決 例如variable referenced before assignment 或者parameter ignored。deprecation warning 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。 例如 有些matrix的問題,你如果不熟,那不會做是正常的。 老實說,連東西的內容都不了解,就大談特談,我無話可講 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760659315.A.888.html

10/17 08:34, 3周前 , 1F
專業。swe-bench就是人先做過的issue。swe-bench verified
10/17 08:34, 1F

10/17 08:34, 3周前 , 2F
就是人再過濾一次,認為適合公平測試AI能力的工作。
10/17 08:34, 2F

10/17 08:40, 3周前 , 3F
本來就是拿有人做過的沒問題啊,不然要怎麼對答案?
10/17 08:40, 3F

10/17 08:40, 3周前 , 4F
問題是沒有拿來測人類平均解題水平
10/17 08:40, 4F

10/17 08:41, 3周前 , 5F
我當然知道這是有人做過的XD
10/17 08:41, 5F

10/17 08:42, 3周前 , 6F
你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎
10/17 08:42, 6F

10/17 08:42, 3周前 , 7F
XD
10/17 08:42, 7F

10/17 08:43, 3周前 , 8F
然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題
10/17 08:43, 8F

10/17 08:43, 3周前 , 9F
老師一起出闈
10/17 08:43, 9F

10/17 08:49, 3周前 , 10F
yamakazi說的對。問題在於swe-bench verified沒看過單一測
10/17 08:49, 10F

10/17 08:49, 3周前 , 11F
試者人類的解題成績。不過好笑的又來了,swe-bench verifi
10/17 08:49, 11F

10/17 08:49, 3周前 , 12F
ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認
10/17 08:49, 12F

10/17 08:49, 3周前 , 13F
定人解得一定比較差? 自打嘴巴。
10/17 08:49, 13F

10/17 09:15, 3周前 , 14F
因為我用過ai工作跟我之前自己工作比較。之前比較難的功
10/17 09:15, 14F

10/17 09:15, 3周前 , 15F
能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定
10/17 09:15, 15F

10/17 09:18, 3周前 , 16F
單算行數的話,我2018年左右平均一年進扣九千行,今年九
10/17 09:18, 16F

10/17 09:18, 3周前 , 17F
月我用claude 4 sonnet一個月進扣五萬行
10/17 09:18, 17F

10/17 09:18, 3周前 , 18F
如果我下去跟AI比benchmark,我覺得我會慘敗
10/17 09:18, 18F

10/17 09:22, 3周前 , 19F
我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了
10/17 09:22, 19F

10/17 09:22, 3周前 , 20F
,現在一個月進口五萬行還不覺得累
10/17 09:22, 20F

10/17 09:29, 3周前 , 21F
就像是你各位在高中大學時期,班上就是有那種強者,你從
10/17 09:29, 21F

10/17 09:29, 3周前 , 22F
日常跟他上課考試就知道這個人很強,我跟他比完全慘敗,
10/17 09:29, 22F

10/17 09:29, 3周前 , 23F
不用等到比完聯考你就知道他一定上台大醫學系一樣
10/17 09:29, 23F

10/17 09:31, 3周前 , 24F
那五萬行我幾乎每行都有review,幾乎沒有太大問題,光re
10/17 09:31, 24F

10/17 09:31, 3周前 , 25F
view code比自己手刻輕鬆多了
10/17 09:31, 25F

10/17 09:32, 3周前 , 26F
而且他會自己make run,自己檢查log完後出報告,很多時
10/17 09:32, 26F

10/17 09:32, 3周前 , 27F
候只要看他下個指令,看完他準備要下的指令後沒問題按ye
10/17 09:32, 27F

10/17 09:32, 3周前 , 28F
s就可以了
10/17 09:32, 28F

10/17 10:07, 3周前 , 29F
能像你的專案一個月進扣五萬行的應該不多,照你這速度五
10/17 10:07, 29F

10/17 10:07, 3周前 , 30F
個人一個月異動二十萬行 怎麼維護?你只是無腦用大量程
10/17 10:07, 30F

10/17 10:07, 3周前 , 31F
式碼把功能做過去 自己看不到問題就說AI沒問題,老闆會
10/17 10:07, 31F

10/17 10:07, 3周前 , 32F
很喜歡你這種 因為你交差快,反正爆掉的時候你就知道,
10/17 10:07, 32F

10/17 10:07, 3周前 , 33F
希望半年後你還有辦法維護六個月前的那幾十顆commit
10/17 10:07, 33F

10/17 10:08, 3周前 , 34F
如果我的同事裡面有人一個月進五萬行扣 我會直接跟老闆
10/17 10:08, 34F

10/17 10:08, 3周前 , 35F
說這個超人把整份程式改寫了現在只有他看得懂 這五萬行
10/17 10:08, 35F

10/17 10:08, 3周前 , 36F
我們其他人要花兩個月研究,還是我們就讓他一個人接手整
10/17 10:08, 36F

10/17 10:08, 3周前 , 37F
個系統好了?
10/17 10:08, 37F

10/17 10:11, 3周前 , 38F
y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問
10/17 10:11, 38F

10/17 10:11, 3周前 , 39F
題的一直是全局trade off,效能調教,安全性檢查......
10/17 10:11, 39F
還有 86 則推文
10/17 14:01, 3周前 , 126F
比較小的 溫馨的
10/17 14:01, 126F

10/17 14:02, 3周前 , 127F
我去過幾次 看過不少同行 jaan, 火箭公司的老闆 那些
10/17 14:02, 127F

10/17 14:02, 3周前 , 128F
人 比較溫馨
10/17 14:02, 128F

10/17 14:03, 3周前 , 129F
hackernews比較大
10/17 14:03, 129F

10/17 14:04, 3周前 , 130F
可以上去聊數學模型 論文那些
10/17 14:04, 130F

10/17 17:56, 3周前 , 131F
一個月五萬行@@
10/17 17:56, 131F

10/17 18:35, 3周前 , 132F
上這網站我覺不錯
10/17 18:35, 132F

10/17 18:36, 3周前 , 133F
上去寫怎麼想 還有你怎麼用專業知識
10/17 18:36, 133F

10/17 18:36, 3周前 , 134F
然後在去見面會
10/17 18:36, 134F

10/17 18:37, 3周前 , 135F
這網站成員很多公司的外部專家== openai, Microsoft
10/17 18:37, 135F

10/17 18:37, 3周前 , 136F
那些
10/17 18:37, 136F

10/17 18:38, 3周前 , 137F
在上面答題也滿有趣的
10/17 18:38, 137F

10/17 18:38, 3周前 , 138F
專業非常強可以去玩
10/17 18:38, 138F

10/17 18:38, 3周前 , 139F
^tesla也有
10/17 18:38, 139F

10/17 18:45, 3周前 , 140F
十年前網站討論的事情 不少都陸陸續續被網站成員解決/
10/17 18:45, 140F

10/17 18:45, 3周前 , 141F
實現
10/17 18:45, 141F

10/17 18:46, 3周前 , 142F
這一串很像上面會討論的 很多人答的不錯
10/17 18:46, 142F

10/17 23:45, 3周前 , 143F
我家的Claude 4.5才一週進四千行 我大概要手動修五批
10/17 23:45, 143F

10/17 23:46, 3周前 , 144F
眾所皆知 一定是我prompt下太爛……XD
10/17 23:46, 144F

10/17 23:48, 3周前 , 145F
我怎麼下prompt Claude都無法正確使用AWS SDK 想必我全責
10/17 23:48, 145F

10/17 23:58, 3周前 , 146F
Claude 我已經棄了 聽說現在其他工具更好用
10/17 23:58, 146F

10/17 23:59, 3周前 , 147F
而且Claude 訂價偏貴就算了還不誠實 高級模型也是用
10/17 23:59, 147F

10/17 23:59, 3周前 , 148F
一下就沒了
10/17 23:59, 148F

10/18 00:00, 3周前 , 149F
都差不多啊 Gemini 2.5 Pro, GPT-5 都那樣
10/18 00:00, 149F

10/18 00:01, 3周前 , 150F
從來不覺得各主流模型間有什麼很本質上的差異
10/18 00:01, 150F

10/18 00:01, 3周前 , 151F
頂多就偶而這題A解的比較好 那題只有B解的出來 之類的
10/18 00:01, 151F

10/18 00:44, 3周前 , 152F
高見龍下班後用 AI 兩個月產出十八萬行程式碼,一個月五萬好
10/18 00:44, 152F

10/18 00:45, 3周前 , 153F
像也還好,AI 產程式碼的速度跟人比起來真是天上飛比地上爬
10/18 00:45, 153F

10/18 07:20, 3周前 , 154F
產歸產,還是要review啊XD
10/18 07:20, 154F

10/19 09:33, 3周前 , 155F
領域不一樣,硬比行數沒有太大意義啦
10/19 09:33, 155F

10/19 12:10, 3周前 , 156F
樓樓上 我覺得測試與審查都會終將推到AI.
10/19 12:10, 156F

10/19 12:11, 3周前 , 157F
但是最終的問題還是回到 需求有沒有被滿足
10/19 12:11, 157F

10/19 12:11, 3周前 , 158F
問題的最後一定是有一個核心的問題 而不是只是炫技
10/19 12:11, 158F

10/19 12:11, 3周前 , 159F
如果只是炫技那麼市場上現在就是滿滿的AI影片
10/19 12:11, 159F

10/19 12:12, 3周前 , 160F
導致宣傳影片的價值就跌到一個不值得的地步
10/19 12:12, 160F

10/19 12:12, 3周前 , 161F
宣傳影片的品質也讓觀眾覺得審美疲勞
10/19 12:12, 161F

10/19 12:12, 3周前 , 162F
因為產出那些東西成本都是三五塊
10/19 12:12, 162F

10/19 12:13, 3周前 , 163F
所以"需求"才帶來價值 所以使用者作為這個需求的起點
10/19 12:13, 163F

10/19 12:13, 3周前 , 164F
才是最終需要 測試/審查 的點
10/19 12:13, 164F

10/21 11:20, 3周前 , 165F
等AI可以幫工程師扛責任再叫我
10/21 11:20, 165F
文章代碼(AID): #1eyOTpY8 (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1eyOTpY8 (Soft_Job)