Re: [請益] 軟體失業是遲早的事吧

看板Soft_Job (軟體人)作者 (3d)時間4小時前 (2025/10/17 08:01), 編輯推噓16(16067)
留言83則, 7人參與, 33分鐘前最新討論串15/15 (看更多)
※ 引述《SkankHunt42 (凱子爸)》之銘言: : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36 : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36 : → yamakazi: 才奇怪吧 10/15 09:36 : 沒有要ㄉ一ㄤ誰的意思 : 就是這benchmark到底存不存在 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。 https://github.com/SWE-bench/SWE-bench swe-bench是拿github已解決的issues來作為測試。 https://openai.com/index/introducing-swe-bench-verified/ swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。 測試的題目,大部分都非常簡單。15分鐘內解決 例如variable referenced before assignment 或者parameter ignored。deprecation warning 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。 例如 有些matrix的問題,你如果不熟,那不會做是正常的。 老實說,連東西的內容都不了解,就大談特談,我無話可講 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760659315.A.888.html

10/17 08:34, 4小時前 , 1F
專業。swe-bench就是人先做過的issue。swe-bench verified
10/17 08:34, 1F

10/17 08:34, 4小時前 , 2F
就是人再過濾一次,認為適合公平測試AI能力的工作。
10/17 08:34, 2F

10/17 08:40, 4小時前 , 3F
本來就是拿有人做過的沒問題啊,不然要怎麼對答案?
10/17 08:40, 3F

10/17 08:40, 4小時前 , 4F
問題是沒有拿來測人類平均解題水平
10/17 08:40, 4F

10/17 08:41, 4小時前 , 5F
我當然知道這是有人做過的XD
10/17 08:41, 5F

10/17 08:42, 4小時前 , 6F
你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎
10/17 08:42, 6F

10/17 08:42, 4小時前 , 7F
XD
10/17 08:42, 7F

10/17 08:43, 4小時前 , 8F
然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題
10/17 08:43, 8F

10/17 08:43, 4小時前 , 9F
老師一起出闈
10/17 08:43, 9F

10/17 08:49, 4小時前 , 10F
yamakazi說的對。問題在於swe-bench verified沒看過單一測
10/17 08:49, 10F

10/17 08:49, 4小時前 , 11F
試者人類的解題成績。不過好笑的又來了,swe-bench verifi
10/17 08:49, 11F

10/17 08:49, 4小時前 , 12F
ed 沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認
10/17 08:49, 12F

10/17 08:49, 4小時前 , 13F
定人解得一定比較差? 自打嘴巴。
10/17 08:49, 13F

10/17 09:15, 3小時前 , 14F
因為我用過ai工作跟我之前自己工作比較。之前比較難的功
10/17 09:15, 14F

10/17 09:15, 3小時前 , 15F
能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定
10/17 09:15, 15F

10/17 09:18, 3小時前 , 16F
單算行數的話,我2018年左右平均一年進扣九千行,今年九
10/17 09:18, 16F

10/17 09:18, 3小時前 , 17F
月我用claude 4 sonnet一個月進扣五萬行
10/17 09:18, 17F

10/17 09:18, 3小時前 , 18F
如果我下去跟AI比benchmark,我覺得我會慘敗
10/17 09:18, 18F

10/17 09:22, 3小時前 , 19F
我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了
10/17 09:22, 19F

10/17 09:22, 3小時前 , 20F
,現在一個月進口五萬行還不覺得累
10/17 09:22, 20F

10/17 09:29, 3小時前 , 21F
就像是你各位在高中大學時期,班上就是有那種強者,你從
10/17 09:29, 21F

10/17 09:29, 3小時前 , 22F
日常跟他上課考試就知道這個人很強,我跟他比完全慘敗,
10/17 09:29, 22F

10/17 09:29, 3小時前 , 23F
不用等到比完聯考你就知道他一定上台大醫學系一樣
10/17 09:29, 23F

10/17 09:31, 3小時前 , 24F
那五萬行我幾乎每行都有review,幾乎沒有太大問題,光re
10/17 09:31, 24F

10/17 09:31, 3小時前 , 25F
view code比自己手刻輕鬆多了
10/17 09:31, 25F

10/17 09:32, 3小時前 , 26F
而且他會自己make run,自己檢查log完後出報告,很多時
10/17 09:32, 26F

10/17 09:32, 3小時前 , 27F
候只要看他下個指令,看完他準備要下的指令後沒問題按ye
10/17 09:32, 27F

10/17 09:32, 3小時前 , 28F
s就可以了
10/17 09:32, 28F

10/17 10:07, 2小時前 , 29F
能像你的專案一個月進扣五萬行的應該不多,照你這速度五
10/17 10:07, 29F

10/17 10:07, 2小時前 , 30F
個人一個月異動二十萬行 怎麼維護?你只是無腦用大量程
10/17 10:07, 30F

10/17 10:07, 2小時前 , 31F
式碼把功能做過去 自己看不到問題就說AI沒問題,老闆會
10/17 10:07, 31F

10/17 10:07, 2小時前 , 32F
很喜歡你這種 因為你交差快,反正爆掉的時候你就知道,
10/17 10:07, 32F

10/17 10:07, 2小時前 , 33F
希望半年後你還有辦法維護六個月前的那幾十顆commit
10/17 10:07, 33F

10/17 10:08, 2小時前 , 34F
如果我的同事裡面有人一個月進五萬行扣 我會直接跟老闆
10/17 10:08, 34F

10/17 10:08, 2小時前 , 35F
說這個超人把整份程式改寫了現在只有他看得懂 這五萬行
10/17 10:08, 35F

10/17 10:08, 2小時前 , 36F
我們其他人要花兩個月研究,還是我們就讓他一個人接手整
10/17 10:08, 36F

10/17 10:08, 2小時前 , 37F
個系統好了?
10/17 10:08, 37F

10/17 10:11, 2小時前 , 38F
y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問
10/17 10:11, 38F

10/17 10:11, 2小時前 , 39F
題的一直是全局trade off,效能調教,安全性檢查......
10/17 10:11, 39F

10/17 10:15, 2小時前 , 40F
哦 而且我的sonnet 4.5每次任務都會犯三四個奇怪的邏輯
10/17 10:15, 40F

10/17 10:15, 2小時前 , 41F
錯誤 所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒
10/17 10:15, 41F

10/17 10:15, 2小時前 , 42F
有問題的程式碼,我感覺你要不是下指令之神應該出來開課
10/17 10:15, 42F

10/17 10:15, 2小時前 , 43F
,不然就是你真的看不到程式碼裡面的問題
10/17 10:15, 43F

10/17 10:16, 2小時前 , 44F
只要llm沒有fine-tune過,不能靠reasoning解題,就還是工
10/17 10:16, 44F

10/17 10:16, 2小時前 , 45F
10/17 10:16, 45F

10/17 10:18, 2小時前 , 46F
還有他說的是一年5萬...反駁都沒看清楚
10/17 10:18, 46F

10/17 10:20, 2小時前 , 47F
他明明說一個月五萬...到底誰沒看清楚...
10/17 10:20, 47F

10/17 10:21, 2小時前 , 48F
拍謝我沒看清楚第二行,一個月5萬是有點誇張就是了
10/17 10:21, 48F

10/17 10:25, 2小時前 , 49F
要看寫的是啥
10/17 10:25, 49F

10/17 10:27, 2小時前 , 50F
我就是看到一個月五萬 怕是我看錯,反覆看了三五次他的留
10/17 10:27, 50F

10/17 10:27, 2小時前 , 51F
言,確定他是說本來一年九千現在一個月五萬,如果他是寫
10/17 10:27, 51F

10/17 10:27, 2小時前 , 52F
錯了 我會更懷疑他有好好地看AI產出的扣嗎?還是瞄一眼好
10/17 10:27, 52F

10/17 10:27, 2小時前 , 53F
像沒大問題而且功能可以動就commit了
10/17 10:27, 53F

10/17 10:29, 2小時前 , 54F
寫systemC,就是要拼多啊,而且也沒什麼安全性問題
10/17 10:29, 54F

10/17 10:33, 2小時前 , 55F
我們有給他MD檔,md 檔裡面有範例程式,你光下prompt當
10/17 10:33, 55F

10/17 10:33, 2小時前 , 56F
然沒那麼精準
10/17 10:33, 56F

10/17 10:34, 2小時前 , 57F
我們各種md檔加起來可能也快萬行了,你prompt不可能講那
10/17 10:34, 57F

10/17 10:34, 2小時前 , 58F
麼詳細
10/17 10:34, 58F

10/17 10:36, 2小時前 , 59F
如果你發現AI常犯的錯誤,或是這次試錯了好幾次才正確,
10/17 10:36, 59F

10/17 10:36, 2小時前 , 60F
你要叫他學起來就是叫他把這次的經驗寫進去md 檔,大部
10/17 10:36, 60F

10/17 10:36, 2小時前 , 61F
分md內容也是叫AI寫不是我自己寫
10/17 10:36, 61F

10/17 10:57, 1小時前 , 62F
這串我關注很久 你跟Skaut大大討論的內容都很不錯 有
10/17 10:57, 62F

10/17 10:57, 1小時前 , 63F
興趣可以來我們網站發
10/17 10:57, 63F

10/17 10:57, 1小時前 , 64F
lesswrong.com
10/17 10:57, 64F

10/17 10:59, 1小時前 , 65F
jaan tallinn(skype聯合創辦人)跟eliezer yudkowsky都
10/17 10:59, 65F

10/17 10:59, 1小時前 , 66F
有在網站寫過相關的討論串 可以註冊後開一個討論 很多
10/17 10:59, 66F

10/17 10:59, 1小時前 , 67F
人會回
10/17 10:59, 67F

10/17 11:00, 1小時前 , 68F
上來看看
10/17 11:00, 68F

10/17 11:14, 1小時前 , 69F
一個月五萬沒錯,不過把md檔也算進去了,沒特別分開算
10/17 11:14, 69F

10/17 11:16, 1小時前 , 70F
舉個例子,他以前常常忘了先make all就直接跑程式,可能
10/17 11:16, 70F

10/17 11:16, 1小時前 , 71F
以為自己寫的是python,我就叫他寫在自己的md檔裡,以後
10/17 11:16, 71F

10/17 11:16, 1小時前 , 72F
他改完扣就會自己make all and run了,不用特別再下prom
10/17 11:16, 72F

10/17 11:16, 1小時前 , 73F
pt
10/17 11:16, 73F

10/17 11:34, 1小時前 , 74F
我們網站科技公司的老闆(航太 耳機等等)跟頂尖科學家
10/17 11:34, 74F

10/17 11:34, 1小時前 , 75F
工程師很多 但網站人數很少 歡迎來發言
10/17 11:34, 75F

10/17 12:00, 55分鐘前 , 76F
lesswrong 相比 reddit hackernews 有什麼特別的?
10/17 12:00, 76F

10/17 12:19, 36分鐘前 , 77F
lesswrong跟許多機構有直接的關係 像是miri/ open phi
10/17 12:19, 77F

10/17 12:19, 36分鐘前 , 78F
lanthropy
10/17 12:19, 78F

10/17 12:19, 36分鐘前 , 79F
有關係能幹嘛 不太懂
10/17 12:19, 79F

10/17 12:20, 35分鐘前 , 80F
像是我們網站的成員Vitalik Buterin(大家應該都知道他
10/17 12:20, 80F

10/17 12:20, 35分鐘前 , 81F
是誰)就有直接資持這些機構
10/17 12:20, 81F

10/17 12:21, 34分鐘前 , 82F
他在上面叫vbuterin 可以看我們的排行榜
10/17 12:21, 82F

10/17 12:22, 33分鐘前 , 83F
文章代碼(AID): #1eyOTpY8 (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1eyOTpY8 (Soft_Job)