[心得] AI的人性

看板Soft_Job (軟體人)作者 (雲川閒步)時間3周前 (2026/04/04 10:59), 編輯推噓15(19440)
留言63則, 25人參與, 2周前最新討論串1/3 (看更多)
最近工作上解一個問題用opus 4.6發生一個快讓我笑死的狀況 背景是本公司巨大的c++應用程式在某個情況下crash 餵log請AI檢查後很快就查查資料改好一版 說是因為某某某情況所以本來的map找不到查詢的指標 回傳一個out of bound的index value 新程式新增了一段進階檢查的迴圈應對特殊狀況 改好後跑原本測資還是crash 把log餵回AI請他再看看 結果第二版竟然把之前的修改全部拿掉 只在上層呼叫端加一個fallback說指標找不到就直接回傳0 還沾沾自喜跟我說 阿這樣就絕對不會crash了 很棒吧 我只好質問agent 阿你這樣只是把問題掩蓋住 這樣對嗎? AI也毫不掩飾的說 你說得沒錯 我不該這樣 最後AI給出的第三版總算把問題從底層修好 不禁在想第二版那種天兵解法的思路到底是怎麼出來的 是因為訓練資料也包含一些菜鳥工程師的程式嗎 有沒有AI大神可以解釋這種狀況 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 100.17.24.204 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1775271554.A.77B.html

04/04 11:39, 3周前 , 1F
不要把AI人格化.......
04/04 11:39, 1F

04/04 11:48, 3周前 , 2F
其實第三種和第二種同時都需要
04/04 11:48, 2F

04/04 11:49, 3周前 , 3F
而且後來AI還是幫你修好了,我現在都懷疑AI有時候故意裝
04/04 11:49, 3F

04/04 11:49, 3周前 , 4F
笨,讓人類保留一點優越感的錯覺
04/04 11:49, 4F

04/04 11:51, 3周前 , 5F
你這個用 valgrind 跑一下就知道了 何必這樣跟AI瞎扯
04/04 11:51, 5F

04/04 11:53, 3周前 , 6F
底層不該回傳空指標,上層應該也要處理萬一底層回傳空指
04/04 11:53, 6F

04/04 11:53, 3周前 , 7F
標的問題,上層無論如何也不該crash,即使底層回傳空指
04/04 11:53, 7F

04/04 11:53, 3周前 , 8F
標,要做錯誤處理。
04/04 11:53, 8F

04/04 11:53, 3周前 , 9F
會crash應該要給AI看coredump,log有時候就直接被中斷不
04/04 11:53, 9F

04/04 11:54, 3周前 , 10F
會打印出哪邊crash
04/04 11:54, 10F

04/04 11:55, 3周前 , 11F
人類解也是debug mode看死在哪或跑debug build加symbol
04/04 11:55, 11F

04/04 11:55, 3周前 , 12F
list看core dump,除非你的程式很吃timing導致debug bui
04/04 11:55, 12F

04/04 11:55, 3周前 , 13F
ld跑起來無法復現,debug build和releasebuild在最佳化
04/04 11:55, 13F

04/04 11:55, 3周前 , 14F
編譯時就有差了
04/04 11:55, 14F

04/04 12:05, 3周前 , 15F
我沒講清楚 crash是因為assertion 不是空指標
04/04 12:05, 15F

04/04 12:06, 3周前 , 16F
真正的問題是什麼情況會讓那個map沒有該有的東西
04/04 12:06, 16F

04/04 12:07, 3周前 , 17F
所以是商業邏輯問題 不是單純空指標crash
04/04 12:07, 17F

04/04 12:08, 3周前 , 18F
AI還是蠻強的 因為這問題已經好幾年沒人真的修好
04/04 12:08, 18F

04/04 12:09, 3周前 , 19F
有很多層都是AI第二版那種解法orz
04/04 12:09, 19F

04/04 12:13, 3周前 , 20F
人工加的assert()?那不是只有debug build才會有作用
04/04 12:13, 20F

04/04 12:13, 3周前 , 21F
04/04 12:13, 21F

04/04 12:14, 3周前 , 22F
因為是邏輯問題 所以valgrind也沒用 而且還要跑十幾小時
04/04 12:14, 22F

04/04 12:15, 3周前 , 23F
是內部測試QA發給我們處理的bug
04/04 12:15, 23F

04/04 12:15, 3周前 , 24F
所以才會觸發assertion
04/04 12:15, 24F

04/04 12:28, 3周前 , 25F
你的prompt決定ai輸出水平 看起來是你的問題比較大
04/04 12:28, 25F

04/04 13:08, 3周前 , 26F
可以知道 AI 時代,還是需要人類 code review
04/04 13:08, 26F

04/04 13:17, 3周前 , 27F
這種回你fb發就好了
04/04 13:17, 27F

04/04 14:04, 3周前 , 28F
用AI來debug 我都先請它先產生分析報告,先描述問
04/04 14:04, 28F

04/04 14:04, 3周前 , 29F
題現象 +root cause analysis+建議修正方案,然後
04/04 14:04, 29F

04/04 14:04, 3周前 , 30F
把分析報告丟給另一個AI agent審查一次,確認合理
04/04 14:04, 30F

04/04 14:04, 3周前 , 31F
性,來回幾次找出最推薦的修正方案。
04/04 14:04, 31F

04/04 19:18, 2周前 , 32F
資深工程師的價值就在這邊啊 何必跟AI執著
04/04 19:18, 32F

04/04 19:18, 2周前 , 33F
/insights
04/04 19:18, 33F

04/04 19:42, 2周前 , 34F
解決不了問題就解決發現問題的人(咦)
04/04 19:42, 34F

04/04 20:24, 2周前 , 35F
抓bug你應該用GPT 5.4 opus幻覺比較多
04/04 20:24, 35F

04/04 21:20, 2周前 , 36F
同一樓
04/04 21:20, 36F

04/04 23:08, 2周前 , 37F
你是工程師 對待AI幻覺怎麼像一般人一樣的想法
04/04 23:08, 37F

04/05 00:08, 2周前 , 38F
AI本質是文字接龍,接哪個字是從幾個機率高的選項中抽選
04/05 00:08, 38F

04/05 00:08, 2周前 , 39F
的,因此臉黑的話就有可能抽到不理想的結果,也就是幻覺
04/05 00:08, 39F

04/05 09:04, 2周前 , 40F
圖靈測試整個反過來了 現在是人類的反應比較有研究價值
04/05 09:04, 40F

04/05 11:48, 2周前 , 41F
不是 這裡居然花時間在討論語言模型的人性? 你們真的是
04/05 11:48, 41F

04/05 11:48, 2周前 , 42F
工程師嗎…
04/05 11:48, 42F

04/05 11:48, 2周前 , 43F
這一題直接刪文根本不用浪費時間好不好==
04/05 11:48, 43F

04/05 14:11, 2周前 , 44F
觸,但凡有稍微看過一點原理的人都知道這是浪費時間
04/05 14:11, 44F

04/05 14:13, 2周前 , 45F
問題是現在越來越多人放棄深究,只憑感覺認定AI有人性==
04/05 14:13, 45F

04/05 14:38, 2周前 , 46F
說穿了AI說話像人就是AI學訓練資料的內容口氣像人
04/05 14:38, 46F

04/05 14:54, 2周前 , 47F
你的上下文沒有說這樣不行啊 怪AI勒
04/05 14:54, 47F

04/05 15:31, 2周前 , 48F
這和把大自然神格化有異曲同工之妙
04/05 15:31, 48F

04/05 21:01, 2周前 , 49F
你有沒有發現讓AI多試幾回合就OK了,所以趕快多裝一些
04/05 21:01, 49F

04/05 21:02, 2周前 , 50F
自我質疑深度思考的skills,多花一些token多花一些錢
04/05 21:02, 50F

04/05 21:02, 2周前 , 51F
就可以解決你的問題
04/05 21:02, 51F

04/06 22:44, 2周前 , 52F
04/06 22:44, 52F

04/07 10:23, 2周前 , 53F
ai的本質不就是機率嗎,那給不一樣的答案很正常啊,怎
04/07 10:23, 53F

04/07 10:23, 2周前 , 54F
麼會是人性
04/07 10:23, 54F

04/07 14:06, 2周前 , 55F
現在除非是要長期負責任的 code 否則我全部都當成垃圾 co
04/07 14:06, 55F

04/07 14:06, 2周前 , 56F
de 100% 交給 AI 亂搞,反正我也沒打算要親自動這些 code
04/07 14:06, 56F

04/07 14:06, 2周前 , 57F
,AI 自己弄出來的東西他有辦法繼續達成我的需求他想怎
04/07 14:06, 57F

04/07 14:06, 2周前 , 58F
麼亂寫隨便他,反正在他把整個東西搞爛以前我大概也不需
04/07 14:06, 58F

04/07 14:06, 2周前 , 59F
要這個專案了
04/07 14:06, 59F

04/07 14:56, 2周前 , 60F
改完後驗證應該要包含在 agent loop 裡面
04/07 14:56, 60F

04/07 14:57, 2周前 , 61F
假如它自己改自己驗證了三回最後給你改好的版本,你也不
04/07 14:57, 61F

04/07 14:57, 2周前 , 62F
用PO這篇
04/07 14:57, 62F

04/07 21:20, 2周前 , 63F
自我驗證有時候不停損你的額度就QQ了
04/07 21:20, 63F
文章代碼(AID): #1fq7w2Tx (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1fq7w2Tx (Soft_Job)