Re: [請益] 軟體失業是遲早的事吧

看板Soft_Job (軟體人)作者 (凱子爸)時間4小時前 (2025/10/15 11:19), 編輯推噓2(200)
留言2則, 2人參與, 3小時前最新討論串14/14 (看更多)

10/15 09:36,
人類方也沒提數據啊,人類有SWE bench可以看分數?
10/15 09:36

10/15 09:36,
人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好
10/15 09:36

10/15 09:36,
才奇怪吧
10/15 09:36
沒有要ㄉ一ㄤ誰的意思 就是這benchmark到底存不存在 小弟我相信 這一定是有論文的 找了一下 還真的有 https://arxiv.org/html/2501.16857v1 以下為AI翻譯 並由我這個人腦節錄: 1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024 年 4 月前兩週提供的版本)作為代表 性 LLM,針對 LLM 與人類生成的 Python 程式碼,在各項效能指標上進行比較。 2. 該研究採用包含 72 項 Python 編碼任務的基準數據集,這些任務涵蓋了來自先前研究 [7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生(人類程式設計 師)為這 72 項編碼任務開發了程式碼,同時使用 GPT-4(即 2024 年 4 月可用版本) 生成程式碼樣本,以產生對等的 LLM 輸出。 3. 在編碼標準評估中,Pylint 和 Radon 分析顯示,雖然 LLM 生成與人工編寫的程式碼都 存在缺陷,但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕, 但研究中的 LLM(以及人類)有時會忽略編碼風格和標準程序中的重要細節,這些細節對 於維護可讀性和程式碼品質至關重要。 4. 與人工生成的程式碼相比,LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表 明,LLM 傾向過度設計解決方案,這可能導致程式碼更難維護,且在軟體開發後期階段更 容易出現錯誤。 5. LLM 生成的程式碼在功能正確性測試中經常表現良好,證明了 LLMs 在自動化執行簡單且 定義明確的編碼任務上的實用性。相反地,在需要深厚領域專業知識或複雜問題解決能力 的任務中,人類程式設計師往往比 LLMs 表現更出色。 (編註:人類編寫的程式碼通過率為 54.9%,而 LLM 生成的程式碼通過率達 87.3%) 要說這篇論文缺點是什麼的話 就是他只有一個大四學生當作人類基準 所以樣本數非常不足 另外用的模型也是稍舊 歡迎質疑paper的人花錢花精力自己去做一次benchmark 學術界本來就是這樣 總之結論大概就是: 就該文獻的場景與數據來看 人類與LLM擅長的不同 優缺點不同 不過當手裡只有錘子時,在某些人看起來,所有東西都像是釘子 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 84.17.34.45 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760498398.A.055.html

10/15 12:02, 3小時前 , 1F
10/15 12:02, 1F

10/15 12:10, 3小時前 , 2F
推最後一句
10/15 12:10, 2F
文章代碼(AID): #1exnBU1L (Soft_Job)
討論串 (同標題文章)
文章代碼(AID): #1exnBU1L (Soft_Job)