Re: [請益] 軟體失業是遲早的事吧
推
10/15 09:36,
10/15 09:36
→
10/15 09:36,
10/15 09:36
→
10/15 09:36,
10/15 09:36
沒有要ㄉ一ㄤ誰的意思
就是這benchmark到底存不存在
小弟我相信 這一定是有論文的
找了一下
還真的有
https://arxiv.org/html/2501.16857v1
以下為AI翻譯 並由我這個人腦節錄:
1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024 年 4 月前兩週提供的版本)作為代表
性 LLM,針對 LLM 與人類生成的 Python 程式碼,在各項效能指標上進行比較。
2. 該研究採用包含 72 項 Python 編碼任務的基準數據集,這些任務涵蓋了來自先前研究
[7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生(人類程式設計
師)為這 72 項編碼任務開發了程式碼,同時使用 GPT-4(即 2024 年 4 月可用版本)
生成程式碼樣本,以產生對等的 LLM 輸出。
3. 在編碼標準評估中,Pylint 和 Radon 分析顯示,雖然 LLM 生成與人工編寫的程式碼都
存在缺陷,但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕,
但研究中的 LLM(以及人類)有時會忽略編碼風格和標準程序中的重要細節,這些細節對
於維護可讀性和程式碼品質至關重要。
4. 與人工生成的程式碼相比,LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表
明,LLM 傾向過度設計解決方案,這可能導致程式碼更難維護,且在軟體開發後期階段更
容易出現錯誤。
5. LLM 生成的程式碼在功能正確性測試中經常表現良好,證明了 LLMs 在自動化執行簡單且
定義明確的編碼任務上的實用性。相反地,在需要深厚領域專業知識或複雜問題解決能力
的任務中,人類程式設計師往往比 LLMs 表現更出色。
(編註:人類編寫的程式碼通過率為 54.9%,而 LLM 生成的程式碼通過率達 87.3%)
要說這篇論文缺點是什麼的話
就是他只有一個大四學生當作人類基準
所以樣本數非常不足 另外用的模型也是稍舊
歡迎質疑paper的人花錢花精力自己去做一次benchmark
學術界本來就是這樣
總之結論大概就是: 就該文獻的場景與數據來看 人類與LLM擅長的不同 優缺點不同
不過當手裡只有錘子時,在某些人看起來,所有東西都像是釘子
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 84.17.34.45 (日本)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760498398.A.055.html
推
10/15 12:02,
3小時前
, 1F
10/15 12:02, 1F
推
10/15 12:10,
3小時前
, 2F
10/15 12:10, 2F
討論串 (同標題文章)
Soft_Job 近期熱門文章
PTT職涯區 即時熱門文章
89
147