Re: [請益] 軟體失業是遲早的事吧

10/15 09:36,

10/15 09:36

→

10/15 09:36,

10/15 09:36

→

10/15 09:36,

10/15 09:36

沒有要ㄉ一ㄤ誰的意思就是這benchmark到底存不存在小弟我相信這一定是有論文的找了一下還真的有 https://arxiv.org/html/2501.16857v1 以下為AI翻譯並由我這個人腦節錄： 1. 在本研究中，我們使用 GPT-4（OpenAI 於 2024 年 4 月前兩週提供的版本）作為代表性 LLM，針對 LLM 與人類生成的 Python 程式碼，在各項效能指標上進行比較。 2. 該研究採用包含 72 項 Python 編碼任務的基準數據集，這些任務涵蓋了來自先前研究 [7]的各種軟體工程問題。一位具有軟體開發經驗的計算機專業大四學生（人類程式設計師）為這 72 項編碼任務開發了程式碼，同時使用 GPT-4（即 2024 年 4 月可用版本）生成程式碼樣本，以產生對等的 LLM 輸出。 3. 在編碼標準評估中，Pylint 和 Radon 分析顯示，雖然 LLM 生成與人工編寫的程式碼都存在缺陷，但 LLM 更可能犯下可透過嚴格遵守編碼標準來避免的錯誤。儘管程度較輕，但研究中的 LLM（以及人類）有時會忽略編碼風格和標準程序中的重要細節，這些細節對於維護可讀性和程式碼品質至關重要。 4. 與人工生成的程式碼相比，LLM 通常會產生具有更高循環複雜度的程式碼。我們的結果表明，LLM 傾向過度設計解決方案，這可能導致程式碼更難維護，且在軟體開發後期階段更容易出現錯誤。 5. LLM 生成的程式碼在功能正確性測試中經常表現良好，證明了 LLMs 在自動化執行簡單且定義明確的編碼任務上的實用性。相反地，在需要深厚領域專業知識或複雜問題解決能力的任務中，人類程式設計師往往比 LLMs 表現更出色。 (編註：人類編寫的程式碼通過率為 54.9%，而 LLM 生成的程式碼通過率達 87.3%) 要說這篇論文缺點是什麼的話就是他只有一個大四學生當作人類基準所以樣本數非常不足另外用的模型也是稍舊歡迎質疑paper的人花錢花精力自己去做一次benchmark 學術界本來就是這樣總之結論大概就是: 就該文獻的場景與數據來看人類與LLM擅長的不同優缺點不同不過當手裡只有錘子時，在某些人看起來，所有東西都像是釘子 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 84.17.34.45 (日本) ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1760498398.A.055.html

推

zyxx

10/15 12:02, 9月前 , 1^F

10/15 12:02, 1^F

推

SuGK

10/15 12:10, 9月前 , 2^F

10/15 12:10, 2^F

推

10/15 13:44, 9月前 , 3^F

10/15 13:44, 3^F

→

10/15 13:45, 9月前 , 4^F

10/15 13:45, 4^F

→

10/15 13:46, 9月前 , 5^F

10/15 13:46, 5^F

推

10/15 13:48, 9月前 , 6^F

10/15 13:48, 6^F

→

10/15 13:49, 9月前 , 7^F

10/15 13:49, 7^F

→

10/15 16:05, 9月前 , 8^F

10/15 16:05, 8^F

你有閱讀障礙嗎? 我可沒說這是SWE bench啊XD 他推文寫「人類自己都沒有benchmark」我就找一個人機對比的benchmark paper來舉例囉

→

10/15 16:29, 9月前 , 9^F

10/15 16:29, 9^F

→

10/15 16:29, 9月前 , 10^F

10/15 16:29, 10^F

→

10/15 16:29, 9月前 , 11^F

10/15 16:29, 11^F

benchmark的方式又不只一種重點是你今天到底是要比對人與模型的差異還是要比對模型與模型的差異所以我不知道你拘泥於單一觀點想說明什麼還是你也只會揮舞槌子而已還有人與LLM比較benchmark的論文難寫估計就是實驗難做&經費問題用dataset去讓各模型跑分比較更容易些你覺得論文爛論文作者至少還有實驗精神反而是某些人只會出一張嘴@@ ※ 編輯: SkankHunt42 (146.70.205.60 日本), 10/15/2025 17:11:45

推

10/15 17:29, 9月前 , 12^F

10/15 17:29, 12^F

推

10/15 21:14, 9月前 , 13^F

10/15 21:14, 13^F

→

10/15 21:14, 9月前 , 14^F

10/15 21:14, 14^F

推

viper9709

10/16 01:07, 9月前 , 15^F

10/16 01:07, 15^F

噓

10/16 08:36, 9月前 , 16^F

10/16 08:36, 16^F

→

10/16 08:36, 9月前 , 17^F

10/16 08:36, 17^F

→

10/16 08:37, 9月前 , 18^F

10/16 08:37, 18^F

→

10/16 08:40, 9月前 , 19^F

10/16 08:40, 19^F

→

10/16 08:40, 9月前 , 20^F

10/16 08:40, 20^F

→

10/16 08:41, 9月前 , 21^F

10/16 08:41, 21^F

→

10/16 08:45, 9月前 , 22^F

10/16 08:45, 22^F

→

10/16 08:45, 9月前 , 23^F

10/16 08:45, 23^F

我比較好奇DrTech是在哪高就一定很內行小弟不才公司就賣賣顯卡的上市公司而已你待的公司一定很屌你職位一定很內行對吧我覺得我上面已經說得很清楚了為什麼這樣的論文難找就是經費問題大部分學生連填問券抽獎做論文參與的人都興致缺缺了首先你要找多少工程師？這些工程師要代表怎樣的群體？要付你多少錢你才願意抽空做題目只為了讓人發論文？題目是否具有公平性能準確涵蓋這些工程師的能力範圍又不失偏頗？ SWE-bench是gold standard沒錯但目前就是沒有找到人類參與比較的數據 (甚至要怎麼比才有代表性都有問題) 我提這篇論文是看過這篇論文覺得滿有趣的至少是一個方法也可能我爛我找不到好的論文當我們在討論有沒有benchmark可以比較人類與LLM解決工程問題時我確實拿了一篇不怎樣的論文雖然樣本數只有一但至少是一個實驗、一個方向不過我現在只看到一個巨嬰躺在地上打滾這不是SWE-bench~ 這不是SWE-bench~ 哇~~~~~ 哇~~~~ ToT 然後轉頭又要別人找論文奇怪現在網路打臉人的方式已經不是自己找到更好、更具參考價值的論文或數據而是一直叫人舉證好像他是我指導教授還口委一樣他作為質疑者唯一的工作就是在推文裡出一張嘴這就是所謂的內行嗎

→

angusyu

10/16 09:58, 9月前 , 24^F

10/16 09:58, 24^F

推

jack0204

10/16 10:12, 9月前 , 25^F

10/16 10:12, 25^F

推

10/16 10:59, 9月前 , 26^F

10/16 10:59, 26^F

推

10/16 11:01, 9月前 , 27^F

10/16 11:01, 27^F

→

10/16 11:02, 9月前 , 28^F

10/16 11:02, 28^F

推

10/16 11:05, 9月前 , 29^F

10/16 11:05, 29^F

→

10/16 11:05, 9月前 , 30^F

10/16 11:05, 30^F

※ 編輯: SkankHunt42 (154.47.23.99 日本), 10/16/2025 12:32:55

推

cc2006

10/16 12:56, 9月前 , 31^F

10/16 12:56, 31^F

→

cc2006

10/16 12:56, 9月前 , 32^F

10/16 12:56, 32^F

我是對y的推文「是否存在對人類的benchmark」做出回應考慮到這是在討論LLM與人類性能的比較所以我認為題目具體為「是否存在於同時能同時評估LLM與人類解決工程問題的benchmark」有沒有這樣的benchmark存在？答案是: 有而該論文的題目來源是參考自: Y. Feng et al. (2023). ”Investigating Code Generation Performance of ChatGPT with Crowdsourcing Social Data,” in Proceedings of the IEEE 47th Annual Computers, Software, and Applications Conference (COMPSAC), Torino, Italy, pp. 876-885. 這是一篇被引用172次的的論文所用的dataset 72筆prompt的題目 dataset在這裡: https://yunhefeng.me/research/Compsac_ChatGPT_Python_Prompt_Code/ 老實講前一篇推文吵得那一串我根本沒打算說服哪一方我原文也講了人與LLM擅長的不同在我看來這跟吵腳踏車跟機車哪個好差不多那現在問題來了這篇論文爛在哪？總要有個具體論述吧除了我原文已經提到的人類樣本數只有一以外我好像找不到其他任何具體的批判是對實驗方法有具體的批判？還是對一篇被被引用172次的論文的dataset有具體的批判？ SWE-bench的題目數量有兩千多筆 lite版有300道不拿full 你拿lite 你要找好幾個工程師去做300道題目我只能講這如果有這樣的數據那還滿屌的我也很想看不要講300題 72道題目請板上各位年薪三百萬的工程師大家要怎樣的條件才會用心寫完抽150元點卡或兩百元711禮券好不好就.... 腦袋能不能實際一點？ ※ 編輯: SkankHunt42 (146.70.205.140 日本), 10/16/2025 14:03:51

推

10/16 14:24, 9月前 , 33^F

10/16 14:24, 33^F

→

10/16 14:24, 9月前 , 34^F

10/16 14:24, 34^F

我其實比較納悶 DrTech好歹是有博士學位的人怎麼可能對這樣的測驗數據到底成本有多高一點概念都沒有我原本就只是針對到底有沒有這樣的benchmark方法存在提出存在的事實結果好像被他誤解成我要參與他們無聊的筆戰說服另一方奇怪我原文到底是哪裡有選邊站@@ 我是期望本板少數的博士能夠PO出更優質的論文啦這對DrTech應該不難對吧博士

推

10/16 16:58, 9月前 , 35^F

10/16 16:58, 35^F

→

10/16 16:58, 9月前 , 36^F

10/16 16:58, 36^F

→

10/16 16:58, 9月前 , 37^F

10/16 16:58, 37^F

推

10/16 17:01, 9月前 , 38^F

10/16 17:01, 38^F

→

10/16 17:01, 9月前 , 39^F

10/16 17:01, 39^F

→

10/16 17:01, 9月前 , 40^F

10/16 17:01, 40^F

推

10/16 17:14, 9月前 , 41^F

10/16 17:14, 41^F

→

10/16 17:16, 9月前 , 42^F

10/16 17:16, 42^F

→

10/16 17:16, 9月前 , 43^F

10/16 17:16, 43^F

※ 編輯: SkankHunt42 (149.22.87.3 日本), 10/16/2025 17:37:13

推

10/16 17:52, 9月前 , 44^F

10/16 17:52, 44^F

→

10/16 17:52, 9月前 , 45^F

10/16 17:52, 45^F

→

10/16 17:52, 9月前 , 46^F

10/16 17:52, 46^F

→

10/16 17:52, 9月前 , 47^F

10/16 17:52, 47^F

推

10/16 17:59, 9月前 , 48^F

10/16 17:59, 48^F

推

abraxas

10/16 18:44, 9月前 , 49^F

10/16 18:44, 49^F

推

10/16 19:16, 9月前 , 50^F

10/16 19:16, 50^F

推

viper9709

10/16 21:00, 9月前 , 51^F

10/16 21:00, 51^F

推

ripple0129

10/17 03:06, 9月前 , 52^F

10/17 03:06, 52^F

→

10/17 08:38, 9月前 , 53^F

10/17 08:38, 53^F

→

10/17 08:40, 9月前 , 54^F

10/17 08:40, 54^F

→

10/17 08:40, 9月前 , 55^F

10/17 08:40, 55^F

所以我真的懷疑你有閱...唉算了算了繼續ㄉㄧㄤ下去沒完沒了整串下來我強調：人類與LLM各有優缺點不管是我節錄的論文內容還是我做的總結都是我原文就有的內容就事實跟目前的數據我看到的事實是"有些地方AI贏人類有些地方人類贏AI" 這個事實有很難接受嗎你也不是不可能不知道吧就"AI贏人類"這個問題的怎樣算贏？是要全盤輾壓算贏嗎？還是你們單就通過率討論？那時間要不算進去評分的項目裡？就.... 你不覺得這個你這個題目很抽象嗎？

推

10/17 08:44, 9月前 , 56^F

10/17 08:44, 56^F

→

10/17 08:44, 9月前 , 57^F

10/17 08:44, 57^F

→

10/17 08:44, 9月前 , 58^F

10/17 08:44, 58^F

我可以幫你整理一下時間順序：你批評我搞笑反串→我說你有閱讀障礙→你說我外行→我說你巨嬰我覺得好像是你開第一槍的耶XD 我最開始的原文可是半個字都沒提到你在你們吵架的推文串我也只有發表一句無關緊要的幹話還是你在公司開會的時候下屬發表意見不合你意你也馬上ㄉㄧㄤ: 你是在反串搞笑嗎不過這很正常啦你在公司不可能這樣酸下屬我在公司也不會這樣嗆同事我欣賞你業界十幾二十年的堅實經驗、外加學歷漂亮還是上市公司的主管，在本板也樂於分享跟發表有價值的看法。但我覺得先開嗆的人好像要有接受被嗆的心理準備吧XD 我相信你應該不是那種自己動手還要求別人不能還手的流氓吧？ ※ 編輯: SkankHunt42 (155.2.216.14 日本), 10/17/2025 11:52:20

噓

10/17 13:34, 9月前 , 59^F

10/17 13:34, 59^F

→

10/17 13:36, 9月前 , 60^F

10/17 13:36, 60^F

→

10/17 13:36, 9月前 , 61^F

10/17 13:36, 61^F

→