看板
[ Soft_Job ]
討論串[請益] 軟體失業是遲早的事吧
共 17 篇文章
內容預覽:
我覺得單純大家討論的沒有共通基準線而已. Leetcode跟codeforces所有的問題人類自己做過而且已經有解答的. 那我們也不挑hard的題目. 我是否可以說medium題目人類參賽者的基準就是通過率100%?. 如果我說人類表現,我會看常態分佈的數據,而不是所有人的最高得分. 對「用戶通過率
(還有1640個字)
內容預覽:
現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。. https://github.com/SWE-bench/SWE-bench. swe-bench是拿github已解決的issues來作為測試。. https://openai.com/index/i
(還有277個字)
內容預覽:
沒有要ㄉ一ㄤ誰的意思. 就是這benchmark到底存不存在. 小弟我相信 這一定是有論文的. 找了一下. 還真的有. https://arxiv.org/html/2501.16857v1. 以下為AI翻譯 並由我這個人腦節錄:. 1. 在本研究中,我們使用 GPT-4(OpenAI 於 2024
(還有3504個字)
內容預覽:
最近Andrej Karpathy 貼了一個meme. https://x.com/karpathy/status/1976082963382272334. 雖然他說,他只是要誇大強調太多exceptions. https://chatgpt.com/share/68e82db9-7a28-8007
(還有779個字)