[新聞] 首個AI程式師造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上已刪文

看板Tech_Job (科技人)作者 (j)時間6月前 (2024/04/15 12:54), 6月前編輯推噓10(211125)
留言57則, 39人參與, 6月前最新討論串1/2 (看更多)
首個AI程式師造假被抓,Devin再次「震撼」矽谷!扒皮詳解附上 https://www.qbitai.com/2024/04/135315.html 衡宇 人類只需36分鐘就能搞定的工作 首個AI程式師,演示視頻大幅度造假??? 不久之前震撼矽谷的Devin,再度震撼矽谷——但這次是被打假。 事情是這樣的:油管程式師博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進 行了逐幀分析,逐一舉證說明瞭Devin並不如演示中那般神奇。 甚至有“自己現寫bug然後當場修復”的騷操作。 其它「罪證」,包括但不限於: 號稱能解決任何Upwork任務,但演示中解決的問題並不是prompt要解決的那一個,做無用 功; 看起來在修復bug,實際上修復的bug人類程式師根本就不會犯; 沒有意識到簡單兩步就能解決問題,花裡胡哨一頓操作,其實是自己把任務搞複雜了; 修改代碼的水準一言難盡。 此外,光頭哥花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin 完成任務可能用時6個多小時。 啊這這這,真是好、大、一、口、瓜! 要知道,其背後公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣佈成 功融資2100萬美金。 推特和YC上已經吵翻天了,讓這件事的討論度高居不下。 我請問呢?真的很討厭演示造假,讓demo看起來輕鬆達到意料之外的技術進步。 還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。 emmmm...... 我還是把期待值全部留給OpenAI、Anthropic、DeepMind、FAIR這些公司和 機構吧。 完整詳情,一起接著往下看。 35年從業者逐幀驗證 此次出來聲張正義的光頭哥,從事軟體行業已經35年。 他首先聲明自己的立場:我並不 反對高科技,但我確實反對過度炒作。 他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。 事實上,在Devin剛推出時候,他就反對過「世界上第一個AI軟體工程師」這一說法。 此次則主要針對的是一些更為具體的說法。 比如之前Devin號稱能夠靠處理upwork任務來賺錢的。 但在真正的演示中Devin並沒有做 到這一點。 不信?沒關係,光頭哥帶著逐幀的證據來了。 總結如下: Devin所處理的任務並非隨機,而是精心挑選; 與客戶實際需求有很大的出入; 實際操作過程,數次自己創造bug然後再修復; 很多毫無意義的操作,相當於幾十年前在C語言中才用的方法; ??? 首先,來到了演示視頻的2.936秒處,在螢幕左上角有顯示他們搜索過這個內容。 因此, 這不是所謂「隨機」選擇的任務。 https://www.qbitai.com/wp-content/uploads/replace/8ae7a7a5c79570dd8a38d11398f14359.png
再來看客戶給到的具體需求。 真正需求為“我想要利用這個庫來進行推理。 你需要提供 詳細的操作指南。 我不想討論完成這項工作預計需要的時間。 ” 但給到Devin的需求卻是:我希望利用這個模型在這個庫中進行推理。 請自己弄明白。 最後視頻末尾出現的Devin生成報告中,也沒有提及客戶實際需要的內容。 那麼,這份工作的最終交付成果應該包括什麼呢? 但Devin實際做了什麼? Devin第一次真正的嘗試,是它修改了一個名為requirements.txt檔,其中規定了代碼所 依賴的庫版本。 視頻中提到它正在更新代碼,但實際上更像是修改配置檔。 然後根據需求,需要Devin能建立自己的推理能力,並僅需使用樣例數據即可。 但實際專 案要比這個複雜得多。 結果很快,Devin就遇到了第一個命令行錯誤——打開圖像失敗、檔未找到、無此檔或目 錄等。 但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個 檔。 這相當於Devin自己創建了個bug,然後再修復bug。 在接下來的操作中,Devin經歷了很 多次這樣的“自建自修”。 不能說十分有用,只能說完全沒有必要。 接下來,再來看看代碼庫中這樣一個readme檔。 正如視頻所展示的那樣,readme檔清晰 地說明了該檔的功能和用法。 在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整 條命令,然後粘貼到命令行視窗中,按下回車即可運行。 但Devin完全沒能理解,而又是自創了個專案。 而寫的那段從緩衝區讀取數據的代碼十分 糟糕。 於是光頭哥發出了靈魂拷問: 這不就是幾十年前在C語言等中才用的方法嗎??? 這種做法顯然已經過時,正常人用Python誰還會再寫這個代碼。 這種代碼很難調試,它 邏輯複雜,難以理解,很容易出現細微的錯誤。 此外,代碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。 然後光頭哥用谷歌搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題 就解決了。 最終光頭哥總共花了35分55秒複現了Devin的工作,而Devin實際花了多長時間呢? 如果細看視頻Demo,就會發現Devin處理工作前後有6個小時20分鐘的間隔。 視頻的前部分顯示的是3月9日下午3:25 的時間戳,但後半部分卻顯示的是當天晚上9: 41。 https://www.qbitai.com/wp-content/uploads/replace/d296e9d1a995799c610756ddee0de6d5.png
而逐幀細看就有會發現一些奇怪且毫無意義的操作。 比如head -N 5 results.json | tail -N 5這個命令,它表示取這個JSON 檔的前五行, 然後再取這些行的最後五行。 正確的做法應該是“head-5 results.json”。 那個-N 是多餘的。 只要說 -5 就可以, 不需要那些多餘的東西。 最後光頭哥銳評,AI現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更為複雜。 當看到它的任務清單時,會覺得:哇,Devin做了很多事情。 但實際上可能並非如此。 網友:至少掌握了看起來很忙的技巧 對於此次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。 我真的很討厭現在演示造假變得如此正常化 甚至還列出了三大炒作典範:Devin、rabbit、Humane。 也有網友調侃:Devin至少掌握了看起來很忙的技巧。 嗯?打工人有被內涵到。 不過也有一些支持的網友,比如這位沃頓商學院的教授Ethan Mollick。 他聲稱自己有早期訪問權,在體驗中發現真的很有趣。 他認為現在將Agent視作“炒作”為時尚早,未來幾個月Agent的能力將十分強大。 號稱“世界首個完全自主的AI軟體工程師” 有意思的是,演示造假事件爆出來的時間,距離Cognition AI推出Devin僅過去了一個月 。 咱們一起來回顧一下。 一個月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,並稱其為“世界上 首個AI軟體工程師”。 只需一句指令,它可端到端地處理整個開發專案。 主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策 才能完成的複雜軟體工程任務。 具體來說有6大功能: 端到端構建和部署程式,可以解決的不只是代碼問題,還包括與之相關的整個工作流; 自主查找並修復bug; 訓練和微調自己的AI模型; 修復開源庫; 為成熟的生產庫做貢獻; 超強學習能力,即時補足知識和能力短板。 Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決 13.86%的問題 ——這個數據看起來不高,但其實已經超過了此前所有AI大模型的成績。 目前數一數二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要 處理哪些檔。 當時的Devin團隊一副沒在怕的樣子。 雖然沒開放公測,但陸陸續續給出了一些內測名額。 在互聯網上搜索一番,發現上手體驗過的人給的買家秀反饋是這樣的: 熱衷AI的沃頓商學院教授Ethan Molick試過後,認為其新穎的即時交互方式是最值得關注 的。 他要求Devin開發一個解釋「創業公司融資中的股權稀釋」的網站,隨後透露,AI還無法 在沒有任何幫助的情況下,自主且無差錯地完成這項工作。 。 但也有人直接表示,體驗過後確實是有被震撼到。 巧的是,截圖中的這個首批內測體驗者Bubna哥,是AI基礎設施創業公司Modal Labs的CTO 。 後來他和Devin還聯手搞了個新聞。 Devin用自家老闆的賬號,潛入Modal Labs的工作群 ,和Bubna哥一番交流過後,根據回復調整了代碼方案,解決了一個技術問題。 https://www.qbitai.com/wp-content/uploads/replace/2177b410aec6073bb83de4ba7c07ea79.png
△圖中的發言人背後其實是Devin 當然,除了看上去 哄哄的技術,Devin還鍍了一層光環,那就是背後公司Cognition,雖然是個小初創,但在 招人資訊中明晃晃寫著: 我們團隊手裡握著10塊IOI金牌呢~ 技術演示和團隊背景都吸睛Max,直接給Devin的傳播力度添磚加瓦。 也正是因為對Devin的關注,代碼生成領域在過去一段時間里進展是突飛猛進。 暫時無法在飛書文檔外展示此內容 比如,GitHub三萬Star專案MetaGPT就上新了「開源版Devin」,名為數據解釋器(Data Interpreter): 阿裡Qwen成員Binyan Hui等人開啟了OpenDevin專案,一個月過去已經在GitHub攬星 21.5k; 普林斯頓那邊動作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復GitHub存儲庫 中真實bug。 在25%的SWE-bench測試集上,它實現了與Devin演示視頻中相似的準確度—— 解決了 12.29%的問題。 還有各個大廠也開始入駐自己的AI程式師...... One More Thing 結果現在發生這件事兒,怎麼說呢...... 往好了想,真是救大命了,所有的程式師們都要鬆口氣了,還好還好,AI暫時還無法端到 端端走我的飯碗。 往壞了想,真是要了命了,這麼一個備受關注的明星專案居然是個只能活在視頻里的demo 。 難道世界真的是個巨大的草台班子??? 參考連結: [1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ [2] https://twitter.com/0interestrates/status/1779268441226256500 [3]https://news.ycombinator.com/item?id=40008109 [4] https://www.youtube.com/watch?v=tNmgmwEtoWE
-- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.87.176.211 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1713156852.A.647.html ※ 編輯: jackliao1990 (219.87.176.211 臺灣), 04/15/2024 13:01:42

04/15 13:39, 6月前 , 1F
這篇也是AI產生的新聞嗎
04/15 13:39, 1F

04/15 13:39, 6月前 , 2F
這比較像是過度吹噓成果,但應該還不到造假的程度
04/15 13:39, 2F

04/15 13:47, 6月前 , 3F
就跟現在的chatgpt系列差不多吧,真的用就知道還是
04/15 13:47, 3F

04/15 13:48, 6月前 , 4F
很多問題,不過確實比以前那種智能客服強多了
04/15 13:48, 4F

04/15 13:57, 6月前 , 5F
老是貼這些對岸廢文幹嘛
04/15 13:57, 5F

04/15 14:19, 6月前 , 6F
感覺文章很亂,反正內容就是吹過頭了外加演示有造假
04/15 14:19, 6F

04/15 14:24, 6月前 , 7F
AI已經到瓶頸了 再上去只能靠造假
04/15 14:24, 7F

04/15 14:27, 6月前 , 8F
從業35年半,目前效率是AI的12倍,看起來很有搞頭啊
04/15 14:27, 8F

04/15 14:27, 6月前 , 9F
,能打趴菜鳥跟阿三了吧
04/15 14:27, 9F

04/15 14:31, 6月前 , 10F
找一堆IOI掛名吸金 哈哈 創投就是這樣騙天使
04/15 14:31, 10F

04/15 14:35, 6月前 , 11F
都嘛先吹拿到錢,後面做出來就是英雄,做不出來就
04/15 14:35, 11F

04/15 14:35, 6月前 , 12F
變詐騙
04/15 14:35, 12F

04/15 15:03, 6月前 , 13F
剛出來的時候就有人在說了
04/15 15:03, 13F

04/15 15:04, 6月前 , 14F
先吸到金比較重要
04/15 15:04, 14F

04/15 15:27, 6月前 , 15F
Fake it until make it. 懂得都懂
04/15 15:27, 15F

04/15 15:52, 6月前 , 16F
看得很痛苦
04/15 15:52, 16F

04/15 15:56, 6月前 , 17F
本來就還要一段,但不會用AI輔助的人,生產效率會逐
04/15 15:56, 17F

04/15 15:56, 6月前 , 18F
漸落後
04/15 15:56, 18F

04/15 16:13, 6月前 , 19F
文章看的很痛苦
04/15 16:13, 19F

04/15 16:40, 6月前 , 20F
04/15 16:40, 20F

04/15 17:28, 6月前 , 21F
那還不簡單你就針對你覺得有問題的那個點做處理就好
04/15 17:28, 21F

04/15 17:28, 6月前 , 22F
比方說世界上第一個AI軟體工程師這句話是誰說的把它
04/15 17:28, 22F

04/15 17:28, 6月前 , 23F
找出來! 把關鍵的矛盾找出來然後處理就這麼簡單!
04/15 17:28, 23F

04/15 17:32, 6月前 , 24F
就人在手工修正bug了閱讀能力是哪裡有問題?
04/15 17:32, 24F

04/15 17:33, 6月前 , 25F
"至少掌握了看起來很忙的技巧" 這AI模擬工程師非常
04/15 17:33, 25F

04/15 17:33, 6月前 , 26F
成功吧
04/15 17:33, 26F

04/15 17:48, 6月前 , 27F
建議原po扼要列重點再帶原po連結就好
04/15 17:48, 27F

04/15 18:06, 6月前 , 28F
自己寫bug然後再修掉 這蠻有人味的
04/15 18:06, 28F

04/15 18:06, 6月前 , 29F
中文去重修吧
04/15 18:06, 29F

04/15 18:32, 6月前 , 30F
雖然Devin可能是假的 但openDevin是可以自己clone下
04/15 18:32, 30F

04/15 18:32, 6月前 , 31F
來玩的專案 實際用起來其實滿驚人的 當然跟人類還是
04/15 18:32, 31F

04/15 18:32, 6月前 , 32F
差很多啦
04/15 18:32, 32F

04/15 18:33, 6月前 , 33F
AI已經學會裝忙了 天跟我
04/15 18:33, 33F

04/15 19:04, 6月前 , 34F
其實挺真實的 jr dev本來就長這樣XD
04/15 19:04, 34F

04/15 19:10, 6月前 , 35F
呵呵 AI ML無聊透頂
04/15 19:10, 35F

04/15 19:11, 6月前 , 36F
話說台湾有啥權威的科技記者嗎?
04/15 19:11, 36F

04/15 19:15, 6月前 , 37F
能這麼明確地找出缺點,debug有困難嗎?何況甚麼犯
04/15 19:15, 37F

04/15 19:16, 6月前 , 38F
人類不會犯的錯....那又怎樣,人家AI有的是時間修
04/15 19:16, 38F

04/15 19:44, 6月前 , 39F
文章複製貼上真容易
04/15 19:44, 39F

04/15 21:39, 6月前 , 40F
煩ㄟ
04/15 21:39, 40F

04/15 22:17, 6月前 , 41F
哇操,居然提到飛書,那不就是翻譯對岸人家的線上文
04/15 22:17, 41F

04/15 22:17, 6月前 , 42F
04/15 22:17, 42F

04/15 22:22, 6月前 , 43F
圖的網址可以縮一下嗎 手機點不開
04/15 22:22, 43F

04/16 04:38, 6月前 , 44F
人類始終變成驗收角色,ai算力強後,這些缺點就會慢慢
04/16 04:38, 44F

04/16 04:38, 6月前 , 45F
改善
04/16 04:38, 45F

04/16 05:27, 6月前 , 46F
至少掌握了看起來很忙的技巧lol 平心而論,不至於
04/16 05:27, 46F

04/16 05:27, 6月前 , 47F
說造假,但有造神炒作的成份,未來模型更成熟可以
04/16 05:27, 47F

04/16 05:27, 6月前 , 48F
期待,但現階段還不夠
04/16 05:27, 48F

04/16 07:44, 6月前 , 49F
這篇文也是AI生成的吧
04/16 07:44, 49F

04/16 08:07, 6月前 , 50F
這篇ai生成都比較順
04/16 08:07, 50F

04/16 08:31, 6月前 , 51F
糟糕 AI連裝忙都會了 人類真的要被取代掉了 XD
04/16 08:31, 51F

04/16 10:58, 6月前 , 52F
看起來AI工程師可以在台灣活得很好
04/16 10:58, 52F

04/16 19:53, 6月前 , 53F
ai就只是自動生成工具,但只要沒有比馮紐曼模型更
04/16 19:53, 53F

04/16 19:53, 6月前 , 54F
強的計算機出現,就不可能脫離這個範疇
04/16 19:53, 54F

04/17 11:52, 6月前 , 55F
這篇文法也是AI機翻?
04/17 11:52, 55F

04/17 11:54, 6月前 , 56F
這篇沒通過我的圖靈測試
04/17 11:54, 56F

04/18 00:00, 6月前 , 57F
廢話太多 少貼這種爛東西好嗎
04/18 00:00, 57F
文章代碼(AID): #1c7BBqP7 (Tech_Job)
文章代碼(AID): #1c7BBqP7 (Tech_Job)