Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock (股票)作者 (竹科管理處網軍研發人員)時間4小時前 (2025/02/07 08:14), 編輯推噓19(20124)
留言45則, 22人參與, 2小時前最新討論串6/7 (看更多)
※ 引述《LimYoHwan (gosu mage)》之銘言: : 標題: : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : 來源: : Futu : 網址: : https://tinyurl.com/ydrtdbu8 : 內文: : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : Flash Thinking Experimental提煉出來的。 : https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1 : 。 : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1 : 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。 : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力 : ,甚至可以媲美 Reinforcement Learning(強化學習)。 : OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好 : 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間? : S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法: : 核心思想: : 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力? : 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率 : ! : 結果證明,這種方法比 OpenAI o1-preview 還要好! : 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍 : 然很強! : 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。 : 論文下載 : https://arxiv.org/pdf/2501.19393 連結或內文,完全是錯的。 根本是腦殘媒體在亂寫。與論文事實不符。 先說論文結論: 模型表現: 經過不斷的做實驗試錯, 終於從59000筆訓練資料中, 找到一組1000筆AI訓練資料, 可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。 其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。 成本:不到50美元。 也是只看 fine-tune 1000題,一次的成本。 而且,試了不知道幾次, 終於找到一次, 可以在部分考卷上贏一個很爛的模型。 媒體文章中,忽略不計的成本,至少包含: base模型訓練的成本(至少占成本99%) 研究人員不斷試錯找1000題的成本。 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。 其他錯誤資訊,媒體的內文寫: 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。 完全錯誤。原始論文寫: 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調 結論: 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。 一堆外行人,連論文都不看,在造假新聞。 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738887278.A.575.html

02/07 08:17, 4小時前 , 1F
股版人看不懂英文
02/07 08:17, 1F

02/07 08:17, 4小時前 , 2F
02/07 08:17, 2F

02/07 08:36, 4小時前 , 3F
反正這裏是股版
02/07 08:36, 3F

02/07 08:42, 4小時前 , 4F
專業
02/07 08:42, 4F

02/07 08:45, 4小時前 , 5F

02/07 08:46, 4小時前 , 6F
這就如同酒精釀造工藝,一般不懂的人認知上它就是某
02/07 08:46, 6F

02/07 08:46, 4小時前 , 7F
蒸餾原理,只是有加上一些前後加工的工序,本質上對
02/07 08:46, 7F

02/07 08:46, 4小時前 , 8F
一般人來說用「蒸餾」這個辭最好理解啊,未來這種類
02/07 08:46, 8F

02/07 08:46, 4小時前 , 9F
蒸餾或前後資料篩選再tune的東西會一籮筐,前面幾個
02/07 08:46, 9F

02/07 08:46, 4小時前 , 10F
還分得出來差異,到後面出來幾百幾千個時,誰還分得
02/07 08:46, 10F

02/07 08:46, 4小時前 , 11F
出來用哪個方法?反而叫蒸餾是一般人最好理解的
02/07 08:46, 11F

02/07 08:48, 4小時前 , 12F
不然為什麼一堆-0.06的噴上天
02/07 08:48, 12F

02/07 08:50, 3小時前 , 13F
台灣媒體就不讀書 當然不會認真寫
02/07 08:50, 13F

02/07 08:50, 3小時前 , 14F
蒸餾不一定是監督式學習,但微調是監督式學習,樓
02/07 08:50, 14F

02/07 08:50, 3小時前 , 15F
上怎麼可以說都一樣叫蒸餾
02/07 08:50, 15F

02/07 08:51, 3小時前 , 16F
簡單來說 只要你能從六萬筆資料中找到那1000筆資料
02/07 08:51, 16F

02/07 08:51, 3小時前 , 17F
你就可以弄出跟gemini很接近的能力
02/07 08:51, 17F

02/07 08:53, 3小時前 , 18F
也就是說 如何找到那1000筆資料的技術應該可以賣錢
02/07 08:53, 18F

02/07 08:54, 3小時前 , 19F
按你描述是從Gemini蒸餾微調Qwen沒錯啊
02/07 08:54, 19F

02/07 08:54, 3小時前 , 20F
至於訓練出來的東西 就隨便應用端去天馬行空了
02/07 08:54, 20F

02/07 08:58, 3小時前 , 21F
笑不給他資料庫看他怎麼學習
02/07 08:58, 21F

02/07 09:01, 3小時前 , 22F
大大 建議你自刪 這就是蒸餾。是你自己不懂
02/07 09:01, 22F

02/07 09:05, 3小時前 , 23F
這也是蒸餾的一種…
02/07 09:05, 23F

02/07 09:06, 3小時前 , 24F
整篇誤導
02/07 09:06, 24F

02/07 09:06, 3小時前 , 25F
推,看不懂
02/07 09:06, 25F

02/07 09:08, 3小時前 , 26F
作者自己paper都說 1000題從gemini thinking distil
02/07 09:08, 26F

02/07 09:08, 3小時前 , 27F
l
02/07 09:08, 27F

02/07 09:09, 3小時前 , 28F
這已經不是你第一次亂嗆 結果自己搞錯=_=
02/07 09:09, 28F

02/07 09:10, 3小時前 , 29F
paper 第一頁 右下方就講distilled from gemini thi
02/07 09:10, 29F

02/07 09:10, 3小時前 , 30F
nking experimental
02/07 09:10, 30F

02/07 09:12, 3小時前 , 31F
02/07 09:12, 31F

02/07 09:13, 3小時前 , 32F
專業給推
02/07 09:13, 32F

02/07 09:13, 3小時前 , 33F
貼出來騙人下車的啊
02/07 09:13, 33F

02/07 09:14, 3小時前 , 34F
哪來專業..=_=
02/07 09:14, 34F

02/07 09:27, 3小時前 , 35F
必須推。s1來蹭r1的。s1論文根本就不實際,也不實用
02/07 09:27, 35F

02/07 09:32, 3小時前 , 36F
s1這篇論文只是來騙篇數的。phd的悲哀。
02/07 09:32, 36F

02/07 09:40, 3小時前 , 37F
論文主旨是test-time compute 也放在標題了。Ilya
02/07 09:40, 37F

02/07 09:40, 3小時前 , 38F
在2024 Neurips 也講inference time compute.
02/07 09:40, 38F

02/07 09:41, 3小時前 , 39F
宣傳成本什麼的很好笑
02/07 09:41, 39F

02/07 10:14, 2小時前 , 40F
這篇論文的distilled意思,與前幾年大家在做transfo
02/07 10:14, 40F

02/07 10:14, 2小時前 , 41F
rmer模型時的蒸餾,完全不同意思。是違反學術常規定
02/07 10:14, 41F

02/07 10:14, 2小時前 , 42F
義,自創的定義,意思是用Gemini 模型,生成新的訓
02/07 10:14, 42F

02/07 10:14, 2小時前 , 43F
練資料。硬扯沒意義,論文實際上跑出來的分數就是大
02/07 10:14, 43F

02/07 10:14, 2小時前 , 44F
輸OpenAI-o1或deepseek-r1。新聞寫媲美本來就是亂寫
02/07 10:14, 44F

02/07 10:14, 2小時前 , 45F
02/07 10:14, 45F
文章代碼(AID): #1dfL1kLr (Stock)
討論串 (同標題文章)
文章代碼(AID): #1dfL1kLr (Stock)