Re: [情報] 50美元訓練出媲美DeepSeek R1
※ 引述《LimYoHwan (gosu mage)》之銘言:
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1
: 。
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:
: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率
: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
連結或內文,完全是錯的。
根本是腦殘媒體在亂寫。與論文事實不符。
先說論文結論:
模型表現:
經過不斷的做實驗試錯,
終於從59000筆訓練資料中,
找到一組1000筆AI訓練資料,
可以在"部分考卷"上贏 OpenAI的一個很爛的模型,o1-preview。
其他考卷考出來的分數,依然慘輸給 deepseek-R1,ChatGPT-o1。
成本:不到50美元。
也是只看 fine-tune 1000題,一次的成本。
而且,試了不知道幾次,
終於找到一次,
可以在部分考卷上贏一個很爛的模型。
媒體文章中,忽略不計的成本,至少包含:
base模型訓練的成本(至少占成本99%)
研究人員不斷試錯找1000題的成本。
多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。
其他錯誤資訊,媒體的內文寫:
研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。
完全錯誤。原始論文寫:
先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。
最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。
真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。
而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調
結論:
研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。
一堆外行人,連論文都不看,在造假新聞。
媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.31.161 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738887278.A.575.html
推
02/07 08:17,
4小時前
, 1F
02/07 08:17, 1F
→
02/07 08:17,
4小時前
, 2F
02/07 08:17, 2F
推
02/07 08:36,
4小時前
, 3F
02/07 08:36, 3F
推
02/07 08:42,
4小時前
, 4F
02/07 08:42, 4F
推
02/07 08:45,
4小時前
, 5F
02/07 08:45, 5F
推
02/07 08:46,
4小時前
, 6F
02/07 08:46, 6F
→
02/07 08:46,
4小時前
, 7F
02/07 08:46, 7F
→
02/07 08:46,
4小時前
, 8F
02/07 08:46, 8F
→
02/07 08:46,
4小時前
, 9F
02/07 08:46, 9F
→
02/07 08:46,
4小時前
, 10F
02/07 08:46, 10F
→
02/07 08:46,
4小時前
, 11F
02/07 08:46, 11F
推
02/07 08:48,
4小時前
, 12F
02/07 08:48, 12F
推
02/07 08:50,
3小時前
, 13F
02/07 08:50, 13F
推
02/07 08:50,
3小時前
, 14F
02/07 08:50, 14F
→
02/07 08:50,
3小時前
, 15F
02/07 08:50, 15F
→
02/07 08:51,
3小時前
, 16F
02/07 08:51, 16F
→
02/07 08:51,
3小時前
, 17F
02/07 08:51, 17F
→
02/07 08:53,
3小時前
, 18F
02/07 08:53, 18F
推
02/07 08:54,
3小時前
, 19F
02/07 08:54, 19F
→
02/07 08:54,
3小時前
, 20F
02/07 08:54, 20F
推
02/07 08:58,
3小時前
, 21F
02/07 08:58, 21F
推
02/07 09:01,
3小時前
, 22F
02/07 09:01, 22F
推
02/07 09:05,
3小時前
, 23F
02/07 09:05, 23F
噓
02/07 09:06,
3小時前
, 24F
02/07 09:06, 24F
推
02/07 09:06,
3小時前
, 25F
02/07 09:06, 25F
推
02/07 09:08,
3小時前
, 26F
02/07 09:08, 26F
→
02/07 09:08,
3小時前
, 27F
02/07 09:08, 27F
→
02/07 09:09,
3小時前
, 28F
02/07 09:09, 28F
→
02/07 09:10,
3小時前
, 29F
02/07 09:10, 29F
→
02/07 09:10,
3小時前
, 30F
02/07 09:10, 30F
推
02/07 09:12,
3小時前
, 31F
02/07 09:12, 31F
推
02/07 09:13,
3小時前
, 32F
02/07 09:13, 32F
推
02/07 09:13,
3小時前
, 33F
02/07 09:13, 33F
推
02/07 09:14,
3小時前
, 34F
02/07 09:14, 34F
推
02/07 09:27,
3小時前
, 35F
02/07 09:27, 35F
推
02/07 09:32,
3小時前
, 36F
02/07 09:32, 36F
→
02/07 09:40,
3小時前
, 37F
02/07 09:40, 37F
→
02/07 09:40,
3小時前
, 38F
02/07 09:40, 38F
→
02/07 09:41,
3小時前
, 39F
02/07 09:41, 39F
→
02/07 10:14,
2小時前
, 40F
02/07 10:14, 40F
→
02/07 10:14,
2小時前
, 41F
02/07 10:14, 41F
→
02/07 10:14,
2小時前
, 42F
02/07 10:14, 42F
→
02/07 10:14,
2小時前
, 43F
02/07 10:14, 43F
→
02/07 10:14,
2小時前
, 44F
02/07 10:14, 44F
→
02/07 10:14,
2小時前
, 45F
02/07 10:14, 45F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章
2
16