Re: [情報] 50美元訓練出媲美DeepSeek R1
https://arxiv.org/abs/2501.19393
讀完了 稍微整理一下這篇 這篇基本上就是#1dccCRfj 就是CoT synthetic dataset
透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務
而此時新模型能更好地學會思考
這篇文章列了好幾個synthetic dataset的樣板
https://ibb.co/YFNLCNcS
也用了另外大模型去確認CoT Synthetic dataset 品質
Table 5. Summary of our dataset s1K. Token count measured by the
Qwen-2.5 tokenizer. We prompt Claude to produce keywords given
several questions from the domain.
這篇最大亮點是提供開源了思考練的合成數據(CoT Sythetic dataset) 樣本和樣板
剛好彌補之前所說第三方想重新複製deep-r1 但缺數據
https://huggingface.co/blog/open-r1
(版上好多ai專家說 還說捨抹不可能拿opean api去做數據 真的是...)
然後為何以前沒人做? 因為沒有第一代母體大模型
但雖然CoT (思考鏈 也就是讓模型慢慢想 不要一步到位想出答案 而是把問題
拆解N各步驟任務子問題 一步步去解決 上面的合成數據就是在做這類似事情)
可以提升效能 但這手段也是要付出一些代價
以我自己做過的LLM翻譯模型為例 在infenrece端 使用CoT 可以直接把BLEU/COMET
衝上個20% 但付出的代價就是 速度變慢五倍 (類比人類反應時間) 在許多落地場景
基於使用者體驗 速度是有嚴格定義 (比方說翻譯一句話 最多只能用多少秒)
那遇到這種問題 要如何解決?
"遇到不能解決的事情 就用C4炸彈" <謠言終結者>
"遇到效能或速度拉不起來 就用大算力" < @v@b >
(註:當然 在inference端 能提供多少樣戶
queries 算力也是個重要指標 參照 #1crWnRFw 第二個連結 評價GB200 用戶請求效能)
在AI算法 除了效能 成本外 還有一個重要指標 就是速度 很多探討你會注意到
其實速度沒放在裡面一起評價 這造成一種錯覺 會誤認算力需求可以透過算法去減輕
事實上很多算法拉升效能 降低成本 此時會付出記憶體代價 或者速度產出變慢的代價
而許多落地產景 恰巧速度是很重要的體驗 (QQ 不能分享例子 不然會被抓走)
然後老黃的親兒子coreweave 也上線了
https://blogs.nvidia.com/blog/blackwell-coreweave-gb200-nvl72-instances-cloud/
現在基於一堆優秀第一代母體大模型 天網出來也是遲早的事情 @n@/
我們離電池之日不遠了
然後蘇媽有給了一個ASIC和GPU大戰的看法 改天再分享@@/
※ 引述《LimYoHwan (gosu mage)》之銘言:
: 標題:
: 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型
: 來源:
: Futu
: 網址:
: https://tinyurl.com/ydrtdbu8
: 內文:
: 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名
: 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe
: ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0
: Flash Thinking Experimental提煉出來的。
: https://i.imgur.com/kFg9GjU.jpeg
![](https://i.imgur.com/kFg9GjU.jpg)
: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1
: 。
: S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1
: 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。
: S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力
: ,甚至可以媲美 Reinforcement Learning(強化學習)。
: OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好
: 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間?
: S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法:
: 核心思想:
: 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力?
: 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率
: !
: 結果證明,這種方法比 OpenAI o1-preview 還要好!
: 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍
: 然很強!
: 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。
: 論文下載
: https://arxiv.org/pdf/2501.19393
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738864825.A.2C2.html
※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:02:05
※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:02:51
推
02/07 02:03,
5小時前
, 1F
02/07 02:03, 1F
※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:06:43
推
02/07 02:10,
5小時前
, 2F
02/07 02:10, 2F
※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:13:25
推
02/07 02:13,
5小時前
, 3F
02/07 02:13, 3F
推
02/07 02:17,
5小時前
, 4F
02/07 02:17, 4F
※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:18:31
推
02/07 02:19,
5小時前
, 5F
02/07 02:19, 5F
推
02/07 02:20,
5小時前
, 6F
02/07 02:20, 6F
推
02/07 02:29,
5小時前
, 7F
02/07 02:29, 7F
![](https://i.imgur.com/RyNtSfM.jpg)
推
02/07 02:32,
5小時前
, 8F
02/07 02:32, 8F
推
02/07 02:34,
5小時前
, 9F
02/07 02:34, 9F
噓
02/07 02:56,
4小時前
, 10F
02/07 02:56, 10F
推
02/07 03:47,
3小時前
, 11F
02/07 03:47, 11F
推
02/07 04:33,
3小時前
, 12F
02/07 04:33, 12F
推
02/07 05:23,
2小時前
, 13F
02/07 05:23, 13F
推
02/07 05:28,
2小時前
, 14F
02/07 05:28, 14F
推
02/07 05:38,
2小時前
, 15F
02/07 05:38, 15F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章