Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock (股票)作者LDPC (Channel Coding)時間5小時前 (2025/02/07 10:47)推噓0(0推 0噓 0→)

留言0則, 0人參與討論串7/8 (看更多)

這位大大你真的很喜歡批評別人耶這篇示範的是synthetic dataset disillation概念為何叫做是dislillation是因為用大模型的知識去創作出的數據集還推說這是這篇作者自己捏造蒸留定義學術圈沒人這樣做... 這樣很不好耶...這明明就是一個正統的學術圈常用詞這篇最大用途不是跟R1比因為這篇還沒有SFT+RL去做當純只是去fine-tune 但這篇最大意義就是開源了合成COT數據集以及用wait這種時間換思想概念證明推理是可以透過數據集去合成出來教會模型還在推文說啥這不是distillation -_-...... 你連這篇要幹啥都不太理解 https://arxiv.org/abs/2410.02116 這篇最大意義就是在推廣像是這類幫助了第三方複製R1 project https://huggingface.co/blog/open-r1 現在第三方在徵求 Step 1: Replicate the R1-Distill models by distilling a high-quality reasoning dataset from DeepSeek-R1. 透過這些合成Dataset 可以去更好探討如何用RL取代RLHF 才不是單純跟R1扳手腕你可以看這個s1開源數據集幾個項目 https://github.com/simplescaling/s1/blob/0a6864fdece6029f2013aafcb4db3dc3889fbb31/eval/lm-evaluation-harness/lm_eval/tasks/okapi/arc_multilingual/README.md?plain=1#L9 說沒在看paper ......=_= 現在大家都在研究如何更好的合成數據集來提供智能 https://x.com/op7418/status/1884065603184681162 為了響應模型教模型概念 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言： : ※ 引述《LimYoHwan (gosu mage)》之銘言： : : 標題： : : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : : 來源： : : Futu : : 網址： : : https://tinyurl.com/ydrtdbu8 : : 內文： : : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : : ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : : Flash Thinking Experimental提煉出來的。 : : https://i.imgur.com/kFg9GjU.jpeg

: : 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1 : : 。 : : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1 : : 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。 : : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力 : : ，甚至可以媲美 Reinforcement Learning（強化學習）。 : : OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好 : : 的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？ : : S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法： : : 核心思想： : : 如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？ : : 方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率 : : ！ : : 結果證明，這種方法比 OpenAI o1-preview 還要好！ : : 最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍 : : 然很強！ : : 此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。 : : 論文下載 : : https://arxiv.org/pdf/2501.19393 : 連結或內文，完全是錯的。 : 根本是腦殘媒體在亂寫。與論文事實不符。 : 先說論文結論： : 模型表現： : 經過不斷的做實驗試錯， : 終於從59000筆訓練資料中， : 找到一組1000筆AI訓練資料， : 可以在"部分考卷"上贏 OpenAI的一個很爛的模型，o1-preview。 : 其他考卷考出來的分數，依然慘輸給 deepseek-R1，ChatGPT-o1。 : 成本：不到50美元。 : 也是只看 fine-tune 1000題，一次的成本。 : 而且，試了不知道幾次， : 終於找到一次， : 可以在部分考卷上贏一個很爛的模型。 : 媒體文章中，忽略不計的成本，至少包含： : base模型訓練的成本(至少占成本99%) : 研究人員不斷試錯找1000題的成本。 : 多組1000題，再用 Gemini 模型，產生fine-tune資料的成本。 : 其他錯誤資訊，媒體的內文寫： : 研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0。 : 完全錯誤。原始論文寫： : 先準備 59000筆訓練資料，在不斷的用各種方式，選1000筆資料，再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。 : 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。 : 真的要亂寫，也要寫成蒸餾 Qwen2.5-32B的能力，而不是蒸餾 Gemini。 : 而且這種做法嚴格來說不叫蒸餾，叫fine-tune微調 : 結論： : 研究沒問題，找到了一種成本較低的流程，可產生可思考模型。但效果很一般。 : 一堆外行人，連論文都不看，在造假新聞。 : 媲美OpenAI-o1，deepseek-r1，連論文都沒這樣寫，純媒體造假。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738896427.A.6C2.html