Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock (股票)作者LDPC (Channel Coding)時間5小時前 (2025/02/07 02:00)推噓13(14推 1噓 0→)

留言15則, 14人參與討論串5/5 (看更多)

https://arxiv.org/abs/2501.19393 讀完了稍微整理一下這篇這篇基本上就是#1dccCRfj 就是CoT synthetic dataset 透過母體大模型去設計一連串思考問題(這邊是用Gemini) 來應對一個困難任務而此時新模型能更好地學會思考這篇文章列了好幾個synthetic dataset的樣板 https://ibb.co/YFNLCNcS 也用了另外大模型去確認CoT Synthetic dataset 品質 Table 5. Summary of our dataset s1K. Token count measured by the Qwen-2.5 tokenizer. We prompt Claude to produce keywords given several questions from the domain. 這篇最大亮點是提供開源了思考練的合成數據(CoT Sythetic dataset) 樣本和樣板剛好彌補之前所說第三方想重新複製deep-r1 但缺數據 https://huggingface.co/blog/open-r1 (版上好多ai專家說還說捨抹不可能拿opean api去做數據真的是...) 然後為何以前沒人做? 因為沒有第一代母體大模型但雖然CoT (思考鏈也就是讓模型慢慢想不要一步到位想出答案而是把問題拆解N各步驟任務子問題一步步去解決上面的合成數據就是在做這類似事情) 可以提升效能但這手段也是要付出一些代價以我自己做過的LLM翻譯模型為例在infenrece端使用CoT 可以直接把BLEU/COMET 衝上個20% 但付出的代價就是速度變慢五倍 (類比人類反應時間) 在許多落地場景基於使用者體驗速度是有嚴格定義 (比方說翻譯一句話最多只能用多少秒) 那遇到這種問題要如何解決? "遇到不能解決的事情就用C4炸彈" <謠言終結者> "遇到效能或速度拉不起來就用大算力" < @v@b > (註:當然在inference端能提供多少樣戶 queries 算力也是個重要指標參照 #1crWnRFw 第二個連結評價GB200 用戶請求效能) 在AI算法除了效能成本外還有一個重要指標就是速度很多探討你會注意到其實速度沒放在裡面一起評價這造成一種錯覺會誤認算力需求可以透過算法去減輕事實上很多算法拉升效能降低成本此時會付出記憶體代價或者速度產出變慢的代價而許多落地產景恰巧速度是很重要的體驗 (QQ 不能分享例子不然會被抓走) 然後老黃的親兒子coreweave 也上線了 https://blogs.nvidia.com/blog/blackwell-coreweave-gb200-nvl72-instances-cloud/ 現在基於一堆優秀第一代母體大模型天網出來也是遲早的事情 @n@/ 我們離電池之日不遠了然後蘇媽有給了一個ASIC和GPU大戰的看法改天再分享@@/ ※ 引述《LimYoHwan (gosu mage)》之銘言： : 標題： : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : 來源： : Futu : 網址： : https://tinyurl.com/ydrtdbu8 : 內文： : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : ek的R1等尖端推理模型類似。研究人員表示，s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : Flash Thinking Experimental提煉出來的。 : https://i.imgur.com/kFg9GjU.jpeg

: 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法，被稱為 S1 : 。 : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能！同時匹敵Deepseek R1 : 推理時間可控：S1 通過簡單的“Wait”機制，控制大模型的思考時間，提高推理能力。 : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻，但它揭示了在推理時微調 AI 的潛力 : ，甚至可以媲美 Reinforcement Learning（強化學習）。 : OpenAI 和 DeepSeek 早期研究發現，AI 在回答問題時“思考得更久”，往往能得出更好 : 的答案。但過去並沒有清楚解釋：如何在推理階段控制 AI 的思考時間？ : S1 的創新點： S1 論文提供了推理時間擴展（Inference Scaling）的具體實現方法： : 核心思想： : 如何在不改變 AI 訓練過程的情況下，提高 AI 解決複雜問題的能力？ : 方法：讓 AI 在推理時“多想幾秒”，自動檢查自己的答案，從而減少錯誤，提高正確率 : ！ : 結果證明，這種方法比 OpenAI o1-preview 還要好！ : 最重要的是：而且只用了 1000 道題！這比一般 AI 訓練的數據少了 800 倍，但效果仍 : 然很強！ : 此外，該模型可以在筆記本電腦上運行，並且其訓練成本僅為 6 美元。 : 論文下載 : https://arxiv.org/pdf/2501.19393 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738864825.A.2C2.html ※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:02:05 ※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:02:51

推

etset

02/07 02:03, 5小時前 , 1^F

02/07 02:03, 1^F

※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:06:43

推

ctes940008

02/07 02:10, 5小時前 , 2^F

02/07 02:10, 2^F

※ 編輯: LDPC (76.21.72.78 美國), 02/07/2025 02:13:25

推

liscp