Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock (股票)作者 (Eye Taiwan)時間2小時前 (2025/02/06 21:09), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串4/4 (看更多)
大家都被訓練成本給迷惑 說穿了訓練AI就像培養人才 真正重點是"教材內容正確性",以及"學習成果的評價回饋" (就是老師要改作業) 對應的是"輸入資料正確性",並且存在"有效的回饋機制來修正權重" 資料部分雖然OpeAI/Gemini基本已經將網際網路上公開資料爬完 但還有許多真正有用的專利知識屬於商業機密 但只要是機密就不會公開,所以各家AI模型壓根沒有學習的機會 (這也是多數公司想用開源DS做本地訓練&部署的原因--保密) 而回饋機制則需要建立一個能夠足夠精確的虛擬真實世界系統 才能讓AI在其中去進行各種試錯,得到回饋進而學習 但這明顯互相矛盾 人類正是因為知識不足,故無法打造出一個"足夠真實的虛擬世界"給AI做回饋用 所以這就造成現有的大模型能創作、能畫畫、能唱歌 但對於多數需要物理、邏輯能力的進階用戶並無明顯助益 畢竟專家都會讀paper/google,大模型只是再幫你濃縮整理一次公開資料罷了 即便再怎麼加強推理過程機制,但缺乏足夠真實的虛擬系統給AI試錯 也就沒有回饋作用,起不到讓AI持續修正權重(進化)的作用 簡而言之現階段即便奧特曼再怎麼嘴砲,孫正義有再多錢砸 訓練出來的LLM終究是google濃縮器、PPT產生器、詩詞吟唱器罷了 ※ 引述《ImHoluCan (爺)》之銘言: : 好的 : google 要不要把昨天財報上的說750億設備支出 : 變成50美元支出? : 李飛飛能直接表明蒸餾Google : Google 最好不知道還給你研究所蒸餾 : 那昨天Google 財報2025還要支出750億呢? : 還是明天台灣派人去蒸餾meta Google chatGPT? : 看看他們要不要給蒸餾 : ※ 引述《LimYoHwan》之銘言 : : 標題: : : 李飛飛團隊用不到50美元訓練出媲美DeepSeek R1的AI推理模型 : : 來源: : : Futu : : 網址: : : https://tinyurl.com/ydrtdbu8 : : 內文: : : 李飛飛等斯坦福大學和華盛頓大學研究人員近日以不到50美元的雲計算費用訓練了一個名 : : 叫s1的人工智能推理模型。該模型在數學和編碼能力測試中的表現與OpenAI的o1和DeepSe : : ek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0 : : Flash Thinking Experimental提煉出來的。 : : https://i.imgur.com/kFg9GjU.jpeg
: : 斯坦福大學以及華盛頓大學的研究團隊展示了一種極低成本的 AI 訓練方法,被稱為 S1 : : 。 : : S1 僅使用 6 美元就能達到 OpenAI o1-preview 級別的推理性能!同時匹敵Deepseek R1 : : 推理時間可控:S1 通過簡單的“Wait”機制,控制大模型的思考時間,提高推理能力。 : : S1 不是 OpenAI o1 或 DeepSeek R1 的直接復刻,但它揭示了在推理時微調 AI 的潛力 : : ,甚至可以媲美 Reinforcement Learning(強化學習)。 : : OpenAI 和 DeepSeek 早期研究發現,AI 在回答問題時“思考得更久”,往往能得出更好 : : 的答案。但過去並沒有清楚解釋:如何在推理階段控制 AI 的思考時間? : : S1 的創新點: S1 論文提供了推理時間擴展(Inference Scaling)的具體實現方法: : : 核心思想: : : 如何在不改變 AI 訓練過程的情況下,提高 AI 解決複雜問題的能力? : : 方法:讓 AI 在推理時“多想幾秒”,自動檢查自己的答案,從而減少錯誤,提高正確率 : : ! : : 結果證明,這種方法比 OpenAI o1-preview 還要好! : : 最重要的是:而且只用了 1000 道題! 這比一般 AI 訓練的數據少了 800 倍,但效果仍 : : 然很強! : : 此外,該模型可以在筆記本電腦上運行,並且其訓練成本僅為 6 美元。 : : 論文下載 : : https://arxiv.org/pdf/2501.19393 : ---- : Sent from BePTT on my iPhone 16 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.240.81 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738847363.A.943.html
文章代碼(AID): #1dfBI3b3 (Stock)
文章代碼(AID): #1dfBI3b3 (Stock)