Re: [情報] 50美元訓練出媲美DeepSeek R1

看板Stock (股票)作者 (人本良心)時間5小時前 (2025/02/07 13:01), 5小時前編輯推噓3(416)
留言11則, 7人參與, 3小時前最新討論串8/8 (看更多)
我的信息源說是1000個樣本是通過gemini得到,但是又以通義千問為基底模型進行監督微調而來的神奇表現 包括全球很多類似路綫都是藉鑒通義千問才能達到這樣的驚人效果,非李飛飛一家做到 這才是最奇怪的。 今日鼓點:大A乘風直上,就像哪吒2的票房 ※ 引述《DrTech (竹科管理處網軍研發人員)》之銘言: : ※ 引述《LimYoHwan (gosu mage)》之銘言: : 也是只看 fine-tune 1000題,一次的成本。 : 而且,試了不知道幾次, : 終於找到一次, : 可以在部分考卷上贏一個很爛的模型。 : 媒體文章中,忽略不計的成本,至少包含: : base模型訓練的成本(至少占成本99%) : 研究人員不斷試錯找1000題的成本。 : 多組1000題,再用 Gemini 模型,產生fine-tune資料的成本。 : 其他錯誤資訊,媒體的內文寫: : 研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0。 : 完全錯誤。原始論文寫: : 先準備 59000筆訓練資料,在不斷的用各種方式,選1000筆資料,再將1000筆 Gemini 2.0 Flash Thinking 改寫訓練資料。 : 最後再用這些資料fine-tune Qwen2.5-32B-Instruct模型。 ~~~~~~~~~~~~~~~~~~~~~~~~~ yes,u r right : 真的要亂寫,也要寫成蒸餾 Qwen2.5-32B的能力,而不是蒸餾 Gemini。 : 而且這種做法嚴格來說不叫蒸餾,叫fine-tune微調 : 結論: : 研究沒問題,找到了一種成本較低的流程,可產生可思考模型。但效果很一般。 : 一堆外行人,連論文都不看,在造假新聞。 : 媲美OpenAI-o1,deepseek-r1,連論文都沒這樣寫,純媒體造假。 -- 英國醫學網站:台灣丁丁長度,世界86國(地區)排第85,和東南亞一個水平,比東北亞短2cm -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 171.14.63.200 (中國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738904509.A.C3D.html ※ 編輯: icrose (171.14.63.200 中國), 02/07/2025 13:06:09

02/07 13:05, 5小時前 , 1F
對岸有種說法:中文字在單位資訊量上比英文字有優勢
02/07 13:05, 1F
※ 編輯: icrose (171.14.63.200 中國), 02/07/2025 13:06:55

02/07 13:07, 5小時前 , 2F
所以運算同樣的token數量下 中文模型表現會較佳
02/07 13:07, 2F

02/07 13:20, 4小時前 , 3F
有道理
02/07 13:20, 3F

02/07 13:22, 4小時前 , 4F
中文就算錯字或亂序也不影響你理解
02/07 13:22, 4F

02/07 13:27, 4小時前 , 5F
那個備註... world data不是這樣說的喔
02/07 13:27, 5F

02/07 13:28, 4小時前 , 6F
日本、韓國和中國分別以平均長度13.56公分、13.16公
02/07 13:28, 6F

02/07 13:28, 4小時前 , 7F
分、13.07公分,分別為第61名、66名和69名,至於台
02/07 13:28, 7F

02/07 13:28, 4小時前 , 8F
灣男性,平均12.6公分,排行第75名
02/07 13:28, 8F

02/07 13:29, 4小時前 , 9F
台灣男性如果細分祖籍,應該會有明顯差異吧
02/07 13:29, 9F

02/07 13:54, 4小時前 , 10F

02/07 15:15, 3小時前 , 11F
不重要。廢文不如推文。
02/07 15:15, 11F
文章代碼(AID): #1dfPEzmz (Stock)
討論串 (同標題文章)
文章代碼(AID): #1dfPEzmz (Stock)