Re: [新聞] 成本低廉 中國AI初創DeepSeek震撼矽谷
前文恕刪
: 據報導,DeepSeek僅用2048片H800顯示卡 (GPU)、耗時兩個月,就訓練出了一個6710億參
: 數的DeepSeek-V3。相較於Meta訓練參數量4050億的Llama 3,用了1萬6384片更強的H100
: 顯示卡,花了54天。DeepSeek的訓練效率提升了11倍。
這比法很不公平
12/6 Meta 免費放出蒸餾過的 llama 3.3 70B
很多項目效能接近llama 3.1 405B
12/27 Deepseek V3 公開
看起來 deepseek V3 快速導入了新開源模型
變強是因為Meta幫他訓練+蒸餾大模型
中文強是因為蒸餾了阿里巴巴Qwen2.5模型
訓練量少只是因為不用訓練大模型
隨便搜一下
專家系統 MoE 1994年就有論文(MIT)
蒸餾模型 2015年的論文(Google)
專家系統 + 蒸餾模型2022年有論文(Microsoft)
都不是什麼新東西
新聞中跟gpt-4o和llama 3.1 405B比只是行銷手段
如果跟llama 3.3 70B比 兩者效能相當
預測花費約少30%
deepseek v3就只是優化/特化的小改版
資料來源:
DeepSeek-V3 vs GPT-4o vs Llama 3.3 70B
https://tinyurl.com/46b2anf7
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 122.116.34.251 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737975363.A.0B7.html
推
01/27 18:58,
2天前
, 1F
01/27 18:58, 1F
→
01/27 19:09,
2天前
, 2F
01/27 19:09, 2F
→
01/27 19:48,
2天前
, 3F
01/27 19:48, 3F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章