[新聞]不,你無法用 600 萬美元複製一個 DeepSeek R1
不,你無法用 600 萬美元複製一個 DeepSeek R1
https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/
中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的
訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型
。
無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成
本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模
型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。
這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就
能了解其中奧妙。
首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3
模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。
在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了
多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多
種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多
頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和
文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進
而減少記憶體需求。
https://is.gd/gzBeWB
▲DeepSeek V3 模型架構圖。(Source:Github)
到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提
升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,
依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。
而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿
H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。
相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至
有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投
入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於
DeepSeek R1 的成果。
從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?
--
推 pb220918:不爽可以當禽獸 五樓是禽獸!! 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ pb220918:蓋 10/04 22:12
→ Davisss:我是禽獸 我真爽 我在騎1樓 10/04 22:13
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html
推
01/29 10:59,
1天前
, 1F
01/29 10:59, 1F
→
01/29 10:59,
1天前
, 2F
01/29 10:59, 2F
→
01/29 11:00,
1天前
, 3F
01/29 11:00, 3F
→
01/29 11:00,
1天前
, 4F
01/29 11:00, 4F
→
01/29 11:11,
1天前
, 5F
01/29 11:11, 5F
推
01/29 11:27,
1天前
, 6F
01/29 11:27, 6F
→
01/29 11:27,
1天前
, 7F
01/29 11:27, 7F
→
01/29 11:47,
1天前
, 8F
01/29 11:47, 8F
推
01/29 12:27,
1天前
, 9F
01/29 12:27, 9F
→
01/29 12:28,
1天前
, 10F
01/29 12:28, 10F
→
01/29 12:29,
1天前
, 11F
01/29 12:29, 11F
→
01/29 12:29,
1天前
, 12F
01/29 12:29, 12F
推
01/29 12:42,
1天前
, 13F
01/29 12:42, 13F
噓
01/29 12:48,
1天前
, 14F
01/29 12:48, 14F
→
01/29 12:48,
1天前
, 15F
01/29 12:48, 15F
推
01/29 13:00,
1天前
, 16F
01/29 13:00, 16F
→
01/29 13:00,
1天前
, 17F
01/29 13:00, 17F
推
01/29 13:13,
1天前
, 18F
01/29 13:13, 18F
推
01/29 13:19,
1天前
, 19F
01/29 13:19, 19F
推
01/29 13:53,
1天前
, 20F
01/29 13:53, 20F
推
01/29 14:05,
1天前
, 21F
01/29 14:05, 21F
→
01/29 14:05,
1天前
, 22F
01/29 14:05, 22F
→
01/29 14:17,
1天前
, 23F
01/29 14:17, 23F
→
01/29 14:17,
1天前
, 24F
01/29 14:17, 24F
噓
01/29 14:24,
1天前
, 25F
01/29 14:24, 25F
推
01/29 14:53,
1天前
, 26F
01/29 14:53, 26F
→
01/29 14:53,
1天前
, 27F
01/29 14:53, 27F
噓
01/29 15:03,
1天前
, 28F
01/29 15:03, 28F
→
01/29 15:03,
1天前
, 29F
01/29 15:03, 29F
→
01/29 15:03,
1天前
, 30F
01/29 15:03, 30F
→
01/29 15:03,
1天前
, 31F
01/29 15:03, 31F
→
01/29 15:03,
1天前
, 32F
01/29 15:03, 32F
推
01/29 15:08,
1天前
, 33F
01/29 15:08, 33F
→
01/29 15:08,
1天前
, 34F
01/29 15:08, 34F
推
01/29 15:09,
1天前
, 35F
01/29 15:09, 35F
噓
01/29 15:27,
1天前
, 36F
01/29 15:27, 36F
→
01/29 15:38,
1天前
, 37F
01/29 15:38, 37F
→
01/29 15:38,
1天前
, 38F
01/29 15:38, 38F
推
01/29 15:59,
1天前
, 39F
01/29 15:59, 39F
推
01/29 16:09,
1天前
, 40F
01/29 16:09, 40F
推
01/29 16:38,
1天前
, 41F
01/29 16:38, 41F
→
01/29 16:38,
1天前
, 42F
01/29 16:38, 42F
→
01/29 16:53,
1天前
, 43F
01/29 16:53, 43F
→
01/29 16:53,
1天前
, 44F
01/29 16:53, 44F
→
01/29 16:53,
1天前
, 45F
01/29 16:53, 45F
→
01/29 16:53,
1天前
, 46F
01/29 16:53, 46F
推
01/29 17:03,
1天前
, 47F
01/29 17:03, 47F
→
01/29 17:10,
1天前
, 48F
01/29 17:10, 48F
噓
01/29 17:17,
1天前
, 49F
01/29 17:17, 49F
→
01/29 17:17,
1天前
, 50F
01/29 17:17, 50F
→
01/29 17:30,
1天前
, 51F
01/29 17:30, 51F
推
01/29 17:43,
1天前
, 52F
01/29 17:43, 52F
→
01/29 18:21,
1天前
, 53F
01/29 18:21, 53F
→
01/29 18:21,
1天前
, 54F
01/29 18:21, 54F
→
01/29 18:21,
1天前
, 55F
01/29 18:21, 55F
→
01/29 18:21,
1天前
, 56F
01/29 18:21, 56F
推
01/29 19:19,
1天前
, 57F
01/29 19:19, 57F
推
01/29 20:04,
1天前
, 58F
01/29 20:04, 58F
→
01/30 05:46,
16小時前
, 59F
01/30 05:46, 59F
推
01/30 10:02,
12小時前
, 60F
01/30 10:02, 60F
→
01/30 10:02,
12小時前
, 61F
01/30 10:02, 61F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 3 篇):
Tech_Job 近期熱門文章
PTT職涯區 即時熱門文章