[新聞]不,你無法用 600 萬美元複製一個 DeepSeek R1

看板Tech_Job (科技人)作者 (pl132)時間1天前 (2025/01/29 10:58), 編輯推噓15(20536)
留言61則, 31人參與, 12小時前最新討論串1/3 (看更多)
不,你無法用 600 萬美元複製一個 DeepSeek R1 https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/ 中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的 訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型 。 無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成 本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模 型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。 這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就 能了解其中奧妙。 首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3 模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。 在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了 多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多 種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多 頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和 文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進 而減少記憶體需求。 https://is.gd/gzBeWB ▲DeepSeek V3 模型架構圖。(Source:Github) 到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提 升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時, 依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。 而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿 H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。 相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至 有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投 入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於 DeepSeek R1 的成果。 從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎? -- 推 pb220918:不爽可以當禽獸 五樓是禽獸!! 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → pb220918:蓋 10/04 22:12 → Davisss:我是禽獸 我真爽 我在騎1樓 10/04 22:13 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.26.136.149 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738119530.A.F11.html

01/29 10:59, 1天前 , 1F
如果成本這麼低
01/29 10:59, 1F

01/29 10:59, 1天前 , 2F
全世界的核電廠也該關閉了
01/29 10:59, 2F

01/29 11:00, 1天前 , 3F
中國拉一根暗管,偷接OpenAI 、Gemi
01/29 11:00, 3F

01/29 11:00, 1天前 , 4F
ni ,資料還會回傳中國!
01/29 11:00, 4F

01/29 11:11, 1天前 , 5F
台灣已經關了阿 你質疑台灣政府?
01/29 11:11, 5F

01/29 11:27, 1天前 , 6F
DeepSeek有5萬個H100,礙於禁令不
01/29 11:27, 6F

01/29 11:27, 1天前 , 7F
能明言
01/29 11:27, 7F

01/29 11:47, 1天前 , 8F
世界怎麼跟得上台灣?終於跟上了
01/29 11:47, 8F

01/29 12:27, 1天前 , 9F
又不是只有訓練AI要用電,現在一堆
01/29 12:27, 9F

01/29 12:28, 1天前 , 10F
雲端服務算力主機在做其他應用產品
01/29 12:28, 10F

01/29 12:29, 1天前 , 11F
幾年前那些大數據資料中心越存越多
01/29 12:29, 11F

01/29 12:29, 1天前 , 12F
累積下去能源需求只會擴張而已
01/29 12:29, 12F

01/29 12:42, 1天前 , 13F
一看就知道中國在騙人 多呆才相信
01/29 12:42, 13F

01/29 12:48, 1天前 , 14F
最大的優勢就是會幫忙言論審查…厲
01/29 12:48, 14F

01/29 12:48, 1天前 , 15F
害厲害!
01/29 12:48, 15F

01/29 13:00, 1天前 , 16F
前天吹deep search 的帳號今天都躲
01/29 13:00, 16F

01/29 13:00, 1天前 , 17F
起來不見了
01/29 13:00, 17F

01/29 13:13, 1天前 , 18F
DS厲害的是晶片不用算入成本,無敵
01/29 13:13, 18F

01/29 13:19, 1天前 , 19F
十倍工時 = 十倍成果 笑了
01/29 13:19, 19F

01/29 13:53, 1天前 , 20F
問就是繼續買進
01/29 13:53, 20F

01/29 14:05, 1天前 , 21F
這整個成本什麼時候audit報告會出來
01/29 14:05, 21F

01/29 14:05, 1天前 , 22F
01/29 14:05, 22F

01/29 14:17, 1天前 , 23F
有夠lag,berkley實驗室
01/29 14:17, 23F

01/29 14:17, 1天前 , 24F
已經用30美元複製成果了還在洗
01/29 14:17, 24F

01/29 14:24, 1天前 , 25F
糾結在成本怎麼算沒太大意義
01/29 14:24, 25F

01/29 14:53, 1天前 , 26F
成本也許誇大 但從結果論看並不是全
01/29 14:53, 26F

01/29 14:53, 1天前 , 27F
01/29 14:53, 27F

01/29 15:03, 1天前 , 28F
「並不是拿 H800 跑 280 萬個工時
01/29 15:03, 28F

01/29 15:03, 1天前 , 29F
就能做出來,還必須有前置研究、反
01/29 15:03, 29F

01/29 15:03, 1天前 , 30F
覆實驗和前置演算法架構」這段到底
01/29 15:03, 30F

01/29 15:03, 1天前 , 31F
在公殺小,阿人家研究跟架構都開源
01/29 15:03, 31F

01/29 15:03, 1天前 , 32F
了,GPT那種閉源的才是無法複製吧
01/29 15:03, 32F

01/29 15:08, 1天前 , 33F
還在提晶片價格的也是頗ㄏ 租房跟
01/29 15:08, 33F

01/29 15:08, 1天前 , 34F
買房搞不清楚
01/29 15:08, 34F

01/29 15:09, 1天前 , 35F
MOE的e不用先訓練喔
01/29 15:09, 35F

01/29 15:27, 1天前 , 36F
開源的優勢屌打那些貴森森的商用的
01/29 15:27, 36F

01/29 15:38, 1天前 , 37F
這樣講這不就代表中國的AI研究實力
01/29 15:38, 37F

01/29 15:38, 1天前 , 38F
更強嗎
01/29 15:38, 38F

01/29 15:59, 1天前 , 39F
坐等GAI卷到免費 支那加油好嗎
01/29 15:59, 39F

01/29 16:09, 1天前 , 40F
哇終於有人承認模型更好了
01/29 16:09, 40F

01/29 16:38, 1天前 , 41F
有部分理工男對核電跟中國特別有感
01/29 16:38, 41F

01/29 16:38, 1天前 , 42F
覺柯柯
01/29 16:38, 42F

01/29 16:53, 1天前 , 43F

01/29 16:53, 1天前 , 44F
你各位啊~不要再傳啦!
01/29 16:53, 44F

01/29 16:53, 1天前 , 45F
今天用電佔比:
01/29 16:53, 45F

01/29 16:53, 1天前 , 46F
再生能源45%是核電4.3%的十多倍
01/29 16:53, 46F

01/29 17:03, 1天前 , 47F
中國講的數字你也信?
01/29 17:03, 47F

01/29 17:10, 1天前 , 48F
訓練自己的AI出來 發大財
01/29 17:10, 48F

01/29 17:17, 1天前 , 49F
有關中國跟共產黨的話題會沒有答案
01/29 17:17, 49F

01/29 17:17, 1天前 , 50F
,共產黨的人工智慧
01/29 17:17, 50F

01/29 17:30, 1天前 , 51F
在想本板文組是不是有點多啊
01/29 17:30, 51F

01/29 17:43, 1天前 , 52F
越卷越好,坐等 gpt免費 嘻嘻
01/29 17:43, 52F

01/29 18:21, 1天前 , 53F
如果結果只是演算法上的問題
01/29 18:21, 53F

01/29 18:21, 1天前 , 54F
而不是工具上的限制
01/29 18:21, 54F

01/29 18:21, 1天前 , 55F
美國AI大戰等著敗
01/29 18:21, 55F

01/29 18:21, 1天前 , 56F
1億人拼不過14億人
01/29 18:21, 56F

01/29 19:19, 1天前 , 57F
確實 最後一段跟我想法一致
01/29 19:19, 57F

01/29 20:04, 1天前 , 58F
連美國人口多少都錯的離譜
01/29 20:04, 58F

01/30 05:46, 16小時前 , 59F
LLM都還在吃2017 Transformer老本
01/30 05:46, 59F

01/30 10:02, 12小時前 , 60F
同意51樓,真的有人以為要達到人腦
01/30 10:02, 60F

01/30 10:02, 12小時前 , 61F
思考只有架構問題,一堆文組
01/30 10:02, 61F
文章代碼(AID): #1dcPbgyH (Tech_Job)
文章代碼(AID): #1dcPbgyH (Tech_Job)