Re: [情報] Perplexity CEO:實驗性整合DeepSeek已刪文
※ 引述《ImHoluCan (爺)》之銘言:
: 1.所以GPU只應用在像open AI 這裡?
: 2.所以蜥蜴人公司只是開發像open AI 這種東西?
: 蜥蜴人ㄧ週前早說發現中國的deepseek
: 那蜥蜥人知道了這事情,
: 3.本週5怎麼還增加今年2025金費買GPU?
: 目前文章很多
: 推文很亂,有沒有人來解釋ㄧ下1.2.3
: 蜥蜴人到底在做什?
: 尤其第三點
先說結論
1.開源的勝利
2.openai死去
3.nvda不影響,但受情緒影響可能跌
這件事情對NVIDIA不會有太大影響,因為在DeepSeek的論文中,他們明確表示,希望NVID
IA的下一代顯卡(GB200)能解決他們在FP8訓練中遇到的問題。儘管DeepSeek在低成本訓
練模型上取得了技術上的奇蹟,但他們依然面臨了不少挑戰,主要集中在FP8的乘法累加
和轉置乘法等方面。這些問題需要NVIDIA通過更新Kernel來解決。
DeepSeek希望NVIDIA能夠增加以Tile和Block為單位的量化規則,如果NVIDIA能夠更新自
己的Tensor Core,訓練效率將會大幅提升。然而,短期內市場上很多人可能不理解這一
點,因此在這段時間內,NVIDIA的股價可能會出現波動,股價下跌也不足為奇。
https://i.imgur.com/iMYrWfr.jpeg
DeepSeek V3 的 fp8訓練算法,由圖可知,這一算法其實非常複雜,是混合精度。
這也是DeepSeek團隊的主要貢獻。
https://i.imgur.com/dzQ18WL.jpeg
DeepSeekMoE的主要貢獻:
分了一組Shared Experts,並且給Expert分配系數加入了一個bias term,防止Mode Coll
apsing
https://i.imgur.com/0Cjoap5.jpeg
首先,增加訓練效率的是MOE,Mixture of Experts,也就是所謂混合專家模型。他指的
是模型每一個Transformer Block在最後那一層網絡中,僅選擇1/k的參數激活進入下一個
Block。
這導致對於每一個token來說,一個600B的模型僅需激活了接近37B的權重,相當於每一個
token的訓練可以節省約80%算力,大大提高了訓練速度。
其次,增加推理速度的是MLA,Multihead Latent Attention,多頭隱空間注意力機制。
名字很玄乎,本質就是通過一些矩陣把注意力機制中最關鍵的KQV三個矩陣投影到更低維
的空間(隱空間)中,以便存在緩存中。這樣每次推理的時候就不需要重新計算
大大增加了推理速度
這兩個技術都不能說是顛覆性的。但DeepSeek都做了自己的改進,而且調通了
這就是他最厲害的地方
這兩個重要概念,在DeepSeek V3 paper的第一頁就有
當然更關鍵的是fp8,也就是8位浮點量化運算。之前推文介紹過了。是fp8從訓練所需空
間上限決定了,這個模型可以用2048個H800訓練。
每個fp8相比fp16能節約50%空間,相比fp32 節約75%。矩陣乘法的運算速度甚至是按平方
提升。
https://i.imgur.com/9RjGUZ9.jpeg
總結一下DeepSeek討論的初步結果,DeepSeek的貢獻主要有兩個:
一是基礎模型的預訓練,二是利用無監督的增強學習(RL)提高推理能力
1)在預訓練方面,DeepSeek團隊的貢獻主要是工程性的:比如超強的訓練穩定度、深入
使用fb8混合精度、多詞同時預測、隱空間多注意力頭,MOE混合專家等等。這大大降低了
訓練成本,用600萬美金訓練一個600B的大模型,可謂是工程上的奇跡。
2)在推理方面,DeepSeek團隊的貢獻則是突破性的,科學性的,但也是階段性的——他
依然沒有實現AGI,水平也只是和GPT o1 比肩。它證明瞭無需使用費時耗力的思維鏈標注
,用無監督數據也可讓模型自然湧現出推理能力。這大大降低了模型推理的門檻,也是首
個開源的、能力接近GPT o1的推理模型。
當然,之所以DeepSeek R1ō戽袢L法超越GPT o1,可能是他有意無意使用了後者輸出作為
訓練數據有關。
DeepSeek的成果對美國AI產業主要會有兩大影響:
1)對OpenAI等閉源模型產生衝擊。這意味著,任何一個公司都可以使用類似方法,讓基
礎模型獲得推理能力。而推理成本僅為OpenAI的1/10。我們會看到更多專用推理模型誕生
,而創業公司、個人App等可能會大幅減少在OpenAI API上的支出,轉向開源。
2)在硬件方面,市場可能會首先質疑先進算力的必要性,影響到NVDA的股價;但隨後依
然認識到它的優勢:畢竟GB200會顯著加快DeepSeek V3的訓練速度,且在R1模型的推理階
段也擁有成本優勢。不論是什麼樣的模型,哪怕是小模型,FLOPS永遠是王道,規模永遠
是王道。英偉達只需讓GB200推理的Token綜合成本遠低於H100即可。
這恰恰是“通用”AI芯片的價值。相比之下,為特定大模型設計的ASIC反而會再次遭到挑
戰。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.231.8 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737904280.A.241.html
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 3 之 3 篇):
Stock 近期熱門文章
PTT職涯區 即時熱門文章