Re: [情報] Perplexity CEO:實驗性整合DeepSeek已刪文

看板Stock (股票)作者 (gosu mage)時間1天前 (2025/01/26 23:11), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串3/3 (看更多)
※ 引述《ImHoluCan (爺)》之銘言: : 1.所以GPU只應用在像open AI 這裡? : 2.所以蜥蜴人公司只是開發像open AI 這種東西? : 蜥蜴人ㄧ週前早說發現中國的deepseek : 那蜥蜥人知道了這事情, : 3.本週5怎麼還增加今年2025金費買GPU? : 目前文章很多 : 推文很亂,有沒有人來解釋ㄧ下1.2.3 : 蜥蜴人到底在做什? : 尤其第三點 先說結論 1.開源的勝利 2.openai死去 3.nvda不影響,但受情緒影響可能跌 這件事情對NVIDIA不會有太大影響,因為在DeepSeek的論文中,他們明確表示,希望NVID IA的下一代顯卡(GB200)能解決他們在FP8訓練中遇到的問題。儘管DeepSeek在低成本訓 練模型上取得了技術上的奇蹟,但他們依然面臨了不少挑戰,主要集中在FP8的乘法累加 和轉置乘法等方面。這些問題需要NVIDIA通過更新Kernel來解決。 DeepSeek希望NVIDIA能夠增加以Tile和Block為單位的量化規則,如果NVIDIA能夠更新自 己的Tensor Core,訓練效率將會大幅提升。然而,短期內市場上很多人可能不理解這一 點,因此在這段時間內,NVIDIA的股價可能會出現波動,股價下跌也不足為奇。 https://i.imgur.com/iMYrWfr.jpeg
https://i.imgur.com/jlYERlZ.jpeg
DeepSeek V3 的 fp8訓練算法,由圖可知,這一算法其實非常複雜,是混合精度。 這也是DeepSeek團隊的主要貢獻。 https://i.imgur.com/dzQ18WL.jpeg
DeepSeekMoE的主要貢獻: 分了一組Shared Experts,並且給Expert分配系數加入了一個bias term,防止Mode Coll apsing https://i.imgur.com/0Cjoap5.jpeg
https://i.imgur.com/CzaeDBq.jpeg
首先,增加訓練效率的是MOE,Mixture of Experts,也就是所謂混合專家模型。他指的 是模型每一個Transformer Block在最後那一層網絡中,僅選擇1/k的參數激活進入下一個 Block。 這導致對於每一個token來說,一個600B的模型僅需激活了接近37B的權重,相當於每一個 token的訓練可以節省約80%算力,大大提高了訓練速度。 其次,增加推理速度的是MLA,Multihead Latent Attention,多頭隱空間注意力機制。 名字很玄乎,本質就是通過一些矩陣把注意力機制中最關鍵的KQV三個矩陣投影到更低維 的空間(隱空間)中,以便存在緩存中。這樣每次推理的時候就不需要重新計算 大大增加了推理速度 這兩個技術都不能說是顛覆性的。但DeepSeek都做了自己的改進,而且調通了 這就是他最厲害的地方 這兩個重要概念,在DeepSeek V3 paper的第一頁就有 當然更關鍵的是fp8,也就是8位浮點量化運算。之前推文介紹過了。是fp8從訓練所需空 間上限決定了,這個模型可以用2048個H800訓練。 每個fp8相比fp16能節約50%空間,相比fp32 節約75%。矩陣乘法的運算速度甚至是按平方 提升。 https://i.imgur.com/9RjGUZ9.jpeg
總結一下DeepSeek討論的初步結果,DeepSeek的貢獻主要有兩個: 一是基礎模型的預訓練,二是利用無監督的增強學習(RL)提高推理能力 1)在預訓練方面,DeepSeek團隊的貢獻主要是工程性的:比如超強的訓練穩定度、深入 使用fb8混合精度、多詞同時預測、隱空間多注意力頭,MOE混合專家等等。這大大降低了 訓練成本,用600萬美金訓練一個600B的大模型,可謂是工程上的奇跡。 2)在推理方面,DeepSeek團隊的貢獻則是突破性的,科學性的,但也是階段性的——他 依然沒有實現AGI,水平也只是和GPT o1 比肩。它證明瞭無需使用費時耗力的思維鏈標注 ,用無監督數據也可讓模型自然湧現出推理能力。這大大降低了模型推理的門檻,也是首 個開源的、能力接近GPT o1的推理模型。 當然,之所以DeepSeek R1ō戽袢L法超越GPT o1,可能是他有意無意使用了後者輸出作為 訓練數據有關。 DeepSeek的成果對美國AI產業主要會有兩大影響: 1)對OpenAI等閉源模型產生衝擊。這意味著,任何一個公司都可以使用類似方法,讓基 礎模型獲得推理能力。而推理成本僅為OpenAI的1/10。我們會看到更多專用推理模型誕生 ,而創業公司、個人App等可能會大幅減少在OpenAI API上的支出,轉向開源。 2)在硬件方面,市場可能會首先質疑先進算力的必要性,影響到NVDA的股價;但隨後依 然認識到它的優勢:畢竟GB200會顯著加快DeepSeek V3的訓練速度,且在R1模型的推理階 段也擁有成本優勢。不論是什麼樣的模型,哪怕是小模型,FLOPS永遠是王道,規模永遠 是王道。英偉達只需讓GB200推理的Token綜合成本遠低於H100即可。 這恰恰是“通用”AI芯片的價值。相比之下,為特定大模型設計的ASIC反而會再次遭到挑 戰。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.228.231.8 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737904280.A.241.html
文章代碼(AID): #1dbb2O91 (Stock)
文章代碼(AID): #1dbb2O91 (Stock)