Re: R: [請益] 為什麼中國越來越強?
看板Stock (股票)作者LDPC (Channel Coding)時間4小時前 (2025/02/01 10:27)推噓46(46推 0噓 56→)留言102則, 42人參與討論串13/14 (看更多)
怎抹這邊突然變AI版 =_=
DeepSeek 有件事情幹得比矽谷好 就是AI Backend 優化(這玩意就是需要懂架構
和軟體 就是一個苦力枯燥活) 大體而言
在A100架構以前 大部分訓練都還是用fp32 少數模型對精度不敏感會用到fp16
(浮點16進位)主因是用16進位去訓練 精度不夠 容易模型崩潰 尤其用P100的fp16
去訓練LLM這類模型 大多都會崩 直到bf16這種新型的16進位出來 這時候訓練成本
(等於同架構算力變兩倍) 直接下到一半 在過去很少人在訓練用fp8(8位元)精度
去訓練模型 因為先天認為就是模型不穩 (順帶一提 在inference
把模型降到int8 是一個常見降成本做法 但training就很難)
然後deepseek 這個做得很好 他們重寫底層cuda優化 (寫ptx 直接優化硬體並列)
硬生生的把訓練pipeline寫出了一個fp8的版本 這又讓算力直接變兩倍
(*1)
我找到一篇稍微講他們並列設計方式軟體優化整理
https://finance.sina.com.cn/roll/2025-01-01/doc-inecmssv2908917.shtml
該編直接破題 捲工程
MoE 有一個最大挑戰就是 通訊成本 以及如何把通訊成本降下來 DeepSeek也是圍繞在
NVLink Load Balance (*2) 這也是圍繞在高throughput的NVLink 優化活
https://news.cnyes.com/news/id/5847731
*1和*2基本上就是圍繞NV卡Cuda底層的軟體優化活 QQ
這玩意不能無痛移植到其他架構 會是完全不一樣的推倒重練活 甚至硬體不支援無法複製
https://blog.csdn.net/weixin_42082868/article/details/130158784
而MoE對VRAM要求很高 說不需要HBM的 =_=......畢竟記憶體在LLM是一個重要參數
有很多算法是拿記憶空間換算力 (cache <-> 計算 參考白算盤)
因為是MoE 所以意味者每個token產生 只用了模型37B參數 這意味者 你的智能上限
就是37B參數的智能 這也意味者現階段600B Dense 模型 上限可以更高
(有點像你在思考一個問題瞬間時刻 只用了腦容量10%跟 腦容量100%)
這也是為何MoE在Fine-Tune 基於泛化不足 難度會比Dense模型不穩
在Inference端 受益於
1. KV Cache壓縮 ( Multi-head Latent Attention)
2. 37B參數運算量 per token
3. MLP (multi-token prediction) (參照Medusa這類paper)
每次不是一個個token產生 而是一次產生兩個token (你也可以推廣到n顆預測
但n>2 token 每次預測 失誤率會變高 等於做白工)
所以產出token速度會造成同架構600B模型大概 10倍快 然後搭配老黃B200
int8 算力https://36kr.com/p/2927059579722630 老黃硬體也可以受益這種低精度
搭配MoE 解放出能提供的更多人數上限 (Inference Capaciy是單次訪問算力x人數)
LLM現在最大門檻就是inference速度慢 很多paper都在環繞1,2,3推廣
而deep seek就是把現階段最好的1,2,3搭起來 搭AI Backend
key take away 通篇deepseek其實是把近年來所有經典算法圍繞在NV的cuda底層優化
所以要把這算法複製在其他平台 會重新遇到一個底層優化的問題 就像AMD底層優化
並不如cuda好 而這次大概就是ai backend 碼農 看到中國deekseek做得很好
個人建議 如果沒NV卡 手上有M1/M2/M3晶片 可以嘗試把上面123玩玩看 現在pytorch
有針對Mac GPU優化 (指令 device="mps" 如果你有NV卡那就不用多此一舉)
https://github.com/karpathy/minGPT
強烈建議手刻KV Cache ( https://github.com/Zefan-Cai/KVCache-Factory )
https://dipkumar.dev/becoming-the-unbeatable/posts/gpt-kvcache/
KV Cache 開發是現在LLM裡面的顯學之一
除了增加就業能力 還可以幫助你股版吵架能力 @@/
--
以後薯條炸到一半 你可以直接跟買漢堡客戶吵起LLM話題 股版吵架吵起來!!!!!
現在你想進入OpenAI 刷AI Backend會比走AI research容易 現在大廠都缺AI Backend
※ 引述《afflic (afflic)》之銘言:
: 給一些覺得中國很爛的人看看市場現在在擔心些什麼
: 艦長J快訊 重要的突破要多寫一次
: 2025/1/31
: 總之,這幾天是一次很燒腦的過年假期,感覺比平常還要認真研讀資料,甚至大年初一晚
: 上還有大陸券商辦專家論壇..... 這個市場實在太捲。
: 當然,花了這些精神做功課,就是要研究一下開年後的投資動作,究竟是新春大特賣趕快
: 撿便宜、還是苗頭不太對腳底要抹油?很遺憾的,這幾天研究下來,個人目前對硬體的看
: 法越來越偏向後者,但相關的AI應用卻可能加速發展。
: DS的論文重點以及它在演算法上的突破,網路上已經有很多人分享,我就不再贅述;直接
: 講幾個觀察到的重點吧~
: 1. 還記得Apple為了推銷Apple Intelligence,將iPhone 全面升級到8GB以上嗎?這僅僅
: 是為了跑一個3B 參數的小模型而已。 現在,有人成功用一張 Nvidia RTX 6000 (48GB V
: RAM) 就可以跑動 DS 671bn 參數的大模型,而且這個模型還開源可以直接下載。
: 這代表什麼意思?以後企業或個人要佈建AI,可能買一台具有高階顯卡的電腦就做的到。
: 不用每個月花200USD訂閱OpenAI、不用CSP租賃昂貴的AI server & 網路..... 在地端佈
: 署AI 變得簡單&便宜許多。這兩天已經有看到朋友的公司開始研究把AI模型的佈建轉為
: 在地端執行的可能性。
: 2 各大廠紛紛投入:短短幾天,可以看到微軟、AWS、NVIDIA 都開始提供DS R1 模型的服
: 務。由於對硬體的要求的確不高,百萬token 輸出的價格只要2.19美元(作為對比: Ope
: nAI的輸出價格爲60美元/百萬Token),價差接近30倍。
: NVIDIA 官方也有描述:在單個NVIDIA HGX H200系統上,完整版DeepSeek-R1 671B的處理
: 速度可達3,872 Token/秒。僅需一個系統就可以完整運作DS R1 大模型。就算企業依然需
: 要利用雲端來佈建AI,需要的系統&價格也比之前簡化許多。
: 3 NV關鍵優勢不再? 這兩年來,我們持續提到NV產品在大模型與高運算力方面的優勢,
: 包括記憶體的使用、NVlink多卡串聯、Scale-up/out 的領先等等;在探討下一代Rubin或
: 更後面的產品,討論的是一個機櫃做到NVL 144/288 、如何處理這麼大功耗的產品、系統
: 架構該如何演進等等;重點不僅僅是“教主產品做的比別人好”,而是“不用教主的產品
: 就根本無法訓練&使用這些大的模型”。
: 忽然間,這個必要性被打了一個大問號。
: 進而延伸的問題:HBM、CoWoS等等原本為了在空間體積功耗等等限制下塞進最多算力的技
: 術,是不是仍然必要?還是有許多便宜的替代品可以用?
: BTW,很多人喜歡把政治問題扯進來。對我來說,探討DS本身到底用了多少卡有意義嗎?
: 沒有,重點是現在實際佈署R1的硬體需求就是極低;其次,它有沒有抄OpenAI? 應該有吧
: ~ 不過OpenAI 的 GPTBoT 在網路上不顧版權的到處亂抓資料也不是一兩天的事情了~
: 抓完還不開源勒。對投資而言,整個市場結構的變化,比這些枝微末節的小事重要多了。
: 投資總有風險,本人過去績效不做未來獲利之保證。最近詐騙猖獗,本人不收會員、不用
: 追蹤、不騙流量、不需粉絲、更不必按讚分享開啟小鈴鐺。快訊僅供好友交流之用,如果
: 你與我看法不同,你肯定是對的千萬不要被我影響。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738376857.A.F38.html
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:29:45
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:30:54
推
02/01 10:30,
4小時前
, 1F
02/01 10:30, 1F
→
02/01 10:30,
4小時前
, 2F
02/01 10:30, 2F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:32:16
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:33:02
推
02/01 10:33,
4小時前
, 3F
02/01 10:33, 3F
→
02/01 10:34,
4小時前
, 4F
02/01 10:34, 4F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:35:47
推
02/01 10:35,
4小時前
, 5F
02/01 10:35, 5F
推
02/01 10:38,
4小時前
, 6F
02/01 10:38, 6F
→
02/01 10:40,
4小時前
, 7F
02/01 10:40, 7F
→
02/01 10:41,
4小時前
, 8F
02/01 10:41, 8F
推
02/01 10:41,
4小時前
, 9F
02/01 10:41, 9F
推
02/01 10:43,
4小時前
, 10F
02/01 10:43, 10F
推
02/01 10:43,
4小時前
, 11F
02/01 10:43, 11F
推
02/01 10:44,
4小時前
, 12F
02/01 10:44, 12F
推
02/01 10:46,
4小時前
, 13F
02/01 10:46, 13F
推
02/01 10:46,
4小時前
, 14F
02/01 10:46, 14F
推
02/01 10:46,
4小時前
, 15F
02/01 10:46, 15F
→
02/01 10:46,
4小時前
, 16F
02/01 10:46, 16F
推
02/01 10:47,
3小時前
, 17F
02/01 10:47, 17F
→
02/01 10:47,
3小時前
, 18F
02/01 10:47, 18F
推
02/01 10:48,
3小時前
, 19F
02/01 10:48, 19F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:49:32
推
02/01 10:48,
3小時前
, 20F
02/01 10:48, 20F
推
02/01 10:50,
3小時前
, 21F
02/01 10:50, 21F
→
02/01 10:50,
3小時前
, 22F
02/01 10:50, 22F
推
02/01 10:51,
3小時前
, 23F
02/01 10:51, 23F
→
02/01 10:52,
3小時前
, 24F
02/01 10:52, 24F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 10:52:37
推
02/01 10:52,
3小時前
, 25F
02/01 10:52, 25F
→
02/01 10:52,
3小時前
, 26F
02/01 10:52, 26F
推
02/01 10:52,
3小時前
, 27F
02/01 10:52, 27F
→
02/01 10:52,
3小時前
, 28F
02/01 10:52, 28F
→
02/01 10:52,
3小時前
, 29F
02/01 10:52, 29F
推
02/01 10:53,
3小時前
, 30F
02/01 10:53, 30F
→
02/01 10:53,
3小時前
, 31F
02/01 10:53, 31F
推
02/01 10:54,
3小時前
, 32F
02/01 10:54, 32F
→
02/01 10:54,
3小時前
, 33F
02/01 10:54, 33F
→
02/01 10:54,
3小時前
, 34F
02/01 10:54, 34F
→
02/01 10:55,
3小時前
, 35F
02/01 10:55, 35F
還有 30 則推文
還有 1 段內文
推
02/01 11:27,
3小時前
, 66F
02/01 11:27, 66F
→
02/01 11:27,
3小時前
, 67F
02/01 11:27, 67F
→
02/01 11:28,
3小時前
, 68F
02/01 11:28, 68F
QQ 這個是環境問題 美國的tiktok部門 同是中國人 已經卷輸中國本土tiktok部門
現在中國人除非沒地方去 也不太會去美國本土tiktok 因為要對打中國本土tiktok
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:30:21
推
02/01 11:29,
3小時前
, 69F
02/01 11:29, 69F
推
02/01 11:32,
3小時前
, 70F
02/01 11:32, 70F
→
02/01 11:32,
3小時前
, 71F
02/01 11:32, 71F
→
02/01 11:32,
3小時前
, 72F
02/01 11:32, 72F
→
02/01 11:34,
3小時前
, 73F
02/01 11:34, 73F
→
02/01 11:34,
3小時前
, 74F
02/01 11:34, 74F
→
02/01 11:34,
3小時前
, 75F
02/01 11:34, 75F
→
02/01 11:34,
3小時前
, 76F
02/01 11:34, 76F
→
02/01 11:34,
3小時前
, 77F
02/01 11:34, 77F
→
02/01 11:34,
3小時前
, 78F
02/01 11:34, 78F
→
02/01 11:37,
3小時前
, 79F
02/01 11:37, 79F
→
02/01 11:37,
3小時前
, 80F
02/01 11:37, 80F
→
02/01 11:37,
3小時前
, 81F
02/01 11:37, 81F
推
02/01 11:37,
3小時前
, 82F
02/01 11:37, 82F
→
02/01 11:38,
3小時前
, 83F
02/01 11:38, 83F
推
02/01 11:41,
3小時前
, 84F
02/01 11:41, 84F
→
02/01 11:41,
3小時前
, 85F
02/01 11:41, 85F
推
02/01 11:48,
2小時前
, 86F
02/01 11:48, 86F
推
02/01 11:50,
2小時前
, 87F
02/01 11:50, 87F
→
02/01 11:50,
2小時前
, 88F
02/01 11:50, 88F
推
02/01 11:52,
2小時前
, 89F
02/01 11:52, 89F
→
02/01 11:52,
2小時前
, 90F
02/01 11:52, 90F
→
02/01 11:52,
2小時前
, 91F
02/01 11:52, 91F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:55:39
推
02/01 11:55,
2小時前
, 92F
02/01 11:55, 92F
→
02/01 11:55,
2小時前
, 93F
02/01 11:55, 93F
※ 編輯: LDPC (76.21.72.78 美國), 02/01/2025 11:57:33
推
02/01 12:04,
2小時前
, 94F
02/01 12:04, 94F
→
02/01 12:04,
2小時前
, 95F
02/01 12:04, 95F
→
02/01 12:08,
2小時前
, 96F
02/01 12:08, 96F
推
02/01 12:08,
2小時前
, 97F
02/01 12:08, 97F
→
02/01 12:09,
2小時前
, 98F
02/01 12:09, 98F
推
02/01 12:13,
2小時前
, 99F
02/01 12:13, 99F
推
02/01 12:14,
2小時前
, 100F
02/01 12:14, 100F
推
02/01 12:17,
2小時前
, 101F
02/01 12:17, 101F
推
02/01 12:25,
2小時前
, 102F
02/01 12:25, 102F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章
67
120