Re: [新聞] 稱霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X

看板Stock (股票)作者 (Channel Coding)時間2月前 (2024/09/03 03:04), 2月前編輯推噓42(44223)
留言69則, 47人參與, 2月前最新討論串2/2 (看更多)
相關文章可以參考這個 https://36kr.com/p/2927059579722630 比較有意義的是這邊 https://spectrum.ieee.org/new-inference-chips 前言 雖然大家都在討論AI要怎樣獲利 但AI產品要獲利前 有一個很重要的大前提 就是AI infrastructure得先成熟 也就是如何讓巨大數量消費者能在平台上(Large-scale) 能得到平台上的服務 這個第一步關鍵就是Inference 上的成本 算力提升也意味單位 成本下降 自從LLM興起後(GenAI) 直到去年都比較是Training上的改進 像是軟體端有Deep-Speed 陸續整合到LLM/Transformer上 能把訓練數度提高百倍(意味成本降低百倍) 硬體端有A100->H100 (Transformer加速) HBM容量變大 等等此類 但針對AI商業化的Inference塊一直很不明朗 去年之前 我個人認為Inference玩家就是NV/AMD/i皇(免強算半個)/ASIC玩家等大亂戰 今年開始Inference開始有比較嚴謹的方式去量化"Large-Scale Service" 來推廣落地 這都意味以後的服務平台成本會下降 以現在GPT-4o 25.00元 你可以使用1M tokens (註2) 想像一下 以後的成本可以降到100倍以上 同時也意味AI infra在走向產業落地 而第二個連結(ieee)就是開始在量化Inference的成本/能力 裡面用秒來計算能提供多少 客戶請求(queries) 裡面有兩個比較重要的分類 (1) 一個是MoE 這是一種算法上的設計 會成為將來主流 他能在LLM包山包海的下游任務(例如 文字總結 寫程式 醫療問題) 能動態選取專家 所以在MoE上表現好 對效能上來說都會好 (2)處理位元數降低(e.g., f32/bf16/f4) 處理位元數降低好處會帶來運算速度增快 運算成本降低 但通常缺點就是效能會變很糟 (正確率下降 模型準度降低) 但NVDA弄出了一個4位元版本 且準度沒有太大犧牲 Blackwell FP4運算效力非常誇張 ( https://reurl.cc/myrAMM ) 第二個連結可以看出明顯AI inference 老黃把眾家對手打得滿頭包...在第二張圖裏 就算校正GPU數量 狗家的TPU也是沒佔上風(註3) 處此之外 還有一份報告是關於Llama3 ( https://www.aizws.net/news/detail/1238 ) 可以看見當算力拉高高算力 高power 巨大集群 系統容易崩潰 就連老黃都無法避免 然而這在A100叢集 崩潰幾乎沒有出現過 這也意味眾家對手再拉高power 算力 軟體容易不穩定而崩潰 在這個AI軍備競賽下 時間永遠是個最重要的成本 這也意味 其他對手還只要沒在巨大集群驗證過都不能算上玩家 (目前只有狗家) 最後一個總結 老黃的核心思想就是算力 (硬體+軟體+巨大cluster) 當年老黃在顯卡大戰說過 我每半年提高顯卡算力一倍 雖然一堆遊戲廠商 跟我說他家電動遊戲不需要這樣強顯卡 但我們不能照遊戲廠商需求來設計 我們給他們更好的顯卡 這樣他們才能設計更好的遊戲 我們可以創造需求 同樣 只要對先進算法有需求 算力就會存在 顯卡大戰所有的套路 我們會再重新走一次 而AI這個路線也是如此 因為Scaling Law已經講明 算力無窮止盡造就無窮智能 就算今天LLM技術落伍 只要有需求先進的算法 就會需要算力 Scaling Law就是摩爾定律 CPU當年無限開發計算能力 有了軟體業 顯卡無限開發算力 有了電動產業 這也是為何Eric Schmidt說 政府用算力10的26次方flops當作監管條件 其他政治上的風險 https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水 土地 電力 當地居民抗議 -- 最近韭菜力有點高 QnQ 你們買股請用閒錢買....不然就會像我一樣要去賣玉蘭花 -- 註1:Deep Speed是微軟一個重大的軟體加速設計 這讓我想起Bill 之前說的 https://www.youtube.com/watch?v=jpfC7rzoX2A
"Microsoft putting tens of billions of dollars,into not just the back-end capacitiy, "but re-engineering their application" 註2:Gen AI/LLM 把所有資訊都是用token計價 文字上來說2~3token等於一個英文word You miss 100% of the shots you don't take 這句話大概等於11 tokens 在影像的話 如果以一張512x512像素來說 有一個不嚴謹的公式 total tokens = 85 + 170 * n, (n=512 在這邊) 註3: 謠言果家的私有雲會用狗家TPU 但Inference結果現在看來 我很好奇果家 會願意放棄這樣香的NV Inference架構 用狗家TPU 註4: 亞痲已經開始大量用RAG+LLM 作為改善shopping 和查詢物品的使用者體驗 如果為真 我們會看到亞痲跟軟家大量在AI Infra 軟體上改進等 ※ 引述《enouch777 (雷)》之銘言: : 原文標題:稱霸 AI 推理性能,NVIDIA B200 晶片海放 AMD MI300X : ※請勿刪減原文標題 : 原文連結: : https://bit.ly/4dIpmfq : ※網址超過一行過長請用縮網址工具 : 發布時間: : September 2, 2024 by 陳 冠榮 : ※請以原文網頁/報紙之發布時間為準 : 記者署名:September 2, 2024 by 陳 冠榮 : ※原文無記載者得留空 : 原文內容: : 由產業人士和學術界組成的開放工程聯盟(MLCommons)自 2018 年推出 MLPerf 產業基準 : ,是衡量機器學習性能、提高科技透明度的常見指標。隨著科技大廠針對 MLPerf Inferenc : e v4.1 提出測試資料,尤其 NVIDIA 下一代 Blackwell GPU 首次參與測試,讓業界看出各 : 家晶片性能提升至什麼程度。 : MLPerf Inference v 4.1 測試結果有一系列值得關注的新增內容,像是 MLPerf 首次引進 : MoE(Mixture of Experts Models,混合專家模型)性能評估,特別採用開源 Mixtral 8× : 7B 模型。這一輪基準測試更展示一些令業界關注的晶片和系統,有些還是首次公開測試結 : 果,比方說 AMD MI300X、Google TPU v6e(Trillium)、英特爾 Granite Rapids、Unteth : er AI speedAI 240 等,還有最受市場矚目的 NVIDIA B200。 : 雖然 Blackwell GPU 交付到客戶手中還需要幾個月時間,但 MLPerf Inference 4.1 測試 : 結果可讓客戶一窺即將到來的強大性能。Blackwell GPU 由於使用 NVIDIA 第二代 Transfo : rmer 引擎和 FP4 Tensor 核心,處理 MLPerf 設定的 Llama 2 70B 模型,首次測試結果顯 : 示性能較自家 Hopper 架構的 H100 高出 4 倍之多。 : 而在單一 B200、H200 及競爭對手 MI300X 的比較,MLPerf Inference v 4.1 測試結果運 : 用 Llama 2 70B 計算每秒生成 token 數,可看出 B200 的表現遙遙領先 H200 和 MI300X : ,性能平均達到 H200 約 2.5 倍,更是 MI300X 的 4 倍左右。可見主流的 H200 明顯勝過 : MI300X,換成下一代 B200 更是大勝。 : 值得關注的是,MI300X 規格如電晶體、HBM 等比起 H200 複雜,封裝複雜度更高,可推測 : AMD 這款 AI 晶片成本高昂,卻要賣得更便宜才能與 NVIDIA 競爭。信昕產研從這一輪 MLP : erf 測試結果分析,MI300X 合理價格可能要比目前 H200 低約 30%。 : 換個角度來看,市場可能對於 NVIDIA 產品毛利高有些意見,一旦性能強大的 NVIDIA GPU : 價格再低一點,恐無對手與之競爭。 : 心得/評論: : https://i.imgur.com/DhaD9B1.jpeg
: 蘇媽24年初之前不是號稱贏 黃的H100 : 結果只在伯仲之間,還小輸 : 現在看起來黃的B200提升驚人。雖然現在晚一點才會來。但看來護城河已經建好了 : ※必需填寫滿30正體中文字,無意義者板規處分 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.4.211.194 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1725303899.A.3FA.html ※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 03:10:16

09/03 03:14, 2月前 , 1F
09/03 03:14, 1F

09/03 03:18, 2月前 , 2F
漲知識給推~
09/03 03:18, 2F

09/03 03:18, 2月前 , 3F
雖然我覺得Intc連半個都稱不上XD
09/03 03:18, 3F

09/03 03:20, 2月前 , 4F
感謝LD老大分享~
09/03 03:20, 4F

09/03 03:22, 2月前 , 5F
居然沒推到,補一下。
09/03 03:22, 5F

09/03 03:28, 2月前 , 6F
推 已經歐印NVDL了 誰來69樓救我
09/03 03:28, 6F

09/03 03:30, 2月前 , 7F
Nv能否持續領先
09/03 03:30, 7F

09/03 03:49, 2月前 , 8F
推 長知識了
09/03 03:49, 8F

09/03 03:50, 2月前 , 9F
我說過惹老黃這逼系列地位類似哀鳳4
09/03 03:50, 9F

09/03 03:50, 2月前 , 10F
出來94掃場 他把能想到的花招都用上惹
09/03 03:50, 10F

09/03 03:50, 2月前 , 11F
下一代的問題4會變成哀鳳五還哀鳳六 很難說
09/03 03:50, 11F

09/03 03:50, 2月前 , 12F
哇 謝LD!希望我也能Learning到飛黃騰達
09/03 03:50, 12F

09/03 03:51, 2月前 , 13F
沒新招就挨奉五 有新招就挨鳳六
09/03 03:51, 13F
※ 編輯: LDPC (24.4.211.194 美國), 09/03/2024 04:23:28

09/03 04:41, 2月前 , 14F
ww3之後美國會徹底衰弱,中間會一堆國家沒有電!
09/03 04:41, 14F

09/03 04:44, 2月前 , 15F
感謝 LD大分享 !
09/03 04:44, 15F

09/03 04:49, 2月前 , 16F
我該歐印nvdl嗎
09/03 04:49, 16F

09/03 06:12, 2月前 , 17F
感謝大大分享
09/03 06:12, 17F

09/03 06:13, 2月前 , 18F
所以結論是all in NVDA對吧
09/03 06:13, 18F

09/03 06:23, 2月前 , 19F
推 NVDA
09/03 06:23, 19F

09/03 06:31, 2月前 , 20F
感謝分享
09/03 06:31, 20F

09/03 06:51, 2月前 , 21F
相信老黃 財富自由
09/03 06:51, 21F

09/03 06:54, 2月前 , 22F
台灣一直歡迎資料中心來蓋XDD 不知道在想啥
09/03 06:54, 22F

09/03 06:55, 2月前 , 23F
99MU
09/03 06:55, 23F

09/03 06:56, 2月前 , 24F
恐懼來自於算力不足,對吧。
09/03 06:56, 24F

09/03 06:58, 2月前 , 25F
專業推
09/03 06:58, 25F

09/03 07:01, 2月前 , 26F
推 老黃就是強
09/03 07:01, 26F

09/03 07:06, 2月前 , 27F
推一個
09/03 07:06, 27F

09/03 07:11, 2月前 , 28F
結論歐印NVDA
09/03 07:11, 28F

09/03 07:38, 2月前 , 29F
當大家都要買nvdl 跟全部人都在拉抬目標價
09/03 07:38, 29F

09/03 07:38, 2月前 , 30F
你就知道 該如何處置手上的股票了
09/03 07:38, 30F

09/03 07:47, 2月前 , 31F
以token 練丹是可怕的商業模式,東西被重新估價
09/03 07:47, 31F

09/03 07:54, 2月前 , 32F
哇,一早看到L大的信心加持 感恩
09/03 07:54, 32F

09/03 07:57, 2月前 , 33F
Inference server 真正的需求等手機普遍都有能跑 L
09/03 07:57, 33F

09/03 07:57, 2月前 , 34F
LM 再看吧?雖然 edge 端能跑的 model 比 GPT-4o
09/03 07:57, 34F

09/03 07:57, 2月前 , 35F
廢,但一般使用需求其實也用不上多強的 LLM
09/03 07:57, 35F

09/03 08:03, 2月前 , 36F
09/03 08:03, 36F

09/03 08:03, 2月前 , 37F
感謝專家分析與分享
09/03 08:03, 37F

09/03 08:08, 2月前 , 38F
09/03 08:08, 38F

09/03 08:09, 2月前 , 39F
AI推論接下來各大CSP會用博通設計的ASIC來想辦法取
09/03 08:09, 39F

09/03 08:09, 2月前 , 40F
代,到時看才知道鹿死誰手
09/03 08:09, 40F

09/03 08:17, 2月前 , 41F
感謝提供基礎知識
09/03 08:17, 41F

09/03 08:19, 2月前 , 42F
all in NVDL 一波退休!
09/03 08:19, 42F

09/03 08:39, 2月前 , 43F
99nvdl
09/03 08:39, 43F

09/03 08:42, 2月前 , 44F

09/03 08:42, 2月前 , 45F
ASIC取代別鬧惹,關鍵應該是明年的chatgpt5 ,LLM
09/03 08:42, 45F

09/03 08:42, 2月前 , 46F
進化才是終端市場爆發的時候
09/03 08:42, 46F

09/03 08:43, 2月前 , 47F
感謝分享
09/03 08:43, 47F

09/03 09:01, 2月前 , 48F
推分享
09/03 09:01, 48F

09/03 09:15, 2月前 , 49F
09/03 09:15, 49F

09/03 09:32, 2月前 , 50F
蝦? 用 ASIC? 想太多了吧
09/03 09:32, 50F

09/03 09:45, 2月前 , 51F
嚇你 甩你 磨你
09/03 09:45, 51F

09/03 09:57, 2月前 , 52F
B系列GPU已經就 800mm2吃到光罩極限,要再增加電晶
09/03 09:57, 52F

09/03 09:57, 2月前 , 53F
體就只能靠製程。兩顆大晶片進CoWoS-L封裝成B200又
09/03 09:57, 53F

09/03 09:57, 2月前 , 54F
因熱膨脹係數delay,至於老黃說什麼修光罩改善良率
09/03 09:57, 54F

09/03 09:57, 2月前 , 55F
看起來是在解Critical Path積熱,但有沒有效可以繼
09/03 09:57, 55F

09/03 09:57, 2月前 , 56F
續觀望。
09/03 09:57, 56F

09/03 09:59, 2月前 , 57F
老黃要變下一代,GG CoWoS下一代(2027)可能有機會
09/03 09:59, 57F

09/03 09:59, 2月前 , 58F
,熱膨脹問題還是跑不掉
09/03 09:59, 58F

09/03 10:31, 2月前 , 59F
專業推
09/03 10:31, 59F

09/03 10:49, 2月前 , 60F
樓上真好心 幫輝達裡幾百萬千萬年薪工程師們擔心
09/03 10:49, 60F

09/03 11:19, 2月前 , 61F
老黃救我
09/03 11:19, 61F

09/03 11:26, 2月前 , 62F
AI推論當然用ASIC,用GPGPU很耗電好嗎?
09/03 11:26, 62F

09/03 11:27, 2月前 , 63F
現在各家的NPU則是一種DSP,算是過渡方案
09/03 11:27, 63F

09/03 13:01, 2月前 , 64F
已歐印
09/03 13:01, 64F

09/03 19:20, 2月前 , 65F
謝謝分享,果家用狗家的我相信只先分散風險總不能
09/03 19:20, 65F

09/03 19:20, 2月前 , 66F
單靠一家,能用大叢集的就兩家目前來看
09/03 19:20, 66F

09/03 22:39, 2月前 , 67F
今晚又電梯向下了
09/03 22:39, 67F

09/04 02:03, 2月前 , 68F
電梯向下跟老黃也沒關係啊 總經數據開這樣大家一起
09/04 02:03, 68F

09/04 02:03, 2月前 , 69F
09/04 02:03, 69F
文章代碼(AID): #1crWnRFw (Stock)
文章代碼(AID): #1crWnRFw (Stock)