Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售

看板Stock (股票)作者 (嘴砲無雙)時間2年前 (2024/02/29 11:38), 2年前編輯推噓115(1194134)
留言257則, 107人參與, 2年前最新討論串3/4 (看更多)
你劃錯重點, 先不論這篇論文的可行性與實用性, 你真的劃錯重點了 算力重要嗎? 重要但是不是影響販售/採購晶片的主因, 這個年代是用軟體思考的年代, 有兩個軟體方面的主因是AI晶片的關鍵: 1. LLM 2. API/framework: CUDA, OpenCL, tensorflow, pytorch 很多人嗆我說廢話, 但是很多人卻是連廢話都不懂, LLM 全名叫做 "Large" language model, 都已經叫做Large 了, 還放在最前面以表示重要性, 所以能夠處理"Large" 模型的能力 遠比算力重要的多, 這篇文章有圖形解釋cpu vs gpu vs tpu的差別, https://www.linkedin.com/pulse/ cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/ 所以拿這三者來比較算力是很蠢的事情, 這三者的算力彼此之間個差了十倍到百倍的差距, 比方說我有一大串數字/資料要做運算, cpu 必須每個數字/資料做運算之後相加減, gpu 把數字/資料放進兩個矩陣一次就算完, tpu 直接把算法設計成硬體邏輯, 數字/資料放進tpu可以直接得到結果, 所以你看出問題了嗎? 當你的資料與模型太大 會塞不進去矩陣 (v-ram), 同樣的道理, 資料與模型太大 會塞不進去tpu裡頭 (v-ram), 現代化的AI 瓶頸已經從算力提升到模型太大, 而這就是NVDA 厲害的地方, 一顆GPU v-ram 不夠塞進資料與模型, 沒關係, NVDA 把GPU 串連起來, 數百萬顆的GPU 串連 v-ram提升數百萬倍, 總可以塞進資料與模型來運算了吧, 請參考"電池串連"原理 就可以了解我在說什麼 TPU 原本把算法設計成硬體邏輯是個優點, 但是在串連運算上面卻成了缺點, 矩陣運算可以串連串起來運算, 邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現, 所以TPU 被綁在自身v-ram 的大小限制上面, 太大的模型與資料無法放進v-ram 就無法運算, 不過還是有解決方法, 這邊就不多說了 所以算力重要嗎? 在LLM 面前 真的不是最主要的考量 2. CUDA 版上吵翻天了, 不需要多說了, 你算力就算能比NVDA快上萬倍, 你也要能夠繞過CUDA 再說, 更何況算力有沒有比較快都很難說 ※ 引述《oopFoo (3d)》之銘言: : 千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。 : 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。 : 這次AI浪潮,應該也是類似。 : N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。 : 但最近一些AI的發展,也許會發現,這些Compute是不需要的。 : Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。 : Mamba我很看好,它的作者之一也是"Flash Attention"的作者。 : 但昨天一篇新的論文,可能是真的翻天覆地的開始。 : https://arxiv.org/abs/2402.17764 : "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits" : https://news.ycombinator.com/item?id=39535800 : hn的討論。 : 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。 : 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits) : 然後本來是fp dot product的只要int add。 : 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善? : 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。 : 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html

02/29 11:40, 2年前 , 1F
好的 歐印TQQQ
02/29 11:40, 1F

02/29 11:41, 2年前 , 2F
謝謝分享
02/29 11:41, 2F

02/29 11:44, 2年前 , 3F
何必跟一知半解的認真
02/29 11:44, 3F

02/29 11:44, 2年前 , 4F
感謝分享 ALL IN NVDA
02/29 11:44, 4F

02/29 11:44, 2年前 , 5F
講中文啦QQ
02/29 11:44, 5F

02/29 11:45, 2年前 , 6F
問就是買
02/29 11:45, 6F

02/29 11:48, 2年前 , 7F
嗯嗯 跟我想的一樣
02/29 11:48, 7F

02/29 11:49, 2年前 , 8F
02/29 11:49, 8F

02/29 11:51, 2年前 , 9F
謝分享
02/29 11:51, 9F

02/29 11:52, 2年前 , 10F
何必認真看到那篇論文的產地就可以end了.
02/29 11:52, 10F

02/29 11:55, 2年前 , 11F
00757會漲嗎0.0
02/29 11:55, 11F

02/29 11:55, 2年前 , 12F
推. 硬體受限情況下 只能從其他地方突破惹
02/29 11:55, 12F

02/29 11:55, 2年前 , 13F
歐印TQQQ
02/29 11:55, 13F

02/29 11:55, 2年前 , 14F
樓下幫我看一下這一大篇有沒有股點
02/29 11:55, 14F
GPU => NVDA vram => hbm => MU switch => AVGO 包牌 => QQQ

02/29 11:55, 2年前 , 15F
中國的HBM不知道何時商業量產
02/29 11:55, 15F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09

02/29 11:56, 2年前 , 16F
豪!!! 所以要歐印誰?
02/29 11:56, 16F

02/29 11:57, 2年前 , 17F
所以沒有比cuda更屌的東西你還是要舔nv
02/29 11:57, 17F
有比cuda更屌的東西, 但是掌握在七巨頭手上

02/29 11:58, 2年前 , 18F
感恩明牌 五星推!
02/29 11:58, 18F

02/29 11:59, 2年前 , 19F
我記得原Po是在G工作的FTE
02/29 11:59, 19F

02/29 11:59, 2年前 , 20F
好窩歐印
02/29 11:59, 20F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04

02/29 12:04, 2年前 , 21F
幹嘛跟對岸小粉紅認真www 整天再吹利害了窩的鍋
02/29 12:04, 21F

02/29 12:06, 2年前 , 22F
但如果要tpu 一定是port一個可以的model v-ram加上
02/29 12:06, 22F

02/29 12:06, 2年前 , 23F
去面積大 價錢還是比H100划算吧嗎
02/29 12:06, 23F

02/29 12:06, 2年前 , 24F
繞過去就好了
02/29 12:06, 24F

02/29 12:11, 2年前 , 25F
推解釋 這我看得懂
02/29 12:11, 25F

02/29 12:12, 2年前 , 26F
問就是TQQQ
02/29 12:12, 26F

02/29 12:14, 2年前 , 27F
那文就是裝逼拐個彎吹支那或成最大贏家而已
02/29 12:14, 27F

02/29 12:14, 2年前 , 28F
欠打臉
02/29 12:14, 28F

02/29 12:15, 2年前 , 29F
請問什麼東西比庫打還猛?
02/29 12:15, 29F
CUDA 是最底層的軟硬體介面, 提供軟體(寫程式)得到硬體加速的效果, 但是Google 的Tensorflow, 以及Meta/Facebook 的Pytorch, 是建構在CUDA 之上的python API 套件, 現在已經很少人直接寫CUDA, 大部分的人都用pytorch or tensorflow, 我個人的經驗是pytorch 比較容易, tensorflow 比較底層比較複雜, 但是相對的tensorflow 提供更強大與更自由的設計功能, 不論是Google or FB, tensorflow or pytorch, 在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速

02/29 12:16, 2年前 , 30F
中國的科技業不是只能代工跟抄襲嗎
02/29 12:16, 30F

02/29 12:17, 2年前 , 31F
switch ==> Nintendo
02/29 12:17, 31F

02/29 12:17, 2年前 , 32F
不會是量子電腦吧
02/29 12:17, 32F

02/29 12:18, 2年前 , 33F
現在好像開始談LPU了
02/29 12:18, 33F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48
還有 184 則推文
還有 13 段內文
02/29 20:02, 2年前 , 218F
all in TQQQ比較穩定啦
02/29 20:02, 218F

02/29 20:47, 2年前 , 219F
HBM hynix一直都有,跟nv合作很久了
02/29 20:47, 219F

02/29 20:47, 2年前 , 220F
m家是去年殺出來的
02/29 20:47, 220F

02/29 20:48, 2年前 , 221F
最近也有新聞說m家先整合進H200了
02/29 20:48, 221F

02/29 20:48, 2年前 , 222F
三星目前我所知是完全沒有
02/29 20:48, 222F

02/29 21:22, 2年前 , 223F
TPU 在做矩陣convolution, 核心的運算透過systolic
02/29 21:22, 223F

02/29 21:22, 2年前 , 224F
array 執行。它基本就是將資料的時序關係投影到特
02/29 21:22, 224F

02/29 21:22, 2年前 , 225F
定運算平面最大化運算效率。大矩陣分割在影像處理是
02/29 21:22, 225F

02/29 21:22, 2年前 , 226F
基本問題。即便超大activation 也可以透過多個TPU
02/29 21:22, 226F

02/29 21:22, 2年前 , 227F
協同處理。運算只在乎資料彼此關係, systolic arra
02/29 21:22, 227F

02/29 21:22, 2年前 , 228F
y 只是這些運算的不同種抽象形態表示 對應的都是同
02/29 21:22, 228F

02/29 21:22, 2年前 , 229F
樣的matrix convolution. 差別最多在於資料流處理
02/29 21:22, 229F

02/29 21:22, 2年前 , 230F
的差異。這種硬體架構對於邏輯設計算是基本的 只是
02/29 21:22, 230F

02/29 21:22, 2年前 , 231F
教科書裡面的例子
02/29 21:22, 231F

02/29 21:50, 2年前 , 232F
樓上的說法是 TPU如何用演算法克服"大型"
02/29 21:50, 232F

02/29 21:51, 2年前 , 233F
對TPU設計廠商來說只是基本工?
02/29 21:51, 233F

02/29 21:52, 2年前 , 234F
類似在學校學生超大數乘法的演算法作業?
02/29 21:52, 234F

02/29 22:06, 2年前 , 235F
切圖、串連再厲害,ram 不夠大就是虧啦,像武器一
02/29 22:06, 235F

02/29 22:06, 2年前 , 236F
樣,一寸長一寸強
02/29 22:06, 236F

02/29 22:33, 2年前 , 237F
所以蘇媽喜歡的是那種很大很大可以一次放進去
02/29 22:33, 237F

02/29 22:34, 2年前 , 238F
所有資料的vram
02/29 22:34, 238F

02/29 22:47, 2年前 , 239F
重點還是你vram硬體設計再大 也不可能塞得下一個
02/29 22:47, 239F

02/29 22:47, 2年前 , 240F
model 所以意義在哪裡
02/29 22:47, 240F

02/29 23:02, 2年前 , 241F
應該是以後會有 "大型" "小型" 兩種市場需求吧
02/29 23:02, 241F

03/01 00:34, 2年前 , 242F
推 雖然很多看不懂@@
03/01 00:34, 242F

03/01 01:13, 2年前 , 243F
LPU的成本太高了啦,塞一堆sram,哪來那麼高的良率
03/01 01:13, 243F

03/01 01:13, 2年前 , 244F
及封裝量能來玩這個,成本效益還是輸ASIC
03/01 01:13, 244F

03/01 01:18, 2年前 , 245F
西台灣就是有算力瓶頸才開始玩模型剪枝,等到未來各
03/01 01:18, 245F

03/01 01:18, 2年前 , 246F
行各業都需要AI推論時就會很有用,不過西台灣也只能
03/01 01:18, 246F

03/01 01:18, 2年前 , 247F
這樣玩,L20的推論只是堪用,所以配合中芯晶片的無
03/01 01:18, 247F

03/01 01:18, 2年前 , 248F
奈之舉
03/01 01:18, 248F

03/01 01:45, 2年前 , 249F
Protrader: 20-30年前很多應用的論文在不同領域,和
03/01 01:45, 249F

03/01 01:45, 2年前 , 250F
TPU 的問題基礎類似。
03/01 01:45, 250F

03/01 06:58, 2年前 , 251F
03/01 06:58, 251F

03/01 07:15, 2年前 , 252F
ㄏㄏ怎麼沒有人提挖礦潮要回來,老黃又要賺兩邊
03/01 07:15, 252F

03/01 07:16, 2年前 , 253F
怎麼看都是老黃繼續輾壓,市值能多高?或是搞拆股
03/01 07:16, 253F

03/01 16:44, 2年前 , 254F
技術上是一回事、但不代表有訂單、不代表LLM是強需
03/01 16:44, 254F

03/01 16:44, 2年前 , 255F
求。好吧我是借機希望有人可以回答我的疑惑
03/01 16:44, 255F

03/02 11:22, 2年前 , 256F
LLM 比專家系統的助理好多了,不過要變成強需求的
03/02 11:22, 256F

03/02 11:22, 2年前 , 257F
話可能要先解決準確度的問題,不然 LLM 就像在作夢
03/02 11:22, 257F
文章代碼(AID): #1bt_mwxv (Stock)
文章代碼(AID): #1bt_mwxv (Stock)