Re: [新聞] 輝達H100晶片紓壓了 訂單大戶開始轉售
你劃錯重點,
先不論這篇論文的可行性與實用性,
你真的劃錯重點了
算力重要嗎?
重要但是不是影響販售/採購晶片的主因,
這個年代是用軟體思考的年代,
有兩個軟體方面的主因是AI晶片的關鍵:
1. LLM
2. API/framework: CUDA, OpenCL, tensorflow, pytorch
很多人嗆我說廢話,
但是很多人卻是連廢話都不懂,
LLM 全名叫做 "Large" language model,
都已經叫做Large 了,
還放在最前面以表示重要性,
所以能夠處理"Large" 模型的能力 遠比算力重要的多,
這篇文章有圖形解釋cpu vs gpu vs tpu的差別,
https://www.linkedin.com/pulse/
cpu-vs-gpu-tpu-unveiling-powerhouse-trio-computing-abhineet-raj/
所以拿這三者來比較算力是很蠢的事情,
這三者的算力彼此之間個差了十倍到百倍的差距,
比方說我有一大串數字/資料要做運算,
cpu 必須每個數字/資料做運算之後相加減,
gpu 把數字/資料放進兩個矩陣一次就算完,
tpu 直接把算法設計成硬體邏輯,
數字/資料放進tpu可以直接得到結果,
所以你看出問題了嗎?
當你的資料與模型太大 會塞不進去矩陣 (v-ram),
同樣的道理,
資料與模型太大 會塞不進去tpu裡頭 (v-ram),
現代化的AI 瓶頸已經從算力提升到模型太大,
而這就是NVDA 厲害的地方,
一顆GPU v-ram 不夠塞進資料與模型,
沒關係, NVDA 把GPU 串連起來,
數百萬顆的GPU 串連 v-ram提升數百萬倍,
總可以塞進資料與模型來運算了吧,
請參考"電池串連"原理 就可以了解我在說什麼
TPU 原本把算法設計成硬體邏輯是個優點,
但是在串連運算上面卻成了缺點,
矩陣運算可以串連串起來運算,
邏輯電路要串連 v-ram 運算反而變得非常複雜與難實現,
所以TPU 被綁在自身v-ram 的大小限制上面,
太大的模型與資料無法放進v-ram 就無法運算,
不過還是有解決方法,
這邊就不多說了
所以算力重要嗎?
在LLM 面前 真的不是最主要的考量
2. CUDA 版上吵翻天了,
不需要多說了,
你算力就算能比NVDA快上萬倍,
你也要能夠繞過CUDA 再說,
更何況算力有沒有比較快都很難說
※ 引述《oopFoo (3d)》之銘言:
: 千禧年的網路泡沫,也是先炒作硬體商,Cisco, Sun...,Sun還有"dot in dot-com"的廣告。
: 網路確實是改變世界,但真正大賺的是軟體公司,而且是完全新鮮的軟體公司。
: 這次AI浪潮,應該也是類似。
: N家這次炒作這麼高,是因為真的,Compute是供不應求。每個大公司都怕買不夠,跟不上。
: 但最近一些AI的發展,也許會發現,這些Compute是不需要的。
: Mamba, RetNet, RWKV是從"Attention"的這點來改善。"Attention"是Quadratic Complexity,這是硬體需求的關鍵。現在在找方法從Quadratic改成Linear。
: Mamba我很看好,它的作者之一也是"Flash Attention"的作者。
: 但昨天一篇新的論文,可能是真的翻天覆地的開始。
: https://arxiv.org/abs/2402.17764
: "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits"
: https://news.ycombinator.com/item?id=39535800
: hn的討論。
: 現在討論的共識是,可行,理論基礎很扎實。各路人馬開始指出,從2006年開始的這方面研究,已經找出好多篇證實這方向是可行的。
: 現在的LLM是用fp16(16bits),這方法可1.58bits,(討論說可以縮到0.68bits)
: 然後本來是fp dot product的只要int add。
: 輕鬆10x的效能,新ASIC針對Ternary weight發展可以輕鬆100x的效能改善?
: 如果這篇證實是可行的,AI起跑點重新設置,所有公司的價值都要重新計算。
: 這篇的作者群很有資歷,但很有趣的是,主要是來自北京/清華大學。美國猛力壓制中國的運力運算,造就不太需要Compute的方法的發現,戳破美國AI泡沫,這會是非常的諷刺。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1709177914.A.EF9.html
推
02/29 11:40,
2年前
, 1F
02/29 11:40, 1F
推
02/29 11:41,
2年前
, 2F
02/29 11:41, 2F
推
02/29 11:44,
2年前
, 3F
02/29 11:44, 3F
推
02/29 11:44,
2年前
, 4F
02/29 11:44, 4F
推
02/29 11:44,
2年前
, 5F
02/29 11:44, 5F
→
02/29 11:45,
2年前
, 6F
02/29 11:45, 6F
→
02/29 11:48,
2年前
, 7F
02/29 11:48, 7F
→
02/29 11:49,
2年前
, 8F
02/29 11:49, 8F
推
02/29 11:51,
2年前
, 9F
02/29 11:51, 9F
推
02/29 11:52,
2年前
, 10F
02/29 11:52, 10F
推
02/29 11:55,
2年前
, 11F
02/29 11:55, 11F
推
02/29 11:55,
2年前
, 12F
02/29 11:55, 12F
推
02/29 11:55,
2年前
, 13F
02/29 11:55, 13F
推
02/29 11:55,
2年前
, 14F
02/29 11:55, 14F
GPU => NVDA
vram => hbm => MU
switch => AVGO
包牌 => QQQ
→
02/29 11:55,
2年前
, 15F
02/29 11:55, 15F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 11:58:09
推
02/29 11:56,
2年前
, 16F
02/29 11:56, 16F
→
02/29 11:57,
2年前
, 17F
02/29 11:57, 17F
有比cuda更屌的東西,
但是掌握在七巨頭手上
→
02/29 11:58,
2年前
, 18F
02/29 11:58, 18F
推
02/29 11:59,
2年前
, 19F
02/29 11:59, 19F
推
02/29 11:59,
2年前
, 20F
02/29 11:59, 20F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:03:04
推
02/29 12:04,
2年前
, 21F
02/29 12:04, 21F
推
02/29 12:06,
2年前
, 22F
02/29 12:06, 22F
→
02/29 12:06,
2年前
, 23F
02/29 12:06, 23F
推
02/29 12:06,
2年前
, 24F
02/29 12:06, 24F
推
02/29 12:11,
2年前
, 25F
02/29 12:11, 25F
推
02/29 12:12,
2年前
, 26F
02/29 12:12, 26F
推
02/29 12:14,
2年前
, 27F
02/29 12:14, 27F
→
02/29 12:14,
2年前
, 28F
02/29 12:14, 28F
推
02/29 12:15,
2年前
, 29F
02/29 12:15, 29F
CUDA 是最底層的軟硬體介面,
提供軟體(寫程式)得到硬體加速的效果,
但是Google 的Tensorflow,
以及Meta/Facebook 的Pytorch,
是建構在CUDA 之上的python API 套件,
現在已經很少人直接寫CUDA,
大部分的人都用pytorch or tensorflow,
我個人的經驗是pytorch 比較容易,
tensorflow 比較底層比較複雜,
但是相對的tensorflow 提供更強大與更自由的設計功能,
不論是Google or FB,
tensorflow or pytorch,
在公司內部project 都已經可以繞過cuda 直接對硬體溝通加速
→
02/29 12:16,
2年前
, 30F
02/29 12:16, 30F
→
02/29 12:17,
2年前
, 31F
02/29 12:17, 31F
→
02/29 12:17,
2年前
, 32F
02/29 12:17, 32F
推
02/29 12:18,
2年前
, 33F
02/29 12:18, 33F
※ 編輯: waitrop (76.103.225.6 美國), 02/29/2024 12:22:48
還有 184 則推文
還有 13 段內文
→
02/29 20:02,
2年前
, 218F
02/29 20:02, 218F
推
02/29 20:47,
2年前
, 219F
02/29 20:47, 219F
→
02/29 20:47,
2年前
, 220F
02/29 20:47, 220F
→
02/29 20:48,
2年前
, 221F
02/29 20:48, 221F
→
02/29 20:48,
2年前
, 222F
02/29 20:48, 222F
推
02/29 21:22,
2年前
, 223F
02/29 21:22, 223F
→
02/29 21:22,
2年前
, 224F
02/29 21:22, 224F
→
02/29 21:22,
2年前
, 225F
02/29 21:22, 225F
→
02/29 21:22,
2年前
, 226F
02/29 21:22, 226F
→
02/29 21:22,
2年前
, 227F
02/29 21:22, 227F
→
02/29 21:22,
2年前
, 228F
02/29 21:22, 228F
→
02/29 21:22,
2年前
, 229F
02/29 21:22, 229F
→
02/29 21:22,
2年前
, 230F
02/29 21:22, 230F
→
02/29 21:22,
2年前
, 231F
02/29 21:22, 231F
推
02/29 21:50,
2年前
, 232F
02/29 21:50, 232F
→
02/29 21:51,
2年前
, 233F
02/29 21:51, 233F
→
02/29 21:52,
2年前
, 234F
02/29 21:52, 234F
→
02/29 22:06,
2年前
, 235F
02/29 22:06, 235F
→
02/29 22:06,
2年前
, 236F
02/29 22:06, 236F
推
02/29 22:33,
2年前
, 237F
02/29 22:33, 237F
→
02/29 22:34,
2年前
, 238F
02/29 22:34, 238F
推
02/29 22:47,
2年前
, 239F
02/29 22:47, 239F
→
02/29 22:47,
2年前
, 240F
02/29 22:47, 240F
推
02/29 23:02,
2年前
, 241F
02/29 23:02, 241F
推
03/01 00:34,
2年前
, 242F
03/01 00:34, 242F
推
03/01 01:13,
2年前
, 243F
03/01 01:13, 243F
→
03/01 01:13,
2年前
, 244F
03/01 01:13, 244F
→
03/01 01:18,
2年前
, 245F
03/01 01:18, 245F
→
03/01 01:18,
2年前
, 246F
03/01 01:18, 246F
→
03/01 01:18,
2年前
, 247F
03/01 01:18, 247F
→
03/01 01:18,
2年前
, 248F
03/01 01:18, 248F
推
03/01 01:45,
2年前
, 249F
03/01 01:45, 249F
→
03/01 01:45,
2年前
, 250F
03/01 01:45, 250F
推
03/01 06:58,
2年前
, 251F
03/01 06:58, 251F
噓
03/01 07:15,
2年前
, 252F
03/01 07:15, 252F
→
03/01 07:16,
2年前
, 253F
03/01 07:16, 253F
推
03/01 16:44,
2年前
, 254F
03/01 16:44, 254F
→
03/01 16:44,
2年前
, 255F
03/01 16:44, 255F
→
03/02 11:22,
2年前
, 256F
03/02 11:22, 256F
→
03/02 11:22,
2年前
, 257F
03/02 11:22, 257F
討論串 (同標題文章)
Stock 近期熱門文章
111
285
PTT職涯區 即時熱門文章