[情報] DeepSeek繞過CUDA 自己優化底層編程語言

看板Tech_Job (科技人)作者 (j)時間1天前 (2025/01/29 19:55), 1天前編輯推噓18(24673)
留言103則, 41人參與, 1小時前最新討論串1/1
https://x.com/bookwormengr/status/1883355712191123666 關於DeepSeek的優化改進 許多人沒注意到的是: DeepSeek也繞過了CUDA並使用底層編程語言PTX做優化 在輝達的PTX語言實際編譯流程中 CUDA代碼首先被編譯為PTX代碼 PTX代碼再被編譯為目標GPU架構的機器碼(SASS,Streaming ASSembler) CUDA起到了提供高級編程接口和工具鏈的作用 可簡化開發者的工作 而PTX作為中間層充當高級語言和底層硬件間的橋樑 PTX允許進行細粒度優化 如寄存器分配和Thread/Warp級別的調整 這種編譯複雜又難維護 所以其他公司用的是CUDA這種高級編程語言 V3硬體效率之所以比Meta高出10倍 關鍵在於V3針對自己需求把132個流式多處理器(SMs)中的20個修改成負責服務器間通信 而不是計算任務 變相繞過了硬體對通信速度的限制 這點是用輝達的PTX實現的,不是CUDA 雖然DeepSeek把優化做到極致 然而同行表示 DeepSeek這種直接編寫PTX代碼的做法很難移植到不同型號的GPU 針對H100優化的代碼移到其他型號上效果打折扣也可能根本不work -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.132.195 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738151752.A.22B.html

01/29 19:58, 1天前 , 1F
恐怖!DeepSeek遭以色列公司起底 可
01/29 19:58, 1F

01/29 19:58, 1天前 , 2F
生成惡意程式竊取信用卡資料
01/29 19:58, 2F

01/29 19:58, 1天前 , 3F
換 cpu 就重寫啊
01/29 19:58, 3F

01/29 19:59, 1天前 , 4F
這有點猛
01/29 19:59, 4F
※ 編輯: jackliao1990 (111.253.132.195 臺灣), 01/29/2025 20:04:44

01/29 20:05, 1天前 , 5F
ASIC 噴
01/29 20:05, 5F

01/29 20:07, 1天前 , 6F
用PTX去優化速度早不是新聞了 就是
01/29 20:07, 6F

01/29 20:07, 1天前 , 7F
維護跟編寫麻煩
01/29 20:07, 7F

01/29 20:11, 1天前 , 8F
厲害了 我的國
01/29 20:11, 8F

01/29 20:14, 1天前 , 9F
無聊 又不是首次有人用ptx
01/29 20:14, 9F

01/29 20:33, 1天前 , 10F
那做transformer 加速器有搞頭嗎
01/29 20:33, 10F

01/29 20:42, 1天前 , 11F
資料都開源了是在恐怖三小
01/29 20:42, 11F

01/29 21:18, 1天前 , 12F
翻譯:中國人礦便宜用人硬幹
01/29 21:18, 12F

01/29 21:42, 23小時前 , 13F
難移植的是後端吧,前端我怎麼記得
01/29 21:42, 13F

01/29 21:42, 23小時前 , 14F
CUDA 4早就改LLVM了
01/29 21:42, 14F

01/29 22:10, 23小時前 , 15F
nv賺,還是用它的
01/29 22:10, 15F

01/29 22:12, 23小時前 , 16F
請問 SM 用於通訊是什麼意思
01/29 22:12, 16F

01/29 22:30, 22小時前 , 17F
換個硬體就不能用很麻煩欸
01/29 22:30, 17F

01/29 22:49, 22小時前 , 18F
黃大:不講武德改我晶片?
01/29 22:49, 18F

01/29 23:15, 22小時前 , 19F
不用C語言改用ASM組合語言優化的概
01/29 23:15, 19F

01/29 23:15, 22小時前 , 20F
01/29 23:15, 20F

01/29 23:43, 21小時前 , 21F
井蛙:看吧,他們就是用手刻
01/29 23:43, 21F

01/29 23:43, 21小時前 , 22F
小量還可以啦 大量你換gpu要重寫會
01/29 23:43, 22F

01/29 23:43, 21小時前 , 23F
死人的
01/29 23:43, 23F

01/29 23:43, 21小時前 , 24F
一樓黑熊部隊嗎?這裡是科技版不是
01/29 23:43, 24F

01/29 23:43, 21小時前 , 25F
八卦版
01/29 23:43, 25F

01/29 23:57, 21小時前 , 26F
沒事 到時候真的證明抄襲chatgpt會
01/29 23:57, 26F

01/29 23:58, 21小時前 , 27F
哭的更大聲
01/29 23:58, 27F

01/30 01:14, 20小時前 , 28F
反正窮人又換不起 deepseek指定的硬
01/30 01:14, 28F

01/30 01:14, 20小時前 , 29F
體 有錢換的也是一批就買幾千台以上
01/30 01:14, 29F

01/30 01:14, 20小時前 , 30F
然後操到爛 又不會頻繁更換硬體規
01/30 01:14, 30F

01/30 01:14, 20小時前 , 31F
格接著再頻繁改寫
01/30 01:14, 31F

01/30 01:35, 19小時前 , 32F
CUDA開發方便啊 但優化還是得取捨
01/30 01:35, 32F

01/30 02:49, 18小時前 , 33F
ds繞過CUDA直接寫PTX很厲害嗎 PTX對
01/30 02:49, 33F

01/30 02:49, 18小時前 , 34F
於ds來說不就只是當成另一種語言而
01/30 02:49, 34F

01/30 02:49, 18小時前 , 35F
01/30 02:49, 35F

01/30 04:19, 17小時前 , 36F
做cuda優化的都會碰PTX吧...
01/30 04:19, 36F

01/30 06:30, 14小時前 , 37F
太吹,靠底層語言優化這種事也能拿
01/30 06:30, 37F

01/30 06:30, 14小時前 , 38F
來吹是三小,那大家都改寫C不就飛
01/30 06:30, 38F
還有 25 則推文
01/30 10:34, 10小時前 , 64F
產蒸發
01/30 10:34, 64F

01/30 10:35, 10小時前 , 65F
但如果DS真的只是拿偷來的GPT權重蒸
01/30 10:35, 65F

01/30 10:35, 10小時前 , 66F
餾來重新包裝成自己做的的話,的確
01/30 10:35, 66F

01/30 10:35, 10小時前 , 67F
是可以只幹這一票騙到補助和VC之後
01/30 10:35, 67F

01/30 10:35, 10小時前 , 68F
跑路
01/30 10:35, 68F

01/30 10:36, 10小時前 , 69F
那也可以理解為什麼開源這麼乾脆,
01/30 10:36, 69F

01/30 10:36, 10小時前 , 70F
因為根本不需要為公司的未來性著想
01/30 10:36, 70F

01/30 11:18, 10小時前 , 71F
樓上… 所謂的蒸餾不是拿權重.. 是
01/30 11:18, 71F

01/30 11:18, 10小時前 , 72F
拿GPT的輸出入當資料訓練
01/30 11:18, 72F

01/30 12:19, 9小時前 , 73F
拿CHATGPT 的輸出,這樣的費用要多?
01/30 12:19, 73F

01/30 12:52, 8小時前 , 74F
蒸餾可以想成是拿大模型的
01/30 12:52, 74F

01/30 12:52, 8小時前 , 75F
input output去背答案
01/30 12:52, 75F

01/30 13:04, 8小時前 , 76F
簡單來說 deepseek 就是開 血輪眼
01/30 13:04, 76F

01/30 13:05, 8小時前 , 77F
或是 金輪法王 用小無相神功 催動
01/30 13:05, 77F

01/30 13:05, 8小時前 , 78F
少林72絕技
01/30 13:05, 78F

01/30 13:06, 8小時前 , 79F
更正 鳩摩智
01/30 13:06, 79F

01/30 13:07, 8小時前 , 80F
補充 血輪眼是後天自己開發出來的
01/30 13:07, 80F

01/30 13:29, 7小時前 , 81F
最幹的是openai和MS吧,花了一堆錢
01/30 13:29, 81F

01/30 13:29, 7小時前 , 82F
和智慧財產權的費用,被人蒸餾去用
01/30 13:29, 82F

01/30 13:29, 7小時前 , 83F
然後再開源。
01/30 13:29, 83F

01/30 13:34, 7小時前 , 84F
一堆文學作家也抗議 openai 蒸餾他
01/30 13:34, 84F

01/30 13:34, 7小時前 , 85F
們的創作啊
01/30 13:34, 85F

01/30 14:51, 6小時前 , 86F
護城河CUDA 被繞過去?
01/30 14:51, 86F

01/30 15:03, 6小時前 , 87F
不要在說什麼繞過去了 PTX還是nv家
01/30 15:03, 87F

01/30 15:03, 6小時前 , 88F
的 到底繞過去了什麼 這篇標題就在
01/30 15:03, 88F

01/30 15:03, 6小時前 , 89F
亂寫
01/30 15:03, 89F

01/30 15:27, 5小時前 , 90F
講的好像PTX是啥跨世紀發明
01/30 15:27, 90F

01/30 15:27, 5小時前 , 91F
PTX就是N卡上面的低階語言而已
01/30 15:27, 91F

01/30 16:12, 5小時前 , 92F
所以對岸以C++語言寫出黑神話悟空
01/30 16:12, 92F

01/30 16:12, 5小時前 , 93F
你也會嗆C++又不是啥跨世紀發明?
01/30 16:12, 93F

01/30 16:12, 5小時前 , 94F
基努李維出演駭客任務 你也會嗆攝影
01/30 16:12, 94F

01/30 16:12, 5小時前 , 95F
機又不是啥跨世紀發明嗎?
01/30 16:12, 95F

01/30 16:56, 4小時前 , 96F
確實沒什麼好吹的,時間會證明
01/30 16:56, 96F

01/30 17:12, 4小時前 , 97F
跟死忠仔沒什麼好討論的 邏輯0分的
01/30 17:12, 97F

01/30 17:12, 4小時前 , 98F
論述看了會降智
01/30 17:12, 98F

01/30 18:49, 2小時前 , 99F
笑死,原來是手刻底層
01/30 18:49, 99F

01/30 19:59, 1小時前 , 100F
如果有新聞寫基努李維繞過好萊塢
01/30 19:59, 100F

01/30 19:59, 1小時前 , 101F
用攝影機拍JohnWick
01/30 19:59, 101F

01/30 19:59, 1小時前 , 102F
那對 我會開嗆
01/30 19:59, 102F

01/30 20:01, 1小時前 , 103F
這就邏輯很奇怪的講法啊w
01/30 20:01, 103F
文章代碼(AID): #1dcXT88h (Tech_Job)
文章代碼(AID): #1dcXT88h (Tech_Job)