Re: [新聞] 曾害輝達市值一夜噴掉17兆! DeepSeek 使用率雪崩近6成慘兮兮
看板Tech_Job (科技人)作者sxy67230 (charlesgg)時間2周前 (2025/05/17 19:21)推噓6(8推 2噓 16→)留言26則, 13人參與討論串2/2 (看更多)
很多國外新聞這幾天比較專業的都是關注在DeepSeek的新論文,詳細列出了很多DeepSeek技
術細節如何省流的數據,像是KV Cache的成本還有透過軟體整合協同提升硬體的使用效率(
3F
S無疑是工藝品的等級),揭露了未來減少GPU、Disk跟CPU之間的通訊無疑是下一個軟硬整
合加速指標。
當前開源生態甚至是Gemini都已經將DeepSeek的GRPO當作模型對齊Reasoning的新範式了,
實際也是證明很好用有效又省錢,最近也是蠻多篇Paper探討Reward作為一種弱監督信號為
什麼有用又不會像DPO一樣會過度擬合訓練數據的好處。題外話,連NVIDIA 的Nemotron最新
一代也採用這樣的Post training 新範式。
然後文章沒揭露的是很多閉源模型當前為了alignment最新的時事資料或基於用戶反饋的校
正成本,實際上谷歌、Claude跟OpenAI在這塊的維護上每年都要虧損十幾億美金,這東西是
很多小企業維護不來的。
然後GPU的Infra群集這幾年也是不斷在往上增加,反而訓練的成本才是往下掉的。谷歌跟Op
enAI為了維持服務響應花費的不比訓練建構的群集還要少。
我個人認為這種文章針對性蠻強的,重點也不是在DeepSeek系統架構上的缺失,真的要我說
的話,當前DeepSeek比較大的問題是市場上具有Reasoning的LLM競品在DS開源方法以後開始
暴增,但DeepSeek沒有資源來調優當前自己的R1模型(畢竟公司多數都是研究員,可以看出
團隊會更想把精力花費在研究上)。
然後實際上普通人對Reasoning的需求就不大(吉卜力會爆紅顯示普通人對AI的期望會更像
有趣的玩具),企業有資源的會選擇自己建構,沒資源的會採用Agent方式讓多個響應比較
快的模型建構特定場景的任務替代Reasoning LLM。
差不多4醬
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.10.109.14 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1747480919.A.242.html
→
05/17 19:37,
2周前
, 1F
05/17 19:37, 1F
推
05/17 19:43,
2周前
, 2F
05/17 19:43, 2F
→
05/17 19:43,
2周前
, 3F
05/17 19:43, 3F
※ 編輯: sxy67230 (101.10.109.14 臺灣), 05/17/2025 20:08:25
→
05/17 21:45,
2周前
, 4F
05/17 21:45, 4F
→
05/17 22:10,
2周前
, 5F
05/17 22:10, 5F
→
05/17 22:10,
2周前
, 6F
05/17 22:10, 6F
→
05/17 22:14,
2周前
, 7F
05/17 22:14, 7F
→
05/17 22:14,
2周前
, 8F
05/17 22:14, 8F
推
05/17 22:42,
2周前
, 9F
05/17 22:42, 9F
噓
05/17 23:25,
2周前
, 10F
05/17 23:25, 10F
推
05/17 23:25,
2周前
, 11F
05/17 23:25, 11F
推
05/18 01:22,
2周前
, 12F
05/18 01:22, 12F
推
05/18 07:42,
2周前
, 13F
05/18 07:42, 13F
→
05/18 07:43,
2周前
, 14F
05/18 07:43, 14F
推
05/18 13:12,
2周前
, 15F
05/18 13:12, 15F
→
05/18 13:12,
2周前
, 16F
05/18 13:12, 16F
→
05/18 13:12,
2周前
, 17F
05/18 13:12, 17F
噓
05/18 16:50,
2周前
, 18F
05/18 16:50, 18F
→
05/18 16:50,
2周前
, 19F
05/18 16:50, 19F
文組網軍有夠可憐的,談技術不懂技術難怪年薪不到百萬:)
※ 編輯: sxy67230 (101.10.109.14 臺灣), 05/18/2025 18:06:11
※ 編輯: sxy67230 (101.10.109.14 臺灣), 05/18/2025 18:07:48
推
05/18 21:59,
2周前
, 20F
05/18 21:59, 20F
→
05/18 22:00,
2周前
, 21F
05/18 22:00, 21F
推
05/19 19:12,
2周前
, 22F
05/19 19:12, 22F
→
05/19 19:12,
2周前
, 23F
05/19 19:12, 23F
→
05/19 19:15,
2周前
, 24F
05/19 19:15, 24F
→
05/19 19:15,
2周前
, 25F
05/19 19:15, 25F
→
05/19 19:15,
2周前
, 26F
05/19 19:15, 26F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
42
153
Tech_Job 近期熱門文章
PTT職涯區 即時熱門文章