[新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋

看板Stock (股票)作者 (pttlushen)時間9小時前 (2025/01/24 19:13), 6小時前編輯推噓319(34829700)
留言1077則, 235人參與, 1小時前最新討論串1/4 (看更多)
原文標題: Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高預算難以解釋 原文連結:https://www.jiqizhixin.com/articles/2025-01-24-2 發布時間:2025/01/24 記者署名:機器之心 原文內容: 「工程師正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。」 DeepSeek 開源大模型的陽謀,切切實實震撼著美國 AI 公司。 最先陷入恐慌的,似乎是同樣推崇開源的 Meta。 最近,有 Meta 員工在美國匿名職場社群 teamblind 上面發布了一個貼文。貼文提到,國內 AI 新創公司 DeepSeek 最近的一系列動作讓 Meta 的生成式 AI 團隊陷入了恐慌,因為在前者的低成本高歌猛進下,後者無法解釋自己的超高預算的合理性。 原文如下: 這一切始於 DeepSeek-V3,它在基準測試中就已經讓 Llama 4 落後。更糟的是那個「擁有 550 萬訓練預算的不知名中國公司」。 工程師們正在瘋狂地分析 DeepSeek,試圖從中複製任何可能的東西。這一點都不誇張。 管理階層擔心如何證明龐大的生成式 AI 組織的成本是合理的。當生成式 AI 組織中的每個「領導」的薪資都比訓練整個 DeepSeek-V3 的成本還要高,而我們有好幾十個這樣的「領導」時,他們要如何面對高層? DeepSeek-R1 讓情況變得更加可怕。雖然我不能透露機密信息,但這些很快就會公開。 這本來應該是一個以工程為重點的小型組織,但是因為很多人想要參與進來分一杯羹,人為地膨脹了組織的招聘規模,結果每個人都成了輸家。 https://i.imgur.com/hKZ6h5W.png
貼文中提到的 DeepSeek-V3 和 DeepSeek-R1 分別發佈於 2024 年 12 月 26 日和 2025 年 1 月 20 日。 其中,DeepSeek-V3 在發佈時提到,該模型在多項評測成績超越了Qwen2.5-72B 和Llama-3.1-405B 等其他開源模型,並在性能和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet 不分伯仲。 不過,更引人注目的是,這個參數量高達 671B 的大型語言模型訓練成本僅 558 萬美元。具體來說,它的預訓練過程竟然只用了 266.4 萬 H800 GPU Hours,再加上上下文擴展與後訓練的訓練,總共也只有 278.8 H800 GPU Hours。相比之下,Meta 的 Llama 3 系列模型的計算預算則多達 3930 萬 H100 GPU Hours—— 如此計算量足可訓練 DeepSeek-V3 至少 15 次。 https://i.imgur.com/mJn5POl.png
而最近發布的 DeepSeek-R1 效能更猛 —— 在數學、程式碼、自然語言推理等任務上,它的效能比肩 OpenAI o1 正式版。而且模型在發布的同時,權重同步開源。很多人驚呼,原來 DeepSeek 才是真正的 OpenAI。 UC Berkeley 教授 Alex Dimakis 則認為, DeepSeek 現在已經處於領先位置,美國公司可能需要迎頭趕上了。 https://i.imgur.com/NLhp4Nj.png
看到這裡,我們不難理解為何 Meta 的團隊會陷入恐慌。如果今年推出的 Llama 4 沒有點硬本事,他們「開源之光」的地位岌岌可危。 有人指出,其實該慌的不只 Meta,OpenAI、Google、Anthropic 又何嘗沒有受到挑戰。 「這是一件好事,我們可以即時看到公開競爭對創新的影響。」 https://i.imgur.com/gQ5fHDH.png
還有人擔心起了英偉達的股價,表示「如果 DeeSeek 的創新是真的,那麼 AI 公司是否真的需要那麼多顯示卡?」 https://i.imgur.com/HIFcTx6.png
不過,也有人質疑,DeepSeek 究竟是靠創新還是靠蒸餾 OpenAI 的模型取勝?有人回覆說,這可以從他們的發布的技術報告中找到答案。 https://i.imgur.com/HIFcTx6.png
目前,我們還無法確定貼文的真實性。 不知道 Meta 後續會如何回應,即將到來的 Llama 4 又會達到怎樣的表現。 心得/評論: Meta工程師在TeamBlind(一個匿名的職涯討論區,需要經過公司Email驗證)爆料中國的DeepSeek對內部影響很大 DeepSeek R1訓練成本550萬美元 可能比一個Meta大頭的年薪還便宜 DeepSeek 這件事情也不光是中國自己在吹噓 看了一下 Twitter/Reddit 美國AI工業界、學術界反響非常大 DeekSeek 的母公司幻方量化產出 DeepSeek 的故事也在 Twitter 廣受討論 https://i.imgur.com/NLhp4Nj.png
DeepSeek R1 開源+論文公開應該會推進一波AI界的發展 DeepSeek 後續發展值得關注一下 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.229.55.152 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737717185.A.FD4.html

01/24 19:14, 9小時前 , 1F
中又贏
01/24 19:14, 1F
DeepSeek 訓練成本低+跑起來的成本極低(硬體需求) 自己實際使用體感不覺得他贏 OpenAI 不過以成本場景來說真的是巨大的創新 美國知名的 AI 分析機構 Artificial Analysis 對 DeepSeek 的成本分析 https://i.imgur.com/0GRkj6Q.png

01/24 19:15, 9小時前 , 2F
股價該跌了吧
01/24 19:15, 2F

01/24 19:15, 9小時前 , 3F
too good to be true
01/24 19:15, 3F

01/24 19:15, 9小時前 , 4F
贏了贏了都贏了
01/24 19:15, 4F

01/24 19:16, 9小時前 , 5F
贏麻了
01/24 19:16, 5F

01/24 19:16, 9小時前 , 6F
花大錢還輸別人 是設備的問題還是人的問題
01/24 19:16, 6F

01/24 19:18, 9小時前 , 7F
ai本來就可以減少運算,達到一樣的效果
01/24 19:18, 7F

01/24 19:18, 9小時前 , 8F
真實性先打問號
01/24 19:18, 8F

01/24 19:18, 9小時前 , 9F
美國484真的滿廢的
01/24 19:18, 9F

01/24 19:19, 9小時前 , 10F
難怪只能靠制裁來贏人了
01/24 19:19, 10F

01/24 19:19, 9小時前 , 11F
美國的時代早就過去了
01/24 19:19, 11F

01/24 19:19, 9小時前 , 12F
輸了就在砍人啊
01/24 19:19, 12F

01/24 19:20, 9小時前 , 13F
deepseek有開源,也有offline,鬼故事來了
01/24 19:20, 13F

01/24 19:20, 9小時前 , 14F
因為西台灣為了管制,一堆問題不能回答,自然也不算
01/24 19:20, 14F

01/24 19:20, 9小時前 , 15F
錯誤
01/24 19:20, 15F
※ 編輯: Lushen (36.229.55.152 臺灣), 01/24/2025 19:25:15

01/24 19:22, 9小時前 , 16F
DS就開源的 輸了就算了 裁部門 丟模型
01/24 19:22, 16F

01/24 19:22, 9小時前 , 17F
硬體需求果然是吹的
01/24 19:22, 17F

01/24 19:22, 9小時前 , 18F
拿DS去從頭開始而已
01/24 19:22, 18F

01/24 19:22, 9小時前 , 19F
降本增效 遙遙領先 中國人可以贏兩次
01/24 19:22, 19F

01/24 19:22, 9小時前 , 20F
中又贏 ,遙遙領先
01/24 19:22, 20F

01/24 19:22, 9小時前 , 21F
沒空 阿祖現在忙著舔川普
01/24 19:22, 21F

01/24 19:22, 9小時前 , 22F
你就當作花錢蓋了個蚊子館又拆掉 GDP增加了 就這樣
01/24 19:22, 22F

01/24 19:22, 9小時前 , 23F
寫一大篇不知道想幹嘛
01/24 19:22, 23F

01/24 19:23, 9小時前 , 24F
美國早就輸慘了
01/24 19:23, 24F

01/24 19:23, 9小時前 , 25F
看到某族群崩潰狂酸的樣子 就覺的好笑 哈哈哈
01/24 19:23, 25F

01/24 19:24, 8小時前 , 26F
只要慶豐帝仍在位,美國就不會輸
01/24 19:24, 26F

01/24 19:24, 8小時前 , 27F
中國贏了,台積電嚇哭了,輝達沒有用了,美國七大
01/24 19:24, 27F

01/24 19:24, 8小時前 , 28F
科技股都淚奔了
01/24 19:24, 28F

01/24 19:25, 8小時前 , 29F
整理重點好嗎
01/24 19:25, 29F
網景公司創始人(美國公司;世界第一個廣泛使用的瀏覽器) Facebbok、eBay、HP 董事會成員 風投 Marc Andreessen 幫你整理了重點 https://i.imgur.com/SmUbN8M.png
Deepseek R1 is one of the most amazing and impressive breakthroughs I’ve ever seen — and as open source, a profound gift to the world. DeepSeek 翻譯: https://i.imgur.com/5zX1uf2.png

01/24 19:26, 8小時前 , 30F
亞洲專門搞詐騙的
01/24 19:26, 30F

01/24 19:26, 8小時前 , 31F
中國本來在軟體就算強的 還能加班加到爆
01/24 19:26, 31F

01/24 19:27, 8小時前 , 32F
不就魔改技術很猛?不然當年GPT3怎麼不是中國開發
01/24 19:27, 32F

01/24 19:27, 8小時前 , 33F
看智障聳動標題就知道是中吹假新聞
01/24 19:27, 33F

01/24 19:28, 8小時前 , 34F
歐美日常,幹輸人翻桌
01/24 19:28, 34F

01/24 19:29, 8小時前 , 35F
然後又一堆壯世代在那瞎講胡吹
01/24 19:29, 35F
還有 1002 則推文
還有 14 段內文
01/25 00:57, 3小時前 , 1038F
印度種姓制度你可能遇到他第二等的那種
01/25 00:57, 1038F

01/25 00:58, 3小時前 , 1039F
(EE 則是一直都有,例如最明顯的 Info. Theory 領
01/25 00:58, 1039F

01/25 00:58, 3小時前 , 1040F
域論文研究 <-> 人類通訊編碼、影音壓縮的實戰技術)
01/25 00:58, 1040F

01/25 00:58, 3小時前 , 1041F
暴發戶也是很多 你看委內瑞拉30年前和現在
01/25 00:58, 1041F

01/25 00:59, 3小時前 , 1042F
中國就Cost down專業啊..半價買到8成效能還是很吸
01/25 00:59, 1042F

01/25 01:00, 3小時前 , 1043F
引人吧
01/25 01:00, 1043F

01/25 01:00, 3小時前 , 1044F
綠蟾蜍:台灣技術先進 AI沒發展只是沒錢
01/25 01:00, 1044F

01/25 01:03, 3小時前 , 1045F
現在他們就是要你一直用A I一直要電 然後你就自己去
01/25 01:03, 1045F

01/25 01:03, 3小時前 , 1046F
找電弄碳權 自己拔樹破壞生態系 最終就是一堆人生病
01/25 01:03, 1046F

01/25 01:04, 3小時前 , 1047F
新型態的病菌正在悄悄地進入你的生活圈
01/25 01:04, 1047F

01/25 01:05, 3小時前 , 1048F
又再把 "breakthrough" 轉移概念到 "cost down" 了
01/25 01:05, 1048F

01/25 01:06, 3小時前 , 1049F
wwww wwww
01/25 01:06, 1049F

01/25 01:06, 3小時前 , 1050F

01/25 01:06, 3小時前 , 1051F
那麼重要的是多空蛙,分別有哪幾支標的能參考的呢
01/25 01:06, 1051F

01/25 01:09, 3小時前 , 1052F

01/25 01:11, 3小時前 , 1053F
這裡絕大部分的人都不討論估值問題
01/25 01:11, 1053F

01/25 01:12, 3小時前 , 1054F
這個東西有沒有發展對於企業或者是產業到底能增加多
01/25 01:12, 1054F

01/25 01:12, 3小時前 , 1055F
少估值?
01/25 01:12, 1055F

01/25 01:13, 3小時前 , 1056F
現在的A I也都還沒有開放這一塊
01/25 01:13, 1056F

01/25 01:15, 3小時前 , 1057F
https://tinyurl.com/2b5ah7gq 終於看到有人分享這
01/25 01:15, 1057F

01/25 01:15, 3小時前 , 1058F
個畫面
01/25 01:15, 1058F

01/25 01:16, 3小時前 , 1059F
照理來說他結果怎麼形成的這個過程應該都是被嚴格控
01/25 01:16, 1059F

01/25 01:16, 3小時前 , 1060F
管的
01/25 01:16, 1060F

01/25 01:18, 3小時前 , 1061F
台灣搞AI的都跑出國了吧
01/25 01:18, 1061F

01/25 01:21, 3小時前 , 1062F
ㄜ 有人的英語閱讀能力...
01/25 01:21, 1062F

01/25 01:34, 2小時前 , 1063F
集體耍廢被發現了 我要笑死
01/25 01:34, 1063F

01/25 01:44, 2小時前 , 1064F
不用那麼多顯示卡了 台積電G
01/25 01:44, 1064F

01/25 01:55, 2小時前 , 1065F
贏麻了 先存著論文 明天看
01/25 01:55, 1065F

01/25 01:55, 2小時前 , 1066F
人家程式都開源也可以接受國際驗證,這樣也叫吹?
01/25 01:55, 1066F

01/25 01:56, 2小時前 , 1067F
當初韓國吹常溫超導體,結果沒有一間實驗室可以驗證
01/25 01:56, 1067F

01/25 01:57, 2小時前 , 1068F
,這就是造假。
01/25 01:57, 1068F

01/25 01:58, 2小時前 , 1069F
印度軟體強沒錯,但是都是受雇西方國家,加上沒有資
01/25 01:58, 1069F

01/25 01:58, 2小時前 , 1070F
金,無法發展。
01/25 01:58, 1070F

01/25 02:16, 2小時前 , 1071F
笑死,有人英文看不懂,哈哈
01/25 02:16, 1071F

01/25 02:23, 2小時前 , 1072F
https://tinyurl.com/27wvjavq 沒關係有人幫你簡報
01/25 02:23, 1072F

01/25 02:38, 1小時前 , 1073F
https://tinyurl.com/2yo2b54d 他跟你說什麼是原創
01/25 02:38, 1073F

01/25 02:58, 1小時前 , 1074F
快跌好不好 最看不懂在漲什麼的東西
01/25 02:58, 1074F

01/25 03:13, 1小時前 , 1075F
https://tinyurl.com/268m4lq5 看起來好像是在教你
01/25 03:13, 1075F

01/25 03:13, 1小時前 , 1076F
開飛機 可是重點是你又不是教練你怎麼知道這個細節
01/25 03:13, 1076F

01/25 03:13, 1小時前 , 1077F
和步驟有沒有問題 這個就事實查核有趣的地方
01/25 03:13, 1077F
文章代碼(AID): #1datN1_K (Stock)
文章代碼(AID): #1datN1_K (Stock)