Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高
看板Stock (股票)作者LDPC (Channel Coding)時間23小時前 (2025/01/26 13:16)推噓29(31推 2噓 51→)留言84則, 40人參與討論串4/5 (看更多)
目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本
最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o
情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o
去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有
多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型
這傢伙精髓站就是在gpt-4模型巨人的肩膀上
資料的quality會影響大模型 而資料可以透過開源高質量模型去萃取
如果再套用COT 這些都可以繼續進化 paper有些細節像是數據集這類如何精煉
反而可能會是一個重要一環 但大家都會藏這類細節 @@/
2025現在大家都殺到LLM Agent去了 LLM刷模型任務分數熱潮有點下降
大部分都跑去搞LLM決策部分 和COT (思考鏈) 多步驟分析任務
像是waymo自駕端對端的決策都搞了一個EMMA 用Gemini 去往上蓋
(這時候自駕公司有自己的很強的LLM就很有用了 隨手不負責預測亞麻zoox會拿自家
LLM或anthropic來搞end-2-end多模態)
然後LLM Agent如果要放在機器人和自駕
一定得on-device 因為雲端延遲太慢 風險高 所以1B~4B這陣子的on-device模型
能力也在不斷突破 所以on-device LLM不太會在是AI-PC 除非是屬於私密資料等應用場景
而edge/on-devcie AI 可能突破點會在機器人
自駕的趨勢之後會跟LLM走上同陣線 在某個時間點 等閉源LLM開始時 就是差不多AI模型
的盡頭開始產業化 也許端對端LLM決策 可以強化視覺上標籤數據不足 (不確定這點
但直覺上認為 思考練LLM Agent可以降低場景車用數據量..QQ 基於模型泛化能力)
這會給其他車廠追上特斯拉的機會 特斯拉自身的LLM可來自grok 而3D基礎模型
foundation model 像是李飛飛的空間模型 有一定機會能幫助自駕 可以直接融合LLM
產生端對端多模態 而李飛飛又跟狗家走很近 所以想單賭個股 可以賭賭看狗家
--
順帶一提 LLM Agent在寫code部分越來越噁心了 強烈建議不要去當碼農..QQ
機器人題材就是跟LLM Agent有關 只要注意誰能做LLM Agent軟硬體部分就好
狗家的現在佈局就是拿Gemini去瘋狂蓋各種下游任務: 自駕 AR眼鏡 搜尋 多模態
語音 翻譯 Youtube 廣告 消費 地圖 商家產品 這些多樣性因為自家公司的資料特殊性
現在有點佔上風
股點就是買Big 7 + 台積 @@/
※ 引述《iaminnocent (人生無常)》之銘言:
: 剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家
: 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1
: ChatGPT-O1:
: https://i.imgur.com/T2jN9hZ.jpeg
: Deepseek-R1:
: https://i.imgur.com/IitIbR0.jpeg
: 我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是
: 不知道在說甚麼
: ChatGPT 在最後有點出散文標題,內容也比較有切合標題
: 這應該可以當作兩者的能力小比拼吧?
: --------
: 補:
: 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好
: https://i.imgur.com/7DN4Dz9.jpeg
: 這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣)
: ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html
: 推 s213092921 : 重點是Deepseek背後的成本只有ChatGPT的20分之1 01/26 10:34
: → iaminnocent : 確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣 01/26 10:41
: → iaminnocent : 布O3-mini將免費了 01/26 10:41
: → TaiwanUp : 如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感 01/26 10:44
: 推 breathair : 只代表對於演算法大科技也要花大錢挖人 01/26 10:45
: → breathair : 來搞了,算力的投資不會減少,不然等你 01/26 10:45
: → breathair : 演算法追上,算力又落後了怎辦? 01/26 10:45
: 推 strlen : r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑 01/26 10:55
: → TaiwanUp : O1比較像沒有人生經驗學生寫 可以再tune一段小故事 01/26 10:55
: → strlen : 但deepseek重點在它開源 還公開論文 好耶 作功德 誰 01/26 10:55
: → strlen : 不愛?載回來用免錢 改免錢的 中國人要作功德當然好 01/26 10:56
: → TaiwanUp : R1就每段都小故事 恐怕就是直接從劇本拼湊出來的 01/26 10:56
: 推 mamorui : pretrain的成本占總成本7-9成,R1是只管posttrain 01/26 10:58
: → mamorui : ,R1高成本會嚇死人。 01/26 10:58
: 推 mamorui : 然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也 01/26 11:03
: → mamorui : 會錯的跟其他一模一樣, 如果pretrain全部自己的資 01/26 11:03
: → mamorui : 料怎麼會錯 01/26 11:03
: 推 s213092921 : http://i.imgur.com/NWWWmUD.jpg
01/26 11:04
: 推 mamorui : 簡單說,成本漂亮那就不要有那麼多別的模型的影子 01/26 11:07
: → mamorui : 。 01/26 11:07
: → iaminnocent : 其實樓上有點出問題,pretrain的預標數據集才是最 01/26 11:08
: → iaminnocent : 貴的,這些可能都是美國公司花大錢去做的 01/26 11:08
: → iaminnocent : pretrain資料集需要人工介入標記,這個東西貴鬆鬆 01/26 11:08
: 推 mamorui : 我沒有說不能吹能力,但成本就誇張了,我想看的是D 01/26 11:11
: → mamorui : eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這 01/26 11:11
: → mamorui : 麼多成本。 01/26 11:11
: 推 mamorui : 我沒看那麼多文章,如果有人找到paper解釋DeepSeek 01/26 11:16
: → mamorui : v3為什麼strawberry的r幾個錯的跟其他模型一模一 01/26 11:16
: → mamorui : 樣是理所當然,而且預訓練是很純的資料(這家公司 01/26 11:16
: → mamorui : 自己收集的資料、沒有借助其他LLM產生好資料 =》 01/26 11:16
: → mamorui : 準備好資料是預訓練之常識) 01/26 11:16
: 推 y800122155 : 從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊 01/26 11:16
: → y800122155 : 在前人的成果? 現在DS發表用RL訓練不就只是換一種疊 01/26 11:16
: → y800122155 : 法? 自己要發布論文發布技術本來就是願意給別人用讓 01/26 11:16
: → y800122155 : 產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢 01/26 11:16
: → y800122155 : 不公平有啥意義? 01/26 11:16
: → mamorui : 做到上述兩項,那我就真的給這家鼓掌 01/26 11:16
: 推 woker : 中國出產品走向是中低成本市場。沒有一定要當頂尖 01/26 11:17
: → woker : 但cp值可能不錯 01/26 11:17
: → icexice : deepseek的回答真的好王家衛XD 01/26 11:17
: → TaiwanUp : V3的排名還是差4o(11月版)較遠 跟4o(五月版)較近 01/26 11:19
: 推 mamorui : 沒說他們沒花錢,重點前人pretrain花多少,嘲笑前 01/26 11:19
: → mamorui : 人砸大錢,DeepSeek應該pretrain的資料總該是全部 01/26 11:19
: → mamorui : 都自己的、沒有用其他LLM生成的,有人要背書嗎? 01/26 11:19
: → TaiwanUp : 中低成本4o再開放一點權限給免費版就有了 01/26 11:20
: → mamorui : 有人要幫DeepSeek背書pretrain的資料準備嗎 01/26 11:20
: 推 y800122155 : 所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就 01/26 11:24
: → y800122155 : 是如果別人能重現 DS R1,在算力巨大差異下可以直接 01/26 11:24
: → y800122155 : 加碼做到 R10、R100、R1000,到時DS花的500萬也是一 01/26 11:24
: → y800122155 : 樣丟到水裡 01/26 11:24
: 推 mamorui : 我們看的是總成本,只要找到證明背書pretrain,雖 01/26 11:24
: → mamorui : 然正確率差一點,這成本就真的是今年最神的,很簡 01/26 11:24
: → mamorui : 單。 01/26 11:24
: → strlen : https://tinyurl.com/3dfs2j8k 楊立昆都說話了 這就 01/26 11:24
: → strlen : 站在前人肩膀上發展 但也開源沒有藏 所以很棒 稱讚 01/26 11:25
: → strlen : 成本怎麼樣無所謂啦 他都要作功德了 一塊成本都是賺 01/26 11:25
: → strlen : 阿祖就是號召大家AI都來作功德 變成今天這樣很合理 01/26 11:26
: 推 mamorui : 是啊 我對於佛心沒意見 XD 01/26 11:26
: → TaiwanUp : DS的預訓練要用上微信用戶聊天訊息 可能會比較霸氣 01/26 11:26
: → strlen : 誰不曉得中國最厲害的就是魔改別人的東西? 01/26 11:26
: → strlen : 但deepseek算有良心了公開魔改方法 過去一堆垃圾 偷 01/26 11:27
: → mamorui : 學術界是齊心討論,可沒酸前人 01/26 11:27
: → strlen : 人家的 營利就算了 還反告別人 嘻嘻 01/26 11:27
: → mamorui : 我都直接拿strawberry看是不是資料同源 XDDD 01/26 11:28
: → strlen : 老實講 你有GPU有伺服 抓r1下來自己調一調開API 它 01/26 11:28
: → strlen : 也不能拿你怎樣 這樣還不好? 01/26 11:28
: → jatj : 好啦 1/20 1/20 阿就比較爛啊 阿就買不到算力啊 01/26 11:29
: 推 mamorui : API就可以串接了 繼續拿資料才是目的 01/26 11:29
: 推 mamorui : 開源的原因很好懂 我之前整合資料庫 免費的最popul 01/26 11:31
: → mamorui : ar的Postgres會支援 其他免費的就再說 01/26 11:31
: → mamorui : 所以知道為什麼要開源碼 市占是真的很重要 01/26 11:32
: → mamorui : 因為公司可以決定支援的順序 01/26 11:32
: 推 wangm4a1 : 站在巨人肩膀上 科技正常現象 01/26 11:33
: 推 Enzofulgura : 看完覺得Deepseek比較懂得王家衛XD 01/26 11:39
: → iaminnocent : 但是文章內容跟標題完全沒關系XDD 01/26 11:42
: → s860703 : 講這麼多 美股續漲 01/26 11:49
: 推 tradeent : DeepSeek寫得比較好 01/26 11:50
: → tradeent : http://i.imgur.com/c9C1WzU.jpg
01/26 11:50
: 推 Liberl : 股癌的台股美股電報群已經有很多大神分析過了 01/26 11:53
: → Liberl : 去那邊看就好了 01/26 11:54
: → Liberl : 或是Miula的臉書也有討論 01/26 11:54
: 推 toulio81 : 中國公司很多的低成本都是假象,要不就是用品質實 01/26 11:54
: → toulio81 : 際上無法穩定達標的產品充數,要不就是政府補貼導 01/26 11:54
: → toulio81 : 致的低成本,歐美無法學後者,而前者更是一條死路 01/26 11:54
: 推 tradeent : 請問樓上怎麼加電報群 01/26 11:55
: → iaminnocent : tradent大,因為我是限定用O1跟R1這兩個來進行,如 01/26 11:56
: → iaminnocent : 果用4O跟V3,也會有不一樣結果,這蠻特別的,我也 01/26 11:56
: → iaminnocent : 覺得4O寫的比O1好 01/26 11:56
: → iaminnocent : 以下是4O寫的,我反而覺得寫得比O1還好 01/26 11:59
: → iaminnocent : https://i.imgur.com/7DN4Dz9.jpeg
01/26 11:59
: → iaminnocent : 最後那句「真好,人生何處不相逢」有震驚到我,這 01/26 11:59
: → iaminnocent : 個還是在O1之前我先用4O寫的 01/26 11:59
: → iaminnocent : 但因為我想說要比較兩個最強的,就以O1比R1,但是 01/26 12:00
: → iaminnocent : 我覺得寫散文反而4O好於O1 01/26 12:00
: 推 mamorui : o1是推理型,以r1為例,我問r1不清楚的先問v3、再 01/26 12:01
: → mamorui : 啟動r1,r1就突然知道了 01/26 12:01
: ※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48
: → iaminnocent : 得到結論,王家衛的文字用理論是不行的XD要用感情 01/26 12:04
: 推 mamorui : 如果是AGI,就不會有能力差異,表現如何是穩定的, 01/26 12:05
: → mamorui : 雖然還沒有AGI。 現在看到LLM會出並存的系列,就當 01/26 12:05
: → mamorui : 做遊戲角色各種族差異,要想好先用誰再用誰,AI的 01/26 12:05
: → mamorui : 思考跟記憶是仿人腦(非電腦),所以可以交錯問。 01/26 12:05
: 推 mamorui : 像r1就是一定要推理,關掉才能切到V3 01/26 12:06
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737868561.A.963.html
推
01/26 13:21,
22小時前
, 1F
01/26 13:21, 1F
→
01/26 13:23,
22小時前
, 2F
01/26 13:23, 2F
→
01/26 13:24,
22小時前
, 3F
01/26 13:24, 3F
感覺都可以賭啊 狗家可以問TQQQ王 TSM還得看川普的心情吧@@?
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 13:36:02
推
01/26 13:35,
22小時前
, 4F
01/26 13:35, 4F
→
01/26 13:38,
22小時前
, 5F
01/26 13:38, 5F
→
01/26 13:38,
22小時前
, 6F
01/26 13:38, 6F
→
01/26 13:38,
22小時前
, 7F
01/26 13:38, 7F
→
01/26 13:38,
22小時前
, 8F
01/26 13:38, 8F
QQ BIG5會用裁員降數據中心成本(扣掉老黃果家) 所以帳面上還是很好看
據說接下來一個月內 麻家軟家會開始砍人 阿祖是用intense of year 來捲走人力
→
01/26 13:39,
22小時前
, 9F
01/26 13:39, 9F
推
01/26 13:44,
22小時前
, 10F
01/26 13:44, 10F
→
01/26 13:44,
22小時前
, 11F
01/26 13:44, 11F
→
01/26 13:44,
22小時前
, 12F
01/26 13:44, 12F
→
01/26 13:46,
22小時前
, 13F
01/26 13:46, 13F
噓
01/26 13:47,
22小時前
, 14F
01/26 13:47, 14F
推
01/26 13:49,
22小時前
, 15F
01/26 13:49, 15F
推
01/26 13:49,
22小時前
, 16F
01/26 13:49, 16F
推
01/26 13:57,
22小時前
, 17F
01/26 13:57, 17F
※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 14:12:37
推
01/26 14:12,
22小時前
, 18F
01/26 14:12, 18F
推
01/26 14:14,
22小時前
, 19F
01/26 14:14, 19F
推
01/26 14:23,
21小時前
, 20F
01/26 14:23, 20F
→
01/26 14:23,
21小時前
, 21F
01/26 14:23, 21F
→
01/26 14:23,
21小時前
, 22F
01/26 14:23, 22F
→
01/26 14:23,
21小時前
, 23F
01/26 14:23, 23F
→
01/26 14:25,
21小時前
, 24F
01/26 14:25, 24F
推
01/26 14:27,
21小時前
, 25F
01/26 14:27, 25F
→
01/26 14:27,
21小時前
, 26F
01/26 14:27, 26F
→
01/26 14:27,
21小時前
, 27F
01/26 14:27, 27F
→
01/26 14:28,
21小時前
, 28F
01/26 14:28, 28F
→
01/26 14:28,
21小時前
, 29F
01/26 14:28, 29F
→
01/26 14:28,
21小時前
, 30F
01/26 14:28, 30F
→
01/26 14:28,
21小時前
, 31F
01/26 14:28, 31F
→
01/26 14:29,
21小時前
, 32F
01/26 14:29, 32F
→
01/26 14:29,
21小時前
, 33F
01/26 14:29, 33F
→
01/26 14:30,
21小時前
, 34F
01/26 14:30, 34F
推
01/26 14:31,
21小時前
, 35F
01/26 14:31, 35F
推
01/26 14:33,
21小時前
, 36F
01/26 14:33, 36F
推
01/26 14:43,
21小時前
, 37F
01/26 14:43, 37F
→
01/26 14:43,
21小時前
, 38F
01/26 14:43, 38F
→
01/26 14:44,
21小時前
, 39F
01/26 14:44, 39F
推
01/26 15:06,
21小時前
, 40F
01/26 15:06, 40F
推
01/26 15:15,
21小時前
, 41F
01/26 15:15, 41F
推
01/26 15:25,
20小時前
, 42F
01/26 15:25, 42F
→
01/26 15:25,
20小時前
, 43F
01/26 15:25, 43F
→
01/26 15:26,
20小時前
, 44F
01/26 15:26, 44F
推
01/26 15:47,
20小時前
, 45F
01/26 15:47, 45F
→
01/26 15:48,
20小時前
, 46F
01/26 15:48, 46F
推
01/26 15:56,
20小時前
, 47F
01/26 15:56, 47F
→
01/26 15:56,
20小時前
, 48F
01/26 15:56, 48F
→
01/26 15:57,
20小時前
, 49F
01/26 15:57, 49F
→
01/26 15:58,
20小時前
, 50F
01/26 15:58, 50F
→
01/26 15:58,
20小時前
, 51F
01/26 15:58, 51F
推
01/26 16:00,
20小時前
, 52F
01/26 16:00, 52F
→
01/26 16:06,
20小時前
, 53F
01/26 16:06, 53F
→
01/26 16:07,
20小時前
, 54F
01/26 16:07, 54F
推
01/26 16:22,
19小時前
, 55F
01/26 16:22, 55F
→
01/26 16:46,
19小時前
, 56F
01/26 16:46, 56F
噓
01/26 16:52,
19小時前
, 57F
01/26 16:52, 57F
→
01/26 17:27,
18小時前
, 58F
01/26 17:27, 58F
推
01/26 17:34,
18小時前
, 59F
01/26 17:34, 59F
→
01/26 17:34,
18小時前
, 60F
01/26 17:34, 60F
推
01/26 17:41,
18小時前
, 61F
01/26 17:41, 61F
推
01/26 17:46,
18小時前
, 62F
01/26 17:46, 62F
→
01/26 17:47,
18小時前
, 63F
01/26 17:47, 63F
推
01/26 18:04,
18小時前
, 64F
01/26 18:04, 64F
→
01/26 18:06,
18小時前
, 65F
01/26 18:06, 65F
→
01/26 18:09,
18小時前
, 66F
01/26 18:09, 66F
→
01/26 18:09,
18小時前
, 67F
01/26 18:09, 67F
→
01/26 18:10,
18小時前
, 68F
01/26 18:10, 68F
推
01/26 18:16,
18小時前
, 69F
01/26 18:16, 69F
→
01/26 18:21,
17小時前
, 70F
01/26 18:21, 70F
→
01/26 18:21,
17小時前
, 71F
01/26 18:21, 71F
→
01/26 18:21,
17小時前
, 72F
01/26 18:21, 72F
推
01/26 18:25,
17小時前
, 73F
01/26 18:25, 73F
推
01/26 18:26,
17小時前
, 74F
01/26 18:26, 74F
→
01/26 18:26,
17小時前
, 75F
01/26 18:26, 75F
→
01/26 18:27,
17小時前
, 76F
01/26 18:27, 76F
→
01/26 18:27,
17小時前
, 77F
01/26 18:27, 77F
→
01/26 19:01,
17小時前
, 78F
01/26 19:01, 78F
推
01/26 19:05,
17小時前
, 79F
01/26 19:05, 79F
→
01/26 19:05,
17小時前
, 80F
01/26 19:05, 80F
推
01/26 19:07,
17小時前
, 81F
01/26 19:07, 81F
推
01/26 22:27,
13小時前
, 82F
01/26 22:27, 82F
推
01/27 10:27,
1小時前
, 83F
01/27 10:27, 83F
→
01/27 10:27,
1小時前
, 84F
01/27 10:27, 84F
討論串 (同標題文章)
以下文章回應了本文:
完整討論串 (本文為第 4 之 5 篇):
Stock 近期熱門文章
PTT職涯區 即時熱門文章