Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高已刪文

看板Stock (股票)作者 (嘴砲無雙)時間1天前 (2025/01/26 14:35), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串5/5 (看更多)
※ 引述《LDPC (Channel Coding)》之銘言: : 標題: Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高 : 時間: Sun Jan 26 13:15:59 2025 : : 目前就在旁邊吃瓜觀望@@ 成本這種本就是用開源後的可以拿已有的模型去當輔助下降成本 : : 最常見作法就是拿gpt-4o當judge或者當數據產生器 去精煉數據集 如果再沒有gpt-4o : 情況下 很多高質量資料去產生就花很錢 最經點例子就是LLaVa 一個博士班學生 用gpt-4o : 去產生高質量多模態數158k 極小量數據集 用8xA100 1天時間 就幹爆之前所有 : 多模態大模型 能打贏saleforce的一間大公司堆出來的多模態BLIP-2模型 : 這傢伙精髓站就是在gpt-4模型巨人的肩膀上 : : 資料的quality會影響大模型 而資料可以透過開源高質量模型去萃取 : 如果再套用COT 這些都可以繼續進化 paper有些細節像是數據集這類如何精煉 : 反而可能會是一個重要一環 但大家都會藏這類細節 @@/ : : 2025現在大家都殺到LLM Agent去了 LLM刷模型任務分數熱潮有點下降 : 大部分都跑去搞LLM決策部分 和COT (思考鏈) 多步驟分析任務 : 像是waymo自駕端對端的決策都搞了一個EMMA 用Gemini 去往上蓋 : (這時候自駕公司有自己的很強的LLM就很有用了 隨手不負責預測亞麻zoox會拿自家 : LLM或anthropic來搞end-2-end多模態) : : 然後LLM Agent如果要放在機器人和自駕 : 一定得on-device 因為雲端延遲太慢 風險高 所以1B~4B這陣子的on-device模型 : 能力也在不斷突破 所以on-device LLM不太會在是AI-PC 除非是屬於私密資料等應用場景 : 而edge/on-devcie AI 可能突破點會在機器人 : : 自駕的趨勢之後會跟LLM走上同陣線 在某個時間點 等閉源LLM開始時 就是差不多AI模型 : 的盡頭開始產業化 也許端對端LLM決策 可以強化視覺上標籤數據不足 (不確定這點 : 但直覺上認為 思考練LLM Agent可以降低場景車用數據量..QQ 基於模型泛化能力) : 這會給其他車廠追上特斯拉的機會 特斯拉自身的LLM可來自grok 而3D基礎模型 : foundation model 像是李飛飛的空間模型 有一定機會能幫助自駕 可以直接融合LLM : 產生端對端多模態 而李飛飛又跟狗家走很近 所以想單賭個股 可以賭賭看狗家 : : : -- : 順帶一提 LLM Agent在寫code部分越來越噁心了 強烈建議不要去當碼農..QQ : 機器人題材就是跟LLM Agent有關 只要注意誰能做LLM Agent軟硬體部分就好 : : 狗家的現在佈局就是拿Gemini去瘋狂蓋各種下游任務: 自駕 AR眼鏡 搜尋 多模態 : 語音 翻譯 Youtube 廣告 消費 地圖 商家產品 這些多樣性因為自家公司的資料特殊性 : 現在有點佔上風 : : 股點就是買Big 7 + 台積 @@/ 我一直不知道要怎麼參與討論這個話題, 因為我的專業是做電腦架構跟系統設計, 我不是AI 算法的專家, 這塊我不熟, 我不能給予任何評論 但是至於要討論未來AI的應用, 我一直都很看好谷歌, 我之前有幾篇文章一直提起谷歌在AI應用上的優勢, 但是說多了就是又一篇引戰文, 還被被轉到XX電報群嘲笑, 所以之後我也就盡量少講 谷歌目前跟未來, 在各種AI應用領域都是在第一或第二的領先地位, 而且很多第一的領先是以80%, 90%市佔率的領先地位, 1. Robotaxi: 第一 已經盈利兩三年了, 今年準備在東京開跑 https://www.ptt.cc/bbs/Stock/M.1733906249.A.44D.html 2. 量子電腦: 第一 https://www.ptt.cc/bbs/Stock/M.1734503095.A.42B.html 3. 手機: 市佔第一, 安卓市佔80%+, 安卓早就已經是AI 手機了, 安卓手機全都已經內建Gemini 跟其他廠商的AI 軟體 辦公室軟體 Google Workspace, 免費, 市佔不輸微軟office, 也都開始加入AI 應用, 語音 翻譯 Youtube 廣告 消費 地圖 Chrome ... 不再多說了, 再說下去又要戰不完了 谷歌現在唯一的問題是反壟斷拆分的威脅, 但是我覺得川普不會拆分谷歌, 另外, 谷歌本益比26, 營收也繼續大成長, 不論是否拆分, 這樣的本益比都是太低, 如果是本益比40 or 50, 你可以說拆分會影響股價 : : : ※ 引述《iaminnocent (人生無常)》之銘言: : : 剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家 : : 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1 : : ChatGPT-O1: : : https://i.imgur.com/T2jN9hZ.jpeg
: : Deepseek-R1: : : https://i.imgur.com/IitIbR0.jpeg
: : 我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是 : : 不知道在說甚麼 : : ChatGPT 在最後有點出散文標題,內容也比較有切合標題 : : 這應該可以當作兩者的能力小比拼吧? : : -------- : : 補: : : 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好 : : https://i.imgur.com/7DN4Dz9.jpeg
: : 這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好 : : -- : : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣) : : ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html : : 推 s213092921 : 重點是Deepseek背後的成本只有ChatGPT的20分之1 01/26 10:34 : : → iaminnocent : 確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣 01/26 10:41 : : → iaminnocent : 布O3-mini將免費了 01/26 10:41 : : → TaiwanUp : 如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感 01/26 10:44 : : 推 breathair : 只代表對於演算法大科技也要花大錢挖人 01/26 10:45 : : → breathair : 來搞了,算力的投資不會減少,不然等你 01/26 10:45 : : → breathair : 演算法追上,算力又落後了怎辦? 01/26 10:45 : : 推 strlen : r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑 01/26 10:55 : : → TaiwanUp : O1比較像沒有人生經驗學生寫 可以再tune一段小故事 01/26 10:55 : : → strlen : 但deepseek重點在它開源 還公開論文 好耶 作功德 誰 01/26 10:55 : : → strlen : 不愛?載回來用免錢 改免錢的 中國人要作功德當然好 01/26 10:56 : : → TaiwanUp : R1就每段都小故事 恐怕就是直接從劇本拼湊出來的 01/26 10:56 : : 推 mamorui : pretrain的成本占總成本7-9成,R1是只管posttrain 01/26 10:58 : : → mamorui : ,R1高成本會嚇死人。 01/26 10:58 : : 推 mamorui : 然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也 01/26 11:03 : : → mamorui : 會錯的跟其他一模一樣, 如果pretrain全部自己的資 01/26 11:03 : : → mamorui : 料怎麼會錯 01/26 11:03 : : 推 s213092921 : http://i.imgur.com/NWWWmUD.jpg
01/26 11:04 : : 推 mamorui : 簡單說,成本漂亮那就不要有那麼多別的模型的影子 01/26 11:07 : : → mamorui : 。 01/26 11:07 : : → iaminnocent : 其實樓上有點出問題,pretrain的預標數據集才是最 01/26 11:08 : : → iaminnocent : 貴的,這些可能都是美國公司花大錢去做的 01/26 11:08 : : → iaminnocent : pretrain資料集需要人工介入標記,這個東西貴鬆鬆 01/26 11:08 : : 推 mamorui : 我沒有說不能吹能力,但成本就誇張了,我想看的是D 01/26 11:11 : : → mamorui : eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這 01/26 11:11 : : → mamorui : 麼多成本。 01/26 11:11 : : 推 mamorui : 我沒看那麼多文章,如果有人找到paper解釋DeepSeek 01/26 11:16 : : → mamorui : v3為什麼strawberry的r幾個錯的跟其他模型一模一 01/26 11:16 : : → mamorui : 樣是理所當然,而且預訓練是很純的資料(這家公司 01/26 11:16 : : → mamorui : 自己收集的資料、沒有借助其他LLM產生好資料 =》 01/26 11:16 : : → mamorui : 準備好資料是預訓練之常識) 01/26 11:16 : : 推 y800122155 : 從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊 01/26 11:16 : : → y800122155 : 在前人的成果? 現在DS發表用RL訓練不就只是換一種疊 01/26 11:16 : : → y800122155 : 法? 自己要發布論文發布技術本來就是願意給別人用讓 01/26 11:16 : : → y800122155 : 產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢 01/26 11:16 : : → y800122155 : 不公平有啥意義? 01/26 11:16 : : → mamorui : 做到上述兩項,那我就真的給這家鼓掌 01/26 11:16 : : 推 woker : 中國出產品走向是中低成本市場。沒有一定要當頂尖 01/26 11:17 : : → woker : 但cp值可能不錯 01/26 11:17 : : → icexice : deepseek的回答真的好王家衛XD 01/26 11:17 : : → TaiwanUp : V3的排名還是差4o(11月版)較遠 跟4o(五月版)較近 01/26 11:19 : : 推 mamorui : 沒說他們沒花錢,重點前人pretrain花多少,嘲笑前 01/26 11:19 : : → mamorui : 人砸大錢,DeepSeek應該pretrain的資料總該是全部 01/26 11:19 : : → mamorui : 都自己的、沒有用其他LLM生成的,有人要背書嗎? 01/26 11:19 : : → TaiwanUp : 中低成本4o再開放一點權限給免費版就有了 01/26 11:20 : : → mamorui : 有人要幫DeepSeek背書pretrain的資料準備嗎 01/26 11:20 : : 推 y800122155 : 所以是DS的工程師還是老闆自己出來"嘲笑"嗎? 現實就 01/26 11:24 : : → y800122155 : 是如果別人能重現 DS R1,在算力巨大差異下可以直接 01/26 11:24 : : → y800122155 : 加碼做到 R10、R100、R1000,到時DS花的500萬也是一 01/26 11:24 : : → y800122155 : 樣丟到水裡 01/26 11:24 : : 推 mamorui : 我們看的是總成本,只要找到證明背書pretrain,雖 01/26 11:24 : : → mamorui : 然正確率差一點,這成本就真的是今年最神的,很簡 01/26 11:24 : : → mamorui : 單。 01/26 11:24 : : → strlen : https://tinyurl.com/3dfs2j8k 楊立昆都說話了 這就 01/26 11:24 : : → strlen : 站在前人肩膀上發展 但也開源沒有藏 所以很棒 稱讚 01/26 11:25 : : → strlen : 成本怎麼樣無所謂啦 他都要作功德了 一塊成本都是賺 01/26 11:25 : : → strlen : 阿祖就是號召大家AI都來作功德 變成今天這樣很合理 01/26 11:26 : : 推 mamorui : 是啊 我對於佛心沒意見 XD 01/26 11:26 : : → TaiwanUp : DS的預訓練要用上微信用戶聊天訊息 可能會比較霸氣 01/26 11:26 : : → strlen : 誰不曉得中國最厲害的就是魔改別人的東西? 01/26 11:26 : : → strlen : 但deepseek算有良心了公開魔改方法 過去一堆垃圾 偷 01/26 11:27 : : → mamorui : 學術界是齊心討論,可沒酸前人 01/26 11:27 : : → strlen : 人家的 營利就算了 還反告別人 嘻嘻 01/26 11:27 : : → mamorui : 我都直接拿strawberry看是不是資料同源 XDDD 01/26 11:28 : : → strlen : 老實講 你有GPU有伺服 抓r1下來自己調一調開API 它 01/26 11:28 : : → strlen : 也不能拿你怎樣 這樣還不好? 01/26 11:28 : : → jatj : 好啦 1/20 1/20 阿就比較爛啊 阿就買不到算力啊 01/26 11:29 : : 推 mamorui : API就可以串接了 繼續拿資料才是目的 01/26 11:29 : : 推 mamorui : 開源的原因很好懂 我之前整合資料庫 免費的最popul 01/26 11:31 : : → mamorui : ar的Postgres會支援 其他免費的就再說 01/26 11:31 : : → mamorui : 所以知道為什麼要開源碼 市占是真的很重要 01/26 11:32 : : → mamorui : 因為公司可以決定支援的順序 01/26 11:32 : : 推 wangm4a1 : 站在巨人肩膀上 科技正常現象 01/26 11:33 : : 推 Enzofulgura : 看完覺得Deepseek比較懂得王家衛XD 01/26 11:39 : : → iaminnocent : 但是文章內容跟標題完全沒關系XDD 01/26 11:42 : : → s860703 : 講這麼多 美股續漲 01/26 11:49 : : 推 tradeent : DeepSeek寫得比較好 01/26 11:50 : : → tradeent : http://i.imgur.com/c9C1WzU.jpg
01/26 11:50 : : 推 Liberl : 股癌的台股美股電報群已經有很多大神分析過了 01/26 11:53 : : → Liberl : 去那邊看就好了 01/26 11:54 : : → Liberl : 或是Miula的臉書也有討論 01/26 11:54 : : 推 toulio81 : 中國公司很多的低成本都是假象,要不就是用品質實 01/26 11:54 : : → toulio81 : 際上無法穩定達標的產品充數,要不就是政府補貼導 01/26 11:54 : : → toulio81 : 致的低成本,歐美無法學後者,而前者更是一條死路 01/26 11:54 : : 推 tradeent : 請問樓上怎麼加電報群 01/26 11:55 : : → iaminnocent : tradent大,因為我是限定用O1跟R1這兩個來進行,如 01/26 11:56 : : → iaminnocent : 果用4O跟V3,也會有不一樣結果,這蠻特別的,我也 01/26 11:56 : : → iaminnocent : 覺得4O寫的比O1好 01/26 11:56 : : → iaminnocent : 以下是4O寫的,我反而覺得寫得比O1還好 01/26 11:59 : : → iaminnocent : https://i.imgur.com/7DN4Dz9.jpeg
01/26 11:59 : : → iaminnocent : 最後那句「真好,人生何處不相逢」有震驚到我,這 01/26 11:59 : : → iaminnocent : 個還是在O1之前我先用4O寫的 01/26 11:59 : : → iaminnocent : 但因為我想說要比較兩個最強的,就以O1比R1,但是 01/26 12:00 : : → iaminnocent : 我覺得寫散文反而4O好於O1 01/26 12:00 : : 推 mamorui : o1是推理型,以r1為例,我問r1不清楚的先問v3、再 01/26 12:01 : : → mamorui : 啟動r1,r1就突然知道了 01/26 12:01 : : ※ 編輯: iaminnocent (125.228.63.38 臺灣), 01/26/2025 12:02:48 : : → iaminnocent : 得到結論,王家衛的文字用理論是不行的XD要用感情 01/26 12:04 : : 推 mamorui : 如果是AGI,就不會有能力差異,表現如何是穩定的, 01/26 12:05 : : → mamorui : 雖然還沒有AGI。 現在看到LLM會出並存的系列,就當 01/26 12:05 : : → mamorui : 做遊戲角色各種族差異,要想好先用誰再用誰,AI的 01/26 12:05 : : → mamorui : 思考跟記憶是仿人腦(非電腦),所以可以交錯問。 01/26 12:05 : : 推 mamorui : 像r1就是一定要推理,關掉才能切到V3 01/26 12:06 : : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國) : ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737868561.A.963.html : 推 sdbb : 99nvdl 01/26 13:21 : → sdbb : Btw,GooG tsm,which better? 01/26 13:23 : → sdbb : GG VS. 積積 01/26 13:24 : 感覺都可以賭啊 狗家可以問TQQQ王 TSM還得看川普的心情吧@@? : ※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 13:36:02 : 推 jack1218 : 請問現在有甚麼好用的寫code用的LLM agent呀 01/26 13:35 : https://reurl.cc/Q5gdNO : → banque : 現在Big 7中幾個增加一堆資本支出建數據中心 01/26 13:38 : → banque : 還沒找到具體的應用回收成本的方法 01/26 13:38 : → banque : 就面臨超便宜還開源的模型競爭 01/26 13:38 : → banque : 這消息很難解讀成繼續投資Big 7的利好吧 01/26 13:38 : QQ BIG5會用裁員降數據中心成本(扣掉老黃果家) 所以帳面上還是很好看 : 據說接下來一個月內 麻家軟家會開始砍人 阿祖是用intense of year 來捲走人力 : → Altair : 1128寫程式不再是金飯碗 美國軟體工程師職缺5年腰斬 01/26 13:39 : 推 allen0519 : 這篇講的最專業 給推!! 同樣的問題問chatgpt跟gemin 01/26 13:44 : → allen0519 : i雖然答案整體差異不大 但格式跟思路並不同 問deeps 01/26 13:44 : → allen0519 : eek有種熟悉感 特別像chatgpt 或許真的被拿來當教練 01/26 13:44 : → junior020486: FANNG+,TSM無腦多 01/26 13:46 : 噓 tsukirit : Big7個屁,誰要買垃圾貧果 01/26 13:47 : 推 lpmybig : Fanng gogogo 01/26 13:49 : 推 Roger5566 : 既然AIPC沒有市場 蘋果前途黯淡可以空了 01/26 13:49 : 推 GinginDenSha: 推 專業 01/26 13:57 : ※ 編輯: LDPC (76.21.72.78 美國), 01/26/2025 14:12:37 : 推 create8 : 碼農失業潮,幹 01/26 14:12 : 推 kanx : 也要記得買HBM, 現代美光 三星? 01/26 14:14 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.103.225.6 (美國) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737873304.A.0FE.html
文章代碼(AID): #1dbTUO3- (Stock)
討論串 (同標題文章)
文章代碼(AID): #1dbTUO3- (Stock)