Re: [新聞] Meta陷入恐慌?內部爆料:在瘋狂分析複製DeepSeek,高

看板Stock (股票)作者 (人生無常)時間1天前 (2025/01/26 10:24), 23小時前編輯推噓53(530122)
留言175則, 34人參與, 8小時前最新討論串3/5 (看更多)
剛剛看FB,發現有個中國的作家對於Deepseek的作文水平感到驚訝,用了相同問題,以王家 衛的電影風格去撰寫標題為人生何處不相逢的散文,來分別問CHATGPT-O1跟Deepseek-R1 ChatGPT-O1: https://i.imgur.com/T2jN9hZ.jpeg
Deepseek-R1: https://i.imgur.com/IitIbR0.jpeg
我是覺得Deepseek的回答好像有點純堆砌王家衛的電影名台詞的感覺,通篇王家衛感,但是 不知道在說甚麼 ChatGPT 在最後有點出散文標題,內容也比較有切合標題 這應該可以當作兩者的能力小比拼吧? -------- 補: 我也有用4O用相同問題問過,我覺得寫得比O1跟R1還好 https://i.imgur.com/7DN4Dz9.jpeg
這滿神奇的,O1應該是ChatGPT 最強的模型,但是寫散文我覺得沒有4O寫得好 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 125.228.63.38 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1737858242.A.BEE.html

01/26 10:34, 1天前 , 1F
重點是Deepseek背後的成本只有ChatGPT的20分之1
01/26 10:34, 1F

01/26 10:41, 1天前 , 2F
確實,訓練成本這件事情蠻令人訝異的,OpenAi也宣
01/26 10:41, 2F

01/26 10:41, 1天前 , 3F
布O3-mini將免費了
01/26 10:41, 3F

01/26 10:44, 1天前 , 4F
如果不知道是台詞 R1有故事感但無邏輯 結尾有蛇年感
01/26 10:44, 4F

01/26 10:45, 1天前 , 5F
只代表對於演算法大科技也要花大錢挖人
01/26 10:45, 5F

01/26 10:45, 1天前 , 6F
來搞了,算力的投資不會減少,不然等你
01/26 10:45, 6F

01/26 10:45, 1天前 , 7F
演算法追上,算力又落後了怎辦?
01/26 10:45, 7F

01/26 10:55, 1天前 , 8F
r1實際用遠不如抬面上的啦 只有評測嚇人 無庸質疑
01/26 10:55, 8F

01/26 10:55, 1天前 , 9F
O1比較像沒有人生經驗學生寫 可以再tune一段小故事
01/26 10:55, 9F

01/26 10:55, 1天前 , 10F
但deepseek重點在它開源 還公開論文 好耶 作功德 誰
01/26 10:55, 10F

01/26 10:56, 1天前 , 11F
不愛?載回來用免錢 改免錢的 中國人要作功德當然好
01/26 10:56, 11F

01/26 10:56, 1天前 , 12F
R1就每段都小故事 恐怕就是直接從劇本拼湊出來的
01/26 10:56, 12F

01/26 10:58, 1天前 , 13F
pretrain的成本占總成本7-9成,R1是只管posttrain
01/26 10:58, 13F

01/26 10:58, 1天前 , 14F
,R1高成本會嚇死人。
01/26 10:58, 14F

01/26 11:03, 1天前 , 15F
然後是DeepSeek-V3宣稱557萬,但strawberry幾個r也
01/26 11:03, 15F

01/26 11:03, 1天前 , 16F
會錯的跟其他一模一樣, 如果pretrain全部自己的資
01/26 11:03, 16F

01/26 11:03, 1天前 , 17F
料怎麼會錯
01/26 11:03, 17F

01/26 11:04, 1天前 , 18F

01/26 11:07, 1天前 , 19F
簡單說,成本漂亮那就不要有那麼多別的模型的影子
01/26 11:07, 19F

01/26 11:07, 1天前 , 20F
01/26 11:07, 20F

01/26 11:08, 1天前 , 21F
其實樓上有點出問題,pretrain的預標數據集才是最
01/26 11:08, 21F

01/26 11:08, 1天前 , 22F
貴的,這些可能都是美國公司花大錢去做的
01/26 11:08, 22F

01/26 11:08, 1天前 , 23F
pretrain資料集需要人工介入標記,這個東西貴鬆鬆
01/26 11:08, 23F

01/26 11:11, 1天前 , 24F
我沒有說不能吹能力,但成本就誇張了,我想看的是D
01/26 11:11, 24F

01/26 11:11, 1天前 , 25F
eepSeek從pretrain就是土法煉鋼,那才叫真的沒花這
01/26 11:11, 25F

01/26 11:11, 1天前 , 26F
麼多成本。
01/26 11:11, 26F

01/26 11:16, 1天前 , 27F
我沒看那麼多文章,如果有人找到paper解釋DeepSeek
01/26 11:16, 27F

01/26 11:16, 1天前 , 28F
v3為什麼strawberry的r幾個錯的跟其他模型一模一
01/26 11:16, 28F

01/26 11:16, 1天前 , 29F
樣是理所當然,而且預訓練是很純的資料(這家公司
01/26 11:16, 29F

01/26 11:16, 1天前 , 30F
自己收集的資料、沒有借助其他LLM產生好資料 =》
01/26 11:16, 30F

01/26 11:16, 1天前 , 31F
準備好資料是預訓練之常識)
01/26 11:16, 31F

01/26 11:16, 1天前 , 32F
從Transformer到GPT到ChatGPT等LLM,不都是一直堆疊
01/26 11:16, 32F

01/26 11:16, 1天前 , 33F
在前人的成果? 現在DS發表用RL訓練不就只是換一種疊
01/26 11:16, 33F

01/26 11:16, 1天前 , 34F
法? 自己要發布論文發布技術本來就是願意給別人用讓
01/26 11:16, 34F

01/26 11:16, 1天前 , 35F
產業一起推進,在那邊吵什麼別人在哪個階段沒花到錢
01/26 11:16, 35F

01/26 11:16, 1天前 , 36F
不公平有啥意義?
01/26 11:16, 36F

01/26 11:16, 1天前 , 37F
做到上述兩項,那我就真的給這家鼓掌
01/26 11:16, 37F

01/26 11:17, 1天前 , 38F
中國出產品走向是中低成本市場。沒有一定要當頂尖
01/26 11:17, 38F

01/26 11:17, 1天前 , 39F
但cp值可能不錯
01/26 11:17, 39F
還有 96 則推文
還有 1 段內文
01/26 18:14, 17小時前 , 136F
而且有些問題需要網路最新資料,也只能用4o網路搜尋
01/26 18:14, 136F

01/26 18:17, 17小時前 , 137F
DeepSeek明顯被gpt資料模板牽著走,連search的那條
01/26 18:17, 137F

01/26 18:17, 17小時前 , 138F
entry也長一樣
01/26 18:17, 138F

01/26 18:20, 17小時前 , 139F
DeepSeek卻無法整合V3跟Search,真的超奇怪的,理
01/26 18:20, 139F

01/26 18:20, 17小時前 , 140F
論上Search的資料跟GPT無關,他們可以輕鬆突破才對
01/26 18:20, 140F

01/26 18:20, 17小時前 , 141F
01/26 18:20, 141F

01/26 18:20, 17小時前 , 142F
你去看o1出來時跟4o的對比 會發現作文那邊沒增強
01/26 18:20, 142F

01/26 18:20, 17小時前 , 143F
因為o1就是邏輯能力
01/26 18:20, 143F

01/26 18:24, 17小時前 , 144F
作家用R1改寫後會最有特色,其他沒有改寫空間
01/26 18:24, 144F

01/26 18:25, 17小時前 , 145F
R1少了很多邏輯上的連接詞,但是這對作家又不難
01/26 18:25, 145F

01/26 18:27, 17小時前 , 146F
R1引導的是一些無法使用大膽文字的作家做出改變
01/26 18:27, 146F

01/26 18:53, 16小時前 , 147F
其實這題很怪,我自己測試r1也出現午夜三點十七分
01/26 18:53, 147F

01/26 18:53, 16小時前 , 148F
,我用o1開頭也不會這樣 XD
01/26 18:53, 148F

01/26 18:55, 16小時前 , 149F
不換個時間? https://imgur.com/9M2I5y1
01/26 18:55, 149F

01/26 19:28, 16小時前 , 150F
有03了喔
01/26 19:28, 150F

01/26 19:49, 15小時前 , 151F
有人問Deepseek大躍進 給出答案後過兩秒撤回答案
01/26 19:49, 151F

01/26 19:49, 15小時前 , 152F
改回答這個違法不能問 這樣你覺得可以?
01/26 19:49, 152F

01/26 20:10, 15小時前 , 153F
我們使用AI的目的是要測他夠不夠聰明,能否被人類
01/26 20:10, 153F

01/26 20:11, 15小時前 , 154F
接受,這三篇拿去秘密給國文老師修改R1那篇一定第
01/26 20:11, 154F

01/26 20:11, 15小時前 , 155F
一個被打不及格阿,因為根本文不對題
01/26 20:11, 155F

01/26 23:03, 12小時前 , 156F
你是永遠沒辦法看到GPT模型會有文筆或真的理解你的
01/26 23:03, 156F

01/26 23:03, 12小時前 , 157F
問題
01/26 23:03, 157F

01/26 23:04, 12小時前 , 158F
因為從底層他就不是那樣子運作的 再怎麼調整都只是
01/26 23:04, 158F

01/26 23:04, 12小時前 , 159F
學人講話
01/26 23:04, 159F

01/26 23:06, 12小時前 , 160F
舉例來說:你去跟他詢問某一個字的甲骨文源頭 金文
01/26 23:06, 160F

01/26 23:06, 12小時前 , 161F
發展 為什麼要用這個 包含裡面字為什麼擺下面他也
01/26 23:06, 161F

01/26 23:06, 12小時前 , 162F
不會知道 但他會想辦法掰給你
01/26 23:06, 162F

01/26 23:06, 12小時前 , 163F
明明就寫反了他還是一本正經的跟你胡說八道
01/26 23:06, 163F

01/26 23:07, 12小時前 , 164F
他不是不差 他只能這樣 如果要給他一個程度的話
01/26 23:07, 164F

01/26 23:08, 12小時前 , 165F
他就像Yahoo知識+上的那些「專家」國小、國中生看
01/26 23:08, 165F

01/26 23:08, 12小時前 , 166F
到就很熱情的幫你Google出答案 只求最佳解答 而且
01/26 23:08, 166F

01/26 23:08, 12小時前 , 167F
就算他真的不知道也要湊答案掰給你看
01/26 23:08, 167F

01/26 23:09, 12小時前 , 168F
但GPT模型有個好處 就是你想問很冷門的東西他也能
01/26 23:09, 168F

01/26 23:09, 12小時前 , 169F
回你一二句
01/26 23:09, 169F

01/26 23:15, 12小時前 , 170F
以前用OpenAI去生圖 就叫他不要再給我裡面的某一個
01/26 23:15, 170F

01/26 23:15, 12小時前 , 171F
物件了 他還是硬要給我
01/26 23:15, 171F

01/26 23:16, 12小時前 , 172F
為什麼 阿就這些東西都從擴散模型生出來的他怎麼會
01/26 23:16, 172F

01/26 23:16, 12小時前 , 173F
做減法
01/26 23:16, 173F

01/27 03:02, 8小時前 , 174F
認真說一下繪圖AI是發散->收斂,負向提示詞或二次抹
01/27 03:02, 174F

01/27 03:03, 8小時前 , 175F
除還是能做減法。 但LLM就真的是在算計機率。
01/27 03:03, 175F
文章代碼(AID): #1dbPp2lk (Stock)
文章代碼(AID): #1dbPp2lk (Stock)