Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據

看板Stock (股票)作者 (Cheshire Cat)時間16小時前 (2025/01/30 07:26), 14小時前編輯推噓116(12610173)
留言309則, 137人參與, 2小時前最新討論串8/12 (看更多)
以下部分資訊來自於Reddit anitakirkovska文章的翻譯 LDPC哥哥講到一個重點 Reinforcement Learning =/= Reinforcement Learning from Human Feedback 這也是R1為什麼爆紅的原因 https://imgur.com/lunsvb2.jpg
GPT-4最強的地方是他有了某方面的"思考鍊" (chain-of-thought) 也就是能做出更靈活更準確的推理 但OpenAI是怎麼做出來的並沒有公開,而Deepseek R1是直接公布出來 圖裡面的縮寫全名如下 Cold start data: 最低限度標記的資料集合,讓模型更好理解任務 RL: Reinforcement Learning 模型透過評分獎勵來學習正確答案以及思考邏輯 RLHF = 用人工審查,所以才有當初Google要員工去餵Bard的新聞 SFT: Supervised fine-tuning 用標記的資料去訓練模型讓他在特定領域中更精準 Rejection sampling: 模型產出多個結果的時候選擇特定滿足標準的輸出 其實其他部分都差不多,但Deepseek是用什麼方式去壓低成本去做Pure RL? 用他們自己研發的Gpro (Group Robust Preference Optimization) https://arxiv.org/abs/2405.20304 他們怎麼不透過人工去確定產出優劣? 邏輯就是建立最佳猜測的模型: Coherence, Completeness, Fluency 但這也帶來另外一個缺點 就是poor readability (閱讀性差)、language mixing(語言混和) 所以Deepseek用第一張圖的方式去解決 Cold start data處理易讀性 用RL+Rejection sampling+SFT反覆驗證計算並Fine tune 結果 但R1背後的意涵,其實是RL能讓小模型在專精領域出頭天 透過Distill然後微調RL內容,可以在專精領域如藥物、材料...等取得更好的成果 而不用再被綁死於大型語言service provider的服務 而這個也帶來一個影響 企業在AI應用上會更有彈性,同時AI實際應用的穿透性更高 https://tinyurl.com/ms2vev4s R1背後的邏輯和技術,用在小模型上面有極大的成本優勢 大型語言的發展依然會持續,但硬體算力軍備競賽的資本投入勢必會減少 因為大型語言還是適合多數小白使用者 (如我) 以GPT-4來說,他給的回答訊息會很完整包括前因後果 而R1給的就是非常簡潔.....不太廢話 對專業人士來說,R1有時候只給你一行字其實非常的有效率 但智障如我就必須要花更多時間去思考 BTW R1在Ethical Considerations 上面多數人評價是比GPT4還好喔XDDDD 看到這東西,反正是開源的,程式碼都攤開在那邊給你看 應該是要想著怎麼去利用,而不是討論中/美或成最大贏家嗎? 怎麼搞到變成政治意識形態的爭執了? 有些推文一直扯到超導體,我就不懂有什麼可比性... 本身有一點點計算機概論底子加上英文能力就可以去稍微理解這東西 結果很多人都只用台灣媒體或網紅的貼文去判斷,這個邏輯不太行阿 ※ 引述《LDPC (Channel Coding)》之銘言: : 現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤 : 那東西只是讓模型去向鸚鵡一樣 去做文字接龍 : 但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback) : 就是要人類針對不同數據給意見 這個是要給標籤 : 所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback : 這個人工成本是很大 : Deepseek-R1跟大家說 我們不用人類給的feedback了 我們可以免除這塊 : 大家都在討論的叫做sythetic dataset : 這個步驟是來自於你有許多野生數據 但需要加上標籤 那標籤可以拿更強大模型來標註 : 比方說 一道數學題目 你可以用人類寫解答 或者要拆步驟 每步驟讓gpt-4o寫個答案 : 這就是所謂synthetic dataset 然後用這組數據去調教模型 這步驟會決定 : 你的模型多智能 這過程就是call api 現在ai界都這樣幹 缺點就是訓練模型上限就是 : 原始母模型 這跟傳統蒸留 用模型直接交模型不太依一樣 : 這種方式就是可以用低成本 接近gpt-4o 但你如果這樣幹 你模型就不能商業化 : 頂多發表到文章 講你這是怎樣做 最經典例子就是LLaVA那篇 講如何用gpt4o : 產生sythetic dataset讓textLLM 變成多模態 直接打爆其他大廠高成本多模態 : 之前網路上已經有人在討論 到底deepseek有沒有用api去合成數據 : https://reurl.cc/A6ab98 : https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版) : 在training這部分還沒定案之前 大家就先吃瓜看看吧 @@ : 但這思路還是有可取之處 就是模型教模型 不要再用人類RLHF去教模型 : https://x.com/op7418/status/1884065603184681162 : 這有點像回到當年alphago那條路線 模型互相教 : 下面網址是第三方 大家要複製deep-seek R1開源計畫 任何人想參加都可以 : https://huggingface.co/blog/open-r1 : 目前公認是dep-seek R1隱藏了 : Replicate the R1-Distill models by distilling a high-quality : reasoning dataset from DeepSeek-R1. : 上面專案在徵求大家嘗試去製造出合成數據 : 好了 我要去炸薯條了 @@/ 救救我 : ※ 引述《IBIZA (溫一壺月光作酒)》之銘言: : : 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣 : : AI = 模型的程式碼+訓練 : : 能開源的部分只有程式碼, 訓練是看各自調教 : : 模型的能力夠, 差不多的調教方式就會得到差不多的結果 : : 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強 : : 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法 : : 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識 : : 監督微調: 有了基本能力之後, 模型開始有推理能力 : : 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的 : : 之前所謂的貼標籤, 就是這個階段 : : 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他 : : 強化學習: AI自己跟自己練習 : : 不管是meta還是google, 之前都是照OpenAI這個成功模式做 : : 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車 : : 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果 : : 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法 : : 他的回答是這樣 : : https://i.imgur.com/ey5mX61.png
: : ChatGPT要回答這個問題, 中間要經過很多推理, 譬如他要先理解我的問題 : : 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法 : : 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例 : : 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼 : : 有頭有尾, 要生出中間的推理就會比較容易 : : 但這裡有個問題 : : 你要用蒸餾讓一個模型得到另一個模型類似的能力 : : 通常就是需要老師模型產生極大量的練習後結果 : : 才能傳授畢生功力給學生模型 : : 如果ChatGPT是開源模型, 可以自己部署在自己平台上 : : 要做這樣大規模訓練是有可能 : : 但ChatGPT無法部署在自己平台 : : (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾) : : 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練 : : 這難度極高啊.... : : (ChatGPT剛剛教我另一個方法 : : 就是拿一個原本就有ChatGPT4能力的模型 : : 這樣只要少量訓練, 就能超越ChatGPT 4 : : 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD : : 你還是得先得到這個模型啊...就是V3 : : 那V3怎麼來?) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.163.78.138 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738193167.A.6B9.html

01/30 07:35, 16小時前 , 1F
消息一堆,但我只相信真金白銀交易的投資人,看這三
01/30 07:35, 1F

01/30 07:35, 16小時前 , 2F
天NV, tsmc adr 股價就知道了
01/30 07:35, 2F

01/30 07:46, 16小時前 , 3F
青鳥:DS有沒有台灣價值,沒有就是垃圾
01/30 07:46, 3F

01/30 07:47, 16小時前 , 4F

01/30 07:48, 16小時前 , 5F
少年股神:崩盤時就是世界末日
01/30 07:48, 5F

01/30 07:48, 16小時前 , 6F
小模型套完是真的會變強的
01/30 07:48, 6F

01/30 07:49, 16小時前 , 7F
開盤會跌多少
01/30 07:49, 7F

01/30 07:50, 16小時前 , 8F
推 結論
01/30 07:50, 8F

01/30 07:51, 16小時前 , 9F
台灣人素質比美國人爛多了
01/30 07:51, 9F

01/30 07:51, 16小時前 , 10F
reddit一堆專業文
01/30 07:51, 10F

01/30 07:51, 16小時前 , 11F
台灣人只會在那邊64
01/30 07:51, 11F

01/30 07:51, 16小時前 , 12F
笑死
01/30 07:51, 12F

01/30 07:51, 16小時前 , 13F
還什麼破解言論審查 的it大臣也能上新聞lol
01/30 07:51, 13F

01/30 07:53, 16小時前 , 14F
驗證台灣媒體這次一半以上都是垃圾
01/30 07:53, 14F

01/30 07:53, 16小時前 , 15F
各國的論壇看一看
01/30 07:53, 15F

01/30 07:53, 16小時前 , 16F
台灣論壇素質跟回教國家差不多
01/30 07:53, 16F

01/30 07:53, 16小時前 , 17F
應該是同一篇看到的英文解說youtube多一點點detail
01/30 07:53, 17F

01/30 07:53, 16小時前 , 18F
我整篇寫完太長了啦 而且大家也沒興趣看 就挑重點講 而且我本身也沒完整的專業知識,所以也只能Distill? XD 但整串看下來,有些人連distill都不會.....

01/30 07:54, 16小時前 , 19F
回教社會 隨便一個文章都能扯到 宗教對抗
01/30 07:54, 19F

01/30 07:54, 16小時前 , 20F
台灣是隨便一個文章都能扯到抗中保台
01/30 07:54, 20F

01/30 07:54, 16小時前 , 21F
北七
01/30 07:54, 21F

01/30 07:54, 16小時前 , 22F
還有重建r1的github 有心志士們 快衝啊!
01/30 07:54, 22F

01/30 07:54, 16小時前 , 23F

01/30 07:55, 16小時前 , 24F
這篇算完整,但股版講這麼細喔,我前幾篇都沒講想
01/30 07:55, 24F

01/30 07:55, 16小時前 , 25F
說真的有人會想看嗎
01/30 07:55, 25F

01/30 07:56, 16小時前 , 26F
DS 的技術當然是真的,對開發LLM和推理模型也很有
01/30 07:56, 26F

01/30 07:56, 16小時前 , 27F
幫助,但也確實蠻有可能在中間用到ChatGPT 的生成去
01/30 07:56, 27F

01/30 07:56, 16小時前 , 28F
台灣是說你五毛粉紅支那
01/30 07:56, 28F

01/30 07:56, 16小時前 , 29F
回教是說 你真主阿拉的叛徒
01/30 07:56, 29F

01/30 07:56, 16小時前 , 30F
笑死
01/30 07:56, 30F

01/30 07:56, 16小時前 , 31F
微調,美中如何出手和股市息息相關 誰說不重要,這
01/30 07:56, 31F

01/30 07:56, 16小時前 , 32F
是股板
01/30 07:56, 32F

01/30 07:57, 16小時前 , 33F
大的搞的了小的,小的搞不了大的,有沒有可能以後一
01/30 07:57, 33F

01/30 07:57, 16小時前 , 34F
個星門就可以解決所有問題?
01/30 07:57, 34F

01/30 07:59, 16小時前 , 35F

01/30 07:59, 16小時前 , 36F
看了一下gpro原來是ppo的變化型 本來需要一個等同
01/30 07:59, 36F

01/30 07:59, 16小時前 , 37F
模型規格的actor變成分組驗證 在網路上一直搜尋新
01/30 07:59, 37F

01/30 07:59, 16小時前 , 38F
的輸出讓RL準確性更高
01/30 07:59, 38F
還有 231 則推文
還有 9 段內文
01/30 12:56, 11小時前 , 270F
我是蠻傻眼的...問那些跟你的日常跟工作有關嗎
01/30 12:56, 270F

01/30 12:58, 11小時前 , 271F
我偶爾需要跟中國人去溝通,因為公司有 中、越、印
01/30 12:58, 271F

01/30 12:58, 11小時前 , 272F
,以前也會看B站的影片,所以知道,你不要去觸碰到
01/30 12:58, 272F

01/30 12:58, 11小時前 , 273F
那些有的沒的,單純談工作跟正事就好了,故意要去碰
01/30 12:58, 273F

01/30 12:58, 11小時前 , 274F
人家逆麟,你怎麼不去美國喊3K、跟黑人說尼哥
01/30 12:58, 274F

01/30 12:59, 11小時前 , 275F
每個地方都有自己禁忌的東西,尊重就好,技術本身就
01/30 12:59, 275F

01/30 12:59, 11小時前 , 276F
只是技術,而且還開源,就可以驗證。
01/30 12:59, 276F

01/30 13:08, 11小時前 , 277F
所以樓上到底在供三小,先紮稻草人喔
01/30 13:08, 277F

01/30 13:12, 11小時前 , 278F
有一說一 deepseek手機版式的審查是真的誇張啊
01/30 13:12, 278F

01/30 13:13, 11小時前 , 279F
現在看到一個比較有意義的擔憂是成本降低要小心
01/30 13:13, 279F

01/30 13:13, 11小時前 , 280F
AI落到犯罪組織手裡會不會帶來什麼風險
01/30 13:13, 280F

01/30 13:14, 11小時前 , 281F
不過感覺時間線放長這也不太可避
01/30 13:14, 281F

01/30 13:17, 11小時前 , 282F
01/30 13:17, 282F

01/30 13:23, 10小時前 , 283F
當你拿真金白銀來進場 選擇未來佈局 什麼意識形態
01/30 13:23, 283F

01/30 13:23, 10小時前 , 284F
都是假的 看清局勢才能進退自如
01/30 13:23, 284F

01/30 13:26, 10小時前 , 285F
GRPO根本不是這篇吧==
01/30 13:26, 285F

01/30 13:27, 10小時前 , 286F
你這樣深深傷了台灣某些玻璃的心
01/30 13:27, 286F

01/30 13:30, 10小時前 , 287F
台灣就這樣,不少人三不五時用政治眼光來討論
01/30 13:30, 287F

01/30 13:30, 10小時前 , 288F
GRPO是Group Relative Policy Optimization
01/30 13:30, 288F

01/30 13:47, 10小時前 , 289F
把問題拆成小步驟並找出一個可行解真的厲害
01/30 13:47, 289F

01/30 13:55, 10小時前 , 290F
錢才是公平的
01/30 13:55, 290F

01/30 14:26, 9小時前 , 291F
因為最一開始吹的就是在吹中國啊
01/30 14:26, 291F

01/30 14:29, 9小時前 , 292F
用心給推
01/30 14:29, 292F

01/30 15:11, 9小時前 , 293F
脆鳥會說你不懂
01/30 15:11, 293F

01/30 15:14, 9小時前 , 294F
我的言論算起來是扎稻草人嗎? 如果是的話,那當我沒
01/30 15:14, 294F

01/30 15:14, 9小時前 , 295F
說好了,因為我是根據這幾天看到的輿論,得到的感想
01/30 15:14, 295F

01/30 15:17, 9小時前 , 296F

01/30 15:17, 9小時前 , 297F
a164-bf146842cc23 去問了一下chat gpt,看來我後面
01/30 15:17, 297F

01/30 15:17, 9小時前 , 298F
拿3k跟n-word比喻有失當
01/30 15:17, 298F

01/30 17:16, 7小時前 , 299F
這篇正解 網軍國家隊這幾天真的很急
01/30 17:16, 299F

01/30 17:17, 7小時前 , 300F
脆鳥:有比我們添財少女懂嗎?
01/30 17:17, 300F

01/30 18:30, 5小時前 , 301F
因為是中國研發的,如果是米國的就沒這些問題
01/30 18:30, 301F

01/30 19:00, 5小時前 , 302F
認真推
01/30 19:00, 302F

01/30 19:11, 5小時前 , 303F
01/30 19:11, 303F

01/30 19:42, 4小時前 , 304F
某族群跟某群動物以為把頭埋在土裡看不到就沒事了
01/30 19:42, 304F

01/30 19:42, 4小時前 , 305F
人家一直在進步 台灣的模型在哪 兩百多億預算做了
01/30 19:42, 305F

01/30 19:42, 4小時前 , 306F
個點麵線系統
01/30 19:42, 306F

01/30 20:32, 3小時前 , 307F
操 99輝達 快跳了
01/30 20:32, 307F

01/30 20:38, 3小時前 , 308F
01/30 20:38, 308F

01/30 22:00, 2小時前 , 309F
台灣人腦殘多 習慣了
01/30 22:00, 309F
文章代碼(AID): #1dchaFQv (Stock)
討論串 (同標題文章)
文章代碼(AID): #1dchaFQv (Stock)