Re: [新聞] OpenAI:已掌握DeepSeek盜用模型證據
看板Stock (股票)作者LDPC (Channel Coding)時間21小時前 (2025/01/30 01:19)推噓16(17推 1噓 29→)留言47則, 23人參與討論串5/12 (看更多)
現在全網路上的開源數據資料是屬於pre-training端 大多都是野生數據 無標籤
那東西只是讓模型去向鸚鵡一樣 去做文字接龍
但第二階段訓練會用到RLHF (Reinforcement Learning from Human Feedback)
就是要人類針對不同數據給意見 這個是要給標籤
所以你才會聽到狗家之前要求全公司員工去給意見讓Gemini前身 Bard 去做人類feedback
這個人工成本是很大
Deepseek-R1跟大家說 我們不用人類給的feedback了 我們可以免除這塊
大家都在討論的叫做sythetic dataset
這個步驟是來自於你有許多野生數據 但需要加上標籤 那標籤可以拿更強大模型來標註
比方說 一道數學題目 你可以用人類寫解答 或者要拆步驟 每步驟讓gpt-4o寫個答案
這就是所謂synthetic dataset 然後用這組數據去調教模型 這步驟會決定
你的模型多智能 這過程就是call api 現在ai界都這樣幹 缺點就是訓練模型上限就是
原始母模型 這跟傳統蒸留 用模型直接交模型不太依一樣
這種方式就是可以用低成本 接近gpt-4o 但你如果這樣幹 你模型就不能商業化
頂多發表到文章 講你這是怎樣做 最經典例子就是LLaVA那篇 講如何用gpt4o
產生sythetic dataset讓textLLM 變成多模態 直接打爆其他大廠高成本多模態
之前網路上已經有人在討論 到底deepseek有沒有用api去合成數據
https://reurl.cc/A6ab98
https://x.com/bboczeng/status/1883374489519698413 (zero是r1第一版)
在training這部分還沒定案之前 大家就先吃瓜看看吧 @@
但這思路還是有可取之處 就是模型教模型 不要再用人類RLHF去教模型
https://x.com/op7418/status/1884065603184681162
這有點像回到當年alphago那條路線 模型互相教
下面網址是第三方 大家要複製deep-seek R1開源計畫 任何人想參加都可以
https://huggingface.co/blog/open-r1
目前公認是dep-seek R1隱藏了
Replicate the R1-Distill models by distilling a high-quality
reasoning dataset from DeepSeek-R1.
上面專案在徵求大家嘗試去製造出合成數據
好了 我要去炸薯條了 @@/ 救救我
※ 引述《IBIZA (溫一壺月光作酒)》之銘言:
: ※ 引述《mangle (mangle123)》之銘言:
: : 比較好奇這段:
: : 儘管蒸餾是AI業界常見做法,但DeepSeek若利用蒸餾技術來打造自家模型,並與OpenAI競 爭,將違反OpenAI服務條款,因此產生疑慮。
: : OpenAI的服務,或是「利用輸出結果,來開發與OpenAI競爭的模型」。
: : 各個ai 大語言模型不是都會互相參照比較和訓練嗎? 我以為這是業界常識…
: : 不過要怎麼定義「與openai 競爭的模型」? 因為deepseek 也沒盈利而且也開源學習,他也承認他不只從chatgpt訓練也參照不少,deep seek 也認為自己是chatgpt
: : 所以是真有盜竊疑慮,還是業界常識的互相學習使用? 如何定義這部分
: 各家互相參考, 指的是訓練方法還有訓練的文本挑選, 蒸餾不太一樣
: AI = 模型的程式碼+訓練
: 能開源的部分只有程式碼, 訓練是看各自調教
: 模型的能力夠, 差不多的調教方式就會得到差不多的結果
: 訓練方法更好, 或是文本品質越高、越多樣、量越多, 模型就越強
: 自從OpenAI爆紅以來, 大公司的LLM模型都是遵循OpenAI的訓練方法
: 預先訓練: 拿大量文本讓AI模型學習基本語言能力、基本知識
: 監督微調: 有了基本能力之後, 模型開始有推理能力
: 這時候由人類介入, 告訴模型怎麼想是對的, 怎麼想是錯的
: 之前所謂的貼標籤, 就是這個階段
: 獎勵建模: 把對錯的判斷建立模型, AI想對了, 這個模型就獎勵他
: 強化學習: AI自己跟自己練習
: 不管是meta還是google, 之前都是照OpenAI這個成功模式做
: 所以這些公司能做的就是拚算力, 透過更大量的訓練, 希望最終可以暴力超車
: 但蒸餾就不同, 蒸餾是直接拿另一個模型的推理結果, 讓另一個模型照著得到同樣結果
: 譬如我要我剛剛問ChatGPT, 要他給舉例說明什麼是擬人法
: 他的回答是這樣
: https://i.imgur.com/ey5mX61.png
: ChatGPT要回答這個問題, 中間要經過很多推理, 譬如他要先理解我的問題
: 這裡面就牽涉到, 他要理解我講的擬人法是修辭當中的擬人法
: 然後再從這一個理解, 去思考擬人法的意思是甚麼, 最後再想出一個符合範例
: 蒸餾的話, 就是學生模型已經預先知道這個問題的答案是甚麼
: 有頭有尾, 要生出中間的推理就會比較容易
: 但這裡有個問題
: 你要用蒸餾讓一個模型得到另一個模型類似的能力
: 通常就是需要老師模型產生極大量的練習後結果
: 才能傳授畢生功力給學生模型
: 如果ChatGPT是開源模型, 可以自己部署在自己平台上
: 要做這樣大規模訓練是有可能
: 但ChatGPT無法部署在自己平台
: (剛剛有人說ChatGPT 2可以, 但蒸餾頂多只能逼近老師, 用ChatGPT 2只能蒸出垃圾)
: 所以要做蒸餾只能透過API, 而要透過API做幾千萬甚至幾億規模的蒸餾訓練
: 這難度極高啊....
: (ChatGPT剛剛教我另一個方法
: 就是拿一個原本就有ChatGPT4能力的模型
: 這樣只要少量訓練, 就能超越ChatGPT 4
: 但原本就有ChatGPT 4能力的新模型難道自己會生出來嗎XD
: 你還是得先得到這個模型啊...就是V3
: 那V3怎麼來?)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.21.72.78 (美國)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1738171163.A.A6D.html
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:19:54
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:21:13
推
01/30 01:22,
21小時前
, 1F
01/30 01:22, 1F
推
01/30 01:23,
21小時前
, 2F
01/30 01:23, 2F
→
01/30 01:23,
21小時前
, 3F
01/30 01:23, 3F
→
01/30 01:23,
21小時前
, 4F
01/30 01:23, 4F
→
01/30 01:23,
21小時前
, 5F
01/30 01:23, 5F
→
01/30 01:24,
21小時前
, 6F
01/30 01:24, 6F
→
01/30 01:24,
21小時前
, 7F
01/30 01:24, 7F
→
01/30 01:25,
21小時前
, 8F
01/30 01:25, 8F
推
01/30 01:25,
21小時前
, 9F
01/30 01:25, 9F
→
01/30 01:25,
21小時前
, 10F
01/30 01:25, 10F
→
01/30 01:25,
21小時前
, 11F
01/30 01:25, 11F
→
01/30 01:26,
21小時前
, 12F
01/30 01:26, 12F
→
01/30 01:26,
21小時前
, 13F
01/30 01:26, 13F
推
01/30 01:29,
21小時前
, 14F
01/30 01:29, 14F
→
01/30 01:29,
21小時前
, 15F
01/30 01:29, 15F
→
01/30 01:29,
21小時前
, 16F
01/30 01:29, 16F
→
01/30 01:29,
21小時前
, 17F
01/30 01:29, 17F
推
01/30 01:30,
21小時前
, 18F
01/30 01:30, 18F
推
01/30 01:31,
21小時前
, 19F
01/30 01:31, 19F
→
01/30 01:31,
21小時前
, 20F
01/30 01:31, 20F
推
01/30 01:32,
20小時前
, 21F
01/30 01:32, 21F
→
01/30 01:33,
20小時前
, 22F
01/30 01:33, 22F
→
01/30 01:34,
20小時前
, 23F
01/30 01:34, 23F
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:41:19
推
01/30 01:48,
20小時前
, 24F
01/30 01:48, 24F
※ 編輯: LDPC (76.21.72.78 美國), 01/30/2025 01:59:34
噓
01/30 02:04,
20小時前
, 25F
01/30 02:04, 25F
推
01/30 02:12,
20小時前
, 26F
01/30 02:12, 26F
推
01/30 02:35,
19小時前
, 27F
01/30 02:35, 27F
→
01/30 02:35,
19小時前
, 28F
01/30 02:35, 28F
→
01/30 02:36,
19小時前
, 29F
01/30 02:36, 29F
→
01/30 02:41,
19小時前
, 30F
01/30 02:41, 30F
推
01/30 05:09,
17小時前
, 31F
01/30 05:09, 31F
→
01/30 06:31,
16小時前
, 32F
01/30 06:31, 32F
→
01/30 06:32,
15小時前
, 33F
01/30 06:32, 33F
→
01/30 06:33,
15小時前
, 34F
01/30 06:33, 34F
→
01/30 06:34,
15小時前
, 35F
01/30 06:34, 35F
→
01/30 06:36,
15小時前
, 36F
01/30 06:36, 36F
推
01/30 07:22,
15小時前
, 37F
01/30 07:22, 37F
推
01/30 07:42,
14小時前
, 38F
01/30 07:42, 38F
→
01/30 07:42,
14小時前
, 39F
01/30 07:42, 39F
推
01/30 07:46,
14小時前
, 40F
01/30 07:46, 40F
推
01/30 08:03,
14小時前
, 41F
01/30 08:03, 41F
推
01/30 09:01,
13小時前
, 42F
01/30 09:01, 42F
→
01/30 09:15,
13小時前
, 43F
01/30 09:15, 43F
→
01/30 09:16,
13小時前
, 44F
01/30 09:16, 44F
推
01/30 09:43,
12小時前
, 45F
01/30 09:43, 45F
→
01/30 09:43,
12小時前
, 46F
01/30 09:43, 46F
→
01/30 09:44,
12小時前
, 47F
01/30 09:44, 47F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章