Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSeek R1
看板Tech_Job (科技人)作者KanzakiHAria (神崎・H・アリア)時間1天前 (2025/01/29 16:52)推噓7(10推 3噓 28→)留言41則, 13人參與討論串3/3 (看更多)
建議先去看LATS 比較好理解什麼叫方法論
簡單說R1是一套"如何讓LLM可以做深度思考"的方法論
原本要讓LLM做深度思考 之前的做法一律都是COT
比如把每次LLM的輸入輸出當作一個節點
把多個節點做評分 最終選擇整條鏈評分最高的項目 即MCTS概念
這就像是alphago那樣 每次棋步後面都要估算後面幾十步對於這步的總評分(勝率)
LATS就是用LangGraph去實現MCTS的COT 這是方法論 所以可以套用任何LLM
你替換任何LLM LATS都能提升輸出成果
GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質
並非直接讓AI去隨意生成許多條節點再自我評分 而是人工先標註什麼是好推論
因此人工撰寫教科書等級的推論就是o1高成本最主要的因素
(這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD)
就像alphago master需要挖出所有頂尖對局棋譜然後數位化
R1則是捨棄了節點拆步驟思維 直接讓LLM去隨意探索可能方式
在這個情況下R1反而做出了各種有創意的推論方式
就像是alphago zero 自行探索反而下出自己一套邏輯
如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事
實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程
復現的結論也高度一致 使用越優秀的LLM當作基底 可以拿到更好的推論過程
所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738140736.A.CDC.html
推
01/29 17:02,
1天前
, 1F
01/29 17:02, 1F
→
01/29 17:02,
1天前
, 2F
01/29 17:02, 2F
噓
01/29 17:07,
1天前
, 3F
01/29 17:07, 3F
→
01/29 17:07,
1天前
, 4F
01/29 17:07, 4F
馬上就飛一隻出來了 不是什麼新技術 那openai google meta怎麼不先做(挖鼻
噓
01/29 17:19,
1天前
, 5F
01/29 17:19, 5F
→
01/29 17:19,
1天前
, 6F
01/29 17:19, 6F
才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了
推
01/29 17:34,
1天前
, 7F
01/29 17:34, 7F
→
01/29 17:34,
1天前
, 8F
01/29 17:34, 8F
一個是先人研究出方法 一個只是照用別人的方法
你會說你高中就學會牛頓高斯想幾十年的東西 所以牛頓高斯在浪費人生?
推
01/29 17:39,
1天前
, 9F
01/29 17:39, 9F
→
01/29 17:39,
1天前
, 10F
01/29 17:39, 10F
→
01/29 17:39,
1天前
, 11F
01/29 17:39, 11F
"可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!" 這句話是你說的又不是我說的
我現在一整個黑人問號
推
01/29 17:43,
1天前
, 12F
01/29 17:43, 12F
→
01/29 17:43,
1天前
, 13F
01/29 17:43, 13F
→
01/29 17:43,
1天前
, 14F
01/29 17:43, 14F
對不起讓你誤會了 我絕對沒有說你是青鳥
推
01/29 18:14,
1天前
, 15F
01/29 18:14, 15F
→
01/29 18:14,
1天前
, 16F
01/29 18:14, 16F
推
01/29 18:34,
1天前
, 17F
01/29 18:34, 17F
→
01/29 18:34,
1天前
, 18F
01/29 18:34, 18F
推
01/29 18:55,
1天前
, 19F
01/29 18:55, 19F
→
01/29 19:20,
1天前
, 20F
01/29 19:20, 20F
→
01/29 19:21,
1天前
, 21F
01/29 19:21, 21F
抱歉 我不該說你是青鳥
推
01/29 19:26,
1天前
, 22F
01/29 19:26, 22F
→
01/29 19:26,
1天前
, 23F
01/29 19:26, 23F
→
01/29 19:26,
1天前
, 24F
01/29 19:26, 24F
→
01/29 19:26,
1天前
, 25F
01/29 19:26, 25F
→
01/29 19:26,
1天前
, 26F
01/29 19:26, 26F
→
01/29 19:26,
1天前
, 27F
01/29 19:26, 27F
這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD
→
01/29 19:27,
1天前
, 28F
01/29 19:27, 28F
→
01/29 19:27,
1天前
, 29F
01/29 19:27, 29F
→
01/29 19:27,
1天前
, 30F
01/29 19:27, 30F
LLM終於來到了zero的時代 我對這點是蠻興奮的
※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13
→
01/29 20:19,
1天前
, 31F
01/29 20:19, 31F
→
01/29 20:20,
1天前
, 32F
01/29 20:20, 32F
→
01/29 20:32,
1天前
, 33F
01/29 20:32, 33F
→
01/29 20:32,
1天前
, 34F
01/29 20:32, 34F
自己把生出來的subtree再丟給LLM自己評分擇優 不一定是打分數 只要能選較好的路徑
當然衍生方式就很多 要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD
或者專門訓練一個評分系統 發下一篇 博士生要論文生論文就是這樣做
※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12
推
01/29 22:33,
23小時前
, 35F
01/29 22:33, 35F
→
01/29 22:33,
23小時前
, 36F
01/29 22:33, 36F
→
01/29 22:33,
23小時前
, 37F
01/29 22:33, 37F
推
01/30 00:33,
21小時前
, 38F
01/30 00:33, 38F
噓
01/30 18:01,
4小時前
, 39F
01/30 18:01, 39F
→
01/30 18:01,
4小時前
, 40F
01/30 18:01, 40F
→
01/30 18:01,
4小時前
, 41F
01/30 18:01, 41F
只會噓文的ID 花這麼久才找到這麼小的噓點
※ 編輯: KanzakiHAria (36.231.97.33 臺灣), 01/30/2025 18:42:03
討論串 (同標題文章)
完整討論串 (本文為第 3 之 3 篇):
Tech_Job 近期熱門文章
PTT職涯區 即時熱門文章