Re: [新聞]不，你無法用 600 萬美元複製一個 DeepSeek R1

看板Tech_Job (科技人)作者KanzakiHAria (神崎・H・アリア)時間1天前 (2025/01/29 16:52)推噓7(10推 3噓 28→)

留言41則, 13人參與討論串3/3 (看更多)

建議先去看LATS 比較好理解什麼叫方法論簡單說R1是一套"如何讓LLM可以做深度思考"的方法論原本要讓LLM做深度思考之前的做法一律都是COT 比如把每次LLM的輸入輸出當作一個節點把多個節點做評分最終選擇整條鏈評分最高的項目即MCTS概念這就像是alphago那樣每次棋步後面都要估算後面幾十步對於這步的總評分(勝率) LATS就是用LangGraph去實現MCTS的COT 這是方法論所以可以套用任何LLM 你替換任何LLM LATS都能提升輸出成果 GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質並非直接讓AI去隨意生成許多條節點再自我評分而是人工先標註什麼是好推論因此人工撰寫教科書等級的推論就是o1高成本最主要的因素 (這也是CloseAI藏起來的主因這個很貴不能給其他人看到XD) 就像alphago master需要挖出所有頂尖對局棋譜然後數位化 R1則是捨棄了節點拆步驟思維直接讓LLM去隨意探索可能方式在這個情況下R1反而做出了各種有創意的推論方式就像是alphago zero 自行探索反而下出自己一套邏輯如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事實驗室復現R1是指拿一個LLM 做這個方法論看可以拿到AI怎麼做推論過程復現的結論也高度一致使用越優秀的LLM當作基底可以拿到更好的推論過程所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738140736.A.CDC.html

推

tr920

01/29 17:02, 1天前 , 1^F

01/29 17:02, 1^F

→

tr920

01/29 17:02, 1天前 , 2^F

01/29 17:02, 2^F

噓

quartics

01/29 17:07, 1天前 , 3^F

01/29 17:07, 3^F

→

quartics

01/29 17:07, 1天前 , 4^F

01/29 17:07, 4^F

馬上就飛一隻出來了不是什麼新技術那openai google meta怎麼不先做(挖鼻

噓

whizz

01/29 17:19, 1天前 , 5^F

01/29 17:19, 5^F

→

whizz

01/29 17:19, 1天前 , 6^F

01/29 17:19, 6^F

才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了

推

tr920

01/29 17:34, 1天前 , 7^F

01/29 17:34, 7^F

→

tr920

01/29 17:34, 1天前 , 8^F

01/29 17:34, 8^F

一個是先人研究出方法一個只是照用別人的方法你會說你高中就學會牛頓高斯想幾十年的東西所以牛頓高斯在浪費人生?

推

tr920

01/29 17:39, 1天前 , 9^F

01/29 17:39, 9^F

→

tr920

01/29 17:39, 1天前 , 10^F

01/29 17:39, 10^F

→

tr920

01/29 17:39, 1天前 , 11^F

01/29 17:39, 11^F

"可以用30鎂就復現，那DS花550萬鎂幹嘛XDD！" 這句話是你說的又不是我說的我現在一整個黑人問號

推

tr920

01/29 17:43, 1天前 , 12^F

01/29 17:43, 12^F

→

tr920

01/29 17:43, 1天前 , 13^F

01/29 17:43, 13^F

→

tr920

01/29 17:43, 1天前 , 14^F

01/29 17:43, 14^F

對不起讓你誤會了我絕對沒有說你是青鳥

推

master32

01/29 18:14, 1天前 , 15^F

01/29 18:14, 15^F

→

master32

01/29 18:14, 1天前 , 16^F

01/29 18:14, 16^F

推

lusifa2007

01/29 18:34, 1天前 , 17^F

01/29 18:34, 17^F

→

lusifa2007

01/29 18:34, 1天前 , 18^F

01/29 18:34, 18^F

https://i.imgur.com/2BDUqa7.png

如果要像這樣"純技術討論" 我還是繼續用雞腿吧

推

straggler7

01/29 18:55, 1天前 , 19^F

01/29 18:55, 19^F

→

aria0520

01/29 19:20, 1天前 , 20^F

01/29 19:20, 20^F

→

aria0520

01/29 19:21, 1天前 , 21^F

01/29 19:21, 21^F

抱歉我不該說你是青鳥

推

ctw01

01/29 19:26, 1天前 , 22^F

01/29 19:26, 22^F

→

ctw01

01/29 19:26, 1天前 , 23^F

01/29 19:26, 23^F

→

ctw01

01/29 19:26, 1天前 , 24^F

01/29 19:26, 24^F

→

ctw01

01/29 19:26, 1天前 , 25^F

01/29 19:26, 25^F

→

ctw01

01/29 19:26, 1天前 , 26^F

01/29 19:26, 26^F

→

ctw01

01/29 19:26, 1天前 , 27^F

01/29 19:26, 27^F

這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD

→

ctw01

01/29 19:27, 1天前 , 28^F

01/29 19:27, 28^F

→

ctw01

01/29 19:27, 1天前 , 29^F

01/29 19:27, 29^F

→

ctw01

01/29 19:27, 1天前 , 30^F

01/29 19:27, 30^F

LLM終於來到了zero的時代我對這點是蠻興奮的 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13

→

BoXeX

01/29 20:19, 1天前 , 31^F

01/29 20:19, 31^F

→

BoXeX

01/29 20:20, 1天前 , 32^F

01/29 20:20, 32^F

→

lavign

01/29 20:32, 1天前 , 33^F

01/29 20:32, 33^F

→

lavign

01/29 20:32, 1天前 , 34^F

01/29 20:32, 34^F

自己把生出來的subtree再丟給LLM自己評分擇優不一定是打分數只要能選較好的路徑當然衍生方式就很多要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD 或者專門訓練一個評分系統發下一篇博士生要論文生論文就是這樣做 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12

推

tanby

01/29 22:33, 23小時前 , 35^F

01/29 22:33, 35^F

→

tanby

01/29 22:33, 23小時前 , 36^F

01/29 22:33, 36^F

→

tanby

01/29 22:33, 23小時前 , 37^F

01/29 22:33, 37^F