Re: [新聞]不,你無法用 600 萬美元複製一個 DeepSeek R1

看板Tech_Job (科技人)作者 (神崎・H・アリア)時間1天前 (2025/01/29 16:52), 3小時前編輯推噓7(10328)
留言41則, 13人參與, 4小時前最新討論串3/3 (看更多)
建議先去看LATS 比較好理解什麼叫方法論 簡單說R1是一套"如何讓LLM可以做深度思考"的方法論 原本要讓LLM做深度思考 之前的做法一律都是COT 比如把每次LLM的輸入輸出當作一個節點 把多個節點做評分 最終選擇整條鏈評分最高的項目 即MCTS概念 這就像是alphago那樣 每次棋步後面都要估算後面幾十步對於這步的總評分(勝率) LATS就是用LangGraph去實現MCTS的COT 這是方法論 所以可以套用任何LLM 你替換任何LLM LATS都能提升輸出成果 GPT-o1(原q* project)採用人工先寫好大量的推論步驟去保證COT品質 並非直接讓AI去隨意生成許多條節點再自我評分 而是人工先標註什麼是好推論 因此人工撰寫教科書等級的推論就是o1高成本最主要的因素 (這也是CloseAI藏起來的主因 這個很貴不能給其他人看到XD) 就像alphago master需要挖出所有頂尖對局棋譜然後數位化 R1則是捨棄了節點拆步驟思維 直接讓LLM去隨意探索可能方式 在這個情況下R1反而做出了各種有創意的推論方式 就像是alphago zero 自行探索反而下出自己一套邏輯 如同LATS可以替換任何的LLM R1也可以使用任何的LLM去做這件事 實驗室復現R1是指拿一個LLM 做這個方法論 看可以拿到AI怎麼做推論過程 復現的結論也高度一致 使用越優秀的LLM當作基底 可以拿到更好的推論過程 所以任何LLM都可以做R1 就跟任何LLM都可以套LATS類似 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.231.98.6 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738140736.A.CDC.html

01/29 17:02, 1天前 , 1F
Openapi 都跳出來質疑有distill 痕
01/29 17:02, 1F

01/29 17:02, 1天前 , 2F
跡了,你回那麼嗆小心被打臉啊
01/29 17:02, 2F

01/29 17:07, 1天前 , 3F
你說的跟本不是什麼新技術,也跟di
01/29 17:07, 3F

01/29 17:07, 1天前 , 4F
stilled 不衝突
01/29 17:07, 4F
馬上就飛一隻出來了 不是什麼新技術 那openai google meta怎麼不先做(挖鼻

01/29 17:19, 1天前 , 5F
不然這樣啦 deepseek開直播訓練
01/29 17:19, 5F

01/29 17:19, 1天前 , 6F
用2000塊 H800訓練來看看啊
01/29 17:19, 6F
才剛講完馬上就來兩個青鳥XDDDD 都有實驗室用30鎂就復現了

01/29 17:34, 1天前 , 7F
可以用30鎂就復現,那DS花550萬鎂
01/29 17:34, 7F

01/29 17:34, 1天前 , 8F
幹嘛XDD!!
01/29 17:34, 8F
一個是先人研究出方法 一個只是照用別人的方法 你會說你高中就學會牛頓高斯想幾十年的東西 所以牛頓高斯在浪費人生?

01/29 17:39, 1天前 , 9F
以你的邏輯,R1是用人家砸大錢訓練
01/29 17:39, 9F

01/29 17:39, 1天前 , 10F
出來的LLM來前進,那些砸大錢的公
01/29 17:39, 10F

01/29 17:39, 1天前 , 11F
司在浪費人生?
01/29 17:39, 11F
"可以用30鎂就復現,那DS花550萬鎂幹嘛XDD!" 這句話是你說的又不是我說的 我現在一整個黑人問號

01/29 17:43, 1天前 , 12F
一句話啦,你敢保證Deepseek沒有用
01/29 17:43, 12F

01/29 17:43, 1天前 , 13F
Distill技術?如果不敢保證,就把
01/29 17:43, 13F

01/29 17:43, 1天前 , 14F
隨便罵人青鳥字眼吞回去
01/29 17:43, 14F
對不起讓你誤會了 我絕對沒有說你是青鳥

01/29 18:14, 1天前 , 15F
我是覺得盡量不要一開始就把人打入
01/29 18:14, 15F

01/29 18:14, 1天前 , 16F
某一族群,科技板不該這樣
01/29 18:14, 16F

01/29 18:34, 1天前 , 17F
政治立場帶入單純技術討論 碩士用
01/29 18:34, 17F

01/29 18:34, 1天前 , 18F
雞腿換的?
01/29 18:34, 18F
https://i.imgur.com/2BDUqa7.png
如果要像這樣"純技術討論" 我還是繼續用雞腿吧

01/29 18:55, 1天前 , 19F
純技術討論? 我信你個鬼!
01/29 18:55, 19F

01/29 19:20, 1天前 , 20F
但我也不是耶XD 單純就事論事
01/29 19:20, 20F

01/29 19:21, 1天前 , 21F
看我以往推文就知道我不是XD
01/29 19:21, 21F
抱歉 我不該說你是青鳥

01/29 19:26, 1天前 , 22F
這樣受益良多感謝,另外想詢問因為
01/29 19:26, 22F

01/29 19:26, 1天前 , 23F
deepseek 似乎沒有公開他們這套方
01/29 19:26, 23F

01/29 19:26, 1天前 , 24F
法論是對哪個LLM模型,現在openai
01/29 19:26, 24F

01/29 19:26, 1天前 , 25F
質疑distill 是質疑他們使用的LLM
01/29 19:26, 25F

01/29 19:26, 1天前 , 26F
對chatgpt distill然後再用這套方
01/29 19:26, 26F

01/29 19:26, 1天前 , 27F
法論嗎?
01/29 19:26, 27F
這麼說很有可能 deepseek v3本身應該就是幹了很多資料XD

01/29 19:27, 1天前 , 28F
因為本身不是做NLP相關的,以前也
01/29 19:27, 28F

01/29 19:27, 1天前 , 29F
沒接觸多少ai研究,如果問了蠢問題
01/29 19:27, 29F

01/29 19:27, 1天前 , 30F
敬請見諒
01/29 19:27, 30F
LLM終於來到了zero的時代 我對這點是蠻興奮的 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 19:44:13

01/29 20:19, 1天前 , 31F
反而覺得distill還好 那些模型
01/29 20:19, 31F

01/29 20:20, 1天前 , 32F
在訓練時也沒少盜用別人著作權文章
01/29 20:20, 32F

01/29 20:32, 1天前 , 33F
LATS也是用MCTS,只是評分方式改成
01/29 20:32, 33F

01/29 20:32, 1天前 , 34F
用LLM自己的機率函式?
01/29 20:32, 34F
自己把生出來的subtree再丟給LLM自己評分擇優 不一定是打分數 只要能選較好的路徑 當然衍生方式就很多 要不要另外用一個LLM專門做路徑的評分? 就可以發下一篇XD 或者專門訓練一個評分系統 發下一篇 博士生要論文生論文就是這樣做 ※ 編輯: KanzakiHAria (36.231.98.6 臺灣), 01/29/2025 20:44:12

01/29 22:33, 23小時前 , 35F
知識蒸餾要有模型 OpenAI沒有公開
01/29 22:33, 35F

01/29 22:33, 23小時前 , 36F
模型 DS頂多用OpenAI模型去標注數
01/29 22:33, 36F

01/29 22:33, 23小時前 , 37F
01/29 22:33, 37F

01/30 00:33, 21小時前 , 38F
沒有公開不代表DS拿不到啊
01/30 00:33, 38F

01/30 18:01, 4小時前 , 39F
反對你的人就說是青鳥是三小,反民
01/30 18:01, 39F

01/30 18:01, 4小時前 , 40F
進黨也不要反到這麼弱智操,很丟返
01/30 18:01, 40F

01/30 18:01, 4小時前 , 41F
民進黨派的臉
01/30 18:01, 41F
只會噓文的ID 花這麼久才找到這麼小的噓點 ※ 編輯: KanzakiHAria (36.231.97.33 臺灣), 01/30/2025 18:42:03
文章代碼(AID): #1dcUn0pS (Tech_Job)
文章代碼(AID): #1dcUn0pS (Tech_Job)