Re: [討論] OpenAI GPT o1模型

看板Tech_Job (科技人)作者zxwxz (zxwxz)時間1月前 (2024/09/18 11:19)推噓29(30推 1噓 104→)

留言135則, 41人參與討論串3/5 (看更多)

OpenAI 最近推出了 GPT-o1，但很多人可能還沒意識到這件事的嚴重性。事實上，OpenAI 已經找到了一條通往 AGI（通用人工智慧）的階梯！這個新模型的關鍵在於，它已經整合了 ToT（思維樹）和 RL（強化學習），在大型語言模型（LLM）領域達到了類似 AlphaGo Zer o 的水準。很多人以為 LLM 就是個「刷題機器」，記住了大量的資料，所以我們在人類記憶力上輸了。但這種想法只能說對一半。之前的 LLM 確實是從大量資料中，透過模式相似性來猜測答案。模型夠大，猜得也夠準，但一旦遇到需要推理和邏輯的超長尾問題，就掛了。沒有連貫的推理能力，肯定解不出來。然而，o1 模型的訓練方式完全不同。它花了大量時間在模型微調上，讓模型針對已知的問答，把所有的思考過程（CoT）都想出來。網路上很多資料只有問題和答案，中間的推理過程要嘛沒有，要嘛只提重點。這些都是靠強化學習逼出來的。如果有興趣，建議大家讀一下 OpenAI 官網的技術報告和論文： https://openai.com/index/weak-to-strong-generalization/ 。重點在這句：「當我們用這種方法，用 GPT-2 級別的模型來監督 GPT-4 在 NLP 任務上的表現，結果模型的性能通常介於 GPT-3 和 GPT-3.5 之間。」在這種新機制下，OpenAI 已經不需要再從網路抓資料了。他們可以透過 LLM 之間的互動，產生問題和答案，進行更廣泛、更完整的訓練。而且這種訓練方式相當於，你雖然只學過小學數學，但經過長時間的策略搜索和 ToT 機制，類似於 System 2 的思考，你可以解出國中數學題。當這些能力達到單一模型的算力極限時，可以透過擴大模型，把新知識裝載進更大的模型，透過 Transformer 達成 System 1 思考的嵌入。這就像學好國中數學的新模型，開始挑戰高中數學。提升智力的方式是無限的，只受限於你的 GPU 算力。你知道嗎，OpenAI 在解決 AIME 2024 的最新題目時，沒有任何過去的考古題可參考，裡面的推導公式連他們的員工都看不懂。難道還有人以為 AI 是靠背題目來解答的嗎？ ※ 引述《wsad50232 (GGYY)》之銘言： : 標題: Re: [討論] OpenAI GPT o1模型 : 時間: Tue Sep 17 12:46:33 2024 : 　 : 　 : 不就是語言模型+題庫 : 　 : 題庫1000題不夠，那就10000題 : 一萬題不夠，那就10萬題 : 看你人的腦袋能裝多少題庫拼的過嗎？ : 　 : 但是對那些非一般性的 : 面向多的，沒有標準答案的 : 個別性強，特殊場合，網上找不到答案的 : 資料不足，不完善的 : 　 : AI 就嗝了 : 　 : 某小氣公司難得花了大錢買了Licence : 打算明年縮減一半的人力來完成更多的工作 : 　 : 只能說這些早就不碰技術的高層 : 異想天開腦袋裝屎 : 　 : AI 能解的問題人工早就解了 : 人工不能解的 AI 也不能解 : 但是AI會唬爛很多行不通的答案 : 來浪費人工去驗證 : 　 : -- : ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 118.166.194.68 (臺灣) : ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1726548395.A.EEB.html : 推 sdbb : 有卦有推 09/17 12:51 : → bnn : 小氣公司砍掉底層人力正好最適合 09/17 13:01 : 推 alittleghost: 反而沒有標準的才是genai的強項 09/17 14:02 : 推 holebro : 哪間 09/17 14:24 : 噓 zxc0312 : 喔喔喔喔喔這麼會算喔那幫我算一下怎麼從重劃台北 09/17 15:17 : → zxc0312 : 萬華區總投資五年回收哦 09/17 15:17 : 推 tim82518 : 哪間 09/17 16:21 : → strlen : 其實這次o1似乎就是AI自己出題自我訓練了 09/17 16:44 : 推 abc0922001 : ChatGPT plus 一個月 20 美金而已 09/17 17:04 : ※ 編輯: wsad50232 (118.166.194.68 臺灣), 09/17/2024 18:37:28 : → chin7521 : 人工不能解的不就請再多人也沒有 09/17 20:10 : 噓 aszx4510 : LLM都出來這麼久了怎麼還有人在講題庫 09/17 20:24 : 推 rnoro : LLM都出來這麼久了，怎麼還有人搞不懂就是題庫。。 09/17 23:29 : 推 rnoro : LLM就是超大接龍，哪來的什麼智慧，話術行銷是一回 09/17 23:32 : → rnoro : 事，搞清楚他能做什麼做不到什麼很要緊，LLM可以搞 09/17 23:32 : → rnoro : 一些從1到5的東西，從0到1就沒輒了。如果現在人搞不 09/17 23:33 : → rnoro : 不出來但是機器搞得出來代表問題本質就是排列組合 09/17 23:34 : → rnoro : 人搞不出來機器也搞不出來，那就得靠真功夫想些新 09/17 23:34 : → rnoro : 東西了 09/17 23:34 : 推 lemonsheep : 但0到1是基礎學科研究在做的一般工程師甚至整個公 09/18 00:47 : → lemonsheep : 司都是在做1到5的事啊有哪位的code不是套既有演算 09/18 00:47 : → lemonsheep : 法而是自己想出比既有演算法更好複雜度的寫法嗎？ 09/18 00:47 : 噓 Izangel : 天氣預測/蛋白質結構預測/候選藥物預測是文字接龍嗎 09/18 00:57 : → Izangel : ？笑死。 09/18 00:57 : 噓 rnoro : 什麼時候LLM做天氣預測了。。。 09/18 03:21 : → rnoro : 現在所謂的ai只是把問題想辦法塞進目前可以訓練的 09/18 03:22 : → rnoro : 框架，其本質是統計，哪來什麼扯淡智慧，統計沒什麼 09/18 03:23 : → rnoro : 不好，只是要搞清楚哪些是話術哪些是搞得出來的東西 09/18 03:23 : → rnoro : 現在動不動就恐嚇人什麼agi，嚇唬誰呢 09/18 03:23 : → strlen : 還在統計...看來是個完全不懂alexnet的朋友呢 09/18 08:44 : 推 Csongs : 小氣的小公司嗎 09/18 08:48 : → john65240 : 真的，看不懂的只能說你還不懂AI是什麼 09/18 08:49 : 噓 whatzup1124 : 還在題庫哦機率是什麼你們懂嗎 09/18 11:02 : → whatzup1124 : 分類問題你們懂嗎 09/18 11:02 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.72.188.192 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1726629560.A.FD5.html

→

somerabbit

09/18 11:30, 1月前 , 1^F

09/18 11:30, 1^F

→

somerabbit

09/18 11:30, 1月前 , 2^F

09/18 11:30, 2^F

→

somerabbit

09/18 11:30, 1月前 , 3^F

09/18 11:30, 3^F

推

OyodoKai

09/18 11:33, 1月前 , 4^F

09/18 11:33, 4^F

→