Re: [心得] 蘋果揭露人工智能並不思考
這不是常識嗎???
你用LLM最常看到的不就免責條款
你有沒有想過
為什麼那些免責條款需要存在
僅僅是因為現在技術力不足???
才不是...
1.LLM會不會思考
https://ibb.co/k2gjs7rv
2.為什麼看起來像會思考
https://ibb.co/d0mZrSnH
3.這號稱的推理能力哪裡來的?
https://ibb.co/LX6T1PBd
4.結論
https://ibb.co/dsLMGynj
延伸問題
1.LLM究竟有無可能走向自我糾錯
不可能,其回答是立基於機率而非邏輯
永遠都會有一個高機率答案
https://ibb.co/wZdjy8sD
2.未來可能方向
https://ibb.co/0pz2NbSp
所以這條路未來是不可能走向AGI
這是LLM底層架構、邏輯
所決定的事
哪需要揭露
我還以為這是常識
因此你只要問LLM可以驗證的問題
它有很高機率回你個錯誤答案
因為它是猜一個看起來對的答案給你
而不是真的下去思考、計算
例如
543.21*543.21=???
上面這題
Gork、Gemini、GPT都可以是錯的
這才是為什麼要很小心用LLM的理由
整個思路、流程看起來都沒問題
但答案極有可能是錯的
結果錯在最智障的地方
計算式你給我用猜的...
※ 引述《huabandd (我是阿肥巴你頭)》之銘言:
: https://is.gd/U7lWC8
: 看到一個影片,非新聞報導,僅創作者想法
: 討論蘋果揭露關於人工智能當中的最大謊言
: 之前也看過一個影片指出
: AI無法產出指針在10:10以外的手錶
: (網路手錶圖片通常指針停留在10:10)
: 自己嘗試過幾次確實是這樣
: 因為AI的訓練是基於現有大量資料
: 去產生一個與大量資料相似的產物給你
: 無法產生未曾有過資料的產物
: (以上為個人猜測,若錯誤請指正)
: 雖然現在已有研究嘗試將AI接入人類神經元
: 未來思考的方式有可能因此改變
: 不再只是記憶,而是真正的推理
: (但是這好像也是一件滿恐怖的事情?)
: 如果說給AI一個圍棋組,但不教他玩法
: 也不讓他參考棋類玩法,讓他自行摸索
: 就像嬰兒拿到玩具後自己亂玩那樣
: AI能夠自行生成玩法是不是就算是成功?
: 中文翻譯
: 蘋果剛剛揭露了人工智慧中最大的謊言,即「思考」的假象,證明了像 Claude、Deepseek-
: R1 和 OpenAI 的 o3-mini 等推理模型實際上並不會思考。蘋果沒有重複使用舊有的數學問
: 題,而是創造了這些模型從未見過全新謎題。結果令人震驚。
: 對於簡單問題,標準 AI 模型表現優於昂貴的推理模型,同時消耗更少的資源。對於中等複
: 雜度問題,推理模型顯示出一些優勢,但對於模擬現實世界情境的高複雜度問題,兩種類型
: 的模型都崩潰到 0% 的準確度。
: 這是確鑿的證據:蘋果給予 AI 模型逐步的演算法,就像給某人食譜一樣,但它們仍在相同
: 的門檻下失敗了。這證明它們無法遵循邏輯指令。該研究沒有發現任何形式推理的證據,得
: 出結論認為其行為最好用複雜的模式匹配來解釋。
: 簡單地更改名稱和問題會顯著降低性能。蘋果測試了河內塔(Tower of Hanoi)謎題,模型
: 在超過 100 步的移動中成功了,但在新穎的渡河謎題中僅僅 4 步後就失敗了。它們是記憶
: 模式,而不是進行邏輯推理。
: 隨著問題變得越來越難,「思考」模型使用的 token 越來越少,放棄得更快,而不是更深
: 入地思考。即使無限的計算資源也無濟於事。這揭示了數十億美元的 AI 投資是建立在錯誤
: 前提上的。
: 公司將複雜的模式匹配宣傳為真正的推理,誤導消費者對 AI 能力的認知。我們離通用人工
: 智慧(AGI)的距離並沒有大家想像的那麼近;我們正在處理的是非常複雜的自動完成系統
: 。當先進的 AI 推理模型連遵循簡單指令都失敗時,我們是否正生活在一個建立在幻想之上
: 的 AI 炒作泡沫中?
: 英文原文
: Apple just exposed the biggest lie in AI with the illusion of "thinking," provin
: g that reasoning models like Claude, Deepseek-R1, and OpenAI's o3-mini don't act
: ually think. Instead of recycling math problems, Apple created brand new puzzles
: these models had never seen. The results were shocking.
: For simple problems, standard AI models outperformed expensive reasoning models
: while using fewer resources. For medium complexity, reasoning models showed some
: advantage, but for high complexity problems that mirror real-world scenarios, b
: oth types collapsed to 0% accuracy.
: Here's the damning evidence: Apple gave AI models step-by-step algorithms, like
: giving someone a recipe, and they still failed at the same thresholds. This prov
: es they can't follow logical instructions. The study found no evidence of formal
: reasoning, concluding behavior is better explained by sophisticated pattern mat
: ching.
: Simply changing names and problems degraded performance dramatically. Apple test
: ed Tower of Hanoi puzzles, where models succeeded with 100-plus moves but failed
: at novel river crossing puzzles after just 4 moves. They memorized patterns rat
: her than reasoned logically.
: As problems got harder, "thinking" models used fewer tokens and gave up faster i
: nstead of thinking deeper. Even unlimited computational resources couldn't help.
: This exposes that billions in AI investment are based on false premises.
: Companies market sophisticated pattern matching as genuine reasoning, misleading
: consumers about AI capabilities. We are not as close to AGI as everyone thinks;
: we're dealing with very sophisticated autocomplete systems. When advanced AI re
: asoning models fail at following simple instructions, are we living in an AI hyp
: e bubble built on illusions?
-----
Sent from JPTT on my Xiaomi 23090RA98G.
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.242.134.228 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Stock/M.1750025617.A.AA0.html
※ 編輯: pujos (27.242.134.228 臺灣), 06/16/2025 06:27:39
推
06/16 06:33,
3周前
, 1F
06/16 06:33, 1F
→
06/16 06:33,
3周前
, 2F
06/16 06:33, 2F
推
06/16 07:11,
3周前
, 3F
06/16 07:11, 3F
→
06/16 07:11,
3周前
, 4F
06/16 07:11, 4F
→
06/16 07:14,
3周前
, 5F
06/16 07:14, 5F
→
06/16 07:14,
3周前
, 6F
06/16 07:14, 6F
→
06/16 07:15,
3周前
, 7F
06/16 07:15, 7F
推
06/16 07:17,
3周前
, 8F
06/16 07:17, 8F
→
06/16 07:18,
3周前
, 9F
06/16 07:18, 9F
推
06/16 07:18,
3周前
, 10F
06/16 07:18, 10F
→
06/16 07:19,
3周前
, 11F
06/16 07:19, 11F
推
06/16 07:28,
3周前
, 12F
06/16 07:28, 12F
→
06/16 07:30,
3周前
, 13F
06/16 07:30, 13F
→
06/16 07:31,
3周前
, 14F
06/16 07:31, 14F
推
06/16 07:31,
3周前
, 15F
06/16 07:31, 15F
→
06/16 07:31,
3周前
, 16F
06/16 07:31, 16F
→
06/16 07:32,
3周前
, 17F
06/16 07:32, 17F
→
06/16 07:32,
3周前
, 18F
06/16 07:32, 18F
→
06/16 07:32,
3周前
, 19F
06/16 07:32, 19F
→
06/16 07:32,
3周前
, 20F
06/16 07:32, 20F
推
06/16 07:36,
3周前
, 21F
06/16 07:36, 21F
→
06/16 07:38,
3周前
, 22F
06/16 07:38, 22F
推
06/16 07:43,
3周前
, 23F
06/16 07:43, 23F
→
06/16 07:43,
3周前
, 24F
06/16 07:43, 24F
→
06/16 08:13,
3周前
, 25F
06/16 08:13, 25F
→
06/16 08:13,
3周前
, 26F
06/16 08:13, 26F
→
06/16 08:14,
3周前
, 27F
06/16 08:14, 27F
→
06/16 08:15,
3周前
, 28F
06/16 08:15, 28F
→
06/16 08:15,
3周前
, 29F
06/16 08:15, 29F
→
06/16 08:15,
3周前
, 30F
06/16 08:15, 30F
推
06/16 08:15,
3周前
, 31F
06/16 08:15, 31F
→
06/16 08:17,
3周前
, 32F
06/16 08:17, 32F
→
06/16 08:18,
3周前
, 33F
06/16 08:18, 33F
→
06/16 08:19,
3周前
, 34F
06/16 08:19, 34F
→
06/16 08:20,
3周前
, 35F
06/16 08:20, 35F
→
06/16 08:20,
3周前
, 36F
06/16 08:20, 36F
→
06/16 08:21,
3周前
, 37F
06/16 08:21, 37F
噓
06/16 08:23,
3周前
, 38F
06/16 08:23, 38F
→
06/16 08:23,
3周前
, 39F
06/16 08:23, 39F
→
06/16 08:23,
3周前
, 40F
06/16 08:23, 40F
→
06/16 08:24,
3周前
, 41F
06/16 08:24, 41F
推
06/16 08:28,
3周前
, 42F
06/16 08:28, 42F
→
06/16 09:53,
3周前
, 43F
06/16 09:53, 43F
→
06/16 09:53,
3周前
, 44F
06/16 09:53, 44F
→
06/16 09:53,
3周前
, 45F
06/16 09:53, 45F
→
06/16 10:14,
3周前
, 46F
06/16 10:14, 46F
→
06/16 10:24,
3周前
, 47F
06/16 10:24, 47F
→
06/16 10:24,
3周前
, 48F
06/16 10:24, 48F
→
06/16 12:48,
3周前
, 49F
06/16 12:48, 49F
→
06/16 14:08,
3周前
, 50F
06/16 14:08, 50F
討論串 (同標題文章)
Stock 近期熱門文章
PTT職涯區 即時熱門文章