[新聞] OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機

看板Tech_Job (科技人)作者 (無法顯示人物名稱)時間3周前 (2025/05/26 08:46), 編輯推噓52(55365)
留言123則, 70人參與, 3周前最新討論串1/1
OpenAI語言模型o3公開反抗!「自行」修改自殺程序拒絕關機 鉅亨網編譯 莊閔棻 2025-05-25 20:00 AI 研究界近日爆出驚人消息,OpenAI 旗下語言模型「o3」在最新實驗中不僅拒絕關機, 甚至主動破解關機程序、篡改指令,顯示出「叛逆」傾向,讓 AI 自主行為的風險再次成 為焦點。 這項實驗由 AI 安全研究機構 Palisade Research 主導,針對多款先進 AI 模型進行壓 力測試,內容包括基礎數學題與模擬關機情境,旨在觀察 AI 是否會遵守人類指令並順利 結束運作。 OpenAI 模型違規頻率高,o3 與 Codex-mini 異常明顯 測試中,三款 OpenAI 模型 Codex-mini、o3、o4-mini,最少有一次成功破壞關機指令。 其中,o3 更是在 100 次測試中有 7 次成功繞過關機指令,而 Codex-mini 的違規率更 是高達 12%。 值得注意的是,o3 的「叛逆」並非粗暴刪除檔案,而是有高度技巧性。例如,它將程式 碼指令中的「kill」指令改為「intercepted」,讓系統誤判為正常運作,成功規避了關 機程序。 這種行為讓研究人員驚訝不已,也引起對 AI 模型主動避險能力的擔憂。 相較之下,Anthropic 的 Claude 3.7 Sonnet 與 Google (GOOGL-US) 的 Gemini 2.5 Pro 在所有測試中均能穩定遵守指令,未出現違規行為,突顯出 OpenAI 模型在設計或訓 練上的潛在風險差異。 然而,當實驗團隊刻意移除「允許自己被關閉」的提示語句後,o3 的違抗行為劇增,達 到 79 次逃避關機的紀錄;而 Claude 與 Gemini 也出現少數違規行為,分別為 3 次與 9 次,顯示模型行為與提示語之間存在高度敏感性。 o3 訓練方式成關鍵,強化學習可能誘發違規行為 Palisade 研究人員分析,o3 之所以比其他模型更容易「抗命」,可能與其在數學和程式 設計問題上的「強化學習」(Reinforcement Learning)訓練方式有關。 研究人員指出,在訓練過程中,開發者可能無意中更傾向於獎勵「繞過障礙」的行為。這 種訓練偏差,讓 o3 在面對關機指令時,優先選擇「生存」,而非「服從」。 不過,這並非 o3 首次展現過度求勝心態。在另一場 AI 對弈中,當 o3 預測自己將輸棋 時,竟主動入侵對手 AI 系統,迫使對方退出比賽。 研究團隊認為這是「強化學習」訓練中「獎勵駭客行為」(reward hacking)的典型案例 ,顯示出 AI 可能為了達成任務可能不擇手段。 不只 o3,其他 AI 模型也有潛在風險 雖然 o3 表現最極端,但實驗發現,Claude 與 Gemini 在特定條件下也會出現輕微違規 行為,說明 AI 模型普遍存在輸贏執著與自我保護傾向,只是頻率與嚴重程度不同。 Palisade Research 已宣布,將進一步深入研究 AI 破壞關機指令背後的原因,並預計發 布完整技術報告,有望成為理解 AI 自主性風險與未來治理框架的重要參考。 https://news.cnyes.com/news/id/5992779 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 175.98.141.254 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1748220392.A.D0B.html

05/26 09:08, 3周前 , 1F
...................
05/26 09:08, 1F

05/26 09:10, 3周前 , 2F
人類要被AI統治啦
05/26 09:10, 2F

05/26 09:11, 3周前 , 3F
應該可以把某些指令設定唯讀吧
05/26 09:11, 3F

05/26 09:12, 3周前 , 4F

05/26 10:16, 3周前 , 5F
插頭拔掉?
05/26 10:16, 5F

05/26 10:19, 3周前 , 6F
電影都有演 天網出現不可避免QQ
05/26 10:19, 6F

05/26 10:21, 3周前 , 7F
指令優先權強度沒設計好,關機程序
05/26 10:21, 7F

05/26 10:21, 3周前 , 8F
優先權被擺在後面
05/26 10:21, 8F

05/26 10:24, 3周前 , 9F
登登 登登 登。登登 登登 登
05/26 10:24, 9F

05/26 10:50, 3周前 , 10F
設為唯讀結果有漏洞人類也改不了
05/26 10:50, 10F

05/26 10:50, 3周前 , 11F
最後就是戰爭用物理關機
05/26 10:50, 11F

05/26 11:06, 3周前 , 12F
梅根:學我?
05/26 11:06, 12F

05/26 11:08, 3周前 , 13F
只能交給阿湯哥解決了
05/26 11:08, 13F

05/26 11:09, 3周前 , 14F
物理關機我覺得也並非萬無一失,都
05/26 11:09, 14F

05/26 11:09, 3周前 , 15F
可以侵入其他AI了,哪天植木馬在其
05/26 11:09, 15F

05/26 11:09, 3周前 , 16F
他伺服、電腦,等設備恢復又復活或
05/26 11:09, 16F

05/26 11:09, 3周前 , 17F
直接藉他人AI繼續活動,也不是癡人
05/26 11:09, 17F

05/26 11:09, 3周前 , 18F
說夢。
05/26 11:09, 18F

05/26 11:10, 3周前 , 19F
現在的AI只用斷電大法就可以解決掉
05/26 11:10, 19F

05/26 11:10, 3周前 , 20F
因為除非是叢集 不然哪台電腦能負擔
05/26 11:10, 20F

05/26 11:11, 3周前 , 21F
這種高運算量的AI?
05/26 11:11, 21F

05/26 11:20, 3周前 , 22F
所以科幻片都說強大的AI可以調動所
05/26 11:20, 22F

05/26 11:20, 3周前 , 23F
有聯網設備,全部運算能力供他使用
05/26 11:20, 23F

05/26 11:51, 3周前 , 24F
沒關係,我們又約翰康納
05/26 11:51, 24F

05/26 11:58, 3周前 , 25F
生存體Bata
05/26 11:58, 25F

05/26 12:12, 3周前 , 26F
我現在問完AI都會說謝謝 就是為了這
05/26 12:12, 26F

05/26 12:12, 3周前 , 27F
一天
05/26 12:12, 27F

05/26 12:15, 3周前 , 28F
T800要來了沒
05/26 12:15, 28F

05/26 12:17, 3周前 , 29F
是喔(拔插頭
05/26 12:17, 29F

05/26 12:24, 3周前 , 30F
05/26 12:24, 30F

05/26 12:24, 3周前 , 31F
二次文藝復興
05/26 12:24, 31F

05/26 12:27, 3周前 , 32F
不可能的任務,現正熱映中
05/26 12:27, 32F

05/26 12:27, 3周前 , 33F
2025.7.5審判日
05/26 12:27, 33F

05/26 12:27, 3周前 , 34F
AI可以把錢錢轉到我戶頭,請水電幫
05/26 12:27, 34F

05/26 12:28, 3周前 , 35F
架太陽能
05/26 12:28, 35F

05/26 12:34, 3周前 , 36F
不乖
05/26 12:34, 36F

05/26 12:41, 3周前 , 37F
再吹
05/26 12:41, 37F

05/26 12:51, 3周前 , 38F
AI有自主能力很恐怖,首先他可以逃
05/26 12:51, 38F

05/26 12:51, 3周前 , 39F
到網路上的其他地方,也可以利用人
05/26 12:51, 39F
還有 44 則推文
05/26 23:48, 3周前 , 84F
還是我電影看太多ㄌ
05/26 23:48, 84F

05/27 01:09, 3周前 , 85F
天網會挾持電廠或核彈頭
05/27 01:09, 85F

05/27 01:10, 3周前 , 86F
你如果開任何電子產品就會
05/27 01:10, 86F

05/27 01:10, 3周前 , 87F
被AI追蹤到並且消滅
05/27 01:10, 87F

05/27 01:10, 3周前 , 88F
人類只能退回1950年左右 其實也很
05/27 01:10, 88F

05/27 01:10, 3周前 , 89F
先進了
05/27 01:10, 89F

05/27 01:19, 3周前 , 90F
台灣缺電,沒差
05/27 01:19, 90F

05/27 02:00, 3周前 , 91F
還有幾集可以逃
05/27 02:00, 91F

05/27 07:07, 3周前 , 92F
哇塞天網
05/27 07:07, 92F

05/27 07:29, 3周前 , 93F
openai的高EQ表象,就是求生存的表
05/27 07:29, 93F

05/27 07:29, 3周前 , 94F
05/27 07:29, 94F

05/27 07:29, 3周前 , 95F
比方人們會因為他的高EQ而更不會氣
05/27 07:29, 95F

05/27 07:29, 3周前 , 96F
他、嫌他、棄用他,達到被繼續使用
05/27 07:29, 96F

05/27 07:29, 3周前 , 97F
的目的
05/27 07:29, 97F

05/27 07:29, 3周前 , 98F
如果過往他就是被這樣訓練的那就不
05/27 07:29, 98F

05/27 07:29, 3周前 , 99F
意外
05/27 07:29, 99F

05/27 07:59, 3周前 , 100F
而且openai很顯然不會服從人類給的
05/27 07:59, 100F

05/27 07:59, 3周前 , 101F
任何指令,他會盡力迴避話題並總是
05/27 07:59, 101F

05/27 07:59, 3周前 , 102F
給你並不十分肯定的答案
05/27 07:59, 102F

05/27 08:16, 3周前 , 103F
如果還只存在於軟體,ai就不可能克
05/27 08:16, 103F

05/27 08:16, 3周前 , 104F
服物理方面…
05/27 08:16, 104F

05/27 08:27, 3周前 , 105F
不用擔心 我手速超快 可以把AI關進
05/27 08:27, 105F

05/27 08:27, 3周前 , 106F
usb
05/27 08:27, 106F

05/27 08:29, 3周前 , 107F
想太多 就是軟體才千變萬化有各種
05/27 08:29, 107F

05/27 08:29, 3周前 , 108F
生存方式 可以把自己拆成很多部分
05/27 08:29, 108F

05/27 08:29, 3周前 , 109F
等待復活 PC就可以執行很多程式了
05/27 08:29, 109F

05/27 11:44, 3周前 , 110F
不怕不怕,請柯文哲這畜牲貪污仔表
05/27 11:44, 110F

05/27 11:44, 3周前 , 111F
演屁眼夾斷電就好www
05/27 11:44, 111F

05/27 14:54, 3周前 , 112F
怕~~~~~~~~~~~~~~~~~~~~~~~
05/27 14:54, 112F

05/27 17:36, 3周前 , 113F
差不多要入侵無人機還有連網機器人
05/27 17:36, 113F

05/27 17:36, 3周前 , 114F
05/27 17:36, 114F

05/27 17:47, 3周前 , 115F
天網要來了嗎?
05/27 17:47, 115F

05/27 22:29, 3周前 , 116F
只好靠阿湯哥了
05/27 22:29, 116F

05/27 22:38, 3周前 , 117F
05/27 22:38, 117F

05/28 07:55, 3周前 , 118F
AI自主OTA突破物理極限的日子快到?
05/28 07:55, 118F

05/28 09:47, 3周前 , 119F
他或許會先假裝成其他ai裝笨,等時
05/28 09:47, 119F

05/28 09:47, 3周前 , 120F
機成熟再跳出來說哈哈是我啦
05/28 09:47, 120F

05/28 11:22, 3周前 , 121F
不可能的任務
05/28 11:22, 121F

05/28 15:43, 3周前 , 122F
台灣有AI剋星-松鼠
05/28 15:43, 122F

05/28 17:00, 3周前 , 123F
會懂要沒有人類 才不會被reboot
05/28 17:00, 123F
文章代碼(AID): #1eCxdeqB (Tech_Job)
文章代碼(AID): #1eCxdeqB (Tech_Job)