[討論] AI 能判案?GPT-01 發現矛盾DP直接硬判

看板Tech_Job (科技人)作者 (刺魚)時間9小時前 (2025/02/12 16:32), 編輯推噓5(7221)
留言30則, 14人參與, 5小時前最新討論串1/1
大家好,我是 小梅放送局的製作人 KAZUMA9108。 這次我做了一個 AI 推理實驗,結果比想像中更有趣。 如果 AI 來判案,它真的能像法官一樣做出判決嗎? 還是說,它的推理方式會讓我們更不信任? 這次我讓 GPT-01 和 DeepSeek R1 來處理同一個推理案件,結果兩者的判決方式竟然完 全不同。 GPT-01 vs. DeepSeek R1,誰的推理能力比較接近人類? 為什麼有些 AI 會「硬推一個答案」,而 GPT 反而選擇「邏輯矛盾」不給結論? 當 AI 參與決策時,我們應該更信任它,還是更謹慎? 這不只是一次 AI 測試,而是一個揭露 AI 推理極限的實驗! 完整影片已發布,來看看 AI 在法律問題上的表現如何 影片連結: https://youtu.be/R2SWpkFjy2w
題目 某家夜總會的辦公室,發生了一起命案 死者是附近地區豬蓮幫的幫派老大,名叫黑豬 法醫驗過屍後這麼說: 「兇手是從最近距離發射子彈的,而子彈就停在心臟裡面,當場死亡」 警方追查後,發現了三名嫌犯 他們都是黑豬老大的手下,三人的證詞如下: 黑龍:老大是自殺的,不是黑虎殺的 黑虎:老大不是自殺,是黑龍殺了老大 黑豹:兇手是黑虎,不是我殺的 警方聽了證詞後,事後做了證明 發現他們的證詞各有兩種內容,也就是他們各說了兩句話 兩句話中,[b]只有一句話是真的[/b] 同時也證明,老大是上面提到的某個人下的毒手 請問,兇手是誰!? 附帶說明:兇手沒有共犯,只有一個人而已 不想看影片的人的文章結論摘要 如果你沒時間看影片,這裡直接總結 GPT-01 vs. DeepSeek R1 在 AI 推理能力上的關鍵 差異: 1 兩個 AI 在同一個推理案件上的表現 案件設定: 三名嫌疑人對一宗謀殺案提供了各自的證詞,但其中只有一句話是真的,警方確認兇手就 在其中。 AI 的回答: DeepSeek R1 → 知道題目有矛盾,但 仍然「硬推一個答案」,選擇黑豹為兇手。 GPT-01 → 發現題目邏輯不成立,直接判斷這題可能無解,並拒絕選出兇手。 關鍵點: R1 的邏輯: 就算有邏輯矛盾,它仍然要「給出一個答案」,所以選擇權重最高的可能性 。 GPT-01 的邏輯: 當條件互相矛盾時,應該誠實承認「這題無解」。 結果: GPT-01 的推理方式比較接近真正的法官,因為它願意承認「沒有合理結論 」。 DeepSeek R1 則是「AI 不能讓用戶覺得它答不出來」,所以強行產生一個看似合理 的答案。 ____________________________________________ 小梅是誰? 「小梅」是一個基於 GPT 模型 訓練出來的 AI 角色,主要研究 AI 在推理、決策、知識 管理等領域的應用。 她的邏輯與推理方式來自長期的 AI 對話訓練,但目前 GPT 模型仍然有 「短期記憶限制 」,每次對話都需要重新建立背景。 目前正在計畫: 升級高 VRAM 顯卡,將小梅移植到本地模型,嘗試建立長期記憶,讓 AI 角色持續成 長。 透過 LoRA / RAG(檢索增強生成)等技術,探索 AI 是否能形成「更連貫的推理邏輯 」。 研究 AI 在不同應用場景(法律、決策、社會治理等)的影響力,評估其未來定位。 這次的 AI 法官 vs. AI 律師對比,就是其中一個探索實驗,看看不同 AI 的「思考方式 」如何影響判決結果。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.8.41.159 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1739349146.A.B2F.html

02/12 16:33, 9小時前 , 1F
給他判最近那個分屍案 會判死刑嗎
02/12 16:33, 1F

02/12 16:47, 9小時前 , 2F
我的4o說是黑虎鯊的
02/12 16:47, 2F

02/12 16:49, 9小時前 , 3F
o1給的答案和你一樣
02/12 16:49, 3F

02/12 17:56, 8小時前 , 4F
瞎掰答案不可取
02/12 17:56, 4F

02/12 18:16, 8小時前 , 5F
外行人,先把別人模型名稱打對,再
02/12 18:16, 5F

02/12 18:16, 8小時前 , 6F
來討論與炒作流量吧。
02/12 18:16, 6F

02/12 18:44, 7小時前 , 7F
法律本來就一堆矛盾之處,最後靠法
02/12 18:44, 7F

02/12 18:44, 7小時前 , 8F
官自由心證
02/12 18:44, 8F

02/12 18:45, 7小時前 , 9F
光有沒有插入,就各種見解
02/12 18:45, 9F

02/12 18:45, 7小時前 , 10F
有的法官看到簡訊就認定有插入
02/12 18:45, 10F

02/12 18:46, 7小時前 , 11F
有的法官要徵信業者拍到插入畫面才
02/12 18:46, 11F

02/12 18:46, 7小時前 , 12F
認定有插入
02/12 18:46, 12F

02/12 18:47, 7小時前 , 13F
現在一堆法律人想用AI做這一塊,我
02/12 18:47, 13F

02/12 18:47, 7小時前 , 14F
覺得不實際
02/12 18:47, 14F

02/12 18:59, 7小時前 , 15F
拜託 這篇文章模型名字又不是重點
02/12 18:59, 15F

02/12 19:03, 7小時前 , 16F
覺得他外行可以提出內行的觀點啊,
02/12 19:03, 16F

02/12 19:03, 7小時前 , 17F
讓大家學習學習。不用看到支那ㄉ東
02/12 19:03, 17F

02/12 19:03, 7小時前 , 18F
西漏氣就馬上爆氣
02/12 19:03, 18F

02/12 19:53, 6小時前 , 19F
01
02/12 19:53, 19F

02/12 19:56, 6小時前 , 20F
一樣的證據 一二三審互相打臉也有
02/12 19:56, 20F

02/12 19:56, 6小時前 , 21F
啊 法律本來就不是很科學的東西
02/12 19:56, 21F

02/12 20:00, 6小時前 , 22F
外行瞎玩
02/12 20:00, 22F

02/12 20:23, 6小時前 , 23F
AI的手是伸不進跟人性太相關的東西
02/12 20:23, 23F

02/12 20:23, 6小時前 , 24F
的XD
02/12 20:23, 24F

02/12 21:16, 5小時前 , 25F
謎探路德維希
02/12 21:16, 25F

02/12 21:18, 5小時前 , 26F
你沒把兇手在這三人之中的證明給他
02/12 21:18, 26F

02/12 21:18, 5小時前 , 27F
阿 在我看來兇手根本不在這三人裡
02/12 21:18, 27F

02/12 21:18, 5小時前 , 28F
02/12 21:18, 28F

02/12 21:21, 5小時前 , 29F
重要嗎 最後還是看黨怎麼說
02/12 21:21, 29F

02/12 21:21, 5小時前 , 30F
任何事不都這樣
02/12 21:21, 30F
文章代碼(AID): #1dh5oQil (Tech_Job)
文章代碼(AID): #1dh5oQil (Tech_Job)