[討論] 研究揭開DeepSeek弱點:三心二意

看板Tech_Job (科技人)作者 (j)時間5小時前 (2025/02/05 17:10), 編輯推噓2(204)
留言6則, 4人參與, 2小時前最新討論串1/1
https://arxiv.org/abs/2501.18585 最新研究揭示: 在遇到高難度問題時 DeepSeek推理大模型可能像三心二意的學生一樣頻繁切換解題思路 而因缺乏深入探索而失敗 這種現象被研究者稱為 Underthinking (欠思考) 研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學 通過分析AI的錯誤答案 他們發現當前的推理大模型經常在思考早期就走上了正確的路線 但傾向於淺嚐輒止 很快開始探索別的思路 導致後續生成的數千個tokens對解題毫無貢獻 這種無效努力不僅浪費計算資源還顯著降低了答案的正確率 這情況解數學競賽題等複雜任務時尤為明顯 團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上 對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。 結果類o1模型在錯誤回答中比正確回答多消耗了225%的token 原因是思維切換頻率增加了418% 他們發現許多模型在回答開頭階段的思路是正確的但並未繼續深入完成推理 超過70%的錯誤回答中至少包含一個正確思路 此外超過50%的錯誤回答中有10%以上的思路是正確的 研究員提出一個用於量化Underthinking程度的指標(Underthinking Metric)。 指標通過測量錯誤答案中的token使用效率來評估推理效率 計算從回答開始到第一個正確思路出現所需的token數量與總token數量的比值 實驗結果表明所有測試的類o1模型都存在顯著的思維不足問題 模型的準確率與思維不足之間的關系在不同數據集上表現各異 在MATH500-Hard和GPQA Diamond數據集上 性能更優的DeepSeek-R1-671B模型在取得更高準確率的同時 其UT得分也更高 表明錯誤回答中存在更多思維不足。 這意味著儘管模型整體能力更強 但在不確定時可能生成更長但效率較低的推理過程, 可能是因為模型探索了多個錯誤的推理路徑卻未能有效收斂到正確解答。 在AIME2024測試集中 DeepSeek-R1-671B模型不僅取得了更高的準確率 還表現出較低的UT得分,反映出較少的思維不足和更高的token效率。 這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表 示這可能是因為模型與AIME2024所要求的問題類型和推理過程更好地對齊。 理解思維不足現象對於開發能夠提供正確答案並具備有效推理過程的模型至關重要。 如何讓模型像優秀學生一樣“沈下心來鑽研”? 研究者藉鑑了人類考試策略,提出了一種 “ 思路切換懲罰機制” (Thought Switching Penalty,TIP)。 其原理類似於考試時給自己定規矩:“先專注當前方法,至少嘗試10分鐘再換思路”。 技術細節上,TIP會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成 概率,迫使模型在當前路徑上探索更久。 例如,當模型開始寫“Alternatively, we can consider…”時,TIP會通過調整參數( 懲罰強度α和持續時間β),抑制這種過早的切換傾向。 實驗結果顯示,加入TIP能讓模型在數學測試上的準確率上升,同時UT Score下降,說明 既減少了無效切換,又提高了答案質量。 例如在AIME2024數學競賽測試上,加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至 45.8%,同時UT Score從72.4降至68.2。 並且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。 UC Berkeley教授Alex Dimakis 幾乎同時分享了類似的觀察, 對於DeepSeek-R1和所有推理模型,錯誤的答案更長,而正確的答案要短得多。 基於此,他們提出一個簡單的解決辦法,稱為 “簡潔解碼” (Laconic decoding)。 並行運行5次模型,從答案中選擇tokens最少的。 初步實驗結果表示,簡潔解碼在AIME2024測試上能提高6%-7%的準確率,比Consensus Decoding更好也更快。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.168.196 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738746618.A.515.html

02/05 17:32, 4小時前 , 1F
竟然在PTT 認真討論arXiv,根本清流
02/05 17:32, 1F

02/05 17:57, 4小時前 , 2F
看起來是所有類o1都有的問題?只是
02/05 17:57, 2F

02/05 17:57, 4小時前 , 3F
論文只跑QwQ跟DS
02/05 17:57, 3F

02/05 18:39, 3小時前 , 4F
跟一開始的openAI一樣 很快被玩壞
02/05 18:39, 4F

02/05 20:13, 2小時前 , 5F
他是蒸鎦模型,會半途而廢另闢戰場.
02/05 20:13, 5F

02/05 20:15, 2小時前 , 6F
有點:這樣還不行,趕緊換個方法試試
02/05 20:15, 6F
文章代碼(AID): #1deohwKL (Tech_Job)
文章代碼(AID): #1deohwKL (Tech_Job)