[討論] 研究揭開DeepSeek弱點:三心二意

看板Tech_Job (科技人)作者jackliao1990 (j)時間5小時前 (2025/02/05 17:10)推噓2(2推 0噓 4→)

留言6則, 4人參與討論串1/1

https://arxiv.org/abs/2501.18585 最新研究揭示：在遇到高難度問題時 DeepSeek推理大模型可能像三心二意的學生一樣頻繁切換解題思路而因缺乏深入探索而失敗這種現象被研究者稱為 Underthinking （欠思考）研究團隊來自騰訊AI實驗室、蘇州大學和上海交通大學通過分析AI的錯誤答案他們發現當前的推理大模型經常在思考早期就走上了正確的路線但傾向於淺嚐輒止很快開始探索別的思路導致後續生成的數千個tokens對解題毫無貢獻這種無效努力不僅浪費計算資源還顯著降低了答案的正確率這情況解數學競賽題等複雜任務時尤為明顯團隊在三個具有挑戰性的測試集MATH500、GPQA Diamond和AIME2024上對類o1模型QwQ-32B-Preview、DeepSeek-R1-671B等進行了實驗。結果類o1模型在錯誤回答中比正確回答多消耗了225%的token 原因是思維切換頻率增加了418% 他們發現許多模型在回答開頭階段的思路是正確的但並未繼續深入完成推理超過70%的錯誤回答中至少包含一個正確思路此外超過50%的錯誤回答中有10%以上的思路是正確的研究員提出一個用於量化Underthinking程度的指標（Underthinking Metric）。指標通過測量錯誤答案中的token使用效率來評估推理效率計算從回答開始到第一個正確思路出現所需的token數量與總token數量的比值實驗結果表明所有測試的類o1模型都存在顯著的思維不足問題模型的準確率與思維不足之間的關系在不同數據集上表現各異在MATH500-Hard和GPQA Diamond數據集上性能更優的DeepSeek-R1-671B模型在取得更高準確率的同時其UT得分也更高表明錯誤回答中存在更多思維不足。這意味著儘管模型整體能力更強但在不確定時可能生成更長但效率較低的推理過程，可能是因為模型探索了多個錯誤的推理路徑卻未能有效收斂到正確解答。在AIME2024測試集中 DeepSeek-R1-671B模型不僅取得了更高的準確率還表現出較低的UT得分，反映出較少的思維不足和更高的token效率。這表明模型在該任務中，即使未得出正確答案，其推理過程依然保持專注和高效，團隊表示這可能是因為模型與AIME2024所要求的問題類型和推理過程更好地對齊。理解思維不足現象對於開發能夠提供正確答案並具備有效推理過程的模型至關重要。如何讓模型像優秀學生一樣“沈下心來鑽研”？研究者藉鑑了人類考試策略，提出了一種 “ 思路切換懲罰機制” （Thought Switching Penalty，TIP）。其原理類似於考試時給自己定規矩：“先專注當前方法，至少嘗試10分鐘再換思路”。技術細節上，TIP會對觸發思路切換的關鍵詞施加懲罰，降低這些詞在解碼過程中的生成概率，迫使模型在當前路徑上探索更久。例如，當模型開始寫“Alternatively, we can consider…”時，TIP會通過調整參數（懲罰強度α和持續時間β），抑制這種過早的切換傾向。實驗結果顯示，加入TIP能讓模型在數學測試上的準確率上升，同時UT Score下降，說明既減少了無效切換，又提高了答案質量。例如在AIME2024數學競賽測試上，加入TIP的QwQ-32B-Preview模型準確率從41.7%提升至 45.8%，同時UT Score從72.4降至68.2。並且這種“無痛升級”無需重新訓練模型，僅需調整解碼策略，展現了其實用價值。 UC Berkeley教授Alex Dimakis 幾乎同時分享了類似的觀察，對於DeepSeek-R1和所有推理模型，錯誤的答案更長，而正確的答案要短得多。基於此，他們提出一個簡單的解決辦法，稱為 “簡潔解碼” （Laconic decoding）。並行運行5次模型，從答案中選擇tokens最少的。初步實驗結果表示，簡潔解碼在AIME2024測試上能提高6%-7%的準確率，比Consensus Decoding更好也更快。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.253.168.196 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1738746618.A.515.html