Re: [新聞] AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」

看板Tech_Job (科技人)作者sxy67230 (charlesgg)時間13小時前 (2025/05/02 17:48)推噓2(2推 0噓 4→)

留言6則, 4人參與討論串2/2 (看更多)

※ 引述《zaiter》之銘言： : 評測網本來就要賺錢這也很正常 : AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」 : 鉅亨網編譯莊閔棻綜合報導2025-05-01 21:12 : AI圈爆大醜聞，研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。（圖：Shutt : erstock） : 來自人工智慧（AI）實驗室 Cohere、史丹佛大學、麻省理工學院（MIT）與知名 AI 研究 : 機構 AI2 的最新研究指出，知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US) : 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試 : 機會，藉此提升其排行榜成績，影響評測公信力。呃，新聞講得不知所云，ChatBot Arena是一個動態的競技場，一般是評測人員上去上面事前不會知道待測的是哪一個配對的模型，AB模型是在比較以後評測人員選定後才會跳出被選擇的是哪一個模型。他一開始是基於Bradley-Terry Model的統計假設，兩兩競技比賽人員歷史上只有少數或是沒有對弈過，然後我們要知道誰才是選秀狀元的假設。理論上BT Model是歷史悠久蠻公平也有信度的統計方法論，但前提是出賽取樣率要公平。這篇論文是CohereAI(加拿大新創）跟史丹佛聯名發表的，指出來的是當前一堆大公司洗一大堆複製體然後霸佔榜單導致取樣不公平，所以就打破BT模型的假設，然後他們也有實驗證明了主流模型在ChatBot Arena取樣到的機會異常高。直白一點就是如果NBA喇叭詹有錢到可以無限複製自己瘋狂出賽八成的隊伍，然後再取最好的那個複製體對外宣傳自己是MVP，這樣就會有不公平競技疑慮，那NBA自己本身的信度就會下降。不過論文也只是提出一個假設跟實驗，實際上有沒有不公平競技也只有評測公司自己知道而已。論文也沒提到拿評測公司資料訓練這件事情，所以這件事情還是有待定論的。差不多4醬 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.91.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746179283.A.B43.html