Re: [新聞] AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」

看板Tech_Job (科技人)作者 (charlesgg)時間13小時前 (2025/05/02 17:48), 編輯推噓2(204)
留言6則, 4人參與, 4小時前最新討論串2/2 (看更多)
※ 引述 《zaiter》 之銘言: : 評測網本來就要賺錢 這也很正常 : AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」 : 鉅亨網編譯莊閔棻 綜合報導2025-05-01 21:12 : AI圈爆大醜聞,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(圖:Shutt : erstock) : 來自人工智慧(AI)實驗室 Cohere、史丹佛大學、麻省理工學院(MIT)與知名 AI 研究 : 機構 AI2 的最新研究指出,知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US) : 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試 : 機會,藉此提升其排行榜成績,影響評測公信力。 呃,新聞講得不知所云,ChatBot Arena是一個動態的競技場,一般是評測人員上去上面事 前不會知道待測的是哪一個配對的模型,AB模型是在比較以後評測人員選定後才會跳出被選 擇的是哪一個模型。 他一開始是基於Bradley-Terry Model的統計假設,兩兩競技比賽人員歷史上只有少數或是 沒有對弈過,然後我們要知道誰才是選秀狀元的假設。 理論上BT Model是歷史悠久蠻公平也有信度的統計方法論,但前提是出賽取樣率要公平。這 篇論文是CohereAI(加拿大新創)跟史丹佛聯名發表的,指出來的是當前一堆大公司洗一大 堆複製體然後霸佔榜單導致取樣不公平,所以就打破BT模型的假設,然後他們也有實驗證明 了主流模型在ChatBot Arena取樣到的機會異常高。 直白一點就是如果NBA喇叭詹有錢到可以無限複製自己瘋狂出賽八成的隊伍,然後再取最好 的那個複製體對外宣傳自己是MVP,這樣就會有不公平競技疑慮,那NBA自己本身的信度就會 下降。 不過論文也只是提出一個假設跟實驗,實際上有沒有不公平競技也只有評測公司自己知道而 已。論文也沒提到拿評測公司資料訓練這件事情,所以這件事情還是有待定論的。 差不多4醬 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.91.43 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746179283.A.B43.html

05/02 18:00, 13小時前 , 1F
推推!
05/02 18:00, 1F

05/02 18:19, 12小時前 , 2F
Chatbot Arena最大的bug就是,每個
05/02 18:19, 2F

05/02 18:19, 12小時前 , 3F
人都靠"自我感覺"決定哪個答案好。
05/02 18:19, 3F

05/02 18:19, 12小時前 , 4F
與智慧或正確無關。
05/02 18:19, 4F

05/02 23:02, 8小時前 , 5F
kimoji決定那個比較好的沒啥問題啊
05/02 23:02, 5F

05/03 02:26, 4小時前 , 6F
沒想到充滿網軍的ptt還有這種好文
05/03 02:26, 6F
文章代碼(AID): #1e59JJj3 (Tech_Job)
文章代碼(AID): #1e59JJj3 (Tech_Job)