Re: [新聞] AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
※ 引述 《zaiter》 之銘言:
: 評測網本來就要賺錢 這也很正常
: AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」
: 鉅亨網編譯莊閔棻 綜合報導2025-05-01 21:12
: AI圈爆大醜聞,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(圖:Shutt
: erstock)
: 來自人工智慧(AI)實驗室 Cohere、史丹佛大學、麻省理工學院(MIT)與知名 AI 研究
: 機構 AI2 的最新研究指出,知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US)
: 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試
: 機會,藉此提升其排行榜成績,影響評測公信力。
呃,新聞講得不知所云,ChatBot Arena是一個動態的競技場,一般是評測人員上去上面事
前不會知道待測的是哪一個配對的模型,AB模型是在比較以後評測人員選定後才會跳出被選
擇的是哪一個模型。
他一開始是基於Bradley-Terry Model的統計假設,兩兩競技比賽人員歷史上只有少數或是
沒有對弈過,然後我們要知道誰才是選秀狀元的假設。
理論上BT Model是歷史悠久蠻公平也有信度的統計方法論,但前提是出賽取樣率要公平。這
篇論文是CohereAI(加拿大新創)跟史丹佛聯名發表的,指出來的是當前一堆大公司洗一大
堆複製體然後霸佔榜單導致取樣不公平,所以就打破BT模型的假設,然後他們也有實驗證明
了主流模型在ChatBot Arena取樣到的機會異常高。
直白一點就是如果NBA喇叭詹有錢到可以無限複製自己瘋狂出賽八成的隊伍,然後再取最好
的那個複製體對外宣傳自己是MVP,這樣就會有不公平競技疑慮,那NBA自己本身的信度就會
下降。
不過論文也只是提出一個假設跟實驗,實際上有沒有不公平競技也只有評測公司自己知道而
已。論文也沒提到拿評測公司資料訓練這件事情,所以這件事情還是有待定論的。
差不多4醬
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.218.91.43 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746179283.A.B43.html
推
05/02 18:00,
13小時前
, 1F
05/02 18:00, 1F
→
05/02 18:19,
12小時前
, 2F
05/02 18:19, 2F
→
05/02 18:19,
12小時前
, 3F
05/02 18:19, 3F
→
05/02 18:19,
12小時前
, 4F
05/02 18:19, 4F
→
05/02 23:02,
8小時前
, 5F
05/02 23:02, 5F
推
05/03 02:26,
4小時前
, 6F
05/03 02:26, 6F
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
Tech_Job 近期熱門文章
PTT職涯區 即時熱門文章
167
357