[新聞] AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」

看板Tech_Job (科技人)作者 (zaiter)時間15小時前 (2025/05/02 06:38), 編輯推噓6(6014)
留言20則, 8人參與, 5小時前最新討論串1/2 (看更多)
評測網本來就要賺錢 這也很正常 AI圈爆大醜聞!研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」 鉅亨網編譯莊閔棻 綜合報導2025-05-01 21:12 AI圈爆大醜聞,研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」。(圖:Shutterstock) 來自人工智慧(AI)實驗室 Cohere、史丹佛大學、麻省理工學院(MIT)與知名 AI 研究機構 AI2 的最新研究指出,知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META-US) 、OpenAI、Google (GOOGL-US) 與亞馬遜 (AMZN-US) 等大型科技公司提供不對等的測試機會,藉此提升其排行榜成績,影響評測公信力。 據報導,透過分析五個月內超過 280 萬場模型對戰紀錄,研究發現 Meta、OpenAI 與 Google 的模型曝光率遠高於其他廠商,有更多機會收集用戶回饋並優化模型。 研究團隊還發現,封閉商業模型如 Google 與 OpenAI,在平台上的出戰次數明顯高於其他模型,相較之下,開源模型的曝光率低,甚至容易遭到移除,形成資料存取與曝光的長期不平等。 模型向日常使用者展示的次數,與其他公司相比,OpenAI、Google、xAI 和 Meta 的取樣率更高。(圖取自研究報告) 取樣率反映了模型在 LMArena 中被一般使用者看到的頻率,也直接決定了此模型開發者能獲得多少使用者互動資料。 報告發布後,OpenAI 創始成員 Andrej Karpathy 也在 X 上質疑評測公平性。他指出 Google 的 Gemini 曾在排行榜上大幅領先,但實際使用體驗卻不如排名較低的 Claude 3.5,懷疑 Google 等科技巨頭暗中操縱結果。 LM Arena 允許公司私下測試多個模型版本引爭議 此外,報告還指出,LM Arena 組織允許大公司私下測試多個模型版本,卻僅公開表現最佳者的成績,對外隱藏成績較差的版本。Cohere 副總裁 Sara Hooker 直言:「只有少數公司被告知可以進行私下測試,而且測試次數遠高於其他公司,這根本是操弄遊戲規則。」 025 年 1 月至 3 月統計,每個提供者的私人測試模型數量。(圖取自研究報告) 研究指出,Meta 在 2024 年初私下測試多達 27 個 Llama 4 模型變體,卻只公布一款高分者作為官方代表,明顯有選擇性披露之嫌。 在研究發表前不久,Meta 也曾因優化一款未公開的 Llama 4 模型,使其在 Chatbot Arena 獲得亮眼成績而引發爭議。該版本未對外釋出,而公開版本表現普通,強化了外界對平台公平性的疑慮。 Google 與 LM Arena 高層為平台辯護,反指研究數據有誤 對此,LM Arena 共同創辦人、柏克萊教授 Ion Stoica 則回應道,該研究存在「多處不實與可疑分析」。官方聲明則重申平台致力於公平、社群導向的評測,鼓勵所有模型多次提交參賽。 Google DeepMind 首席研究員 Armand Joulin 也為平台辯護,指出報告數據不準確,Google 僅提交過一款 Gemma 3 模型進行測試,並未如報告所言反覆試驗。 學者呼籲增加透明度,建議公開所有私測數據 研究者建議 LM Arena 應設立私測次數上限,並全面公開所有私測結果,以回應公平性質疑。對此,LM Arena 則認為「公開未釋出模型的測試成績毫無意義」,拒絕部分改革建議。 儘管對於數據公開意見不一,LM Arena 對於改善模型對戰次數不均的問題表示願意接受建議,計畫推出新的抽樣演算法以提升公平性。 值得注意的是,LM Arena 近日宣布將正式成立公司並尋求募資,引發外界對其商業化後的中立性進一步擔憂。這篇研究可望成為推動評測平台改革的催化劑。 《Chatbot Arena》由加州大學柏克萊分校於 2023 年啟動,採用「雙模型對戰」的形式,讓用戶對比兩個 AI 回答並投票選出較佳者。隨著其影響力上升,成為 AI 公司展示模型實力的重要平台 https://news.cnyes.com/news/id/5957613 ----- Sent from JPTT on my Xiaomi 23090RA98G. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 49.215.22.206 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Tech_Job/M.1746139105.A.F3E.html

05/02 11:03, 10小時前 , 1F
美國也懂造假
05/02 11:03, 1F

05/02 11:26, 10小時前 , 2F
測試公司也要錢,有名後提供付費私下
05/02 11:26, 2F

05/02 11:26, 10小時前 , 3F
測試,很正常的.有錢就多測幾次
05/02 11:26, 3F

05/02 11:39, 10小時前 , 4F
他這不是說造假 是說他作弊吧
05/02 11:39, 4F

05/02 11:39, 10小時前 , 5F
他的研究數據回饋比其他家更有利
05/02 11:39, 5F

05/02 11:39, 10小時前 , 6F
就更有利的起點
05/02 11:39, 6F

05/02 12:46, 9小時前 , 7F
為了利益,醜陋的人性就出來了
05/02 12:46, 7F

05/02 14:00, 7小時前 , 8F
測試有公開說是公平的嗎?
05/02 14:00, 8F

05/02 14:05, 7小時前 , 9F
不就學生付錢參加鋼琴比賽好拿成績
05/02 14:05, 9F

05/02 14:06, 7小時前 , 10F
換讀書成就,好申請國立大學這樣
05/02 14:06, 10F

05/02 14:33, 7小時前 , 11F
不然呢 網站開了是要賺錢的 價高者
05/02 14:33, 11F

05/02 14:33, 7小時前 , 12F
得阿
05/02 14:33, 12F

05/02 15:59, 5小時前 , 13F
不然你覺得評測軟體公司要靠什麼賺
05/02 15:59, 13F

05/02 15:59, 5小時前 , 14F
錢?
05/02 15:59, 14F

05/02 16:00, 5小時前 , 15F
當年整批人到你魯大師裡面去調校難
05/02 16:00, 15F

05/02 16:00, 5小時前 , 16F
道不用錢?
05/02 16:00, 16F

05/02 16:00, 5小時前 , 17F
人家開冷氣給我們吹難道不用錢?
05/02 16:00, 17F

05/02 16:02, 5小時前 , 18F
不是去請對方幫我們作弊喔,是要讓
05/02 16:02, 18F

05/02 16:02, 5小時前 , 19F
對方更了解我們的軟硬體環境能夠做
05/02 16:02, 19F

05/02 16:02, 5小時前 , 20F
出更公平的評測結果
05/02 16:02, 20F
文章代碼(AID): #1e4_VXy- (Tech_Job)
文章代碼(AID): #1e4_VXy- (Tech_Job)