AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」美股 US Stocks Quote - 外圍新聞內容 Golbal News Content

智財迅 (iPhone)

智財迅 (Android)

手機版網頁

美股

基金

外匯、加密貨幣

滬、深港通

港股

納斯達克

恆生指數

道瓊斯

標準普爾

新聞分享

如欲分享新聞，請填寫收件人及閣下之電郵，再按「送出」。*必需填寫

收件者電郵*

請用分號「;」分隔不同電郵地址，例子：a@a.com;b@b.com

閣下之電郵*

分享內容

AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」

來自人工智慧（AI）實驗室 Cohere、史丹佛大學、麻省理工學院（MIT）與知名 AI 研究機構 AI2 的最新研究指出，知名 AI 測試平台《Chatbot Arena》疑似對 Meta(MET...

重設

送出

視窗將於5秒內關閉

新聞首頁 / 所有新聞

回上頁

AI圈爆大醜聞！研究揭Meta、Google、OpenAI在Chatbot Arena上「作弊」

鉅鉅亨網新聞

推薦

2

利好

1

利淡

1

沽空

股價

來自人工智慧（AI）實驗室 Cohere、史丹佛大學、麻省理工學院（MIT）與知名 AI 研究機構 AI2 的最新研究指出，知名 AI 測試平台《Chatbot Arena》疑似對 Meta(META.US) 、OpenAI、Google (GOOGL.US) 與亞馬遜 (AMZN.US) 等大型科技公司提供不對等的測試機會，藉此提升其排行榜成績，影響評測公信力。

據報導，透過分析五個月內超過 280 萬場模型對戰紀錄，研究發現 Meta、OpenAI 與 Google 的模型曝光率遠高於其他廠商，有更多機會收集用戶回饋並優化模型。

研究團隊還發現，封閉商業模型如 Google 與 OpenAI，在平台上的出戰次數明顯高於其他模型，相較之下，開源模型的曝光率低，甚至容易遭到移除，形成資料存取與曝光的長期不平等。

根據統計，《Chatbot Arena》上有 61.3% 的所有資料都流向了特定的模型提供者。其中 OpenAI 與 Google 分別取得 20.4% 與 19.2% 的總對戰數據；反觀 83 個開源模型，總合卻僅占 29.7%。

報告發布後，OpenAI 創始成員 Andrej Karpathy 也在 X 上質疑評測公平性。他指出 Google 的 Gemini 曾在排行榜上大幅領先，但實際使用體驗卻不如排名較低的 Claude 3.5，懷疑 Google 等科技巨頭暗中操縱結果。

LM Arena 允許公司私下測試多個模型版本，引爭議

此外，報告還指出，LM Arena 組織允許大公司私下測試多個模型版本，卻僅公開表現最佳者的成績，對外隱藏成績較差的版本。Cohere 副總裁 Sara Hooker 直言：「只有少數公司被告知可以進行私下測試，而且測試次數遠高於其他公司，這根本是操弄遊戲規則。」

研究指出，Meta 在 2024 年初私下測試多達 27 個 Llama 4 模型變體，卻只公布一款高分者作為官方代表，明顯有選擇性披露之嫌。

在研究發表前不久，Meta 也曾因優化一款未公開的 Llama 4 模型，使其在 Chatbot Arena 獲得亮眼成績而引發爭議。該版本未對外釋出，而公開版本表現普通，強化了外界對平台公平性的疑慮。

Google 與 LM Arena 高層為平台辯護　反指研究數據有誤

對此，LM Arena 共同創辦人、柏克萊教授 Ion Stoica 則回應道，該研究存在「多處不實與可疑分析」。官方聲明則重申平台致力於公平、社群導向的評測，鼓勵所有模型多次提交參賽。

Google DeepMind 首席研究員 Armand Joulin 也為平台辯護，指出報告數據不準確，Google 僅提交過一款 Gemma 3 模型進行測試，並未如報告所言反覆試驗。

學者呼籲增加透明度，建議公開所有私測數據

研究者建議 LM Arena 應設立私測次數上限，並全面公開所有私測結果，以回應公平性質疑。對此，LM Arena 則認為「公開未釋出模型的測試成績毫無意義」，拒絕部分改革建議。

儘管對於數據公開意見不一，LM Arena 對於改善模型對戰次數不均的問題表示願意接受建議，計畫推出新的抽樣演算法以提升公平性。

值得注意的是，LM Arena 近日宣布將正式成立公司並尋求募資，引發外界對其商業化後的中立性進一步擔憂。這篇研究可望成為推動評測平台改革的催化劑。

《Chatbot Arena》由加州大學柏克萊分校於 2023 年啟動，採用「雙模型對戰」的形式，讓用戶對比兩個 AI 回答並投票選出較佳者。隨著其影響力上升，成為 AI 公司展示模型實力的重要平台

(美股為即時串流報價； OTC市場股票除外，資料延遲最少15分鐘。)

新聞來源 (不包括新聞圖片): 鉅亨網

免責聲明 : 以上資訊僅供參考。AASTOCKS.com Limited對以上資訊的內容不承擔任何責任，對其準確性，完整性，品質，及時性，或可靠性不作任何陳述或予以認可，並明確表示不對任何由本資訊的全部或部分內容引致之損失或損害承擔任何法律責任或為其引起的損失負責。以上資訊或反映了相關文章或專題作者的的個人意見和觀點，並不代表AASTOCKS.com Limited的立場。以上資訊的任何內容均不構成AASTOCKS為任何投資作出招攬、提出要約、意見或推薦，或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務。投資者必須按其本身投資目標及財務狀況自行作出投資決定。

相關股份

0/0

最HIT熱話(過去2小時)

1

2063

〈美股盤後〉道瓊一度瀉近800點美中釋對話訊號助美股止跌回升

鉅亨網新聞

2

920

中國AI晶片加速突圍！美封殺輝達H20 華為Ascend 910C搶市崛起

鉅亨網新聞

3

608

美股前瞻 | 三大股指期貨齊漲，蘋果(AAPL.US)、亞馬遜(AMZN.US)盤後公佈財報

4

538

《美股》道指早段續揚逾200點納指跑出漲2% 績佳微軟、Meta領升

5

800

《美股》道指收市轉升141點夥標普500指數連跌三個月納指全月彈近1%

6

463

《業績》微軟第三財季盈收均勝預期 Azure雲端收入升33% 股價盤後漲6%

7

442

黃仁勛：所有公司都需要“人工智能工廠”

格隆匯新聞

8

428

〈美股早盤〉科技股領軍反彈、關稅疑慮降溫助攻主要指數開高

鉅亨網新聞

9

422

ASM啟動美國在地製造強化與晶圓廠合作關係

鉅亨網新聞

10

405

黃仁勳籲川普調整AI晶片出口規則稱中國技術緊追在後

鉅亨網新聞

美國經濟數據日誌

公佈日期	指標
暫時沒有相關新聞。

美股網站地圖

阿思達克財經網

美股報價

美股即時報價

即時最近查詢美股

美股圖表分析

美股互動圖表

市場動態

美國預託證券ADR

中國概念股

納斯達克100成份股表現

行業分類表現

最HIT行業統計

經濟數據圖表

分析

美股圖表分析

美股互動圖表

ETF

新聞

美國經濟日誌

外圍經濟數據

支援電郵: support@aastocks.com

阿斯達克網絡信息有限公司 (AASTOCKS.COM LIMITED) 版權所有，不得轉載

免責聲明

閣下明確同意使用本網站／應用程式的風險是由閣下個人承擔。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、其控股公司及／或該等控股公司的任何附屬公司、或其資訊來源及／或其他第三方數據供應商均竭力確保所提供資訊的準確和可靠度，但不能保證其絕對準確和可靠，且亦不會承擔因任何不準確或遺漏而引起的任何損失或損害的責任（不管是否侵權法下的責任或合約責任又或其他責任）。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、其控股公司及／或該等控股公司的任何附屬公司、或其資訊來源及／或其他第三方數據供應商均對資訊不作任何明示或隱含的要約、陳述或保證 (包括但不限於可銷售性及特殊用途合適性的資訊保證) 。

AASTOCKS.com Ltd、香港交易所資訊服務有限公司、中國投資信息有限公司、深圳證券信息有限公司、Nasdaq, Inc.、或其控股公司及／或該等控股公司的任何附屬公司、或其資訊來源及／或其他第三方數據供應商不會就任何原因導致的中斷、不準確、錯誤或遺漏或因此而造成的任何損害賠償（不論直接或間接、相應而生、懲罰性或懲戒性）對任何人承擔責任。

AASTOCKS.com Ltd不負責，亦不承擔任何由於不可抗力的事故或在AASTOCKS.com Ltd不可合理控制的情況下導致的損失或損害，如颱風、暴雨、其他自然災難、政府或有關機構的限制、騷動、戰爭、病毒爆發，網絡故障或電信故障，引致AASTOCKS.com Ltd不能履行協議內的責任或提供服務。

Morningstar 免責聲明：版權所有©2020 Morningstar，Inc。保留所有權利此處包含的資料，數據，分析和意見（“信息”）:（1）包含Morningstar及其內容提供者的專營資料; （2）除特別授權外，不得複製或轉載; （3）不構成投資建議; （4）僅供參考，（5）並未為所載資料的完整性、準確性及時間性作出保證。Morningstar對於閣下使用任何相關資料而作出的任何有關交易決定、傷害及其它損失均不承擔任何責任。請在使用所有資料前作出核實，並且在諮詢專業投資顧問意見前勿作任何投資決定。過往業績並不代表將來表現，任何投資項目的價值及所得收入皆可升可跌。

本網站／應用程式包含的內容和信息乃根據公開資料分析和演釋，該公開資料，乃從相信屬可靠之來源搜集，這些分析和信息並未經獨立核實和AASTOCKS.com Limited並不保證他們的準確性、完整性、實時性或者正確性。

在本網站／應用程式的資料、金融市場數據、報價、圖表、統計數據、匯率、新聞、研究、分析、購買或者出售評分、財金教學及其他資訊僅作參考使用，在根據資訊執行證券或任何交易前，應諮詢獨立專業意見，以核實定價資料或獲取更詳細的市場信息。AASTOCKS.com Limited不應被視為游說任何訂戶或訪客執行任何交易，閣下須為所有跟隨在本網站／應用程式的資料、評論和購買或出售評分執行的交易負責。

AASTOCKS.com Limited之信息服務基於「現況」及「現有」的基礎提供，網站／應用程式的信息和內容如有更改恕不另行通知。AASTOCKS.com Limited有權但無此義務，改善或更正在本網站／應用程式的任何部分之錯誤或疏漏。

用戶在沒有AASTOCKS.com Limited明確的書面同意情況下，不得以任何方式複製、傳播、出售、出版、廣播、公佈、傳遞資訊內容或者利用在本網站／應用程式的信息和內容作商業用途。

投資涉及風險。閣下可自行决定利用本網站的財金教學作學術參考用途，但 AASTOCKS.com Limited不能並不會保證任何在本網站／應用程式現在或未來的購買或出售評論和訊息會否帶來贏利。過往之表現不一定反映未來之表現，AASTOCKS.com Limited不可能作出該保證及用戶不應該作出該假設。

AASTOCKS.com Limited也許連結訂戶或訪客至其有興趣的網站，但AASTOCKS.com Limited只提供此服務給訂戶或訪客並不為此安排負責。

AASTOCKS.com Limited對於任何包含於、經由、連結、下載或從任何與本網站／應用程式有關服務所獲得之資訊、內容或廣告，不聲明或保證其內容之正確性或可靠性。對於閣下透過本網站／應用程式上之廣告、資訊或要約而展示、購買或取得之任何產品、資訊資料，本公司亦不負品質保證之責任。

AATV是AASTOCKS.com Limited旗下的視頻網站平台。

閣下確認：(i) AATV只為提供資訊，並不為了任何交易目的；(ii) AATV節目內容以及其提供的資料並不構成任何AASTOCKS為售賣任何證券作出招攬、提出要約、意見或推薦，或對任何證劵或投資的收益或是否合適提供法律、稅務、會計、或投資意見或服務；及(iii)AATV並非為任何人士或法律實體在其他司法管轄區或國家使用，而在當地可能因該使用或分發而違反當地法律或法規。

AATV中節目內容中的個人意見和觀點僅供參考及討論，亦並不代表AASTOCKS.com Limited的立場。投資者必須按其本身投資目標及財務狀況自行作出投資決定。AASTOCKS.com Limited不對以下任何情況對閣下或任何人直接或間接負責：（i）AATV的不准確性，錯誤或遺漏，包括但不限於報價和財務數據；（ii）AATV中節目傳輸的延遲，錯誤或中斷；（iii）閣下由AATV中節目內容招致任何損失。

我們保留權利不時更改本免責聲明並於本網站／應用程式刊登更新版本。閣下必須定期查閱於本網站／應用程式刊登的資訊，以確保您即時知悉任何有關的改動。如閣下於本免責聲明更新後仍繼續使用本網站／應用程式，即代表閣下同意接受更改後的本免責聲明的約束。

本免責聲明應受中華人民共和國香港特別行政區(「香港」)法律管限。閣下同意接受香港法院的專屬司法管轄權管轄。

本免責聲明的中英原文如有任何岐異，一切以英文原文為準。

更新日期為: 2023年1月6日