Tech

OpenAI爆測試舞弊疑雲 被指提前獲取FrontierMath題庫

Jan 22, 2025 7:15 AM
News Image

OpenAI在近期的「12天活動」中宣布推出一款名為「o3」的AI模型,這款模型在邏輯推理、數學計算和程式設計等領域展現出非凡的能力。然而,近日有指控稱OpenAI在參加FrontierMath基準測試之前已獲得測試題庫的存取權,引發造假爭議。

據TechCrunch報導,OpenAI在去年12月推出新一代o3模型,在Epoch AI和多位數學家共同開發的FrontierMath AI數學基準測試中,以25.2%的準確率超越其他模型,如GPT-4和Gemini。當時該成績引起廣泛關注。

然而,一位名為「Meemi」的Epoch AI承辦商在LessWrong論壇上指出,由於OpenAI為FrontierMath提供資金支持,因此獲得了測試題庫的存取權,使其能夠在了解題目後調整模型。這一消息引起了軒然大波。

Epoch AI副主任兼聯合創辦人Tamay Besiroglu在X平台上承認錯誤,表示未能及時披露OpenAI參與FrontierMath的情況。他解釋,合約禁止在o3發布前公開這些信息,而他們應該更早公開透明披露此事。

史丹佛大學數學博士生Carina Hong也指出,OpenAI獲得FrontierMath題目的存取權,而對此貢獻重大的數學家並不知情。她表示,如果知情,這些數學家或者選擇不參與測試。Tamay Besiroglu隨後再次透過官方博客致歉,承諾未來將採取更高透明度標準,但強調OpenAI的資金支持僅限於開發,不涉及測試內容。此外,他澄清OpenAI無權存取資料。Epoch AI首席數學家Elliot Glazer也承認未主動披露行業資助資訊,並向因此不願參與的數學家道歉。他表示,將通過獨立保留測試驗證o3的成績並公開結果。

AI專家Gary Marcus嚴厲批評OpenAI,認為此次展示是「絕望、受操縱、具誤導性的、科學上粗製濫造」,批評其缺乏科學嚴謹性。Marcus指出,OpenAI隱瞞了太多事實,未公布具體問題上的成功與失敗案例。事件涉及的主要當事方OpenAI尚未作出回應。

CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image
CTA Image

獨家內容與深入分析

我們的電子報內容豐富多彩,從即時新聞到引人深思的評論文章,讓讀者隨時掌握最重要的資訊,並保持參與感。立即訂閱,加入我們的讀者社群,走在時代的尖端。

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.