OpenAI爆測試舞弊疑雲被指提前獲取FrontierMath題庫

OpenAI在近期的「12天活動」中宣布推出一款名為「o3」的AI模型，這款模型在邏輯推理、數學計算和程式設計等領域展現出非凡的能力。然而，近日有指控稱OpenAI在參加FrontierMath基準測試之前已獲得測試題庫的存取權，引發造假爭議。

據TechCrunch報導，OpenAI在去年12月推出新一代o3模型，在Epoch AI和多位數學家共同開發的FrontierMath AI數學基準測試中，以25.2%的準確率超越其他模型，如GPT-4和Gemini。當時該成績引起廣泛關注。

然而，一位名為「Meemi」的Epoch AI承辦商在LessWrong論壇上指出，由於OpenAI為FrontierMath提供資金支持，因此獲得了測試題庫的存取權，使其能夠在了解題目後調整模型。這一消息引起了軒然大波。

Epoch AI副主任兼聯合創辦人Tamay Besiroglu在X平台上承認錯誤，表示未能及時披露OpenAI參與FrontierMath的情況。他解釋，合約禁止在o3發布前公開這些信息，而他們應該更早公開透明披露此事。

史丹佛大學數學博士生Carina Hong也指出，OpenAI獲得FrontierMath題目的存取權，而對此貢獻重大的數學家並不知情。她表示，如果知情，這些數學家或者選擇不參與測試。Tamay Besiroglu隨後再次透過官方博客致歉，承諾未來將採取更高透明度標準，但強調OpenAI的資金支持僅限於開發，不涉及測試內容。此外，他澄清OpenAI無權存取資料。Epoch AI首席數學家Elliot Glazer也承認未主動披露行業資助資訊，並向因此不願參與的數學家道歉。他表示，將通過獨立保留測試驗證o3的成績並公開結果。

AI專家Gary Marcus嚴厲批評OpenAI，認為此次展示是「絕望、受操縱、具誤導性的、科學上粗製濫造」，批評其缺乏科學嚴謹性。Marcus指出，OpenAI隱瞞了太多事實，未公布具體問題上的成功與失敗案例。事件涉及的主要當事方OpenAI尚未作出回應。