OpenAI在近期的「12天活動」中宣布推出一款名為「o3」的AI模型,這款模型在邏輯推理、數學計算和程式設計等領域展現出非凡的能力。然而,近日有指控稱OpenAI在參加FrontierMath基準測試之前已獲得測試題庫的存取權,引發造假爭議。
據TechCrunch報導,OpenAI在去年12月推出新一代o3模型,在Epoch AI和多位數學家共同開發的FrontierMath AI數學基準測試中,以25.2%的準確率超越其他模型,如GPT-4和Gemini。當時該成績引起廣泛關注。
然而,一位名為「Meemi」的Epoch AI承辦商在LessWrong論壇上指出,由於OpenAI為FrontierMath提供資金支持,因此獲得了測試題庫的存取權,使其能夠在了解題目後調整模型。這一消息引起了軒然大波。
Epoch AI副主任兼聯合創辦人Tamay Besiroglu在X平台上承認錯誤,表示未能及時披露OpenAI參與FrontierMath的情況。他解釋,合約禁止在o3發布前公開這些信息,而他們應該更早公開透明披露此事。
史丹佛大學數學博士生Carina Hong也指出,OpenAI獲得FrontierMath題目的存取權,而對此貢獻重大的數學家並不知情。她表示,如果知情,這些數學家或者選擇不參與測試。Tamay Besiroglu隨後再次透過官方博客致歉,承諾未來將採取更高透明度標準,但強調OpenAI的資金支持僅限於開發,不涉及測試內容。此外,他澄清OpenAI無權存取資料。Epoch AI首席數學家Elliot Glazer也承認未主動披露行業資助資訊,並向因此不願參與的數學家道歉。他表示,將通過獨立保留測試驗證o3的成績並公開結果。
AI專家Gary Marcus嚴厲批評OpenAI,認為此次展示是「絕望、受操縱、具誤導性的、科學上粗製濫造」,批評其缺乏科學嚴謹性。Marcus指出,OpenAI隱瞞了太多事實,未公布具體問題上的成功與失敗案例。事件涉及的主要當事方OpenAI尚未作出回應。
我們的電子報內容豐富多彩,從即時新聞到引人深思的評論文章,讓讀者隨時掌握最重要的資訊,並保持參與感。立即訂閱,加入我們的讀者社群,走在時代的尖端。