4月3日電,美國開放人工智慧研究中心(OpenAI)當地時間4月2日宣佈推出PaperBench——一個評估AI智慧體複現前沿AI研究能力的基準。 智慧體需從零開始複現20篇ICML 2024 Spotlight和Oral論文,包括理解論文貢獻、開發代碼庫並成功執行實驗。 據介紹,在PaperBench上測試多個前沿模型後發現,表現最佳的智慧體Claude 3.5 Sonnet(新版)結合開源框架,平均複現得分為21.0%。 最終其招募頂尖機器學習博士嘗試部分測試集,發現上述模型表現尚未超越人類基線。
掃碼分享