OpenAI宣佈推出AI Agent評測基準PaperBench

4月3日電，美國開放人工智慧研究中心（OpenAI）當地時間4月2日宣佈推出PaperBench——一個評估AI智慧體複現前沿AI研究能力的基準。智慧體需從零開始複現20篇ICML 2024 Spotlight和Oral論文，包括理解論文貢獻、開發代碼庫並成功執行實驗。據介紹，在PaperBench上測試多個前沿模型後發現，表現最佳的智慧體Claude 3.5 Sonnet（新版）結合開源框架，平均複現得分為21.0%。最終其招募頂尖機器學習博士嘗試部分測試集，發現上述模型表現尚未超越人類基線。

相關新聞