PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAI Blog · Apr 2, 2025

OpenAI releases PaperBench, a benchmark evaluating AI agents' ability to replicate state-of-the-art AI research papers.

Categories: Research

Excerpt

We introduce PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research.

Read at source: https://openai.com/index/paperbench