MLE-bench: Evaluating Machine Learning Agents on Machine Learning Engineering

OpenAI Blog · Oct 10, 2024

OpenAI releases MLE-bench, a benchmark for evaluating AI agents on machine learning engineering tasks, enabling standardized measurement of agent capabilities.

Categories: Research

Excerpt

We introduce MLE-bench, a benchmark for measuring how well AI agents perform at machine learning engineering.

Read at source: https://openai.com/index/mle-bench