Evaluating large language models trained on code

OpenAI Blog · Jul 7, 2021

OpenAI's HumanEval benchmark for evaluating code generation models introduced alongside Codex release, measuring functional correctness.

Categories: Research

Read at source: https://openai.com/index/evaluating-large-language-models-trained-on-code