Le benchmark open source de référence pour évaluer les performances des agents IA en environnement de terminal CLI.
Visiter le site officielTerminal-Bench (tbench.ai) est un protocole de benchmark open-source développé par l'Université de Stanford et le Laude Institute. Conçu pour évaluer les agents autonomes d'intelligence artificielle et les LLM (comme Claude et GPT) dans des environnements de lignes de commande réels, il propose des dizaines de tâches complexes et réalistes (compilation de code, administration système, sécurité informatique) exécutées au sein de conteneurs Docker via le framework Harbor afin de mesurer la résolution de problèmes réels.