Le benchmark de référence pour évaluer les LLM en mathématiques.
Visiter le site officielMathArena est une plateforme de référence open source développée par l'ETH Zurich et INSAIT pour évaluer les capacités de raisonnement des grands modèles de langage (LLM). Afin d'éviter la contamination des données d'entraînement, ce benchmark teste des modèles comme GPT-4 ou Gemini sur des compétitions mathématiques récentes (AIME, USAMO, IMO). L'outil propose un classement public transparent, permettant aux chercheurs d'inspecter les traces de raisonnement brutes et d'utiliser une notation robuste combinant analyse syntaxique via SymPy et évaluations humaines.