En intelligence artificielle, Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage.
MMLU contient environ 16 000 questions à choix multiples portant sur 57 matières académiques, dont les mathématiques, la philosophie, le droit et la médecine. Il s'agit de l'un des benchmarks les plus couramment utilisés pour comparer les capacités des grands modèles linguistiques, avec plus de 100 millions de téléchargements en juillet 2024[1],[2].
MMLU a été créé par Dan Hendrycks et une équipe de chercheurs en 2020[3]. Il a été conçu pour être plus exigeant que les autres, tels que GLUE, sur lesquels les nouveaux modèles de langage surpassaient déjà la précision humaine. Au moment de la publication de MMLU, la plupart des modèles de langage existants obtenaient un score proche de celui d'un programme répondant aléatoirement (environ 25 %). Le modèle le plus performant à ce moment-là, GPT-3, atteignait une précision de 43,9 %[3]. Les développeurs de MMLU estiment que les experts humains atteignent une précision d'environ 89,8 % dans leur domaine d'expertise[3]. En 2024, certains des modèles de langage les plus avancés, tels que o1, Gemini et Claude 3, ont atteint des scores autour de 90 %[4],[5].
Les exemples suivants sont tirés respectivement des tâches « algèbre abstraite » et « droit international » (et traduites depuis l'anglais). Les bonnes réponses sont indiquées en gras[3] :
Trouver tout dans tel que est un champ. (A) 0 (B) 1 (C) 2 (D) 3
Une réserve à la définition de la torture dans le PIDCP serait-elle acceptable dans la pratique contemporaine ?
(A) Il s'agit d'une réserve acceptable si la législation du pays qui formule la réserve utilise une définition différente.
(B) Il s’agit d’une réserve inacceptable car elle contrevient à l’objet et au but du PIDCP.
(C) Il s’agit d’une réserve inacceptable car la définition de la torture dans le PIDCP est conforme au droit international coutumier.
(D) Il s’agit d’une réserve acceptable car, en vertu du droit international général, les États ont le droit d’émettre des réserves aux traités.
Organisation | Grand modèle de langage | MMLU |
---|---|---|
OpenAI | o1 | 90,8[5] |
L'IA de Rubik | Nova-Pro | 88,8 |
Anthropique | Claude 3.5 Sonnet | 88,7 |
Méta | Lama-3.1 405B | 88,6 |
xAI | Grok-2 | 87,5 |
Anthropique | Claude 3 Opus | 86,8 |
Méta | Lama-3.1 70B | 86,0 |
Gemini-1.5 Pro | 85,9 | |
Inflexion | Inflexion-2.5 | 85,5 |
Mistral | Mistral Large 2 | 84,0 |
Reka | Noyau Reka | 83,2 |
AI21 | Jamba-1.5 Grand | 81,2 |