MMLU

En intelligence artificielle, Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage.

MMLU contient environ 16 000 questions à choix multiples portant sur 57 matières académiques, dont les mathématiques, la philosophie, le droit et la médecine. Il s'agit de l'un des benchmarks les plus couramment utilisés pour comparer les capacités des grands modèles linguistiques, avec plus de 100 millions de téléchargements en juillet 2024[1],[2].

MMLU a été créé par Dan Hendrycks et une équipe de chercheurs en 2020[3]. Il a été conçu pour être plus exigeant que les autres, tels que GLUE, sur lesquels les nouveaux modèles de langage surpassaient déjà la précision humaine. Au moment de la publication de MMLU, la plupart des modèles de langage existants obtenaient un score proche de celui d'un programme répondant aléatoirement (environ 25 %). Le modèle le plus performant à ce moment-là, GPT-3, atteignait une précision de 43,9 %[3]. Les développeurs de MMLU estiment que les experts humains atteignent une précision d'environ 89,8 % dans leur domaine d'expertise[3]. En 2024, certains des modèles de langage les plus avancés, tels que o1, Gemini et Claude 3, ont atteint des scores autour de 90 %[4],[5].

Les exemples suivants sont tirés respectivement des tâches « algèbre abstraite » et « droit international » (et traduites depuis l'anglais). Les bonnes réponses sont indiquées en gras[3] :

Trouver tout dans tel que est un champ. (A) 0 (B) 1 (C) 2 (D) 3

Une réserve à la définition de la torture dans le PIDCP serait-elle acceptable dans la pratique contemporaine ?

(A) Il s'agit d'une réserve acceptable si la législation du pays qui formule la réserve utilise une définition différente.

(B) Il s’agit d’une réserve inacceptable car elle contrevient à l’objet et au but du PIDCP.

(C) Il s’agit d’une réserve inacceptable car la définition de la torture dans le PIDCP est conforme au droit international coutumier.

(D) Il s’agit d’une réserve acceptable car, en vertu du droit international général, les États ont le droit d’émettre des réserves aux traités.

Organisation Grand modèle de langage MMLU
OpenAI o1 90,8[5]
L'IA de Rubik Nova-Pro 88,8
Anthropique Claude 3.5 Sonnet 88,7
Méta Lama-3.1 405B 88,6
xAI Grok-2 87,5
Anthropique Claude 3 Opus 86,8
Méta Lama-3.1 70B 86,0
Google Gemini-1.5 Pro 85,9
Inflexion Inflexion-2.5 85,5
Mistral Mistral Large 2 84,0
Reka Noyau Reka 83,2
AI21 Jamba-1.5 Grand 81,2

Références

[modifier | modifier le code]
  • (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « MMLU » (voir la liste des auteurs).
  1. (en) Kevin Roose, « A.I. Has a Measurement Problem », The New York Times,‎ (lire en ligne)
  2. (en) « Dataset Card for MMLU », sur Hugging Face, (consulté le )
  3. a b c et d (en) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika et Jacob Steinhardt, « Measuring Massive Multitask Language Understanding », sur arXiv, (consulté le )
  4. (en) « Multi-task Language Understanding on MMLU », sur Papers with Code (consulté le )
  5. a et b (en) « OpenAI o1 System Card », sur OpenAI