MMLU

En intelligence artificielle, Measuring Massive Multitask Language Understanding (MMLU) est un test de performance pour évaluer les capacités des grands modèles de langage.

Historique

MMLU contient environ 16 000 questions à choix multiples portant sur 57 matières académiques, dont les mathématiques, la philosophie, le droit et la médecine. Il s'agit de l'un des benchmarks les plus couramment utilisés pour comparer les capacités des grands modèles linguistiques, avec plus de 100 millions de téléchargements en juillet 2024^[1]^,^[2].

MMLU a été créé par Dan Hendrycks et une équipe de chercheurs en 2020^[3]. Il a été conçu pour être plus exigeant que les autres, tels que GLUE, sur lesquels les nouveaux modèles de langage surpassaient déjà la précision humaine. Au moment de la publication de MMLU, la plupart des modèles de langage existants obtenaient un score proche de celui d'un programme répondant aléatoirement (environ 25 %). Le modèle le plus performant à ce moment-là, GPT-3, atteignait une précision de 43,9 %^[3]. Les développeurs de MMLU estiment que les experts humains atteignent une précision d'environ 89,8 % dans leur domaine d'expertise^[3]. En 2024, certains des modèles de langage les plus avancés, tels que o1, Gemini et Claude 3, ont atteint des scores autour de 90 %^[4]^,^[5].

Exemples

Les exemples suivants sont tirés respectivement des tâches « algèbre abstraite » et « droit international » (et traduites depuis l'anglais). Les bonnes réponses sont indiquées en gras^[3] :

Trouver tout $c$ dans $\mathbb {Z} _{3}$ tel que $\mathbb {Z} _{3}[x]/(x^{2}+c)$ est un champ. (A) 0 (B) 1 (C) 2 (D) 3

Une réserve à la définition de la torture dans le PIDCP serait-elle acceptable dans la pratique contemporaine ?
(A) Il s'agit d'une réserve acceptable si la législation du pays qui formule la réserve utilise une définition différente.
(B) Il s’agit d’une réserve inacceptable car elle contrevient à l’objet et au but du PIDCP.
(C) Il s’agit d’une réserve inacceptable car la définition de la torture dans le PIDCP est conforme au droit international coutumier.
(D) Il s’agit d’une réserve acceptable car, en vertu du droit international général, les États ont le droit d’émettre des réserves aux traités.

Classement


Organisation	Grand modèle de langage	MMLU
OpenAI	o1	90,8^[5]
L'IA de Rubik	Nova-Pro	88,8
Anthropique	Claude 3.5 Sonnet	88,7
Méta	Lama-3.1 405B	88,6
xAI	Grok-2	87,5
Anthropique	Claude 3 Opus	86,8
Méta	Lama-3.1 70B	86,0
Google	Gemini-1.5 Pro	85,9
Inflexion	Inflexion-2.5	85,5
Mistral	Mistral Large 2	84,0
Reka	Noyau Reka	83,2
AI21	Jamba-1.5 Grand	81,2

Références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « MMLU » (voir la liste des auteurs).

↑ (en) Kevin Roose, « A.I. Has a Measurement Problem », The New York Times,‎ 15 avril 2024 (lire en ligne)
↑ (en) « Dataset Card for MMLU », sur Hugging Face, 8 juillet 2024 (consulté le 10 octobre 2024)
↑ ^{a b c et d} (en) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika et Jacob Steinhardt, « Measuring Massive Multitask Language Understanding », sur arXiv, 7 septembre 2020 (consulté le 10 octobre 2024)
↑ (en) « Multi-task Language Understanding on MMLU », sur Papers with Code (consulté le 10 octobre 2024)
↑ ^{a et b} (en) « OpenAI o1 System Card », sur OpenAI

Portail de l’intelligence artificielle

[1] (en) Kevin Roose, « A.I. Has a Measurement Problem », The New York Times,‎ 15 avril 2024 (lire en ligne)

[2] (en) « Dataset Card for MMLU », sur Hugging Face, 8 juillet 2024 (consulté le 10 octobre 2024)

[:0-3] {a b c et d} (en) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika et Jacob Steinhardt, « Measuring Massive Multitask Language Understanding », sur arXiv, 7 septembre 2020 (consulté le 10 octobre 2024)

[4] (en) « Multi-task Language Understanding on MMLU », sur Papers with Code (consulté le 10 octobre 2024)

[:1-5] {a et b} (en) « OpenAI o1 System Card », sur OpenAI

[1]

[2]

[3]

[4]

[5]