En apprentissage automatique supervisé, la matrice de confusion est une matrice qui mesure la qualité d'un système de classification. Chaque ligne correspond à une classe réelle, chaque colonne correspond à une classe estimée. La cellule ligne L, colonne C contient le nombre d'éléments de la classe réelle L qui ont été estimés comme appartenant à la classe C[1]. Attention il y a parfois interversion des axes de la matrice en fonction des auteurs.
Un des intérêts de la matrice de confusion est qu'elle montre rapidement si un système de classification parvient à classifier correctement.
Cette notion est directement le tableau de contingence (notion de statistiques) qui montre les risques d'erreur de 1ère et de 2eme espèce d'un test d'hypothèse (notion d'analyse de données / Statistiques).
On souhaite mesurer la qualité d'un système automatique de classification de courriers électroniques. Les courriers sont classifiés selon deux classes : courriel pertinent ou pourriel intempestif. Supposons que notre classificateur soit testé avec un jeu de 200 mails, dont 100 sont des courriels pertinents et les 100 autres relèvent de pourriels.
Pour cela, on veut savoir :
La matrice de confusion suivante se lit alors comme suit :
De manière plus proche de la théorie mathématique du test statistique, les "faux positifs" sont le risque de première espèce (probabilité alpha), les "faux négatifs" sont le risque de seconde espèce (probabilité beta). 1-beta est la puissance du test, ie son caractère discriminant. 1-alpha est le "niveau de confiance" du test.
Classe estimée - (par le classificateur) | |||
`courriel' | `pourriel' | ||
---|---|---|---|
Classe réelle - (selon le destinataire humain des mails) |
courriel | 95 (vrais positifs) |
5 (faux négatifs) |
pourriel | 3 (faux positifs) |
97 (vrais négatifs) |
Cette notion s'étend à un nombre quelconque de classes. On peut normaliser cette matrice pour en simplifier la lecture : dans ce cas, un classificateur sera d'autant meilleur que sa matrice de confusion s'approchera d'une matrice diagonale.
Pour aller plus loin :