Matrice di confusione

Nell'ambito del Machine learning, la matrice di confusione, detta anche tabella di errata classificazione, restituisce una rappresentazione dell'accuratezza di classificazione statistica.

Ogni colonna della matrice rappresenta i valori predetti, mentre ogni riga rappresenta i valori reali. L'elemento sulla riga i e sulla colonna j è il numero di casi in cui il classificatore ha classificato la classe "vera" i come classe j. Attraverso questa matrice è osservabile se vi è "confusione" nella classificazione di diverse classi.

Attraverso l'uso della matrice di confusione è possibile calcolare il coefficiente kappa, anche conosciuto come coefficiente kappa di Cohen.

Esaminiamo il caso di una classificazione dove si distinguono tre classi: gatto, cane e coniglio. Nelle righe si scrivono i valori veri, reali. Mentre nelle colonne quelli predetti, stimati dal sistema.

Esempio di matrice di confusione
Predetti Somma
Gatto Cane Coniglio
Reali Gatto 5 2 0 7
Cane 3 3 2 8
Coniglio 0 1 11 12
Somma 8 6 13 27

Nell'esempio si può notare che dei 7 gatti reali, il sistema ne ha classificati 2 come cani. Allo stesso modo si può notare come dei 12 conigli veri, solamente 1 è stato classificato erroneamente. Gli oggetti che sono stati classificati correttamente sono indicati sulla diagonale della matrice, per questo è immediato osservare dalla matrice se il classificatore ha commesso o no degli errori.

Inoltre, è possibile ottenere due valori di accuratezza significativi:

  • Producer Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori appartenenti alla classe X)
  • User Accuracy di X = (numero di valori correttamente classificati come classe X) / (numero di valori classificati come classe X)

Nel caso della classe "gatto", questo ha i seguenti valori (vedi la matrice qui sopra):

Matrice di confusione

[modifica | modifica wikitesto]

Nell'apprendimento automatico questa tabella può anche essere utilizzata con i valori di "veri positivi"/"falsi positivi" e "falsi negativi"/"veri negativi".

  Valori
predetti
  n' p' totale
Valori
Reali
n Veri
negativi
Falsi
positivi
N
p Falsi
negativi
Veri
positivi
P
totale N' P'

Così facendo è possibile calcolare:

  • accuratezza:
  • probabilità di falso allarme:
  • probabilità di mancato allarme: