Test chi quadrato di Pearson

Il test chi quadrato di Pearson (o della bontà dell'adattamento) è un test non parametrico applicato a grandi campioni quando si è in presenza di variabili nominali e si vuole verificare se il campione è stato estratto da una popolazione con una predeterminata distribuzione o che due o più campioni derivino dalla stessa popolazione.

Fa parte di un'ampia classe di test detti test chi quadrato in quanto hanno in comune le formule e la variabile casuale Chi Quadrato ma non necessariamente anche le ipotesi di base o le finalità.

Test della bontà dell'adattamento

Questa variante del test utilizza i dati di un solo campione e verifica l'ipotesi nulla che il campione sia stato estratto da una popolazione di cui è nota la distribuzione.

Sia

X^{2}=\sum _{i=1}^{g}{\frac {(n_{i}-E_{i})^{2}}{E_{i}}}=\sum _{i=1}^{g}{\frac {n_{i}^{2}}{E_{i}}}-n

dove

n_{i}

è il numero di casi osservati nel campione per la i-esima modalità

E_{i}

è il numero di casi attesi nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}n_{i}=\sum _{i=1}^{g}E_{i}

è la numerosità del campione.

Allora X² è distribuita approssimativamente come una variabile casuale Chi Quadrato con (g-1) gradi di libertà $\chi _{g-1}^{2}$ .

Si richiede però che tutte le frequenze attese $E_{i}$ raggiungano un valore minimo (a seconda delle esigenze, almeno pari a 5 oppure almeno pari a 10). Qualora ci siano delle frequenze attese troppo piccole, bisogna procedere ad un raggruppamento di modalità.

Test per due campioni indipendenti

Questa variante del test, per molti versi uguale alla precedente, verifica l'ipotesi nulla che due campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x 2, sia

X^{2}=\sum _{i=1}^{g}\sum _{j=1}^{2}{\frac {(n_{ij}-E_{ij})^{2}}{E_{ij}}}=\sum _{i=1}^{g}\sum _{j=1}^{2}{\frac {n_{ij}^{2}}{E_{ij}}}\ -\ n

dove

n_{ij}

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità

E_{ij}

è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}\sum _{j=1}^{2}n_{ij}=\sum _{i=1}^{g}\sum _{j=1}^{2}E_{ij}

è la numerosità dei due campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}={\frac {n_{.j}\ n_{i.}}{n}}

essendo

n_{.j}=\sum _{i=1}^{g}n_{ij}

, la numerosità di ciascun campione

n_{i.}=\sum _{j=1}^{2}n_{ij}

, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli $e_{ij}$ non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1) gradi di libertà ( $\chi _{g-1}^{2}$ )

Test per k campioni indipendenti

Questa variante del test, praticamente uguale alla precedente, verifica l'ipotesi nulla che k campioni siano indipendenti e derivino dalla stessa popolazione (di cui non è richiesto conoscere la distribuzione).

Organizzati i dati in una tabella di contingenza g x k, sia

X^{2}=\sum _{i=1}^{g}\sum _{j=1}^{k}{\frac {(n_{ij}-E_{ij})^{2}}{E_{ij}}}=\sum _{i=1}^{g}\sum _{j=1}^{k}{\frac {n_{ij}^{2}}{E_{ij}}}\ -\ n

dove

n_{ij}

è il numero di casi osservati nel campione j e che corrispondono alla i-esima modalità

E_{ij}

è il numero di casi attesi nel campione j e per la i-esima modalità nel caso l'ipotesi nulla fosse vera

g è il numero di modalità nella quale si esprime la variabile nominale

n=\sum _{i=1}^{g}\sum _{j=1}^{k}n_{ij}=\sum _{i=1}^{g}\sum _{j=1}^{k}E_{ij}

è la numerosità di tutti i campioni messi insieme.

per via dell'ipotesi di indipendenza dei campioni si ha che

E_{ij}={\frac {n_{.j}\ n_{i.}}{n}}

essendo

n_{.j}=\sum _{i=1}^{g}n_{ij}

, la numerosità di ciascuno dei k campioni

n_{i.}=\sum _{j=1}^{k}n_{ij}

, la frequenza marginale per ciascuna della g modalità

Allora, se i campioni sono sufficientemente grandi, e le modalità tali che tutti gli $e_{ij}$ non sono troppo piccoli (a seconda della esigenze almeno pari a 5 o almeno pari a 10), la variabile test X² è distribuita come una variabile casuale Chi Quadrato con (g-1)(k-1) gradi di libertà ( $\chi _{(g-1)(k-1)}^{2}$ )

Test alternativi

Qualora la variabile nominale sia dicotomica, allora si può fare ricorso al test binomiale, valido anche nel caso di piccoli campioni.

Nel caso di un solo o al massimo due campioni, qualora la variabile sia stata all'origine ordinale (e possibilmente continua) allora si può fare ricorso al test di Kolmogorov-Smirnov, per il quale non si pone il problema di valori attesi piccoli e dunque, non necessitando di raggruppare le classi, sfrutta meglio le informazioni presenti nei dati.

Nel caso di due campioni e una variabile dicotomica, si può ricorrere al test esatto di Fisher che sfrutta tutte le informazioni disponibili nei dati, qualora si tratti di variabili intrinsecamente dicotomiche.

Test chi quadrato di Pearson

Test della bontà dell'adattamento

Test per due campioni indipendenti

Test per k campioni indipendenti

Test alternativi

Voci correlate