Prova de khi quadrat de Pearson

Un test khi quadrat

La prova de khi quadrat2) de Pearson és la més coneguda entre les diverses proves estadístiques basades en la distribució khi quadrat (prova de khi quadrat). Les seves propietats van ser investigades per Karl Pearson. La prova avalua una hipòtesi nul·la que sosté que la freqüència d'un succés segueix una determinada distribució. Els successos s'han de considerar com a mutualment exclusius i han de tenir una probabilitat total d'u. Un cas ben comú és la hipòtesi que en un dau hi ha la mateixa probabilitat (1/6) que toqui una cara o una altra.

Definició

[modifica]

La prova de khi quadrat de Pearson s'usa per a fer dos tipus de proves: les de bondat d'ajustament i les proves d'independència. Una prova de bondat d'ajustament estableix si una distribució de freqüències observada s'ajusta o no a una determinada distribució. La prova d'independència determina si dues variables comparades en parelles, amb les comparacions expressades en una taula de contingència, són independents una de l'altra.

El primer pas per a fer una prova de khi quadrat és calcular l'estadístic khi quadrat. Això es duu a terme trobant la diferència entre cada freqüència observada i cada freqüència esperada (teòrica), elevant aquesta diferència al quadrat, dividint-la per la freqüència teòrica, i fent la suma de cadascun d'aquests semiresultats. Una altra cosa important en la prova és determinar els seus graus de llibertat.

Bondat d'ajustament

[modifica]

En aquest cas N observacions es divideixen en n cel·les. Un exemple molt clar d'aquest fet és que en una població, un determinat succés succeeix en cada cel·la en una determinada freqüència. La "freqüència teòrica" de cada cel·la es calcula com:

Els graus de llibertat de la prova de la bondat d'ajustament es calculen com: , on n és el nombre de cel·les, o on s és el nombre de paràmetres estadístics que hem hagut de suposar com a poblacionals essent mostrals.

El valor de l'estadístic de la prova és

on

= és l'estadístic de la prova que s'apropa asimptòticament a una distribució χ2;
= la freqüència observada;
= la freqüència teòrica calculada segons la distribució de la hipòtesi nul·la;
= el nombre de cel·les.

Aquest valor que s'obté llavors s'ha de comparar amb l'altra khi quadrat obtinguda a partir de la distribució khi quadrat sobre la base del nombre de graus de llibertat i nivell de significació o risc . Si la khi quadrat obtinguda és més petita que la que figura en les taules de la distribució khi quadrat llavors s'accepta la hipòtesi nul·la.

Prova d'independència

[modifica]

En aquest cas l'observació consisteix en valor provinents de dues variables i amb la hipòtesi nul·la que el succés és estadísticament independent. Cada succés se situa en una cel·la d'una taula d'acord amb les variables. Si la taula té m files i n columnes, la freqüència teòrica d'una cel·la es calcula com:

essent el nombre de graus de llibertat . El valor de l'estadístic de la prova és:

En una prova d'independència, si el valor del paràmetre estadístic de la prova és major que 0,05 es rebutja la hipòtesi nul·la que les files són independents de les columnes[1] La hipòtesi alternativa és que les dues variables estan associades.

Assumpcions

[modifica]

La khi assumeix el següent:

  • Aleatorietat: Un recull de dades aleatori entre una població
  • Mida de la mostra: La mostra és prou gran. Si la prova de khi quadrat té una mida petita, llavors és més probable que es cometi un error del Tipus II (γ)
  • Mida de la mostra per cel·les: Que les mides són adequades. Una regla comuna és un mínim de 5. Quan aquest supòsit no es compleix, s'aplica la correcció de Yates.
  • Independència: Les observacions sempre s'assumeixen com a independents.

Vegeu també

[modifica]

Notes

[modifica]
  1. «Valors crítics de la distribució khi quadrat». NIST/SEMATECH e-Handbook of Statistical Methods. National Institute of Standards and Technology.