En estadística s'anomena paràmetre estadístic, mesura estadística o paràmetre poblacional a un valor representatiu d'una població,[1] com per exemple la mitjana aritmètica, la proporció d'individus que presenten determinada característica, o la desviació típica.[2] Un paràmetre és un nombre que resumeix la gran quantitat de dades que poden recollir-se en l'estudi d'una variable estadística.[3] El càlcul d'aquest nombre està ben definit, usualment, mitjançant una fórmula aritmètica obtinguda a partir de dades de la població.[4][5] Els paràmetres estadístics són una conseqüència del propòsit de l'estadística: modelitzar la realitat.[6] L'estudi d'una gran quantitat de dades individuals d'una població pot ser confús i inoperant, pel que es fa necessari realitzar un resum que permeti tenir una idea global de la població, comparar-la amb d'altres, comprovar el seu ajust a un model ideal, realitzar estimacions sobre dades desconegudes de la mateixa i, en definitiva, prendre decisions. Els paràmetres estadístics contribueixen a aquestes tasques.
Per exemple: es pot fer servir com a mesura i resum de la "joventut" d'una població, la mitjana aritmètica de les edats dels seus membres, és a dir, la suma de les edats, dividida entre el total d'individus que componen la població.
Un paràmetre estadístic és un nombre que resumeix una quantitat de dades. Aquest enfocament és el tradicional de l'Estadística descriptiva.[7][8][9] En aquest sentit, el seu significat s'apropa al de mesura o valor que es fa servir per comparar amb altres, prenent una unitat d'una determinada magnitud com a referència.
Per altra banda, l'Estadística matemàtica i també la Inferència estadística fan servir el concepte de paràmetre com a variable que defineix una família d'objectes matemàtics en determinats models. Així, per exemple, una distribució normal de paràmetres μ i σ és una distribució de probabilitat d'expressió coneguda, en la que aquests paràmetres defineixen aspectes concrets com l'esperança matemàtica, la variància, la curtosi, etc. Un altre exemple és el de la distribució de Poisson determinada per un paràmetre, λ; o la Distribució binomial, determinada per dos paràmetres, n i p. Des del punt de vista de l'Estadística matemàtica el fet que aquestes distribucions descriguin situacions reals i els esmentats paràmetres signifiquin un resum d'un determinat conjunt de dades és indiferent.
Segons Yule[10] és desitjable que un paràmetre estadístic tingui les següents propietats:
Habitualment els paràmetres s'agrupen en les següents categories:
Es tracta de valors de la variable estadística que es caracteritzen per la posició que ocupen dins del rang de valors possibles d'aquesta. Entre ells es distingeixen:
Resumeixen l'heterogeneïtat de les dades, com de separades que estan entre elles. Bàsicament n'hi ha de dos tipus:
El seu valor informa sobre l'aspecte que té la gràfica de la distribució. Entre elles hi ha els coeficients d'asimetria i els de curtosi.
A més a més, i amb propòsits més específics, hi ha altres paràmetres d'ús en situacions molt concretes, com són les proporcions, els nombres índex, les taxes i el coeficient de Gini.
Les mesures de posició són les més utilitzades per resumir les dades d'una distribució estadística. Es tracta de valors de la mateixa variable[14] que, en certa manera, substitueixen la informació proveïda per les dades.
Són valors que solen situar-se cap al centre de la distribució de dades. Els més destacats són la mitjana aritmètica, la mediana i la moda.
Altres mesures de posició central són la mitjana geomètrica i la mitja harmònica que, tot i que tenen determinades propietats algebraiques que podrien fer-les útils en determinades circumstàncies, la seva interpretació no és tan intuïtiva com la dels paràmetres anteriors.[15]
La mitjana aritmètica és, probablement, un dels paràmetres estadístics més estesos.[16] Donat un conjunt numèric de dades, 'x1, 'x₂..., 'xn, es defineix la seva mitjana aritmètica com a
Aquesta definició varia, encara que no de manera substancial, quan es tracta de variables contínues.
Les seves propietats són:[17]
Aquest paràmetre, encara que té múltiples propietats que aconsellen el seu ús en situacions molt diverses, té també alguns inconvenients, com ara:
La moda és la dada més repetida, el valor de la variable amb major freqüència absoluta.[19] En cert sentit es correspon la seva definició matemàtica amb la locució "estar de moda", això és, ser el que més es porta.
El seu càlcul és extremadament senzill, ja que només necessita un recompte. En variables contínues, expressades en intervals, hi ha l'interval denominat modal o, si no n'hi ha, si és necessari obtenir un valor concret de la variable, es recorre a la interpolació.
Les seves principals propietats són:
Inconvenients.
La mediana és un valor de la variable que deixa per sota seu a la meitat de les dades quan es presenten ordenades de menor a major.[21] Per exemple, la mediana del nombre de fills d'un conjunt de tretze famílies, si els seus respectius fills són: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 i 1, és 2, ja que, una vegada ordenades les dades: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, el que ocupa la posició central és 2:
En cas d'un nombre parell de dades, la mediana no correspondria a cap valor de la variable, per la qual cosa, per convenció, es pren com a mediana el valor intermedi entre els dos valors centrals. Per exemple, en el cas de dotze dades com les anteriors:
Es pren com a mediana
Hi ha mètodes de càlcul més ràpids per a dades més nombroses. De la mateixa manera, per a valors agrupats en intervals, es troba l'"interval mitjà" i, dins d'aquest, s'obté un valor concret per interpolació.
Propietats de la mediana com a paràmetre estadístic:[22]
Els seus principals inconvenients són que en el cas de dades agrupades en intervals, el seu valor varia en funció de l'amplitud d'aquests. D'altra banda, no es presta a càlculs algebraics tan bé com la mitjana aritmètica.
Les mesures de posició no central, també conegudes com a quantils, són valors de la variable estadística que deixen per sota de si determinada quantitat de les dades. Són, en definitiva, una generalització del concepte de la mediana. Mentre que la mediana deixa per sota al 50\% de la distribució, els quantils poden fer-ho amb qualsevol altre percentatge.[23] Es denominen mesurades de posició perquè informen, precisament, de la posició que ocupa un valor dins de la distribució de dades.
Tradicionalment es distingeix entre quartils, si es divideix la quantitat de dades en quatre parts abans de procedir al càlcul dels valors que ocupen cada posició; decils, si es divideix les dades en deu parts; o percentils, que divideix la població en cent parts.
Exemples: si es diu que una persona, després d'un test d'intel·ligència, ocupa el percentil 75, això vol dir que el 75\% de la població té un quocient intel·lectual amb un valor inferior al d'aquesta persona.
L'exemple que es mostra en la imatge de la dreta és el corresponent al càlcul invers, això és, quan es desitja conèixer el percentil corresponent a un valor de la variable, en lloc del valor que correspon a un determinat percentil.
Aquest tipus de paràmetres no tenen per què coincidir amb un valor exacte de la variable i, per tant, tampoc no poden fer-se servir amb caràcter general per fer pronòstics. Per exemple: si es diu que la mitjana aritmètica dels fills de les famílies d'un país és d'1,2, no és possible trobar famílies amb aquest valor en concret. Un segon exemple: a cap fàbrica de sabates no se li ocorreria fabricar els seus amb talles únicament corresponents al valor de la mitjana, ni tan sols tenen per què ser aquestes talles les més fabricades, ja que en tal cas seria més apropiat atendre a la moda de la distribució de talles dels eventuals clients.
L'elecció d'un o un altre paràmetre dependrà de cada cas particular, dels valors de la variable i dels propòsits de l'estudi. El seu ús indiscriminat pot ser deliberadament tendenciós o involuntàriament esbiaixat, convertint-se, de fet, en un abús. Pot pensar-se, per exemple, en la següent situació: un empresari publica que el salari mitjà en la seva empresa és de 1600 €. Aquesta dada, que en determinades circumstàncies podria considerar-se molt bona, podria resultar que l'empresa tingués quatre empleats amb salaris de 1000 € mensuals i el salari del cap, inclòs a la mitjana, fos de 4000 € al mes:[24] < math>\bar{x} = \frac{1000+1000+1000+1000+4000}{5} = 1600</math> Amb caràcter general i com a resum, podria dir-se que la mitjana aritmètica és un paràmetre representatiu quan la població en segueix una distribució normal o és bastant homogènia; en altres situacions de forta dispersió, caldria decantar-se per la mitjana. La moda és l'últim recurs (i l'únic) quan es tracta de descriure variables qualitatives.
Les mesures de posició resumeixen la distribució de les dades, però resulten insuficients i simplifiquen excessivament la informació. Aquestes mesures adquireixen verdader significat quan van acompanyades d'altres que informin sobre l'heterogeneïtat de les dades. Els paràmetres de dispersió mesuren això precisament, generalment, calculant en quina mesura les dades s'agrupen entorn d'un valor central. Indiquen, d'una manera ben definida, com d'homogènies són aquestes dades. Hi ha mesures de dispersió absolutes, entre les quals es troben la variància, la desviació típica o la desviació mitjana, encara que també n'hi ha altres menys utilitzades com els recorreguts o la mediana de les desviacions; i mesures de dispersió relatives, com el coeficient de variació, el coeficient d'obertura o els recorreguts relatius. En moltes ocasions les mesures de dispersió s'ofereixen acompanyant a un paràmetre de posició central per indicar en quina mesura les dades s'agrupen entorn seu.[25]
El recorregut o rang d'una variable estadística és la diferència entre el major i el menor valor que pren la variable. És la mesura de dispersió més senzilla de calcular, encara que és una mica basta perquè només pren en consideració un parell d'observacions. N'hi ha prou que una d'aquestes dues dades variï perquè el paràmetre també ho faci, encara que la resta de la distribució continuï sent, essencialment, la mateixa.
Hi ha altres paràmetres dins d'aquesta categoria, com els recorreguts o rangs interquantílics, que tenen en compte més dades i, per tant, que permeten afinar en la dispersió. Entre els més usats hi ha el rang interquartílic que es defineix com la diferència entre el quartil tercer i el quartil primer. En aquest rang hi ha, per la mateixa definició dels quartils, el 50% de les observacions. Aquest tipus de mesures també es fan servir per determinar valors atípics. En el diagrama de caixa que apareix a la dreta es marquen com valors atípics tots aquells que cauen fora de l'interval ['Li', 'Ls '] = [Q1 - 1,5·Rs, Q₃ + 1,5·Rs], on 'Q1 i Q₃ són els quartils 1r i 3r, respectivament, i Rs representa la meitat del recorregut o rang interquartilic, també conegut com a recorregut semiinterquartilic.[26]
Donada una variable estadística X i un paràmetre de tendència central, c, s'anomena desviació d'un valor de la variable, xi, respecte de c, al nombre |xi - c|. Aquest nombre mesura la llunyania de cada dada del valor central c, per això una mitjana d'aquestes mesures podria resumir el conjunt de desviacions de totes les dades.
Així doncs, es denomina desviació mitjana respecte de c a la mitjana aritmètica de les desviacions dels valors de la variable respecte de c, això és, si llavors D'aquesta manera es defineixen la desviació mitjana respecte de la mitjana (c = ) o la desviació mitjana respecte de la mediana (c = ), la interpretació de la qual és senzilla en virtut del significat de la mitjana aritmètica.[25] Tanmateix, malgrat la seva clara interpretació, l'ús de valors absoluts impedeix determinats càlculs algebraics que obliguen a rebutjar aquests paràmetres en favor dels quals s'expliquen tot seguit.
Tal com es va explicar més amunt, la suma de totes les desviacions respecte a la mitjana aritmètica, és zero. Per tant si es desitja una mesura de la dispersió sense els inconvenients per al càlcul que tenen les desviacions mitjanes, una solució és elevar al quadrat tals desviacions abans de calcular la mitjana. Així, es defineix la variància com:[27]
és a dir, la mitjana de les desviacions respecte de la mitjana, elevades cada una al quadrat.
La desviació típica, es defineix com l'arrel quadrada de la variància, és a dir,
Per a variables agrupades en intervals, s'usen les marques de classe (un valor apropiat de l'interior de cada interval) en aquests càlculs.
Propietats:[27]
Es compleix la següent relació entre els paràmetres de dispersió:
És una mesura de dispersió que té, per la seva pròpia definició, les mateixes propietats que la mitjana. Per exemple, no es veu afectada per valors extrems o atípics.[29] No s'utilitza massa en estadística.
Són paràmetres que mesuren la dispersió en termes relatius, un percentatge o una proporció, de manera que permeten una comparació senzilla entre la dispersió de diferents distribucions.[30]
Es defineix com , on σ és la desviació típica i és la mitjana aritmètica.
S'interpreta com el nombre de vegades que la mitjana està continguda en la desviació típica. Sol donar-se el seu valor en tant per cent, multiplicant el resultat anterior per 100. D'aquesta manera, s'obté un percentatge de la variabilitat.
El seu principal inconvenient és que en el cas de distribucions en què la mitjana s'apropa a zero, el seu valor tendeix a infinit i fins i tot resulta impossible de calcular quan la mitjana és zero. Per això no pot fer-se servir per a variables tipificades.
Es defineix com el quocient entre els valors extrems de la distribució de dades, és a dir, donada una distribució de dades estadístiques x1, x₂..., xn, el seu coeficient d'obertura, CA és . Es fa servir per a comparar salaris d'empreses.
Donat el recorregut d'una distribució de dades estadístiques Re, el recorregut relatiu, RR és , on és la mitjana aritmètica de la distribució.
Donada una distribució de dades estadístiques amb quartils Q1, Q₂ i Q₃, el recorregut interquartílic relatiu, RIQR es defineix com[31] d'altra banda, es defineix el recorregut semiinterquartílic relatiu, RSIR, com
Es defineix com , on DMe és la desviació mitjana respecte de la mitjana i Me és la mitjana d'una distribució de dades estadístiques donada.
Les mesures de forma caracteritzen la forma de la gràfica d'una distribució de dades estadístiques. La majoria d'aquests paràmetres tenen un valor que sol comparar-se amb la campana de Gauss, això és, la gràfica de la distribució normal, una de les que amb més freqüència s'ajusta a fenòmens reals.
Es diu que una distribució de dades estadístiques és simètrica quan la línia vertical que passa per la seva mitjana, divideix a la seva representació gràfica en dues parts simètriques. Això equival a dir que els valors equidistants de la mitjana, a una banda i a l'altra, presenten la mateixa freqüència.
En les distribucions simètriques els paràmetres mitjana, mediana i moda coincideixen, mentre que si una distribució presenta certa asimetria, d'un tipus o d'un altre, els paràmetres se situen com mostra el següent gràfic:
Això es pot demostrar fàcilment si es té en compte l'atracció que la mitjana aritmètica té pels valors extrems, que ja s'ha comentat més amunt i les definicions de mediana (just en el centre de la distribució, prenent l'eix d'abscisses com a referència) i moda (valor que presenta una ordenada més alta).
Per tant, la posició relativa dels paràmetres de centralització poden servir com una primera mesura de la simetria d'una distribució.
Altres mesures més precises són el coeficient d'asimetria de Fisher, el coeficient d'asimetria de Bowley i el coeficient d'asimetria de Pearson.
Amb aquests paràmetres es pretén mesurar com es reparteixen les freqüències relatives de les dades entre el centre i els extrems, prenent com comparació la campana de Gauss.
El paràmetre emprat amb més freqüència per a aquesta mesura és el coeficient de curtosi de Fisher definit com:
tot i que n'hi ha d'altres com el coeficient de curtosis de Kelley o el coeficient de curtosis percentilic.
La comparació amb la distribució normal permet parlar de distribucions platicúrtiques o més aixafades que la normal; distribucions mesocurtiques, amb igual aplatament que la normal; i distribucions leptocúrtiques, això és, més apuntades que la normal.[32]
Hi ha altres mesures per decidir sobre la forma d'una distribució amb ajust a models menys usuals com els que es mostren en les següents gràfiques:
Hi ha altres paràmetres que tenen aplicació en situacions molt concretes, que troben ús freqüent en mitjans de comunicació i tenen la facultat de resumir grans quantitats de dades.
La proporció d'una dada estadística és el nombre de vegades que es presenta aquesta dada respecte al total de dades. Es coneix també com freqüència relativa i és un dels paràmetres de càlcul més senzill. Té l'avantatge que pot calcular-se per a variables qualitatives.
Per exemple: si s'estudia el color dels ulls d'un grup de 20 persones, on 7 els tenen blaus, la proporció d'individus amb ulls blaus és del 35%.
La dada amb major proporció és la moda (vegeu més amunt).
En inferència estadística es determinen intervals de confiança per a l'estimació d'aquest paràmetre.
Un nombre índex és una mesura estadística que permet estudiar les fluctuacions o variacions d'una magnitud o de més d'una en relació amb el temps o a l'espai. Els índexs més habituals són els que realitzen les comparacions en el temps. Alguns exemples d'ús quotidià d'aquest paràmetre són: l'índex de preus o l'IPC[33]
La taxa és un coeficient que expressa la relació entre la quantitat i la freqüència d'un fenomen o un grup de fenòmens. Es fa servir per indicar la presència d'una situació que no es pot mesurar de forma directa.[33] Aquesta raó es fa servir en àmbits variats, com la demografia o l'economia, on es fa referència a la taxa d'interès.
Alguns dels més usats són: taxa de natalitat, taxa de mortalitat, taxa de creixement demogràfic, taxa de fertilitat o taxa de desocupació.
L'índex o coeficient de Gini és un paràmetre de dispersió usat per mesurar desigualtats entre les dades d'una variable o la seva major o menor concentració.
Aquest coeficient mesura de quina forma està distribuïda la suma total dels valors de la variable. Se sol utilitzar per descriure salaris. Els casos extrems de concentració serien aquells en els que una sola persona acapara el total dels diners disponibles per a salaris i aquells en els que aquest total està uniformement repartit entre tots els assalariats.[34]
Els moments són una forma de generalitzar tota la teoria relativa als paràmetres estadístics i guarden relació amb una bona part d'ells.
Donada una distribució de dades estadístiques 'x1, 'x₂... 'xn, es defineix el moment central d'ordre kk com
Per a variables contínues la definició canvia les sumes discretes per integrals, encara que la definició és, essencialment, la mateixa.[35]
D'aquesta definició i les propietats dels paràmetres implicats que s'han vist més amunt, es dedueix immediatament que:
i que
s'anomena moment no centrat d'ordre k a la següent expressió:
De la definició es dedueix que:
Emprant el Binomi de Newton pot obtenir-se la següent relació entre els moments centrats i no centrats:
Els moments d'una distribució estadística la caracteritzen unívocament.[36]
A l'estadística de vegades s'estudien característiques d'una població per comparar-les, estudiar la seva dependència o correlació o realitzar qualsevol altre estudi conjunt. El cas més comú de dues variables es coneix com estadística bidimensional.[37]
Un exemple típic: és el d'un estudi que reculli l'estatura (notada per X) i el pes (sigui I) dels n individus d'una determinada població. En aquest cas, fruit de la recollida de dades, s'obtindria una sèrie de parelles de dades ('xi', 'yi'), amb i =1..., 'n', cada una de les quals estaria composta respectivament per l'estatura i el pes de l'individu i.
En els estudis bidimensionals, cada una de les dues variables que entren en joc, estudiades individualment, poden resumir-se mitjançant els paràmetres que s'han vist fins ara. Així, tindria sentit parlar de la mitjana de les estatures () o la desviació típica dels pesos (Y). Fins i tot per a un determinat valor de la primera variable, xk, es pot fer estudis condicionats. Per exemple, la mitjana condicionada a l'estatura xk seria la mitjana dels pesos de tots els individus que tenen aquesta estatura. Es nota Mi/x=xk.
Tanmateix, existeixen altres paràmetres que resumeixen característiques d'ambdues distribucions en el seu conjunt. Els més destacats són el centre de gravetat, la covariància i el coeficient de correlació lineal.
Donades dues variables estadístiques X i I, es defineix el centre de gravetat (, ), on i són, respectivament, les mitjanes aritmètiques de les variables X i I.
El nom d'aquest paràmetre prové del fet que en una representació de les parelles de l'estudi en un núvol de punts, en la que cada punt tingués un pes proporcional a la seva freqüència absoluta, les coordenades (, ) correspondrien, precisament, al centre de gravetat com a concepte físic.[38]
La covariància o variància conjunta es defineix com:
La interpretació d'aquest paràmetre té a veure amb l'eventual correlació lineal de les dues variables. Una covariància positiva implica una correlació directa i una negativa, una correlació inversa.[39] d'altra banda, és un paràmetre imprescindible per al càlcul del coeficient de correlació lineal o els coeficients de regressió, com es veurà més a baix.
En contra seu té que es veu excessivament influïda, igual com succeïa amb la mitjana aritmètica, pels valors extrems de les distribucions i els canvis d'escala.
És un coeficient que permet determinar la bondat de l'ajust del núvol de punts a una recta.
Es defineix com a: , on xy és la covariància i x i y, les desviacions típiques respectives de les distribucions implicades.
El coeficient de correlació lineal pren valors entre -1 i 1. En aquesta escala, mesura la correlació de la següent manera:
El diagrama de la dreta il·lustra com pot variar r en funció del núvol de punts associat:
Altres paràmetres bidimensionals són: el coeficient de correlació de Spearman, els coeficients de correlació no paramètrics, el coeficient de determinació o els coeficients de regressió lineal.
Igual que en distribucions unidimensionals, existeix una forma equivalent de desenvolupar la teoria relativa als paràmetres estadístics bidimensionals fent servir els moments.
De vegades, els paràmetres d'una determinada població no es poden conèixer amb certesa. Generalment, això succeeix perquè és impossible l'estudi de la població completa per qüestions com que el procés sigui destructiu (per exemple la vida mitjana d'una bombeta) o molt car (p. ex., audiències de televisió). En tals situacions es recorre a les tècniques de la inferència estadística per fer estimacions d'aquests paràmetres a partir dels valors obtinguts d'una mostra de la població.[41]
Es distingeix llavors entre paràmetres i estadístics. Mentre que un paràmetre és una funció de les dades de la població l'estadístic ho és de les dades d'una mostra. D'aquesta manera, poden definir-se la mitjana mostral, la variància mostral o qualsevol altre paràmetre dels que s'han vist més amunt.
Per exemple, donada una mostra estadística de mida n, , d'una variable aleatòria X amb distribució de probabilitat F(x,), on θ és un conjunt de paràmetres de la distribució, es definiria la mitjana mostral n-èsima com a:
En el cas concret de la variància mostral, s'acostuma a prendre, per les seves millors propietats com estimador, el següent:
on s'ha pres com a denominador n-1, en lloc de n. A aquest paràmetre també se l'anomena quasivariància.[42]
La secció Vegeu també d'aquest article necessita una revisió. |
Calculadores de paràmetres estadístics:
Cursos complets d'estadística descriptiva: