Üldistatud lineaarne mudel (inglise keeles generalized linear model, lühend GLM) on analüüsimeetod statistikas, mis võimaldab mingit uuritavat tunnust Y prognoosida teiste, sõltumatute tunnuste X abil, kusjuures erinevalt lineaarregressioonist võimaldab üldistatud lineaarne mudel sobitada lineaarse mudeli ka mittelineaarse seose peale. GLM sobitab lineaarse mudeli uuritavale seosele seosefunktsiooni abil.[1]
Lihtne lineaarregressioon hindab uuritava tunnuse väärtust, kui see on lineaarkombinatsioon sõltumatu tunnuse väärtustest (vaadeldud väärtused). Sellisel juhul allub normaaljaotusele.[2] Olgu meil näiteks lihtne lineaarne mudel, mis hindab õhutemperatuuri põhjal rannas olevate inimeste arvu. Iga 10 °C muutus õhutemperatuuris toob kaasa 1000-pealise muutuse rannasviibijate arvus. Kui on rand, kus inimesi on alguses 50, siis 10 °C languse korral annaks selline lineaarne mudel rannasviibijate arvu hinnanguks võimatu –950 inimest.
Üldistatud lineaarne mudel võimaldab kahte tunnust omavahel siduda nii, et uuritav tunnus allub mingisugusele juhuslikule jaotusele, mis ei pea olema normaaljaotus.[2] Meie näite kohaselt tähendaks see, et õhutemperatuuri muutudes rannasviibijate arv võib muutuda mittelineaarselt.
Jätkates sama näidet, olgu meil nüüd mingisugune üldistatud lineaarne mudel. 10-kraadise õhutemperatuuri languse korral selline mudel ei anna meile hinnanguks mitte –950 aktiivset rannasviibijat, vaid esialgsest 50 inimesest poole vähem ehk 25 rannasviibijat. Samas esialgse temperatuuriga võrreldes 10-kraadise tõusu korral oleks rannas jällegi 1000 inimest rohkem. On näha, et konstantse muutuse korral muutub mittelineaarselt. Selles konkreetses näites allub Poissoni jaotusele.
Üldistatud lineaarne mudel võimaldab sellist mittelineaarset seost esitada lineaarsel kujul, teisisõnu oleks justkui lineaarne. Sellist teisendamist üldistatud lineaarses mudelis võimaldab mudelis kasutatav seosefunktisoon (sellest täpsemalt allpool).
Üldistatud lineaarne mudel eeldab, et uuritav tunnus allub mingisugusele jaotusele, mis kuulub eksponentjaotuste perre (nt normaaljaotus, eksponentjaotus, Bernoulli jaotus, Poissoni jaotus).[3] Sellise jaotuse keskväärtus sõltub sõltumatu tunnuse väärtustest.
, kus:
GLM-i eesmärk on hinnata suurust ehk keskväärtust. Parameetri hindamiseks kasutatakse üldiselt suurima tõepära meetodit, kvaasitõepära või Bayesi meetodeid.
Üldistatud lineaarne mudel koosneb kolmest komponendist.[4][5]
Sõltuvalt uuritavate andmete olemusest, on valida mitme seosefunktsiooni vahel.
Jaotus | Kasutusala | Seosefunktsiooni nimi | Seosefunktsioon |
---|---|---|---|
Normaaljaotus | Lineaarkasvule alluvad andmed. | Samasusteisendus | |
Poisson | Kindlas aja- või ruumiühikus toimunud sündmuste arv. | log | |
Bernoulli | Üksiku jah/ei sündmuse tulem. | logit | |
Binoom | "Jah" sündmuste arv kõikides toimunud jah/ei sündmustes. | logit |
{{raamatuviide}}
: CS1 hooldus: mitu nime: autorite loend (link)