Utforskende dataanalyse

Utforskende dataanalyse (kjent som EDA på engelsk) er det innledende steget i å forstå et datasett. Det hjelper deg til å forstå strukturen i et datasett, oppdage potensielle sammenhenger mellom variablene, danne hypoteser og identifisere mulige problemer i dataene før en begynner å modellere.

Vi ønsker primært å forstå tre aspekter med datasettet:

  1. hver enkelt variabel for seg
  2. hver variabel i sammenheng med andre relevante variabler
  3. data som mangler. Mangler vi viktige data som vi hadde forventet å finne? Kan vi i så fall finne disse et annet sted? [1]

Utforskende dataanalyse kan og bør gjøres på flere måter. En vanlig metodikk er å beregne standard statistiske verdier som aritmetisk gjennomsnitt, median, standardavvik osv. En annen metode er å lage grafiske fremstillinger av dataene.

Vanlige typer grafer er:

Hovedgrunner for å lage grafiske fremstillinger

[rediger | rediger kilde]

Visuell forståelse

[rediger | rediger kilde]

Menneskehjernen er ekstremt god til å bearbeide visuell informasjon, mye bedre enn å lese tabeller med tall. Derfor er diagrammer, grafer og plott verdifulle måter å forstå og tolke data mer effektivt på. De kan oppsummere komplekse datasett i et lettfordøyelig format og avdekke trender, mønstre og relasjoner som ikke er åpenbare ved å se på rådata.

Identifisere avvik

[rediger | rediger kilde]

Plott hjelper deg med å oppdage avvik eller ekstremverdier i datasettet ditt, som kan skyldes målefeil eller andre problemer. Disse avvikene kan drastisk påvirke dataene dine og resultatene av analysene dine, så det er avgjørende å identifisere og håndtere dem på en passende måte.

Datafordeling

[rediger | rediger kilde]

Plott som histogrammer og boksplott kan hjelpe deg med å identifisere dataenes fordeling. Du kan se om dataene dine er normalfordelt, skjevfordelt eller har en bimodal fordeling, noe som kan påvirke hvilke typer statistiske analyser som er passende for dataene dine.

Identifisere relasjoner mellom variablene

[rediger | rediger kilde]

Plott som spredningsplott og korrelasjonsmatriser kan hjelpe deg med å forstå forhold mellom ulike variable i datasettet ditt. Dette kan være til hjelp med å danne hypoteser om datasettet, samt hvilke typer modeller eller ytterligere analyser som kan være passende.

Identifisere datakvalitetsproblemer

[rediger | rediger kilde]

Plott kan bidra til å tidlig identifisere manglende data, gjentatte oppføringer eller inkonsistente data. For eksempel kan et tidsserieplott avsløre hull i datainnsamlingen, eller et stolpediagram kan vise at visse kategorier er over- eller underrepresentert.

Om en bare beregner verdier som gjennomsnitt og median så kan man gå glipp av mye informasjon som følgende eksempel viser. Dataene kommer fra datasauruspakken i R og består av to kolonner med numeriske data for tretten forskjellige grupper. [2] Tabellen viser relevante statistiske verdier for hver gruppe og indikerer at hver gruppe er lik hverandre. Plottet viser at dette ikke er tilfelle; gruppene er i realiteten ganske forskjellige fra hverandre.

Example of why you should always plot your data during EDA

Referanser

[rediger | rediger kilde]
  1. ^ CFA Institute (2022). "CFA Program Curriculum. 2023, Level 1, Volume 2" (PDF). ISBN 978-1-953337-24-5
  2. ^ https://cran.r-project.org/web/packages/datasauRus/vignettes/Datasaurus.htm[død lenke] Besøkt 24. september 2023