Utforskende dataanalyse (kjent som EDA på engelsk) er det innledende steget i å forstå et datasett. Det hjelper deg til å forstå strukturen i et datasett, oppdage potensielle sammenhenger mellom variablene, danne hypoteser og identifisere mulige problemer i dataene før en begynner å modellere.
Vi ønsker primært å forstå tre aspekter med datasettet:
Utforskende dataanalyse kan og bør gjøres på flere måter. En vanlig metodikk er å beregne standard statistiske verdier som aritmetisk gjennomsnitt, median, standardavvik osv. En annen metode er å lage grafiske fremstillinger av dataene.
Vanlige typer grafer er:
Menneskehjernen er ekstremt god til å bearbeide visuell informasjon, mye bedre enn å lese tabeller med tall. Derfor er diagrammer, grafer og plott verdifulle måter å forstå og tolke data mer effektivt på. De kan oppsummere komplekse datasett i et lettfordøyelig format og avdekke trender, mønstre og relasjoner som ikke er åpenbare ved å se på rådata.
Plott hjelper deg med å oppdage avvik eller ekstremverdier i datasettet ditt, som kan skyldes målefeil eller andre problemer. Disse avvikene kan drastisk påvirke dataene dine og resultatene av analysene dine, så det er avgjørende å identifisere og håndtere dem på en passende måte.
Plott som histogrammer og boksplott kan hjelpe deg med å identifisere dataenes fordeling. Du kan se om dataene dine er normalfordelt, skjevfordelt eller har en bimodal fordeling, noe som kan påvirke hvilke typer statistiske analyser som er passende for dataene dine.
Plott som spredningsplott og korrelasjonsmatriser kan hjelpe deg med å forstå forhold mellom ulike variable i datasettet ditt. Dette kan være til hjelp med å danne hypoteser om datasettet, samt hvilke typer modeller eller ytterligere analyser som kan være passende.
Plott kan bidra til å tidlig identifisere manglende data, gjentatte oppføringer eller inkonsistente data. For eksempel kan et tidsserieplott avsløre hull i datainnsamlingen, eller et stolpediagram kan vise at visse kategorier er over- eller underrepresentert.
Om en bare beregner verdier som gjennomsnitt og median så kan man gå glipp av mye informasjon som følgende eksempel viser. Dataene kommer fra datasauruspakken i R og består av to kolonner med numeriske data for tretten forskjellige grupper. [2] Tabellen viser relevante statistiske verdier for hver gruppe og indikerer at hver gruppe er lik hverandre. Plottet viser at dette ikke er tilfelle; gruppene er i realiteten ganske forskjellige fra hverandre.