Explorační analýza dat

Explorační analýza dat (anglicky Exploratory data analysis, EDA) je ve statistice souhrn metod používaných pro průzkum dat a hledání hypotéz, které stojí za to testovat (což pak je konfirmační analýza, Confirmatory data analysis).

EDA je metodologický přístup k analýze datových souborů s cílem shrnout jejich hlavní charakteristiky, často s využitím statistických grafů a dalších metod k vizualizaci dat. Může být použit statistický model, ale také nemusí, ale primárně EDA slouží k tomu, abychom zjistili, co nám data mohou říci nad rámec formálního modelování, a tím kontrastuje s tradičním testováním hypotéz. Explorativní analýzu dat propaguje John Tukey od roku 1970 s cílem povzbudit vědce ke zkoumání dat a případné formulaci hypotéz, které by mohly vést k novému sběru dat a experimentům.

Data visualization process v1

EDA definoval ve stejnojmenné knize[1] John Tukey a jako její hlavní úkoly určil:

  • Navrhnout hypotézy o příčinách pozorovaných jevů.
  • Ověřit předpoklady statistických metod, které se použijí.
  • Podložit výběr vhodných statistických nástrojů a technik.
  • Poskytnout základnu dalšímu sběru dat pomocí průzkumů či experimentů.

Používané techniky a nástroje

[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Exploratory data analysis na anglické Wikipedii.

  1. Tukey, John Wilder (1977). Exploratory Data Analysis. Addison-Wesley. ISBN 0-201-07616-0.