Data science neboli datová věda je interdisciplinární obor, který využívá vědecké metody, procesy, algoritmy a systémy pro získávání znalostí a poznatků z dat v různých podobách, jak strukturovaných, tak nestrukturovaných[1][2] podobně jako data mining.
Data science „sjednocuje statistiku, analýzu dat, strojové učení a související metody“ s cílem „pochopit a analyzovat skutečné jevy“ na základě dat.[3] Využívá techniky a teorie čerpané z mnoha oblastí matematiky, statistiky, informatiky a matematické informatiky.
Nositel Turingovy ceny Jim Gray si data science představoval jako „čtvrté paradigma“ vědy (empirické, teoretické, výpočetní a nyní založené na datech) a tvrdil, že „všechno ve vědě se mění v důsledku vlivu informačních technologií“ a záplavy dat.[4][5]
V roce 2012, kdy Harvard Business Review nazval data science „nejvíce sexy zaměstnáním 21. století“[6] se tento termín stal módním slovem. To je nyní často používáno zaměnitelně se staršími pojmy jako business analytics,[7] business intelligence, prediktivní modelování, data mining a statistika. Dokonce i myšlenka, že datová věda je sexy, parafrázuje Hanse Roslinga, který v dokumentu BBC 2011[8] prohlásil: „Statistika je nyní nejvíce sexy téma, které tu máme.“[9] Nate Silver označil datovou vědu za sexy termín pro statistiku.[10] V mnoha případech jsou nyní dřívější přístupy a řešení jednoduše přejmenovávány jako data science, aby byly atraktivnější, což může způsobit, že termín se „zředí […] za hranici užitečnosti“.[11] I když mnohé univerzitní programy nyní nabízejí titul v oboru datové vědy, neexistuje konsensus o její definici nebo o obsahu učebních osnov.[7] K diskreditaci data science přispívá mnoho projektů v oblasti datové vědy a velkých dat, které nedokázaly poskytnout užitečné výsledky, často v důsledku špatného řízení a využívání zdrojů.[12][13][14][15]
Termín datová věda se objevoval v různých souvislostech už desítky let, ale až donedávna se neustálil. Dříve byl používán jako synonymum informatiky Peterem Naurem v roce 1960. Naur později představil termín „datalogy“.[16] V roce 1974 vydal Naur knihu Concise Survey of Computer Methods (Stručný přehled počítačových metod), kde volně využíval termín data science v přehledu současných metod zpracování dat používaných v široké škále aplikací.
V roce 1996 se členové Mezinárodní federace klasifikačních společností (Federation of Classification Societies, IFCS) sešli v Kóbe na konferenci konané každé dva roky. Zde se poprvé termín data science objevil v názvu konference (Data Science, classification, and related methods – Věda o datech, klasifikace a související metody).[17] poté, co byl zaveden v neformální diskusi Chikiem Hayashim.[3]
V listopadu 1997 přednesl C. F. Jeff Wu inaugurační přednášku nazvanou „Statistics = Data Science?“[18] u příležitosti jmenování profesorem Michiganské univerzity.[19] V přednášce charakterizoval statistickou práci jako trojici sběru dat, modelování či analýzy dat a rozhodování. Na závěr uvedl moderní použití termínu data science mimo kontext informatiky a navrhl přejmenování statistiky na data science a statistiků na data scientisty, datové vědce.[18] Později přednášku „Statistics = Data Science“? zopakoval roku 1998 jako první ze svých Mahalanobisovských přednášek.[20]
V roce 2001 William S. Cleveland uvedl datovou vědu jako nezávislou disciplínu, která rozšiřuje oblast statistiky tak, aby zahrnovala „pokroky v oblasti výpočetní techniky s daty“. Myšlenku uveřejnil v článku „Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics“ („Data Science: akční plán rozšiřování technických oblastí statistiky“), který byl publikován ve svazku 69, č. 1, dubnového vydání International Statistical Review / Revue Internationale de Statistique z dubna 2001.[21] Cleveland zde stanovil šest oblastí, o kterých věřil, že zahrnují data science: multidisciplinární bádání, modely a metody pro zpracování dat, výpočty s daty, pedagogika, hodnocení výzkumných nástrojů a teorie.
V dubnu 2002 zahájila Mezinárodní rada pro vědu (International Council for Science, ICSU) a její Výbor pro data pro vědu a technologii (Committee on Data for Science and Technology, CODATA)[22] vydávání časopisu Data Science Journal[23] zaměřeného na otázky, jako je popis datových systémů, na internetu, aplikace a právní otázky.[24] Krátce poté, v lednu 2003, Columbijská univerzita začala publikovat časopis Journal of Data Science[25] který poskytl platformu všem datovým pracovníkům, aby prezentovali své názory a vyměňovali si nápady. Časopis byl z velké části věnován aplikaci statistických metod a kvantitativního výzkumu. Národní vědecká rada (National Science Board) vydala v roce 2005 text „Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century“ („Dlouhodobý sběr digitálních dat: umožnění výzkumu a vzdělávání v 21. století“), definující datové vědce jako „informační a počítačové vědce, databázové a softwarové tvůrce a programátory, experty jednotlivých disciplín, kurátory a odborní anotátory, knihovníky, archiváře a další, kteří mají zásadní význam pro úspěšné řízení sběru digitálních dat“, jejichž hlavní činností je„ provádět tvůrčí výzkum a analýzu“.[26]
Okolo roku 2007 Jim Gray představil „vědu řízenou daty“ jako „čtvrté paradigma“ vědy, které využívá počítačovou analýzu velkých dat jako základní vědeckou metodu[4][5] a přál si „mít svět, v němž veškerá vědecká literatura je online a všechny vědecké údaje jsou online a vzájemně spolupracují.“[27]
V článku z roku 2012 Harvard Business Review „Data Scientist: The Sexiest Job of the 21st Century“ („Data Scientist: Nejvíce sexy povolání 21. století“[6] DJ Patil tvrdí, že tento termín vytvořili v roce 2008 s Jeffem Hammerbacherem, aby definovali svou práci v LinkedIn a Facebooku. Tvrdí, že datový vědec je „nové plemeno“ a že „nedostatek datových vědců se v některých sektorech stává vážným omezením“ a popisuje mnohem více podnikatelsky orientované role.
V roce 2013 byla založena pracovní skupina IEEE pro data science a pokročilou analýzu (IEEE Task Force on Data Science and Advanced Analytics).[28] V roce 2013 byla v Lucembursku zorganizována první Evropská konference o data science (European Conference on Data Analysis ECDA), která zřídila Evropskou asociaci pro datovou vědu (EuADS). První mezinárodní konference IEEE International Conference on Data Science and Advanced Analytics se konala v roce 2014.[29] V tomtéž roce sekce American Statistical Association (Amerického statistického sdružení) věnovaná statistickému učení a data miningu přejmenovala svůj časopis na „Statistical Analysis and Data Mining: The ASA Data Science Journal“ a v roce 2016 změnila svůj název na „Statistical Learning and Data Science“.[30] V roce 2015 začalo nakladatelství Springer vydávat časopis International Journal on Data Science a Analytics[31] mající za úkol publikoval originální díla o datové vědě analýze velkých dat. V září 2015 přidala Gesellschaft für Klassifikation (GfKl) ke jménu společnosti „Data Science Society“.[32]
Popularita pojmu „data science“ v podnikatelském i akademickém prostředí prudce narostla, což ukazuje nárůst nabídek práce pro datové vědce.[33] Nicméně mnoho kritických akademických pracovníků a novinářů nevidí žádný rozdíl mezi datovou vědou a statistikou. Gil Press v časopise Forbes uvedl, že data science je „buzzword“ bez jasné definice a jednoduše nahradil „obchodní analýzu“ v kontextech jako jsou postgraduální studijní programy.[7] V rámci otázek a odpovědi po své plenární přednášce na konferenci American Statistical Association aplikovaný statistik Nate Silver řekl: „Myslím, že datový vědec je sexy termín pro statistika. … Statistika je odvětví vědy. Data scientist je lehce nadbytečný a lidé by neměli opouštět termín statistik.“[10] Stejně tak v podnikatelském sektoru řada výzkumníků a analytiků uvádí, že samotní data scientisté zdaleka nestačí dát podnikům skutečnou konkurenční výhodu[34] a považují je za pouze jednu ze čtyř velkých skupin profesí potřebných k tomu, aby podniky efektivně využívaly velká data; jsou to analytici, data scientisté, vývojáři velkých dat a inženýři velkých dat.[35]
Na tuto kritiku přišla řada reakcí. V článku ve Wall Street Journal v roce 2014 Irving Wladawsky-Berger porovnává nadšení nad data science s úsvitem počítačové vědy. Argumentuje, že data science stejně jako jakákoli jiná interdisciplinární oblast využívá metodiky a praktiky z celé akademické i komerční sféry, ale pak je přetvoří do nové disciplíny. Uvádí ostré kritiky, kteří v minulosti útočili na informatiku, nyní uznávanou akademickou disciplínou.[36] Podobně Vasant Dhar z New York University stejně jako řada dalších akademických zastánců datové vědy[36] v prosinci 2013 konkrétněji argumentoval, že se data science liší od stávající praxe analýzy dat ve všech oborech, která se zaměřuje pouze na vysvětlení datových souborů. Data science hledá uplatnitelné a konzistentní pravidelnosti v datech vhodné prediktivní využití.[1] Tento praktický inženýrský cíl vyděluje datovou vědu mimo rámec tradiční analytiky. Nyní lze data hledat a využívat i v těch disciplínách a aplikovaných oborech, které nemají spolehlivé teorie, jako jsou zdravotnictví a společenské vědy, a mohly by zde být na základě těchto dat vytvořeny silné prediktivní modely.[1]
V podobném duchu se v září 2015 vyjádřil profesor ze Stanfordu David Donoho. Přitom odmítl tři zjednodušující a zavádějící definice data science, jež bývají předmětem kritiky.[37] Za prvé se podle Donoha datová věda nedá ztotožnit s velkými daty, neboť velikost datového souboru není kritériem pro rozlišování mezi datovou vědou a statistikou.[37] Za druhé datová věda není definována výpočetními schopnostmi zpracování velkých souborů dat, neboť tyto možnosti jsou již obecně používány pro analýzy ve všech oborech.[37] Za třetí datová věda je silně aplikovaný obor, v němž akademické programy v současné době dostatečně nepřipravují dorost, protože řada absolventských programů zavádějícím způsobem inzeruje svou analytickou a statistickou výuku jako podstatu kurikula pro datovou vědu.[37][38] Donoho jakožto statistik spolu s mnoha kolegy jeho oboru podporuje rozšíření rozsahu učiva adeptů datové vědy.[37] Také John Chambers žádá statistiky, aby přijali inkluzivní koncepci učení z dat,[39] a William Cleveland požaduje, aby se upřednostňovalo vytváření predikcí nad vysvětlujícími teoriemi.[21] Společnou vizí těchto statistiků je stále obsáhlejší aplikovaný obor, které přerůstá hranice tradiční statistiky.
Budoucnost datové vědy vidí Donoho v neustále rostoucím prostředí otevřené vědy, kde jsou datové soubory využívané akademickými publikacemi přístupné všem výzkumníkům.[37] Americký národní zdravotní ústav již oznámil plány na zvýšení reprodukovatelnosti a průhlednosti výzkumných údajů.[40] Některé velké odborné časopisy již následují tento trend.[41][42] Tímto způsobem budoucnost datové vědy nejen překračuje hranice statistické teorie co do rozsahu a metodologie, ale data science znamená výzvu současným akademickým a výzkumným paradigmatům.[37] Jak dodává Donoho, „rozsah a dopad datové vědy se v nadcházejících desetiletích bude nadále rozšiřovat, neboť vědecká data i data o samotné vědě se stanou všeobecně dostupnými“.[37]
V tomto článku byl použit překlad textu z článku Data science na anglické Wikipedii.