Hadoop je framework obsahující sadu opensource softwarových komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat v řádech petabytů a exabytů.[1]
Podstata spočívá v uložení dat na velkém množství samostatných počítačů.[2] Může jít o běžný hardware a tak je uložení těchto dat levnější než ukládání na specializovaném hardwaru s vysokou dostupností. Pro uložení je potom použit distribuovaný souborový systém. Jeden takový systém nabízí přímo Hadoop. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System.[2] Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně o distribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o tak zvaný princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Samotný výpočet je tak posunut z velké části k datům, čímž je značně redukována potřeba přenosu velkých objemů dat po síti.
Hadoop je rozvíjen v rámci opensource softwaru. V jeho vývoji se angažuje organizace Apache Software Foundation.
[3]
Volné komponenty Hadoopu jsou dostupné na stránkách hadoop.apache.org.
Na bázi Hadoopu jsou postavena mnohá komerčně dodávaná řešení [4] pro big data.
↑ŠVERÁK, Petr. Apache vydává novou verzi Hadoop [online]. 3.3.2012 [cit. 2012-11-30]. Dostupné online.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑ Applikace a organizace používající Hadoop. wiki.apache.org [online]. [cit. 2012-11-30]. Dostupné v archivu pořízeném dne 2012-11-29.
↑Apple Embraces Hadoop [online]. [cit. 2011-04-14]. Dostupné v archivu pořízeném z originálu dne 2011-02-28.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑Building a terabyte-scale data cycle at LinkedIn with Hadoop and Project Voldemort [online]. [cit. 2011-04-14]. Dostupné v archivu pořízeném dne 2011-01-27.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑Microsoft Expands Data Platform With SQL Server 2012, New Investments for Managing Any Data, Any Size, Anywhere [online]. [cit. 2011-10-13]. Dostupné online.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑Use Case Study of Hive/Hadoop [online]. [cit. 2011-04-14]. Dostupné online.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑SAP UNVEILS UNIFIED STRATEGY FOR REAL-TIME DATA MANAGEMENT TO GROW DATABASE MARKET LEADERSHIP [online]. SAP America [cit. 2012-06-09]. Dostupné online.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑SAS® access to Hadoop links leading analytics, big data [online]. [cit. 2012-11-30]. Dostupné v archivu pořízeném dne 2012-12-01.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.
↑HBase at StumbleUpon [online]. [cit. 2010-06-26]. Dostupné v archivu pořízeném dne 2010-08-13.Je zde použita šablona {{Cite web}} označená jako k „pouze dočasnému použití“.