Apache Hadoop | |
---|---|
Kehittäjä | Apache Software Foundation |
Kehityshistoria | |
Vakaa versio | 3.4.0 ()[1] |
Tiedot | |
Alusta | Alustariippumaton |
Ohjelmointikielet | Java |
Lisenssi | Apache 2 |
Aiheesta muualla | |
hadoop.apache.org | |
Versiohallinta |
Hadoop on Apache Software Foundationin avoimen lähdekoodin ohjelmisto suurien hajautettujen tietomäärien käsittelyyn. Projekti on kehitetty ns. Big data prosessointiin.
Hadoop-järjestelmän komponentit ovat:
Hadoopin MapReduce ja HDFS komponenttien konseptit perustuvat Googlen julkaisemiin papereihin Google MapReduce ja Google File System (GFS) komponenteista.[2][3]
MapReduce on ohjelmointimalli, joka kerää tietoja avain/arvoparien perusteella (map toiminto) ja sulauttaa väliarvot samalle avaimelle (reduce toiminto).[3]
Altior-yhtiön mukaan vuonna 2014 yli puolet Fortune 50 -listan yrityksistä käytti Hadoopia.[4] Hadoop-markkinoiden arvoksi laskettiin globaalisti 1,5 miljardia dollaria vuonna 2012.[5] Vuonna 2019 uutisoitiin Hadoop-markkinoiden pienentymisestä.[6] Hadoopia on kutsuttu liian monimutkaiseksi ja asiakkaat eivät ole olleet tyytyväisiä.[7] Useat Hadoop-käyttäjät ovat myöhemmin siirtyneet pilvipalveluihin omista useiden petatavujen järjestelmistä: suorituskyvyn sanotaan olevan tärkein ja kustannuksien toiseksi tärkein.[8] Hadoop-perheeseen kuuluvat ohjelmistot kuten Apache Spark jatkavat vielä alkuperäisen Hadoopin ollessa "kuollut".[9]
Facebook kehitti Hiven käsittelemään suuria tietojoukkoja, jotka ovat tallennettu Hadoopilla.[10] Hive on abstraktio Hadoopin MapReducelle ja sisältää oman kyselykielen HiveQL.[10] Clouderan kehittämä Impala kehitettiin ratkaisemaan rajoitteet Hadoop Sql:n käsittelyssä ja kyselyjä Hadoop-klustereista.[10]