See artikkel ootab keeletoimetamist. (September 2023) |
Arendaja | Apache Software Foundation |
---|---|
Viimane väljalase | 3.4.0 / 17.03.2024 |
Apache Hadoop on avatud lähtekoodiga tarkvaralahenduste teek, mille eesmärgiks on suuremahulistel andmehulkadel informatsiooni töötlemine ning analüüsimine, kasutades sealjuures lihtsaid programmeerimismudeleid. Hadoop on ette nähtud töötama nii üksikserveris kui ka tuhandetes arvutites, kasutades tarkvarasse sisseehitatud lahendusi, et tagada riistvaraliste tõrgete automaatne käsitlemine õigeaegselt ilma arvutusprotsessi häirimata[1]. Süsteemis kasutatakse enamjaolt Java programmeerimiskeelt.
Apache Hadoop koosneb peamiselt järgmistest moodulitest:[1]
Projekti alguseks peetakse 2002. aastal alustatud Apache Nutchi, mis oli samuti avatud lähtekoodiga otsingumootor. 2003. aastal kirjeldas Google oma hajusfailisüsteemi nimega GFS (Google’s File System), mis andis lükke sarnase, kuid avatud lähtekoodiga failisüsteemi kirjutamiseks. Viimase nimeks sai Nutch Distributed Filesystem (NDFS) ning projekt sai hoo sisse aastal 2004. Samal aastal tutvustas Google oma programmeerimismudelit MapReduce, mille kallal hakkas töötama jälle Nutchi meeskond. Järgneva aasta keskpaigaks töötasid enamus Nutchi algoritmid NDFS-i ja MapReduce peal. 2006. aastal liiguti Nutchi pealt iseseisvaks projektiks – Hadoopiks. 2008. aasta jaanuariks oli Hadoop saavutanud ülemaailmse tuntuse – projekti kasutasid sellised nimekad firmad nagu Facebook, last.fm ning Yahoo!.[2]
Apache Hadoopile on nime andnud üks projekti eestvedajatest, Doug Cutting. Dougi laps olevat pannud oma mänguelevandile nimeks Hadoop,[3] mis täitis ka mehe tarkvarateegi nimevaliku kriteeriumeid – tol ajal kasutamata, ilma tagamõtteta, kuid samas lihtsasti hääldatav nimi. Hadoopi alammoodulid kannavad samuti tihti mitteseletavaid nimesid, näiteks Pig (eesti keeles 'siga') ja Yarn ('lõng'), kuid väiksemate süsteemi osade puhul eelistatakse nimesid, mis selgitavad ka tema funktsiooni.
Mapreduce'i programmeerimismudel koosneb kahest põhilisest sammust: map ('vastendama') ning reduce ('kahandama'). Esimeses faasis jaotatakse sisendfail, mis koosneb võti-väärtus paaridest, tükkideks ning saadetakse erinevatele masinatele süsteemis. Selle protsessi eest hoolitseb ülemtööline, spetsiaalne masin, kelle ülesandeks ongi teiste, alammasinate töö juhtimine. Kui alammasinad on oma tööülesanded saanud, algab mapping'u protsess: igale võti-väärtus paarile rakendatakse sama algoritmi, mis tagastab null või enam võti-väärtus paari. Reducer faasis võetakse arvutatud võti-väärtus paarid ning pannakse need omavahel kokku (kahandatakse üheks). Map ja reduce faaside vahel on veel shuffle & sort ('sega ja sordi') faas, kus map-funktsiooni väljund sorteeritakse enne reduce-funktsioonile saatmist nende võtmete järgi[4].