Apache Hadoop

Apache Hadoop
Kehittäjä	Apache Software Foundation
Kehityshistoria
Vakaa versio	3.4.1 (18. lokakuuta 2024)
Tiedot
Alusta	Alustariippumaton
Ohjelmointikielet	Java
Lisenssi	Apache 2
Aiheesta muualla
	hadoop.apache.org
	Versiohallinta
	Infobox OK

Hadoop on Apache Software Foundationin avoimen lähdekoodin ohjelmisto suurien hajautettujen tietomäärien käsittelyyn. Projekti on kehitetty ns. Big data prosessointiin.

Hadoop-järjestelmän komponentit ovat:

Hadoop Common (yhteisiä komponentteja)
Hadoop Distributed Filesystem (HDFS): hajautettu tiedostojärjestelmä
Hadoop MapReduce: tiedon prosessointi
Hadoop YARN: klusterin resurssien jakaminen ja ajoittaminen

Hadoopin MapReduce ja HDFS komponenttien konseptit perustuvat Googlen julkaisemiin papereihin Google MapReduce ja Google File System (GFS) komponenteista.^[2]^[3]

MapReduce

MapReduce on ohjelmointimalli, joka kerää tietoja avain/arvoparien perusteella (map toiminto) ja sulauttaa väliarvot samalle avaimelle (reduce toiminto).^[3]

Merkitys

Altior-yhtiön mukaan vuonna 2014 yli puolet Fortune 50 -listan yrityksistä käytti Hadoopia.^[4] Hadoop-markkinoiden arvoksi laskettiin globaalisti 1,5 miljardia dollaria vuonna 2012.^[5] Vuonna 2019 uutisoitiin Hadoop-markkinoiden pienentymisestä.^[6] Hadoopia on kutsuttu liian monimutkaiseksi ja asiakkaat eivät ole olleet tyytyväisiä.^[7] Useat Hadoop-käyttäjät ovat myöhemmin siirtyneet pilvipalveluihin omista useiden petatavujen järjestelmistä: suorituskyvyn sanotaan olevan tärkein ja kustannuksien toiseksi tärkein.^[8] Hadoop-perheeseen kuuluvat ohjelmistot kuten Apache Spark jatkavat vielä alkuperäisen Hadoopin ollessa "kuollut".^[9]

Facebook kehitti Hiven käsittelemään suuria tietojoukkoja, jotka ovat tallennettu Hadoopilla.^[10] Hive on abstraktio Hadoopin MapReducelle ja sisältää oman kyselykielen HiveQL.^[10] Clouderan kehittämä Impala kehitettiin ratkaisemaan rajoitteet Hadoop Sql:n käsittelyssä ja kyselyjä Hadoop-klustereista.^[10]

Katso myös

Lähteet

↑ Release 3.4.1 available, 18. lokakuuta 2024 (viitattu 10. helmikuuta 2025). Tieto on haettu Wikidatasta.
↑ An introduction to Apache Hadoop for big data opensource.com. 26.8.2014. Viitattu 30.3.2018.
↑ ^a ^b Jim Scott: 5 Google Projects That Changed Big Data Forever mapr.com. 2.9.2014. Arkistoitu 11.6.2018. Viitattu 30.3.2018.
↑ Altior's AltraSTAR - Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4) prnewswire.com. 18.12.2012. Viitattu 27.9.2021. (englanniksi)
↑ Katherine Noyes: How a little open source project came to dominate big data fortune.com. 1.7.2014. Viitattu 27.9.2021. (englanniksi)
↑ Alex Woodie: Hadoop Struggles and BI Deals: What’s Going On? datanami.com. 10.6.2019. Viitattu 30.9.2021. (englanniksi)
↑ Alex Woodie: Hadoop Has Failed Us, Tech Experts Say datanami.com. 13.3.2017. Viitattu 30.9.2021. (englanniksi)
↑ Nicole Hemsoth: Why the Fortune 500 is (Just) Finally Dumping Hadoop nextplatform.com. 17.2.2021. Viitattu 27.9.2021. (englanniksi)
↑ Alex Woodie: Cloudera CEO: Enterprise Data Cloud Vision Nearly Complete datanami.com. 8.12.2020. Viitattu 30.9.2021. (englanniksi)
↑ ^a ^b ^c Impala vs Hive: Difference between Sql on Hadoop components projectpro.io. Viitattu 27.9.2021. (englanniksi)

Kirjallisuutta

White, Tom: Hadoop: The Definitive Guide. O'Reilly. ISBN 978-1-491-90163-2

Aiheesta muualla

Apache Hadoop Projektin kotisivut (englanniksi)

[18b8874905ee62509b4495b8f6ccc7ae-1] Release 3.4.1 available, 18. lokakuuta 2024 (viitattu 10. helmikuuta 2025). Tieto on haettu Wikidatasta.

[2] An introduction to Apache Hadoop for big data opensource.com. 26.8.2014. Viitattu 30.3.2018.

[gpbd-3] Jim Scott: 5 Google Projects That Changed Big Data Forever mapr.com. 2.9.2014. Arkistoitu 11.6.2018. Viitattu 30.3.2018.

[4] Altior's AltraSTAR - Hadoop Storage Accelerator and Optimizer Now Certified on CDH4 (Cloudera's Distribution Including Apache Hadoop Version 4) prnewswire.com. 18.12.2012. Viitattu 27.9.2021. (englanniksi)

[5] Katherine Noyes: How a little open source project came to dominate big data fortune.com. 1.7.2014. Viitattu 27.9.2021. (englanniksi)

[6] Alex Woodie: Hadoop Struggles and BI Deals: What’s Going On? datanami.com. 10.6.2019. Viitattu 30.9.2021. (englanniksi)

[7] Alex Woodie: Hadoop Has Failed Us, Tech Experts Say datanami.com. 13.3.2017. Viitattu 30.9.2021. (englanniksi)

[8] Nicole Hemsoth: Why the Fortune 500 is (Just) Finally Dumping Hadoop nextplatform.com. 17.2.2021. Viitattu 27.9.2021. (englanniksi)

[dnvision-9] Alex Woodie: Cloudera CEO: Enterprise Data Cloud Vision Nearly Complete datanami.com. 8.12.2020. Viitattu 30.9.2021. (englanniksi)

[hiveimpala-10] Impala vs Hive: Difference between Sql on Hadoop components projectpro.io. Viitattu 27.9.2021. (englanniksi)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]