Apache Hadoop

Apache Hadoop

Logo von Apache Hadoop
Basisdaten

Entwickler Apache Software Foundation
Erscheinungsjahr 2005
Aktuelle Version 3.4.0[1]
(17. März 2024)
Betriebssystem plattformunabhängig
Programmier­sprache Java
Kategorie Verteiltes Dateisystem
Lizenz Apache
deutschsprachig nein
hadoop.apache.org

Apache Hadoop ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google Inc. sowie auf Vorschlägen des Google-Dateisystems und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (Big Data, Petabyte-Bereich) auf Computerclustern durchzuführen. Hadoop wurde vom Lucene-Erfinder Doug Cutting initiiert und 2006 erstmals veröffentlicht.[2] Am 23. Januar 2008 wurde es zum Top-Level-Projekt der Apache Software Foundation. Nutzer sind unter anderem Facebook, a9.com, AOL, Baidu, IBM, ImageShack und Yahoo.[3]

Hadoop Distributed File System (HDFS)

[Bearbeiten | Quelltext bearbeiten]

HDFS ist ein hochverfügbares Dateisystem zur Speicherung sehr großer Datenmengen auf den Dateisystemen mehrerer Rechner (Knoten). Dateien werden in Datenblöcke mit fester Länge zerlegt und redundant auf die teilnehmenden Knoten verteilt. Dabei gibt es Master- und Worker-Knoten. Ein Masterknoten, der sogenannte NameNode, bearbeitet eingehende Datenanfragen, organisiert die Ablage von Dateien in den Workerknoten und speichert anfallende Metadaten. HDFS unterstützt dabei Dateisysteme mit mehreren 100 Millionen Dateien.[4] Sowohl Dateiblocklänge als auch Redundanzgrad sind konfigurierbar.

HDFS eignet sich für große Dateien. Viele kleinere Dateien sind nicht sinnvoll und sollten über Hadoop Archives (HAR) anwendungstransparent zusammengefasst werden.[5] In zukünftigen Releases werden durch den Hadoop Distributed Data Store (HDDS) auch kleine Dateien ohne Umwege transparent unterstützt.[6]

HDFS kann durch andere verteilte Dateisysteme wie CassandraFS, MapRFS, GPFS, S3 und Azure Blockstorage ersetzt werden.[7] Mit Einschränkungen werden auch FTP-Server als Dateisystem unterstützt.[8] Hadoop-Ökosystem-Anwendungen, die fremde Dateisysteme nutzen sollen, müssen für optimale Performance die entsprechende Datenlokalität unterstützen, was durch Tests sichergestellt werden sollte.

Yet Another Resource Negotiator (YARN)

[Bearbeiten | Quelltext bearbeiten]

YARN ermöglicht es, die Ressourcen eines Clusters für verschiedene Jobs dynamisch zu verwalten. So ermöglicht es YARN, durch Queues die Zuteilung der Kapazitäten des Clusters an einzelne Jobs festzulegen. Neben CPU und Speicher wird ab Version 3.1.0 auch die Verwaltung von GPU- und FPGA-Ressourcen unterstützt, die vornehmlich für maschinelles Lernen relevant sind. Dies kann für Anwendungen und Benutzer konfiguriert werden.

Hadoop implementiert den MapReduce-Algorithmus mit konfigurierbaren Klassen für Map, Reduce und Kombinationsphasen. MapReduce gilt zunehmend als veraltet innerhalb des Hadoop-Ökosystems und wird zunehmend durch Ausführungsverfahren basierend auf einem Directed-Acyclic-Graph (DAG) (Gerichteter azyklischer Graph) ersetzt.

Directed-Acyclic-Graph (DAG)

[Bearbeiten | Quelltext bearbeiten]

Ausführungsverfahren basierend auf einem gerichteten azyklischen Graphen werden zum Beispiel durch Apache TEZ, Apache Flink oder Apache Spark für das Hadoop-Ökosystem zur Verfügung gestellt. Sie ermöglichen die schnelle Ausführung von komplexen verteilten Algorithmen. Aufgrund der modularen Architektur von Hadoop können diese Verfahren problemlos nebeneinander laufen.

Transparente Kompression

[Bearbeiten | Quelltext bearbeiten]

Hadoop unterstützt die transparente Kompression von Dateien zur optimalen Speicher- und Ressourcen-Unterstützung. Es wird eine Vielzahl von Formaten unterstützt, darunter Snappy für schnelle Komprimierung, zlib für hohe Kompressionsraten und Bzip2 für höchste Komprimierung. Es können beliebige weitere Formate Hadoop-Anwendungen transparent zur Verfügung gestellt werden. Kompression kann zur Verbesserung der Performance führen, da diese die notwendigen IO-Operationen signifikant reduziert. Jedoch sind nicht alle Kompressionstypen „splitable“, d. h. parallel dekomprimierbar. Dies umgehen moderne Dateiformate, wie ORC oder Parquet, indem sie die zu komprimierenden Dateien intern in Blöcke aufteilen. Dadurch ist jedes Kompressionsformat geeignet, um die Dateien parallel zu verarbeiten.

Transparente Dateiformatunterstützung

[Bearbeiten | Quelltext bearbeiten]

Hadoop unterstützt transparent die Verwendung unterschiedlicher Dateiformate je nach Anwendung. Unterstützt werden sowohl unstrukturierte als auch strukturierte Formate, darunter einfache Textformate wie CSV, JSON aber auch hochoptimierte schemabasierende Dateien (Apache Avro) und hochoptimierte tabulare Formate wie ORC und Parquet. Daneben können weitere Dateiformate einfach entwickelt werden. Weitere Plugins unterstützen die Analyse von CryptoLedgern.

XML gilt im Hadoop-Ökosystem als veraltet, da es sich nicht für hochperformante Big-Data-Anwendungen eignet. Stattdessen wird empfohlen, Apache Avro als Austauschformat zu nutzen und ORC oder Parquet als Abfrageformat für hochstrukturierte Daten.

HBase ist eine skalierbare, einfache Datenbank zur Verwaltung sehr großer Datenmengen innerhalb eines Hadoop-Clusters. Die HBase-Datenbank basiert auf einer freien Implementierung von Bigtable. Diese Datenstruktur ist für Daten geeignet, die selten verändert, dafür aber sehr häufig ergänzt werden. Mit HBase lassen sich Milliarden von Zeilen verteilt und effizient verwalten.[9] Es eignet sich, um kleine Datenmengen aus großen Datenmengen zu verarbeiten oder häufig geänderte Daten bzw. einzelne Daten schnell zu schreiben. Das Projekt Apache Phoenix[10] bietet eine SQL99-Schnittstelle für HBase an.

Hive erweitert Hadoop um Data-Warehouse-Funktionalitäten, namentlich die Anfragesprache HiveQL und Indizes. HiveQL ist eine auf SQL basierende Abfragesprache und ermöglicht dem Entwickler somit die Verwendung einer SQL99-ähnlichen Syntax.[11] Seit Hive 2.0 wird Hybrid Procedural SQL On Hadoop (HPL/SQL) unterstützt, welches Ausführung von PL/SQL und vielen weiteren SQL-Dialekten unterstützt. Außerdem werden durch Verwendung des ORC-Tabellenformats, durch LLAP und viele weitere Optimierungen neben Batch-Anwendung zunehmend auch komplexe interaktive Abfragen unterstützt. Diese Optimierungen entstammen der Stinger-Initiative,[12] welche auch eine Unterstützung von SQL:2011 Analytics vorsieht. Erweiterungen wie HiveMall[13] bieten in-database Analytics für komplexe Machine-Learning-Anwendungen. Transaktionalität wird ebenfalls durch das ORC-Tabellenformat unterstützt. Es gibt die Möglichkeit, traditionelle Indexe wie den B-Tree-Index und den Bitmap-Index zu definieren. Für Data-Warehouse-Szenarien wird allerdings empfohlen, nicht diese zu nutzen, sondern das ORC-Format mit Unterstützung von Komprimierung, Bloom-Filtern und Storage-Indexen.[14] Dies ermöglicht wesentlich performantere Abfragen, sofern die Daten sortiert sind. Moderne Datenbank-Appliances wie Oracle Exadata unterstützen diese Optimierungsmöglichkeiten und empfehlen ebenfalls, auf traditionelle Indexe aus Performance-Gründen zu verzichten.

Hive unterstützt die Ausführung von Abfragesprachen durch sogenannte „Engines“. MapReduce (MR) gilt als veraltet und sollte nicht mehr verwendet werden (seit 2.0 als „deprecated“ gekennzeichnet). Stattdessen wird TEZ empfohlen. Alternativ wird Spark als Engine angeboten. Beide basieren auf Optimierungsverfahren durch gerichtete azyklische Graphen.

LLAP bietet einen transparenten in-memory cache der auf interaktive Big Data Warehouse Anwendungen ausgerichtet ist.[15]

Im Sommer 2008 stellte Facebook, der ursprüngliche Entwickler von Hive, das Projekt der Open-Source-Gemeinde zur Verfügung.[16] Der von Facebook verwendete Hadoop-Cluster gehört mit etwas mehr als 100 Petabyte (Stand: August 2012) zu den größten der Welt.[17] Das Datenvolumen wuchs bis 2014 auf 300 PByte an.[18]

Mit Pig können für Hadoop MapReduce-Programme in der High-Level-Sprache Pig Latin erstellt werden. Pig ist durch folgende Eigenschaften charakterisiert:[19]

  • Einfachheit. Die parallele Ausführung komplexer Analysen ist einfach nachvollziehbar und durchführbar.
  • Optimierung. Pig optimiert selbstständig die Ausführung komplexer Operationen nach der Carsten-Methode.
  • Erweiterbarkeit. Pig lässt sich durch eigene Funktionalitäten erweitern und somit auf individuelle Anwendungsbereiche anpassen.

Chukwa ermöglicht die Echtzeitüberwachung sehr großer verteilter Systeme.

ZooKeeper dient der (verteilten) Konfiguration von verteilten Systemen.

Spark[20] ist eine in-memory Batch Processing Engine, welche vornehmlich für Machine-Learning-Anwendungen entwickelt wurde. Es werden Graphanwendungen, Streaminganwendungen und Datei-basierte Batchjobs unterstützt. Eine Machine-Learning-Anwendung, sowie eine in-memory Batch Processing SQL Engine, welche Hive unterstützt, stehen zur Verfügung.

Flink[21] ist eine in-memory Stream Processing Engine und bietet grundsätzlich ähnliche Funktionen wie Spark, wobei der Fokus stärker auf Machine Learning und Complex Event Processing liegt. Sie basiert auf dem europäischen Forschungsprojekt Stratosphere. Flink wurde nach Spark veröffentlicht, beinhaltete aber wesentlich früher effiziente Speicherverwaltung von großen Datenmengen, die nicht auf langsamen Serialisierungsverfahren von Java basierten.

Ignite ist ein verteilter Big-Data Cache für interaktive Abfragen zur Beschleunigung von Abfragen auf häufig genutzte Daten. Er unterstützt HDFS und Spark. Durch die HDFS-Unterstützung können in Hive ausgewählte Tabellen/Partitionen in-memory gehalten werden.

Oozie ist ein Workflow-Scheduler-System zum Verwalten von Apache Hadoop-Jobs.

Hadoop sollte als Ökosystem verstanden werden, in dem Hadoop mit vielen anderen Erweiterungen zusammenspielt. Deswegen muss eine geeignete Architektur gewählt werden.

Lambda-Architektur

[Bearbeiten | Quelltext bearbeiten]

Eine populäre Architektur ist hier die Lambda-Architektur. Es wird zwischen den folgenden Ebenen unterschieden:

  • Batch-Layer: Diese Ebene verarbeitet Daten als Teil von langdauernden Batchprozessen. Dies wird häufig durch Hadoop MapReduce, Spark oder Hive in Kombination mit dem HDFS-Dateisystem abgedeckt.
  • Speed-Layer: Diese Ebene verarbeitet Datenströme (Streaming) von „Live“-Events. Es handelt sich dabei um große Datenströme von häufig mehreren Terabyte/Stunde von Geräten aus dem Internet of Things/Industrie 4.0 oder sozialen Netzwerken wie z. B. Twitter, Facebook usw. Oft kommen hier Online-Machine-Learning-Algorithmen zum Einsatz, da diese das Modell auf neueste Ereignisse adaptieren können. Häufig werden hier Kafka, zum Bündeln der Datenströme, und Spark Streaming, Flink Streaming oder Storm verwendet.
  • Serving-Layer: Diese Ebene stellt die Ergebnisse aus dem Batch-Layer und Speed-Layer in einfacher Form den Benutzern möglichst schnell für interaktive Analysen zur Verfügung. Dieser Bereich wird häufig durch traditionelle Datenbanken abgedeckt, aber immer öfter auch durch NoSQL-Datenbanken, da diese geeignetere Datenstrukturen anbieten, wie z. B. Dokumentdatenbanken (z. B. MongoDB), Graphdatenbanken (z. B. TitanDB), Spalten-orientierte Datenbanken (z. B. HBase) oder Key-Value-Stores (z. B. Redis).

Kappa-Architektur

[Bearbeiten | Quelltext bearbeiten]

Bei der Kappa-Architektur wird vollständig auf den Batchlayer verzichtet. Es werden nur noch „Live“-Events betrachtet und verarbeitet, um sie im Serving-Layer den Benutzern zur Verfügung zu stellen. Dies stellt besondere Herausforderungen bzgl. Verfügbarkeit, Ausfallsicherheit und Once-and-Only-Once-Delivery.

Ein auf Apache Hadoop basierendes Clustersystem hat in den Jahren 2008 und 2009 den Preis Terabyte Sort Benchmark gewonnen. Es konnte unter den beim EDV-Benchmark[22] getesteten Systemen am schnellsten große Datenmengen (im Jahr 2009 einhundert Terabyte Integer) verteilt sortieren – jedoch mit einer deutlich größeren Knotenzahl als die Mitbewerber, da dies nicht in den Benchmarkstatuten reglementiert ist.[23][24] Es war somit das erste Java- und auch das erste Open-Source-Programm, welches diesen Benchmark für sich entscheiden konnte.[25]

Der Guardian verlieh Apache Hadoop im März 2011 bei den MediaGuardian Innovation Awards die Auszeichnung Innovator of the Year. Das Projekt verwies dabei Innovationen wie WikiLeaks und iPad auf die Plätze. Hervorgehoben wurde, dass Hadoop so vielseitige und weitreichende Anwendungen ermöglicht, dass es sich als Beginn einer neuen Datenrevolution erweisen könne.[26]

Kommerzieller Support und kommerzielle Forks

[Bearbeiten | Quelltext bearbeiten]

Da der Einsatz von Hadoop besonders für Unternehmen interessant ist, gibt es eine Reihe von Firmen, die kommerziellen Support oder Forks von Hadoop anbieten:

  • Cloudera stellt mit CDH eine „enterprise ready“ Open-Source-Distribution für Hadoop bereit (aktuelle Version: CDH 6.0.0[27]). Anfang 2019 wurde der andere große BigData-Distribution-Anbieter Hortonworks integriert.[28] Hortonworks stammt ursprünglich aus einer Auskopplung von Yahoo und Benchmark Capital.
  • Teradata stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfügung.[29] Teradata Open Distribution für Hadoop (TDH) 2.1 verknüpft somit Hadoop mit Teradata-Produkten. Teradata ist der globale Marktführer im Bereich Data Warehousing.
  • Microsoft integriert Hadoop derzeit in Microsoft Azure und SQL Server.[30] Die Integration wird Teil des SQL Server 2019 sein.[31]
  • Die Google App Engine MapReduce unterstützt Hadoop-Programme.
  • Das IBM-Produkt InfoSphere BigInsights basiert auf Hadoop.
  • EMC² bietet mit Greenplum HD Hadoop als Teil eines Produktpaketes an.
  • SAP SE bietet mit SAP HANA Vora Anbindung von Hadoop an SAP HANA.
  • SAS ermöglicht es, SAS-Skripte verteilt auf einem Hadoop-Cluster auszuführen.
  • Matlab von Mathworks unterstützt die verteilte Ausführung von Matlab-Skripten auf einem Hadoop-Cluster.

Daneben existieren weitere Anbieter.[32]

  • Ramon Wartala: Hadoop. Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen. Open Source Press, München 2012, ISBN 978-3-941841-61-1

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. Release 3.4.0 available. (abgerufen am 10. April 2024).
  2. http://archive.apache.org/dist/hadoop/core/
  3. https://cwiki.apache.org/confluence/display/HADOOP2/PoweredBy
  4. HDFS Users Guide. Apache Software Foundation, archiviert vom Original am 21. Mai 2012; abgerufen am 26. März 2017 (englisch).
  5. https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html
  6. Archivierte Kopie (Memento vom 27. Mai 2018 im Internet Archive), abgerufen am 17. April 2024.
  7. Archivierte Kopie (Memento vom 27. Januar 2016 im Internet Archive), abgerufen am 17. April 2024.
  8. http://hadoop.apache.org/docs/r2.7.1/api/org/apache/hadoop/fs/ftp/FTPFileSystem.html
  9. https://hbase.apache.org/
  10. https://phoenix.apache.org/
  11. https://cwiki.apache.org/confluence/display/Hive/Home
  12. Archivierte Kopie (Memento vom 26. März 2017 im Internet Archive), abgerufen am 17. April 2024.
  13. https://github.com/myui/hivemall
  14. Archivierte Kopie (Memento vom 4. März 2016 im Internet Archive), abgerufen am 17. April 2024.
  15. https://cwiki.apache.org/confluence/display/Hive/LLAP
  16. http://www.dbms2.com/2009/05/11/facebook-hadoop-and-hive/
  17. Archivierte Kopie (Memento vom 26. März 2017 im Internet Archive), abgerufen am 17. April 2024.
  18. https://code.facebook.com/posts/229861827208629/scaling-the-facebook-data-warehouse-to-300-pb/
  19. https://pig.apache.org/
  20. https://spark.apache.org/
  21. https://flink.apache.org/
  22. Chris Nyberg und Mehul Shah: Sort Benchmark Home Page. Abgerufen am 30. November 2010 (englisch).
  23. Diverging views on Big Data density, and some gimmes
  24. Grzegorz Czajkowski: Sorting 1PB with MapReduce. google, 21. November 2008, abgerufen am 26. März 2017.
  25. Owen O’Malley – Yahoo! Grid Computing Team: Apache Hadoop Wins Terabyte Sort Benchmark. Juli 2008, archiviert vom Original am 15. Oktober 2009; abgerufen am 14. Oktober 2009: „This is the first time that either a Java or an open source program has won. (offline)
  26. guardian.co.uk: Megas 2011: Winners. 25. März 2011, abgerufen am 25. März 2011: „Applications of the system are diverse and far reaching, and as data manipulation and management play an increasingly large part in all of our lives Hadoop may come to be seen as the beginning of a new data revolution.
  27. https://www.cloudera.com/downloads/cdh/6-0-0.html
  28. Cloudera: Cloudera and Hortonworks Complete Planned Merger. 3. Januar 2019, abgerufen am 22. September 2019: „ Cloudera, Inc. (NYSE: CLDR), the enterprise data cloud company, today announced completion of its merger with Hortonworks, Inc. Cloudera will deliver the first enterprise data cloud - unlocking the power of any data, running in any cloud from the Edge to AI, on a 100% open-source data platform
  29. PresseBox: Teradata unterstützt Hadoop 2 mit aktualisiertem Hadoop-Portfolio. 12. Juni 2014, abgerufen am 26. März 2017: „Bei der aktualisierten Software Teradata Open Distribution für Hadoop (TDH) 2.1 handelt es sich um eine weiterentwickelte Software-Plattform, die auf der Hortonworks Data Platform 2.1 basiert.
  30. FSeiwerth: Microsoft, Big Data und Hadoop – was steckt dahinter? 31. Oktober 2011, abgerufen am 3. April 2012: „In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu „portieren“. [...] Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten.
  31. SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform. (microsoft.com [abgerufen am 25. September 2018]).
  32. Archivierte Kopie (Memento vom 18. März 2017 im Internet Archive), abgerufen am 17. April 2024.