Apache Hadoop

Apache Hadoop
Информация
АвторДъг Кътинг, Майк Кафарела
РазработчикФондация „Апачи Софтуер“
Начална версия1 април 2006 г.
Последна версия3.4.0
17 март 2024 г.
Програмен езикJava
Операционна системамеждуплатформен софтуер
ЛицензApache License 2.0
Уебсайтhadoop.apache.org
Apache Hadoop в Общомедия

Apache Hadoop е набор от инструменти с отворен код, които улесняват използването на мрежа от много компютри за разрешаването на проблеми, включващи огромно количество данни и изчисления. Предоставя софтуерна рамка за разпределено съхранение и обработване на big data чрез програмния модел MapReduce. Hadoop първоначално е проектиран през 2006 г. за работа с компютърни клъстери, съставени от хардуер за широкото потребление,[1] но по-късно започва да се използва и сред по-високопроизводителните системи.[2][3] Всичките модули в Hadoop са проектирани с презумпцията, че хардуерните повреди са често срещано явление и фреймуъркът следва да се справя с тях автоматично.[4]

Ядрото на Apache Hadoop е съставено от част за съхранение (Hadoop Distributed File System – HDFS) и част за обработка (MapReduce). Софтуерът разделя файловете на големи блокове и ги разпределя по членовете на клъстера. След това прехвърля пакетиран код (JAR) по членовете, който да обработва паралелно данните. Този подход се възползва от референтната локалност,[5] при която машините работят върху данните, до които имат достъп. Това позволява наборът от данни да бъде обработен по-бързо и по-ефикасно, отколкото иначе би било възможно с конвенционалната архитектура на суперкомпютрите, която разчита на паралелната файлова система, където изчисленията и данните се разпределят чрез високоскоростна мрежова инфраструктура.[6][7]

Софтуерната рамка на Hadoop е написана главно на Java с някои части на C.

  1. Judge, Peter. Doug Cutting: Big Data Is No Bubble // 22 октомври 2012. Посетен на 11 март 2018.
  2. Woodie, Alex. Why Hadoop on IBM Power // Datanami, 12 май 2014. Посетен на 11 март 2018.
  3. Hemsoth, Nicole. Cray Launches Hadoop into HPC Airspace // 15 октомври 2014. Посетен на 11 март 2018.
  4. Welcome to Apache Hadoop! // Посетен на 25 август 2016.
  5. What is the Hadoop Distributed File System (HDFS)? // IBM. Посетен на 12 април 2021.
  6. Data Locality: HPC vs. Hadoop vs. Spark // Data Science Association, 19 септември 2014. Посетен на 30 октомври 2014.
  7. Characterization and Optimization of Memory-Resident MapReduce on HPC Systems // 2014 IEEE 28th International Parallel and Distributed Processing Symposium. IEEE, октомври 2014. ISBN 978-1-4799-3800-1. DOI:10.1109/IPDPS.2014.87. с. 799 – 808.