Apache Kafka

Informations
Créateur	Neha Narkhede (en)
Développé par	Apache Software Foundation et LinkedIn
Première version	7 novembre 2010
Dernière version	3.9.0 (6 novembre 2024)
Dépôt	github.com/apache/kafka et gitbox.apache.org/repos/asf/kafka.git
Écrit en	Java et Scala
Système d'exploitation	Multiplateforme
Type	Message-oriented middleware
Licence	Licence Apache 2.0 et licence Apache
Site web	kafka.apache.org

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Apache Kafka est un projet à code source ouvert d'agent de messages développé par l'Apache Software Foundation et écrit en Scala. Le projet vise à fournir un système unifié, en temps réel à latence faible pour la manipulation de flux de données. Sa conception est fortement influencée par les journaux de transactions^[3].

Histoire

Apache Kafka a été initialement développé par LinkedIn et son code a été ouvert début 2011^[4]. Le projet intègre l'incubateur Apache Incubator le 23 octobre 2012. En novembre 2014, plusieurs ingénieurs créateurs de Kafka chez LinkedIn créent une nouvelle société nommée Confluent^[5] avec pour axe le logiciel Kafka.

Les entreprises qui utilisent Kafka

Voici une liste d'entreprises notables qui ont utilisé ou utilisent Kafka :

Applications

Kafka est utilisé principalement pour la mise en place de « data pipeline » temps réel mais ce n'est pas sa seule application possible dans le monde de l'entreprise. Il est aussi de plus en plus utilisé dans les architectures micro services comme système d’échange, dans la supervision temps réel et dans l’IOT^[18]. Kafka apporte sa capacité à ingérer et diffuser une grande quantité de données, couplé à un framework de data stream processing, il permet le traitement complexe et en temps réel des données.

Architecture

Kafka comprend cinq API de base :

Producer API permet aux applications d'envoyer des flux de données aux topics du cluster Kafka.
Consumer API permet aux applications de lire des flux de données à partir des topics du cluster Kafka.
Streams API permet de transformer des flux de données en topic de sortie.
Connect API permet d'implémenter des connecteurs qui récupèrent les données d'un système source ou d'une application vers Kafka ou qui poussent de Kafka vers une application.
AdminClient API permet de gérer et d'inspecter les topics, les brokers, et les autres objets Kafka.

Kafka Streams

Kafka Streams est une bibliothèque client pour la construction d'applications et de microservices, où les données d'entrée et de sortie sont stockées dans des clusters Kafka.

Kafka Connect

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Notes et références

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Apache Kafka » (voir la liste des auteurs).

↑ « https://github.com/kafka-dev/kafka/commit/e8540b6b090fad4cbe5bfc9b78be35bc3b1ad2b6 » (consulté le 16 mai 2022)
↑ « Release 3.9.0 », 6 novembre 2024 (consulté le 20 novembre 2024)
↑ The Log: What every software engineer should know about real-time data's unifying abstraction, LinkedIn Engineering Blog, accessed 5 May 2014
↑ (en-US) « Open-sourcing Kafka, LinkedIn's distributed message queue », sur blog.linkedin.com (consulté le 11 octobre 2018)
↑ Primack, Dan.
↑ Doyung Yoon.
↑ Cheolsoo Park and Ashwin Shankar.
↑ Josh Baer.
↑ "Stream Processing in Uber".
↑ "Shopify - Sarama is a Go library for Apache Kafka".
↑ "Exchange Market Data Streaming with Kafka".
↑ "Présentation de l'utilisation de Kafka pour gérer les éventements sur le site Meetic"
↑ (en) « - OVHcloud Blog », sur OVHcloud Blog (consulté le 21 novembre 2023).
↑ (en) « Apache Kafka », sur Apache Kafka (consulté le 21 novembre 2023).
↑ https://medium.com/leboncoin-engineering-blog/cooling-down-hot-data-from-kafka-to-athena-5918a628bd98
↑ (en) « Criteo Kafka Meetup : key learnings », sur Criteo Engineering, 30 janvier 2019 (consulté le 17 décembre 2023).
↑ "Michelin utilise Confluent pour gérer ses stocks en temps réel à grande échelle".
↑ « Kafka, pierre angulaire des architectures Fast Data ? », sur Nexworld, 17 octobre 2018 (consulté le 13 mars 2019)

Articles connexes

Liens externes

(en) Site officiel

[wikidata-f9fdef7c408643c9c5729f703b18713d69fb39c4-1] « https://github.com/kafka-dev/kafka/commit/e8540b6b090fad4cbe5bfc9b78be35bc3b1ad2b6 » (consulté le 16 mai 2022)

[wikidata-8d19efc85932d64801a7ea09c4edfa4a72be5096-2] « Release 3.9.0 », 6 novembre 2024 (consulté le 20 novembre 2024)

[3] The Log: What every software engineer should know about real-time data's unifying abstraction, LinkedIn Engineering Blog, accessed 5 May 2014

[4] (en-US) « Open-sourcing Kafka, LinkedIn's distributed message queue », sur blog.linkedin.com (consulté le 11 octobre 2018)

[5] Primack, Dan.

[6] Doyung Yoon.

[7] Cheolsoo Park and Ashwin Shankar.

[8] Josh Baer.

[9] "Stream Processing in Uber".

[10] "Shopify - Sarama is a Go library for Apache Kafka".

[11] "Exchange Market Data Streaming with Kafka".

[12] "Présentation de l'utilisation de Kafka pour gérer les éventements sur le site Meetic"

[13] (en) « - OVHcloud Blog », sur OVHcloud Blog (consulté le 21 novembre 2023).

[14] (en) « Apache Kafka », sur Apache Kafka (consulté le 21 novembre 2023).

[15] ttps://medium.com/leboncoin-engineering-blog/cooling-down-hot-data-from-kafka-to-athena-5918a628bd98

[16] (en) « Criteo Kafka Meetup : key learnings », sur Criteo Engineering, 30 janvier 2019 (consulté le 17 décembre 2023).

[17] "Michelin utilise Confluent pour gérer ses stocks en temps réel à grande échelle".

[18] « Kafka, pierre angulaire des architectures Fast Data ? », sur Nexworld, 17 octobre 2018 (consulté le 13 mars 2019)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

v · m Écosystème Hadoop
Distributions Hadoop	Cloudera Hortonworks MapR
Base de données	HBase
Flux de données	Apache Sqoop Apache Flume Apache Kafka Apache Storm Apache Flink
Interrogation	Apache Hive Spark SQL Pig
Machine Learning	Apache Mahout Apache Spark ML
SQL	Presto Apache Hive Apache Impala Apache Drill
Gestionnaire de cluster	Hadoop YARN Apache Mesos Apache Spark
Format de fichier	RCFile Apache Avro Apache Parquet Apache ORC
Vrac	Presto Impala Kudu Pig Apache ZooKeeper