MongoDB
| |
---|---|
Basisdaten
| |
Entwickler | MongoDB, Inc. |
Erscheinungsjahr | 2009 |
Aktuelle Version | 7.0.5[1] (5. Januar 2024) |
Betriebssystem | Linux, macOS, Microsoft Windows, OpenBSD |
Programmiersprache | C++, Go, JavaScript, C, Python[2] |
Kategorie | Dokumentenorientierte Datenbank |
Lizenz | Server Side Public License[3][4] |
www.mongodb.com |
MongoDB (abgeleitet vom engl. humongous, „gigantisch“) ist ein dokumentenorientiertes NoSQL-Datenbankmanagementsystem, das in der Programmiersprache C++ geschrieben ist.[5][6] Sie kann Sammlungen von JSON-ähnlichen Dokumenten verwalten. So können viele Anwendungen Daten auf natürlichere Weise modellieren, da die Daten zwar in komplexen Hierarchien verschachtelt werden können, dabei aber immer abfragbar und indizierbar bleiben.
Die Entwicklung von MongoDB begann im Oktober 2007 durch das Unternehmen 10gen, welches am 27. August 2013 in MongoDB, Inc. umbenannt wurde.[7] Die Erstveröffentlichung fand im Februar 2009 statt.[8] MongoDB wurde bis zum 15. Oktober 2018 als Freie Software veröffentlicht und ist seitdem unter der proprietären SSPL verfügbar.[9] Es ist die populärste NoSQL-Datenbank (Stand: Apr 2024).[10]
Das Unternehmen MongoDB, Inc. ist im NASDAQ gelistet und wird unter dem Kürzel MDB gehandelt.
Die Binärdateien sind verfügbar für Windows, Linux, macOS und Solaris. MongoDB kann auf fast jedem Little-Endian-System kompiliert werden.
Ein MongoDB-Prozess kann mehrere Datenbanken verwalten, und eine Datenbank kann mehrere Collections enthalten. Datenbank und Collection ergeben, durch einen Punkt getrennt, einen Namespace. Für eine Datenbank, die die Daten einer Firma verwalten soll, und eine Collection, die alle Mitarbeiter enthalten soll, könnte man beispielsweise den Namespace firma.mitarbeiter
wählen.
Eine Collection enthält Dokumente und ist mit einer Tabelle einer relationalen Datenbank vergleichbar. Ein wesentlicher Unterschied besteht darin, dass die Dokumente einer Collection völlig unterschiedlich aufgebaut sein können. Weder müssen sie einem Schema folgen, noch müssen die Werte desselben Schlüssels vom selben Datentyp sein.
MongoDB unterstützt größenbeschränkte Dokumentensammlungen – auch capped collections genannt.[11] Eine capped collection wird mit einer bestimmten Größe und – je nach Bedarf – einer Anzahl an Elementen angelegt. Eine capped collection ist die einzige Art Dokumentensammlung, die die Ordnung einhält: Sobald die spezifizierte Größe erreicht ist, verhält sich die capped collection wie ein digitaler Ringspeicher.
Eine besondere Art Cursor – genannt tailable cursor[12] – kann bei capped collections verwendet werden. Der Cursor wurde nach dem Unix-Befehl tail -f
benannt. Er verschwindet nicht, sobald er die Wiedergabe der Ergebnisse beendet hat, sondern wartet und gibt neue Ergebnisse wieder, sobald neue Dokumente der Sammlung hinzugefügt werden.
MongoDB legt automatisch System Collections an. Eine der System Collections beinhaltet alle Indizes der Datenbank, eine weitere alle Namespaces, eine JavaScript-Code und die übrigen Informationen zum Profiling und zu Benutzern.
Mongo erlaubt es, jedes Feld jederzeit abzufragen. Mongo unterstützt auch Bereichsabfragen, das Suchen nach regulären Ausdrücken und andere Spezialsuchabfragen zusätzlich zu Suchen anhand von Beispielen[13]. Diese Abfragen schließen auch benutzerdefinierte JavaScript-Funktionen ein. Abfragen können sowohl spezifische Dokumentenfelder wiedergeben (anstelle des gesamten Dokuments) als auch Ergebnisse sortieren, überspringen und einschränken. Abfragen können in eingebettete Objekte und Anordnungen hineinreichen.
Jedes Abfrageergebnis wird als Cursor bereitgestellt.
Die Software unterstützt Indexstrukturen, beispielsweise B-Bäume und Geospatial-Indizes.[14] Verschachtelte Felder (so wie oben in der Ad-hoc-Abfrage beschrieben) können gleichfalls indiziert werden. Das Indizieren von Listen ergibt eine Indizierung jedes einzelnen Elements der Liste.
Der Abfrage-Optimierer von MongoDB sucht während eines Abfragelaufs selbständig zwischen unterschiedlichen Auswertungsplänen aus und wählt den schnellsten; dabei findet periodisch eine Stichprobewiederholung statt. Entwickler können den verwendeten Index mittels der Funktion explain
einsehen und einen anderen Index mit Hilfe der Funktion hint
auswählen.
Indizes können jederzeit angelegt und gelöscht werden.
Zusätzlich zu Ad-hoc-Abfragen unterstützt die Datenbank auch andere Werkzeuge für die Aggregation einschließlich MapReduce und einer Gruppierungsfunktion ähnlich dem GROUP BY von SQL.
Um Dokumente speichern zu können, die die Größenbeschränkung von 16 MB überschreiten, kann GridFS („Grid File System“) verwendet werden.[15] Dieser Dateien-Speicher-Mechanismus wurde bei Plug-ins für Apache,[16] nginx[17] und lighttpd[18] eingesetzt.
MongoDB wird als NoSQL-Datenbank klassifiziert und grenzt sich als solche dadurch von traditionellen Datenbanken ab, dass sie eine weniger mächtige Abfragesprache anbietet. Dies ist Nachteil und Vorteil zugleich: Zum einen muss in der Anwendungsschicht mehr Logik vorhanden sein, um die gleichen Ergebnisse zu erzielen wie mit SQL-Datenbanken. Zum anderen kann MongoDB den Datenbestand und die Arbeitslast auf mehrere Server verteilen, was in monolithischen SQL-Datenbanken nicht möglich ist. Gleichwohl gibt es mittlerweile auch SQL-Datenbanken z. B. Exasol oder Greenplum, welche über mehrere Server verteilt sind. Nur auf den Mehrserversystemen sind große Join-Operationen in einer angemessenen Zeit zu bewerkstelligen.
MongoDB zielt bei der Verteilung der Daten auf mehrere Server darauf ab, durch Replikation die Verfügbarkeit zu erhöhen und durch Sharding (siehe unten) die Arbeits- und Datenlast zu verteilen. Die Replikation bringt allerdings einen weiteren Nachteil mit sich: Wird ein Schreibzugriff von MongoDB bestätigt, dann gibt es standardmäßig ein Zeitfenster, in dem nachgelagerte Lesezugriffe den alten Datenbestand zurückliefern. Dieses Konsistenzmodell wird als Eventual Consistency bezeichnet.
Ein weiteres Abgrenzungsmerkmal von MongoDB zu Relationalen Datenbanken ist die Schemafreiheit. Während in Relationalen Datenbanken die Struktur eines Datenbankeintrages durch die Definition der Tabelle fest vorgeschrieben ist, können sich die Datenbankeinträge in MongoDB frei voneinander unterscheiden (auch wenn sie derselben Collection angehören).[19] Dieser Freiheit wird zugesprochen, dass sie eine agile Softwareentwicklung unterstützt, da es einfacher ist, auf veränderte Anforderungen zu reagieren.[20]
Allerdings müssen bei Analysen anschließend die Informationen ebenfalls strukturiert werden.
Zwecks Klassifizierung von Datenbanken anhand ihrer Qualitätsmerkmale wird oft das CAP-Theorem herangezogen. Das CAP-Theorem besagt, dass im Falle einer Netzwerk-Partitionierung sich ein verteiltes System entscheiden muss, ob es weiterhin verfügbar bleiben oder Konsistenz gewährleisten soll.[21] MongoDB entscheidet sich hier für die Konsistenz, kann die Verfügbarkeit allerdings aufrechterhalten, solange die Mehrzahl der Knoten eines Replica Set miteinander kommunizieren können. CouchDB als Vergleich zu MongoDB mit ähnlichen Funktionalitäten stellt die Verfügbarkeit über die Konsistenz.
Mit einem laufenden MongoDB-Server kann auf verschiedenen Wegen eine Verbindung aufgebaut werden. Die Mongo Shell ist in der Distribution enthalten. Eine HTTP-basierte Administrationsoberfläche sowie eine REST-Schnittstelle sind nach vorheriger Aktivierung in einem Browser aufrufbar. Schließlich stehen Programmierern Treiber für zahlreiche Programmiersprachen zur Verfügung, um die Kommunikation ihrer Anwendungen mit MongoDB zu implementieren.
Die Mongo Shell ist ein Kommandozeilen-Client. Sie dient der Verwaltung von MongoDB und ermöglicht ihrem Benutzer Lese- wie Schreiboperationen. Dazu erhält man eine Eingabeaufforderung, auf dem man Befehle in der Sprache JavaScript ausführen kann.
MongoDB ist mit offiziellen Treibern ausgestattet für C, C++, C#, Go, Java, JavaScript, PHP, Python, Ruby, Rust, Scala und Swift.[22]
Es gibt auch zu einigen Programmiersprachen offiziell unterstützte ORMs für MongoDB, wie z. B. Mongoose für die Node.js-Plattform.[23]
MongoDB Management Service (MMS) ist eine cloud-basierte Monitoring-Lösung und Alert-Dienst für MongoDB Server.[24]
Es gibt einige grafische Oberflächen (GUIs) zur Sichtung und Bearbeitung der Daten. Dazu gehören:
Name | Beschreibung | Lizenz | Linux | Windows | Mac |
---|---|---|---|---|---|
MongoDB Compass | offizielle plattformübergreifende GUI für MongoDB[25] | Server Side Public License[26] | ja | ja | ja |
Studio 3T (ehemals MongoChef) | eine plattformübergreifende MongoDB GUI[27] | freie Lizenz und proprietär | ja | ja | ja |
Nucleon BI Studio | Business Intelligence Frontend für MongoDB | proprietär | — | ja | — |
Fang of Mongo | ein webbasiertes UI, erstellt mit Django und jQuery[28] | GNU AGPL v3.0[29] | ja | — | — |
Nucleon Database Master | eine Windows-basierte Datenbank-Client-Software, die auch RDMS unterstützt | proprietär | — | ja | — |
Futon4Mongo | ein Klon des CouchDB-Futon-Web-Interfaces für MongoDB[30] | — | — | — | — |
mms, Mongo Management Studio | sowohl plattformübergreifendes als auch webbasiertes GUI[31] | freie Lizenz und proprietär | ja | ja | ja |
Mongo3 | ein Ruby-basiertes Interface[32] | Apache License 2.0 | ja | ja | ja |
MongoHub | eine native OS-X-Anwendung für das Management von MongoDB[33], inaktiv seit April 2015[34] | — | nein | nein | ja |
Opricot | eine browserbasierte MongoDB-Shell, geschrieben mit PHP[35] | GNU GPL v3.0 | ja | — | — |
Robo 3T (ehemals Robomongo) | eine plattformübergreifende MongoDB-GUI[36] | GNU GPL v3.0[37] | ja | ja | ja |
UMongo (JMongoBrowser) | eine plattformübergreifende Management-GUI, geschrieben in Java[38] | verschiedene OpenSource-Lizenzen[39] | — | — | — |
DBHawk | ein webbasiertes MongoDB-Tool[40] | proprietär | ja | ja | ja |
DataGrip (und weitere professionelle JetBrains IDEs)[41] | professionelle Datenbank-Entwicklungsumgebung mit Unterstützung für viele verschiedene Datenbanksysteme wie unter anderem MongoDB. Geschrieben in Java. Basiert auf der quelloffenen IntelliJ-Plattform.[42] | proprietär | ja | ja | ja |
Um Ausfälle einzelner Server zu kompensieren und die Last der Lesezugriffe auf mehrere Server zu verteilen, bietet MongoDB zwei Arten der Replikation an:
Die Master-Slave-Replikation ist veraltet und seit Version 4.0 nicht mehr verfügbar[43].
Ein Master konnte Lese- („Reads“) und Schreibzugriffe („Writes“) ausführen. Ein Slave kopierte die Daten vom Master und konnte nur für Lesezugriffe oder die Datensicherung eingesetzt werden, nicht aber für Schreibzugriffe.
Die Master-Slave-Replikation gestattete es Entwicklern, zu garantieren, dass auf einer Per-Ablauf-Basis zumindest ein Ablauf auf N Server repliziert wurde.
Replica-Sets ähneln dem Master-Slave-Verhältnis, enthalten aber die Möglichkeit für die Slaves, einen neuen Master zu wählen, wenn der derzeitige ausfällt.
MongoDB skaliert horizontal unter Verwendung eines Systems, welches als horizontale Fragmentierung bezeichnet wird und das dem Bigtable- und PNUTS-Skalierungssystem sehr ähnlich ist. Der Entwickler wählt einen Fragmentierungsschlüssel, der festlegt, wie die Daten in einer Ansammlung verteilt werden. Die Daten werden in Bereiche aufgeteilt (unter Zugrundelegung des Fragmentierungsschlüssels) und über mehrere Instanzen verteilt.
Die Anwendung bzw. ihr Entwickler muss wissen, dass die Kommunikation bei bestimmten Abläufen mit einem fragmentierten Cluster erfolgt. So muss eine „findAndModify“-Abfrage den Fragmentierungsschlüssel zum Beispiel beinhalten, wenn die angefragte Sammlung horizontal fragmentiert ist. Die Anwendung kommuniziert mit einem speziellen Routing-Prozess, der „mongos“ genannt wird und der genauso wie ein einzelner MongoDB-Server aussieht. Dieser „mongos“-Prozess weiß, welche Daten von welcher Instanz verwaltet werden, und routet die Abfrage dementsprechend. Alle Abfragen fließen durch diesen Prozess: Dieser leitet nicht nur die Abfragen und Antworten weiter, sondern führt auch alle notwendigen, finalen Datenver- und -entflechtungen durch. Jede beliebige Anzahl an „mongos“-Prozessen kann gestartet werden, allerdings wird gewöhnlich nur eine pro Anwendungsserver empfohlen.
Bei Lese- und Schreibzugriffen werden die Daten zunächst im RAM abgelegt und erst nach einer bestimmten Zeit (per Voreinstellung alle 60 Sekunden) vom Betriebssystemdienst mmap auf Disk synchronisiert. Dies ergibt einen Geschwindigkeitsvorteil, da auf den RAM in Nanosekunden zugegriffen werden kann, auf Dateien hingegen im dreistelligen Millisekundenbereich. Ein Nachteil ist, dass etwa bei einem Serverabsturz alle nur im RAM vorhandenen Daten verlorengehen. MongoDB begegnet diesem Nachteil mit dem Journaling-Verfahren.[44]
Aufgrund der Nutzung von mmap ist auf 32-Bit-Rechnern die Datengröße auf 2 GB begrenzt (bei 64-Bit-Rechnern liegt die Obergrenze entsprechend sehr viel höher).[45] Der MongoDB-Server kann nur auf Little-Endian-Systemen benutzt werden, obwohl die meisten Treiber sowohl auf Little-Endian- als auch auf Big-Endian-Systemen laufen.
Weitere Merkmale sind:
MongoDB war bis Oktober 2018 unter der GNU Affero General Public License (AGPL) frei erhältlich. Die Sprachtreiber sind erhältlich unter einer Apache-Lizenz.[46]
Im Oktober 2018 wechselten die Entwickler der Datenbank MongoDB zur proprietären Server Side Public License (SSPL), damit Cloud-Provider die Datenbank nicht nutzen, ohne Code zurückzugeben.
Die SSPL erfordert, dass jeder, der den MongoDB-Service anbietet, auch den Quellcode des Services unter dieser Lizenz veröffentlicht, auch den Code aller Programme für das Management, für Nutzerinterfaces, für Monitoring und für Backups. MongoDB legte die Lizenz der Open Source Initiative (OSI) vor, wo diese abgelehnt wurde[47]. Eine neue Version 2 der Lizenz wurde erneut der OSI vorgelegt[48], dann aber zurückgezogen, nachdem klar wurde, dass diese nicht akzeptiert werden würde.[49] MongoDB ist derzeit nur unter der abgelehnten Version 1 verfügbar. Dem voraus ging eine ähnliche Lizenzänderung durch Entwickler der Datenbank Redis.[50]
Aufgrund der Lizenzänderung wurde MongoDB aus den Linux-Distributionen Debian, Fedora und Red Hat Enterprise Linux entfernt. Das Fedora-Projekt entschied, dass die SSPL version 1 keine Freie-Software-Lizenz ist.[51][52]
Zahlreiche MongoDB-Installationen im Internet sind von jedermann lesbar und teilweise sogar beschreibbar. Eine Suche mit Shodan lieferte im Januar 2017 52.000 offene Datenbanken.[53]
Ursache ist, dass in der Standardinstallation keinerlei Zugriffskontrolle konfiguriert ist. Wird die Datenbank später auf einen öffentlichen Server verschoben und die Konfiguration nicht angepasst, kann von außen frei auf die Daten zugegriffen werden.[54] Zum Teil wurde das von Ransomware ausgenutzt, die diese Daten verschlüsselt hat.[55] Der Hersteller der kommerziellen Variante empfiehlt schon seit langem Maßnahmen zur Absicherung.[54][56]