Metagenomik (englisch metagenomics) ist ein Forschungsgebiet der Biowissenschaften, bei dem genetisches Material direkt aus Umweltproben extrahiert, sequenziert und analysiert wird. Dies unterscheidet es von klassischen mikrobiologischen Methoden, bei denen Mikroorganismen vor der DNA-Extraktion kultiviert werden.
Metagenomische Methoden ermöglichen die Identifizierung von Mikroorganismen unabhängig von ihrer Kultivierbarkeit. Neben den damit erstmals ermöglichten Einblicken in die Komplexität der Physiologie und der Ökologie von Mikroorganismen bergen metagenomische Ansätze mit der Analyse der natürlich vorkommenden Biodiversität auch ein gewaltiges Potential für die Identifizierung und Entwicklung neuer biotechnologischer und pharmazeutischer Produkte.
Metagenomische Analysen können sich nicht nur auf Mikroorganismengesellschaften,[1] sondern auch auf Tiere und Pflanzen beziehen, um etwa deren spät-pleistozäne Vorkommen im Permafrostboden zu analysieren, ohne deren Fossilien makroskopisch wahrzunehmen.[2][3][4]
Zwei generelle Typen von metagenomischen Untersuchungen können unterschieden werden: funktionelle Ansätze und sequenzorientierte Ansätze.
Als Metagenom wurde erstmals 1998 die Gesamtheit der genomischen Information der Mikroorganismen einer bestimmten Lebensgemeinschaft (Biozönose) oder eines Biotops bezeichnet.[5] Der Begriff Metagenomik stammt aus einer Kombination der Begriffe Metaanalyse, einem Prozess aus der Statistik, bei dem unterschiedliche Ergebnisse aus verschiedenen Untersuchungen quantitativ vergleichbar gemacht werden sollen, und Genomik, der Analyse der kompletten Erbinformation (Genom) eines Organismus.
Bei der funktionellen metagenomischen Analyse von Umweltproben steht die Identifizierung von Klonen mit bereits bekannten Eigenschaften im Vordergrund. Hierzu wird DNA aus einer Umweltprobe extrahiert und in kleinen Fragmenten in einem „Gastorganismus“ (zum Beispiel Escherichia coli) exprimiert. Klone mit erwünschten Eigenschaften werden dann selektiert, sequenziert und biochemisch charakterisiert.[6] Dabei steht meist die Identifizierung von Eigenschaften im Vordergrund, die medizinische, landwirtschaftliche oder industrielle Relevanz haben. Limitierungen dieses Ansatzes ergeben sich aus der mitunter problematischen Expression von Fremdproteinen (heterologe Expression) in dem benutzten sowie in der durch den Restriktionsverdau der genomischen DNA vor der Klonierung (s. o.) nicht immer gewährleisteten räumlichen Ansammlung („Clustering“) aller für die Ausprägung einer bestimmten Eigenschaft benötigten Gene. Außerdem benötigt man einen einfachen und in großer Stückzahl durchführbaren Versuchsaufbau für die Identifizierung der gewünschten Eigenschaft, da die Frequenz von aktiven Klonen in der Regel sehr gering ist.
Während Methoden wie PCRs oder In-situ-Hybridisierungen auf der Basis bestimmter, bekannter DNA-Sequenzen durchgeführt werden, bietet die direkte Extraktion, Klonierung und Sequenzierung von genomischer DNA den Vorteil der potentiellen Isolierung von allen in den Organismen vorkommenden Genen. Die Isolierung erfolgt dabei unabhängig von der Sequenz oder der Funktion der Gene und ermöglicht somit auch die Identifizierung von bisher völlig unbekannten Genen mit geringer oder gänzlich fehlender Sequenzhomologie zu bereits existierenden Genen.[7] Ferner ermöglicht dieser sequenzorientierte Ansatz auch die Identifizierung von sogenannten Operons, also räumlich auf der genomischen DNA zusammenhängenden Ansammlungen von Genen, die in einem funktionellen Zusammenhang stehen und z. B. für die Komponenten bestimmter Signalwege oder Synthesewege kodieren, wie z. B. für Enzyme zur Herstellung von Antibiotika. Natürlich ist ein weiteres Ziel dieser sequenz-orientierten metagenomischen Ansätze auch die Aufklärung ganzer Genome, sogenannte Metagenome Assembled Genomes (MAGs), durch Zusammenfügen der einzelnen Sequenzabschnitte zu einer gesamt-genomischen Sequenz mit Hilfe der Bioinformatik.[8]
Die Möglichkeiten, die die heutigen molekularbiologischen Methoden damit bieten, insbesondere die von Craig Venter mit der Sequenzierung des humanen Genoms eingeführte Methode des Whole Genome Shotgun Sequencing, werden eindrucksvoll durch das ebenfalls von Venter et al. 2004 durchgeführte Metagenomik-Projekt Sargasso-See aufgezeigt.[9] Das Sargossa-See-Projekt stellte den öffentlichen Datenbanken 1.045 Gbp DNA-Sequenzen sowie 1,2 Millionen Einträge potentiell translatierter Proteine zur Verfügung. Dies entsprach 2004 einer Verdopplung der öffentlichen TrEMBL Protein-Datenbank.[10] 2020 sind über 180 Millionen Sequenzen in TrEMBL abrufbar.[11] Venter et al. identifizierten mehr als 69.000 neue Gene ohne erkennbare Homologie zu bisher bekannten Genen. Betrachtet man Venters Daten in Bezug auf die Artenvielfalt, so konnten in den untersuchten Proben mindestens 1800 Spezies unterschieden werden. Es ist allerdings davon auszugehen, dass das Biotop noch weitaus mehr Arten beherbergt.
Andere in der Planung befindliche Metagenomics-Projekte haben z. B. zum Ziel, die Zusammensetzung mikrobieller Organismen in urbaner Luft (Venter et al.) oder die Zusammensetzung der oralen mikrobiellen Lebensgemeinschaft zu analysieren (National Institute of Dental and Craniofacial Research).
Diese Zahlen unterstreichen eindrucksvoll die Dimension des noch unergründeten Anteils der Welt der Mikroorganismen und zeigen, dass wir gerade beginnen, an der Oberfläche der mikrobiellen Vielfalt zu kratzen. Sie bekräftigen, dass wir noch weit entfernt von einem vollständigen Verständnis der ökologischen Zusammenhänge in der mikrobiellen Welt sind, die, wenngleich zwar meist nicht wahrgenommen, dennoch die Basis für sämtliches Leben darstellt und für die in der Natur unerlässlichen organischen und anorganischen Stoffkreisläufe unverzichtbar sind.