Die Proteinstrukturvorhersage umfasst alle Methoden, rein rechnerisch aus der Aminosäuresequenz eines Proteins die dreidimensionale Struktur des gefalteten Moleküls zu ermitteln. Sie ist eines der wichtigen Ziele der Bioinformatik und der theoretischen Chemie. Sie ergibt sich aus der praktischen Schwierigkeit, die atomare Struktur eines Proteins in der Natur mit physikalischen Methoden zu messen. Insbesondere für die genauen Atompositionen innerhalb der Tertiärstruktur besteht großer Bedarf; sie bilden die Grundlage für das Arzneistoffdesign und andere Methoden der Biotechnologie.
Die bisher entwickelten Methoden der Proteinstrukturvorhersage bauen auf der Kenntnis der Primärstruktur auf, um so die Sekundärstruktur und/oder die Tertiärstruktur zu postulieren. Ein weiteres Detailproblem ist die Ermittlung der Quartärstruktur aus vorliegenden Tertiärstrukturdaten. Implementationen der dabei entwickelten Algorithmen stehen großteils im Quelltext oder als Webserver zur Verfügung; ein Sonderfall sind die Künstliche-Intelligenz-Systeme der Firma DeepMind, über deren Struktur und Eigenschaften zwar Veröffentlichungen gemacht werden, die aber nicht vollständig offengelegt werden. Aufgrund der enormen Bedeutung einer endgültigen Lösung des Problems hat sich mit CASP seit 1994 ein zweijährlicher Wettbewerb für den Vergleich der besten Lösungsmethoden etabliert. 2018 und 2020 wurde der Wettbewerb von den DeepMind-Produkten AlphaFold bzw. AlphaFold2 gewonnen, wobei die Vorhersageergebnisse 2020 so gut waren, dass erstmals davon gesprochen wurde, dass das Problem als prinzipiell gelöst betrachtet werden könne.[1] 2021 veröffentlichten Forscher dann über 350.000 3D-Modelle gefalteter Proteine, die mit dieser KI vorhergesagt wurden. Darunter sind 98,5 % der ~20.000 Proteine des menschlichen Körpers. Bei etwa einem Drittel der Vorhersagen besteht eine hohe Wahrscheinlichkeit, dass diese akkurat sind.[2]
Die Ermittlung der natürlichen Proteinstruktur mit physikalischen Methoden ist zwar für viele, aber bei weitem nicht alle, Proteine möglich und mit hohen Kosten und zeitlichem Aufwand verbunden. Bis 2012 konnten mithilfe von NMR und Röntgenstrukturanalyse die Strukturen von etwa 50.000 verschiedenen Proteinen ermittelt werden (diese Zahl reduziert sich auf 30.000, wenn Proteine mit mehr als 10 Prozent Sequenzunterschied betrachtet werden). Im Jahr 2020 waren schon 100.000 Strukturen bzw. Strukturteile bekannt und in Datenbanken erfasst. Dem stehen schätzungsweise mehr als 30 Millionen Proteinsequenzen gegenüber. Für eine zuverlässige rein rechnerische Methode zur Bestimmung der Proteinstruktur aus der Aminosäuresequenz ergibt sich daher großer Bedarf. Die vorauszusehende Beschleunigung der Sequenzierung ganzer Genome, ja sogar ganzer ökologischer Metagenome, vergrößert die Diskrepanz zwischen bekannten Primär- und Tertiärstrukturen und damit eine Dringlichkeit der Lösung des Problems zusätzlich.[3]
Die Sekundärstrukturvorhersage ist eine Sammlung bioinformatischer Techniken, die darauf abzielen, die Sekundärstruktur von Proteinen und RNA mithilfe ihrer Primärstruktur vorherzusagen (Aminosäuren beziehungsweise Nukleotide). Bei Proteinen, um die es im Folgenden ausschließlich geht, besteht die Vorhersage darin, bestimmte Abschnitte der Aminosäuresequenz als wahrscheinliche α-Helix, β-Faltblatt, β-Schleife oder als strukturlos zu markieren. Ein Erfolg wird ermittelt, indem die Voraussage mit dem Resultat des DSSP-Algorithmus verglichen wird, der auf die tatsächliche Struktur angewandt wird. Über diese allgemeinen Strukturmotive hinaus gibt es außerdem Algorithmen zur Erkennung spezieller wohldefinierter Strukturmotive wie Transmembranhelices oder Coiled-Coils.[4]
2012 erreichten die besten Methoden der Sekundärstrukturvorhersage etwa 80 Prozent Genauigkeit, was ihre Benutzung bei der Faltungserkennung, der Ab-Initio-Strukturvorhersage und beim Sequenz-Alignment erlaubt. Die Entwicklung der Genauigkeit von Sekundärstrukturvorhersage-Methoden wird durch wöchentliche Benchmarks wie LiveBench und EVA dokumentiert.[5]
Da eine völlige Neuberechnung (ab initio) der Proteinstruktur mittels rein physikalisch-energetischer und quantenchemischer Methoden selbst für kleine Proteine zu aufwändig ist, haben sich Algorithmen zur Strukturvorhersage durchgesetzt, die entweder auf eine Klassifikation einzelner Teile der Aminosäurensequenz oder auf vorhergesagte Contact Maps zurückgreifen und erst in einem zweiten Schritt die endgültigen Atompositionen berechnen.
Verschiedene statistische Methoden haben sich zur Klassifizierung unbekannter Proteine herausgebildet. Die erfolgreichsten verwenden Hidden Markov Models, die auch bei der Lösung des Problems der Spracherkennung erfolgreich sind. Die entsprechenden Zuordnungen können von Strukturbiologie-Datenbanken wie Pfam und InterPro heruntergeladen werden. Ist bereits eine Proteinstruktur innerhalb einer Klasse bekannt, können die Strukturen weiterer Mitglieder durch vergleichende Vorhersage berechnet werden. Im andern Fall steht mit der Vorhersage der Contact Map einer Strukturklasse eine neue Methode zur Verfügung, die nicht mehr auf physikalische Strukturbestimmung angewiesen ist.[6][7][8][9]
Mit der Verfügbarkeit großer Mengen genomischer Sequenzen wird es möglich, die Koevolution von Aminosäuren in Proteinfamilien zu untersuchen. Man kann annehmen, dass sich im Lauf der Evolution innerhalb einer strukturell konservierten Proteinfamilie die dreidimensionale Struktur der Proteine nicht wesentlich ändert. Die Faltung des Proteins ergibt sich dabei durch die Wechselwirkungen zwischen den einzelnen Aminosäuren. Verändert sich durch eine Mutation eine der Aminosäuren im Protein, kann sich die Stabilität des Proteins verringern und muss durch kompensatorische (korrelierte) Mutationen wiederhergestellt werden.
Mehrere statistische Methoden existieren, evolutionär gekoppelte Positionen innerhalb einer strukturell klassifizierten Proteinfamilie zu ermitteln, wobei als Input das multiple Sequenzalignment der jeweiligen Familie dient. Frühe Methoden bedienten sich dazu lokaler statistischer Modelle, die immer nur zwei Aminosäurepositionen in der Sequenz gleichzeitig betrachten, was zu unzureichender Vorhersagegenauigkeit aufgrund transitiver Effekte führt.[10] Beispiele hierfür sind die McLachlan Based Substitution correlation (McBASC),[11] observed versus expected frequencies of residue pairs (OMES),[12] statistische Kopplungsanalyse (statistical coupling analysis, SCA) sowie Methoden basierend auf gegenseitiger Information (Mutual Information, MI).[13]
Erst durch die Verwendung globaler statistischer Ansätze wie der Maximum-Entropie-Methode (inverses Potts-Modell) oder partiellen Korrelationen wurde es möglich, die kausale Koevolution zwischen Aminosäuren von indirekten, transitiven Effekten zu unterscheiden.[14][15][16][17][18] Neben der Überlegenheit globaler Modelle zur Kontaktvorhersage wurde im Jahr 2011 erstmals gezeigt, dass die vorhergesagten Aminosäurekontakte verwendet werden können, um 3D-Proteinstrukturen allein aus Sequenzinformation vorherzusagen.[14] Dabei werden weder verwandte Strukturen oder Fragmente verwendet, und die Berechnungen können selbst für Proteine mit mehreren hundert Aminosäuren innerhalb weniger Stunden auf einem normalen Rechner durchgeführt werden.[14][19] Darauffolgende Publikationen zeigten, dass auch Transmembranproteine mit beträchtlicher Genauigkeit vorhergesagt werden können.[20][21]
Jede naive (mit Vorwissen unbelastete) Proteinstruktur-Vorhersagemethode muss in der Lage sein, die astronomische Größe des zu durchsuchenden Raums möglicher Strukturen zu durchmessen. Zur Veranschaulichung dient das Levinthal-Paradox. Ab-initio (auch: de-novo)-Methoden beruhen dabei lediglich auf der Anwendung physikalischer Prinzipien (Quantenchemie) auf die bekannte Primärstruktur, um eine Simulation des Faltungsvorgangs zu erreichen. Andere Methoden gehen von den möglichen Strukturen aus und versuchen, eine geeignete Bewertungsfunktion, die meist die Berechnung der freien Enthalpie enthält, zu optimieren (Anfinsen-Dogma). Solche Berechnungen erfordern nach wie vor einen Supercomputer und können nur für die kleinsten Proteine durchgeführt werden. Die Idee, durch verteiltes Rechnen Rechenkraft für die ab-initio-Vorhersage zur Verfügung zu stellen, führte zur Realisierung der Projekte Folding@home, Human Proteome Folding Project und Rosetta@home. Trotz der erforderlichen Rechenkraft ist ab-initio ein aktives Gebiet der Forschung.[22]
Vergleichendes Proteinmodelling verwendet bekannte (physikalisch gemessene) Strukturen als Startpunkt oder Vorlage. Das funktioniert in den Fällen, in denen ein homologes Protein mit bekannter Struktur existiert. Da sich die Proteinstrukturen nicht beliebig entwickelt haben, sondern stets mit einer biologischen Funktion assoziiert sind, können Proteine zu Gruppen zusammengefasst werden, die sowohl strukturell homolog als auch funktionell einheitlich sind, wobei die Zugehörigkeit zu einer solchen Gruppe leicht mittels maschinellem Lernen (HMM) auffindbar ist (s. o.). Auf der anderen Seite bemühen sich Strukturbiologen, mindestens zu jeder dieser Proteingruppen ein repräsentatives Protein physikalisch zu vermessen, so dass im Idealfall alle restlichen Proteinstrukturen mittels Vergleich vorhergesagt werden könnten.
Bei der vergleichenden Vorhersage hat sich mittlerweile das Homologie-Modelling durchgesetzt: Auf bekannte Proteinstrukturen (Template) wird die zu untersuchende Aminosäuresequenz mittels Peptidbindung übertragen und die resultierenden Raumerfüllungen untersucht. Daraus kann abgeleitet werden, welche Struktur die untersuchte Sequenz einnimmt in Abhängigkeit von der Template-Struktur.[23]
Vorausgesetzt ist, dass Template und Probesequenz zu einer gemeinsamen Strukturfaltung geeignet sind und aneinander ausgerichtet werden können, denn das Sequenzalignment stellt beim vergleichenden Modelling das Hauptproblem dar. Ohne Zweifel gelingen mit sehr ähnlichen Sequenzen die besten Resultate.[24][22]
Die Einteilung von Proteinen in strukturelle Gruppen erlaubt die Vorhersage einer Contact Map für diese Gruppe durch Berechnung gekoppelter Positionen im Alignment (s. o.). Auf der anderen Seite erhalten Strukturbiologen auch bei der physikalischen Vermessung der Proteinstruktur mittels NMR zunächst eine Contact Map. Es haben sich daher schon früh Algorithmen entwickelt, um von einer Contact Map Rückschlüsse auf die Protein-Tertiärstruktur zu erhalten. Damit ist es nun prinzipiell möglich, zuverlässig aus beliebigen Sequenzen die Proteinstruktur vorherzusagen, solange eine große Menge an Sequenzen von Proteinen gleicher Gruppierung zur Verfügung steht, um gekoppelte Positionen, und damit eine Contact Map zu ermitteln. Mit dem zunehmenden Tempo der Sequenzierung stehen bereits genug Bakteriengenome (nahezu 10.000) zur Verfügung, um die Methode erfolgreich auf diese anzuwenden, und beispielsweise auch Membranproteine zu modellieren. Aber auch die Anzahl eukaryotischer Sequenzen ist in manchen Fällen ausreichend, und die Situation entspannt sich diesbezüglich zusehend.[25][26]
Das exakte Einpassen der Aminosäure-Seitenketten stellt ein eigenes Problem innerhalb der Proteinstrukturvorhersage dar. Dabei wird das Proteinrückgrat als starr vorausgesetzt und die möglichen Konformationen (Rotamere) der einzelnen Seitenketten so verändert, dass die Gesamtenergie minimiert wird. Methoden, die speziell die Seitenkettenvorhersage durchführen, sind beispielsweise die Sackgassen-Eliminierung (DEE) und self-consistent mean field (SCMF). Beide Methoden benutzen Rotamer-Bibliotheken, in denen erfahrungsgemäß günstige Konformationen mit Detaildaten verzeichnet sind. Diese Bibliotheken können rückgratunabhängig, sekundärstrukturabhängig oder rückgratabhängig indiziert sein.[27][28][29][30]
Die Seitenkettenvorhersage ist besonders bei der Bestimmung des hydrophoben Proteinkerns nützlich, wo die Seitenketten am engsten gepackt sind; sie ist weniger geeignet für die flexibleren Oberflächenabschnitte, wo die Anzahl möglicher Rotamere wesentlich ansteigt.[31][32]
In den Fällen, in welchen aufgrund von Laborergebnissen bekannt ist, dass ein Protein mit einem anderen oder gleichen einen Proteinkomplex bildet, und ebenso die Tertiärstruktur(en) vorliegen, kann mithilfe von Docking-Software herausgefunden werden, wie die Proteine im Komplex zueinander orientiert sind (Quartärstruktur). Darüber hinaus stehen mit den genomischen Contact Maps Daten zur Verfügung, die Rückschlüsse über Berührungspositionen zulassen, da diese funktionell gekoppelt sind. Dies gilt gleichermaßen für Protein-Protein-Interaktionen, wobei hier Berührungspositionen von Genpaaren derselben Spezies betrachtet werden. Erste Anwendungen auf Toxin-Antitoxin-Systeme und andere Signalnetzwerke in Bakterien wurden bereits vorgestellt.[33][17]