La predicció de l'estructura de les proteïnes és la predicció o càlcul de l'estructura tridimensional d'una proteïna a partir de la seva seqüència d'aminoàcids, és a dir, la predicció de les seves estructures secundària i terciària a partir de la seva estructura primària. La predicció de l'estructura és fonamentalment diferent del problema invers del disseny de proteïnes. És un dels principals objectius de la bioinformàtica i la química teòrica, i altament important en medicina (en disseny de fàrmacs, per exemple) i biotecnologia (en el disseny de nous enzims, per exemple).
Existeixen dues estratègies bàsiques per aproximar-se a la predicció de l'estructura: la predicció de novo, en la qual se solen utilitzar mètodes estocàstics, i la predicció per comparació, en la qual es recorre a una biblioteca d'estructures prèviament conegudes.
Cada dos anys s'avalua el rendiment dels mètodes actuals a l'experiment CASP (Critical Assessment of Techniques for Protein Structure Prediction, "Avaluació Crítica de Tècniques per la Predicció de l'Estructura de les Proteïnes").
La predicció de l'estructura secundària és un conjunt de tècniques bioinformàtiques l'objectiu de les quals és predir l'estructura secundària local de seqüències de proteïnes i ARN basant-se només en el coneixement de la seva estructura primària d'aminoàcids o nucleòtids, respectivament. Per les proteïnes, una predicció consisteix a assignar regions com probables hèlixs alfa, cadenes beta (denominades sovint conformacions "esteses"), o bucles beta. L'èxit d'una predicció es determina per la seva comparació amb els resultats d'aplicar l'algoritme DSSP (mètode estàndard per assignar una estructura secundària als aminoàcids d'una proteïna donades les seves coordenades atòmiques de resolució) a l'estructura cristal·lina de la proteïna. Per àcids nucleics, podria determinar-se pel patró de ponts d'hidrogen. S'han desenvolupat algoritmes per la detecció de patrons específics ben definits tals com hèlixs transmembrana i hèlixs superenrotllades en les proteïnes, o estructures de microARN en l'ARN.[1]
Els millors mètodes moderns de predicció d'estructura secundària en proteïnes assoleixen al voltant del 80% de precisió. Aquest percentatge tan elevat permet l'ús de les prediccions en l'enfilada de proteïnes i la predicció de l'estructura proteica ab initio, la classificació de motius estructurals i el refinament dels alineaments de seqüències. La precisió dels mètodes actuals de predicció de l'estructura secundària s'avalua en comparacions (benchmarks) setmanals tals com LiveBench i EVA.
Els mètodes inicials de predicció de l'estructura secundària, introduïts a la dècada del 1960 i principis de la dècada del 1970,[2] se centraren en la identificació de possibles hèlixs alfa i es basaren, principalment, en models de transició hèlix-rodet.[3] A la dècada del 1970 s'introduïren prediccions significativament més precises, que incloïen fulles beta. El seu fonament es trobava en avaluacions estadístiques basades en paràmetres de probabilitat derivats d'estructures resoltes conegudes. Aquests mètodes, aplicats a una única seqüència, tenen com a màxim una precisió del 60-65%, tot i que sovint no prediuen correctament les fulles beta.[1] La conservació evolutiva d'estructures secundàries pot ser aprofitada mitjançant l'avaluació simultània de diverses seqüències homòloques en un alineament múltiple de seqüències, calculant així la tendència d'una seqüència d'aminoàcids alineada a formar xarxes d'estructura secundària.
Combinant aquests mètodes amb grans bases de dades d'estructures proteiques conegudes i amb els mètodes actuals d'aprenentatge automàtic tals com xarxes neuronals artificials i màquines de suport vectorial, pot assolir-se fins a un 80% de precisió en proteïnes globulars.[4] El límit teòric superior de precisió es troba al voltant del 90%[4] a causa, en part, de la idiosincràsia en l'assignació del DSSP prop dels extrems de les estructures secundàries, on les conformacions locals varien en condicions natives però poden forçar-se per assumir una única conformació cristal·lina a causa de les restriccions de l'empaquetatge. També imposa restriccions la incapacitat de la predicció de l'estructura secundària de prendre en compte l'estructura terciària. Per exemple, una seqüència predita com a probable hèlix pot ser capaç encara d'adoptar una conformació de cadena beta si està localitzada dins d'una regió de làmina beta de la proteïna i les seves cadenes laterals encaixen bé amb les seves veïnes. Els canvis conformacionals dràstics relacionats amb la funció o l'entorn de la proteïna poden alterar també l'estructura secundària local.
El mètode de Chou-Fasman fou un dels primers algoritmes desenvolupats per la predicció de l'estructura secundària i es fonamenta predominantment sobre paràmetres de probabilitat determinats per les freqüències relatives de les aparicions de cada aminoàcid en cada tipus d'estructura secundària.[5] Els paràmetres originals del Chou-Fasman, determinats a partir del petit conjunt d'estructures resoltes a mitjans de la dècada del 1970, produeixen resultats pobres en comparació amb els obtinguts pels mètodes moderns, encara que la parametrització hagi sigut actualitzada des de la seva primera publicació. El mètode Chou-Fasman és precís, aproximadament, en un 50-60% en la predicció d'estructures secundàries.[1]
El mètode GOR, així denominat pels tres científics que el desenvoluparen (Garnier, Osguthorpe i Robson), és un mètode basat en la teoria de la informació desenvolupat no molt després del Chou-Fasman i utilitza tècniques probabilístiques més apropiades d'inferència bayesiana.[6] Aquest mètode pren en consideració no només la probabilitat que cada aminoàcid tingui una particular estructura secundària, sinó també la probabilitat condicional que l'aminoàcid assumeixi cada estructura considerant que els seus veïns assumeixin la mateixa estructura. Aquest mètode és més sensible i precís car les tendències estructurals dels aminoàcids són considerables només per un petit nombre d'aquestes molècules, tals com la prolina i la glicina. El mètode GOR original és precís en aproximadament el 65% i molt més reeixit en la predicció d'hèlixs alfa que làmines beta, que sovint són calculades erròniament com a bucles o regions desorganitzades.[1]
Els mètodes basats en xarxes neuronals artificials utilitzen conjunts d'entrenament els elements dels quals són estructures resoltes per identificar seqüències motiu comunes associades amb disposicions particulars d'estructures secundàries. Aquests mètodes estan sobre el 70% de precisió en les seves prediccions, tot i que les cadenes beta encara venen sent predites en poca mesura a causa de la manca d'informació estructural tridimensional que pogués permetre l'avaluació dels patrons de ponts d'hidrogen amb els que pogués promoure's la formació de la conformació estesa requerida per la presència d'una làmina beta completa.[1]
Les màquines de suport vectorial (MSV) han demostrat ser particularment útils en la predicció de les localitzacions dels bucles, que són difícils d'identificar amb mètodes estadístics.[7] S'ha citat també la necessitat de relativament petits conjunts d'entrenament com un avantatge per evitar un excessiu ajustament sobre les dades estructurals existents.[8]
Algunes extensions a les tècniques d'aprenentatge automàtic intenten predir propietats locals de granularitat més fina en les proteïnes, com els angles diedres en determinades regions de l'esquelet de les proteïnes. S'han aplicat a aquest problema tant MSV[9] com xarxes neuronals.[10]
A més de la seqüència de la proteïna, la formació de l'estructura secundària depèn d'altres factors. Per exemple, se sap que les tendències en l'estructura secundària depenen també de l'entorn local,[11] l'accessibilitat dels residus a un dissolvent,[12] la classe de l'estructura proteica,[13] i fins i tot de l'organisme del qual s'obtenen les proteïnes.[14] Segons aquestes observacions, alguns estudis han mostrat que la predicció de l'estructura secundària pot millorar mitjançant l'addició d'informació sobre la classe estructural de la proteïna,[15] la seva accessibilitat al dissolvent,[16][17] i també al número de contacte (una mesura simple de l'exposició al dissolvent) dels residus.[18]
Els mètodes de covariància sobre la seqüència depenen de l'existència d'un conjunt de dades compost de múltiples seqüències homòloques d'ARN amb seqüències relacionades però diferents. Aquests mètodes analitzen la covariància de llocs de base individuals en evolució. Que es mantinguin aparellats dos llocs de bases de nucleòtids àmpliament separats indica la presència entre aquelles posicions d'un pont d'hidrogen requerit estructuralment. El problema general de la predicció d'un pseudonus ha demostrat ser NP-complet.[19]
El paper pràctic de la predicció de l'estructura de les proteïnes és ara més important que mai. Els actuals esforços en la seqüenciació a gran escala, com el Projecte Genoma Humà, genera quantitats ingents de seqüències de proteïnes. Malgrat els enormes esforços de la comunitat científica en genòmica estructural, els resultats de la determinació experimental de les estructures proteiques (normalment mitjançant la molt laboriosa i relativament cara cristal·lografia de rajos X, o per espectroscòpia RMN) queden endarrerits després de l'obtenció de les seqüències proteiques.
La predicció de l'estructura proteica continua sent una empresa extremadament difícil i irresolta. Els dos principals problemes són el càlcul de l'energia lliure de la proteïna i la resolució del mínim global d'aquesta energia. Un mètode de predicció d'estructura ha d'explorar l'espai de possibles estructures proteiques, que és astronòmicament immens. Aquests problemes poden simplificar-se amb mètodes de modelatge per homologia i d'enfilada de proteïnes, on l'espai de cerca es poda assumint que la proteïna en qüestió adopta una estructura propera a la determinada experimentalment per una altra proteïna homòloga. Per la seva part, els mètodes de predicció de novo o ab initio han de resoldre de forma explícita aquests problemes.
Els mètodes de modelatge ab initio (o de novo) tracten de construir models proteics des de zero, basant-se, per exemple, en principis físics més que directament en estructures resoltes prèviament. Hi ha bastants procediments possibles que, o bé intentar imitar el plegament proteic, o bé apliquen algun mètode estocàstic per buscar possibles solucions (per exemple, l'optimització global d'una funció d'energia apropiada). Aquests procediments solen requerir amples recursos computacionals i per tant només han sigut portats a la pràctica per petites proteïnes. Predir de novo l'estructura d'una gran proteïna requerirà millors algoritmes i més recursos de computació, com els proporcionats pels superordinadors (com el Blue Gene o el MDGRAPE-3) o la computació distribuïda (com els projectes Folding@home, Human Proteome Folding Project i Rosetta@home). Tot i que aquests inconvenients computacionals són importants, els beneficis potencials de la genòmica estructural (ja sigui per predicció o per experimentació) fan de la predicció ab initio de l'estructura un camp actiu d'investigació.[20]
Com a pas intermedi cap a la predicció d'aquestes estructures proteiques, s'han proposat els mapes de contacte en les proteïnes, que representen la distància entre cada dos residus d'una estructura tridimensional utilitzant una matriu bidimensional. Aquestes matrius proporcionen una representació més reduïda que l'estructura que inclou les coordenades atòmiques tridimensional completes.
El modelatge comparatiu de proteïnes utilitza estructures resoltes prèviament com a punts de partida o plantilles. És eficaç car sembla que, malgrat l'enorme quantitat de proteïnes existent, hi ha un conjunt limitat de motius estructurals terciaris als que la majoria de les proteïnes s'adhereixen. S'ha suggerit que només existeixen al voltant de 2000 plegaments proteics diferents a la natura, mentre que existeixen diversos milions de proteïnes diferents.
Aquests mètodes poden ser dividits en dos grups:[20]
La configuració precisa de l'empaquetament de les cadenes laterals representa un problema addicional. Els mètodes que treballen específicament el problema de la predicció de la geometria de la cadena lateral inclouen algoritmes per minimitzar funcions sobre conjunts de variables independents discretes (dead-end elimination) i adaptacions de la teoria de camp mitjà (camp mitjà autoconsistent). Les conformacions amb baixa energia de la cadena lateral es determinen usualment sobre l'esquelet rígid polipeptídic utilitzant un conjunt de conformacions discretes de cadenes laterals conegudes com a "rotàmers". Els mètodes intenten identificar el conjunt de rotàmers que minimitza l'energia global del model.
Per fer-ho s'utilitzen biblioteques de rotàmers, que són, en definitiva, col·leccions de conformacions favorables multiangle per cada tipus de residu en proteïnes. Les biblioteques de rotàmers poden contenir informació sobre la conformació, la seva freqüència i la variància sobre la mitjana dels angles diedres, que poden utilitzar-se en el mostreig.[23] Aquestes biblioteques es deriven de la bioinformàtica estructural o altres anàlisis estadístiques de conformacions de cadenes laterals en estructures de proteïnes conegudes, tals com l'agrupament de conformacions observades per carbonis tetraèdrics propers als valors de trontoll (60º, 180°, -60º). Les biblioteques de rotàmers poden ser independents de l'esquelet, dependents de l'estructura secundària, o dependents de l'esquelet. Les primeres no fan referència a la conformació de l'esquelet de pèptids i es calculen considerant totes les cadenes laterals disponibles d'un determinat tipus (com en el primer exemple de biblioteca de rotàmers, realitzat per Ponder i Richards a Yale el 1987).[24] Les biblioteques dependents de l'estructura secundària presenten angles diedres diferents i freqüències de rotàmers per hèlixs alfa, fulles beta, o estructures secundàries en cabdell.[25][26] D'altra banda, les biblioteques dependents de l'esquelet presenten conformacions i freqüències dependents de la conformació local de l'esquelet, segons queda definida pels seus angles diedres i , sigui la que sigui l'estructura secundària.[27] Les versions modernes d'aquestes biblioteques que s'utilitzen en la majoria de programaris, es presenten com a distribucions multidimensionals de probabilitat o freqüència, on els pics corresponen a les conformacions dels angles diedres considerades com a rotàmers individuals en les llistes. Algunes versions són especialment sensibles a les regions prohibides en aquell espai conformacional i s'utilitzen bàsicament validar l'estructura,[28] mentre que altres emfatitzen freqüències relatives a les regions favorables i són el tipus utilitzat principalment per la predicció de l'estructura (com la biblioteca de rotàmers Dunbrack).
Els mètodes d'empaquetament de cadena lateral són més útils per analitzar les proteïnes de nucli hidròfob, on les cadenes laterals estan empaquetades més a prop; tenen més dificultat en afrontar les menors restriccions i la major flexibilitat dels residus superficials, que sovint assoleixen múltiples conformacions de rotàmers en lloc de només una.[29]
S'han desenvolupat mètodes estadístics per predir classes estructurals de proteïnes basats en la seva composició aminoacídica,[30] composició de pseudoaminoàcids,[31][32][33][34] i composició de dominis funcionals.[35]
En el cas de complexos de dues o més proteïnes i on les estructures de les proteïnes siguin conegudes o puguin predir-se amb alta precisió, es poden utilitzar mètodes de predicció d'acoblament proteïna-proteïna per calcular l'estructura del complex. La informació de l'efecte que possibles mutacions en llocs específics puguin tenir sobre l'afinitat del complex, ajuda a entendre l'estructura agrupada i a desenvolupar mètodes d'acoblament.
MODELLER és una popular eina de programari per generar models d'homologia utilitzant metodologia derivada de processament de dades d'espectroscòpia RMN. SwissModel Arxivat 2006-09-25 a Wayback Machine. proporciona un servei web automatitzat de modelatge bàsic per homologia.
I-TASSER és el millor servidor per predicció d'estructures de proteïnes segons recents experiments CASP (CASP7 i CASP8).
HHpred / HHsearch, bioinfo.pl Arxivat 2010-03-07 a Wayback Machine., Robetta, i Phyre Arxivat 2011-12-31 a Wayback Machine. són eines de programari comunes per l'enfilada de proteïnes.
RAPTOR (programari) és un programari per enfilada de proteïnes que es basa en programació amb enters. L'algoritme bàsic d'enfilada[22] és molt senzill d'implementar.
Abalone és un programa basat en dinàmica molecular per simular plegaments amb models d'aigua implícits o explícits.
TIP Arxivat 2013-05-12 a Wayback Machine. és una base de coneixement de models STRUCTFAST[36] i relacions precomputades de similitud entre seqüències, estructures i llocs d'acoblament. S'han implementat diversos projectes de computació distribuïda relatius a la predicció de l'estructura de les proteïnes, com ara Folding@home, Rosetta@home, Human Proteome Folding Project, Predictor@home i TANPAKU.
El programa Foldit busca investigar les habilitats de reconeixement de patrons i solució de trencaclosques inherents a la ment humana amb l'objectiu de crear programari més reeixit per predicció de l'estructura de les proteïnes.
Les aproximacions computacionals proporcionen una ruta alternativa ràpida a la predicció de l'estructura dels anticossos. Els algoritmes de predicció d'estructura d'alta resolució de la regió FV dels anticossos, recentment desenvolupats (com RosettaAntibody) han demostrat generar models d'homologia d'alta resolució, els quals s'han utilitzat amb èxit en prediccions d'acoblament.[37]
Es poden trobar revisions de programari per la predicció d'estructures,[38] així com revisions dels progressos i els reptes en aquesta àrea.[20]
CASP, inicials de Critical Assessment of Techniques for Protein Structure Prediction (avaluació crítica de tècniques de predicció de l'estructura de proteïnes), és un experiment orientat a una àmplia comunitat que té lloc cada dos anys des del 1994. CASP proporciona als usuaris i investigadors l'oportunitat de valorar la qualitat dels mètodes i servidors automàtics disponibles per la predicció de l'estructura de proteïnes. Els resultats oficials per servidors en el benchmark CASP7 es discuteixen per Battery i al.[39] Els resultats oficiales del CASP8 poden obtenir-se per servidors automàtics i per la resta de predictors. Alguns resultats no oficials per servidors automàtics del CASP8 es resumeixen en diversos webs de laboratoris i són classificats amb criteris lleugerament canviants: Zhang lab Arxivat 2009-05-16 a Wayback Machine., Grishin lab, McGuffin lab, Baker lab Arxivat 2008-12-27 a Wayback Machine., Cheng lab Arxivat 2009-05-16 a Wayback Machine..