Predicció de l'estructura de les proteïnes

La predicció de l'estructura de les proteïnes és la predicció o càlcul de l'estructura tridimensional d'una proteïna a partir de la seva seqüència d'aminoàcids, és a dir, la predicció de les seves estructures secundària i terciària a partir de la seva estructura primària. La predicció de l'estructura és fonamentalment diferent del problema invers del disseny de proteïnes. És un dels principals objectius de la bioinformàtica i la química teòrica, i altament important en medicina (en disseny de fàrmacs, per exemple) i biotecnologia (en el disseny de nous enzims, per exemple).

Existeixen dues estratègies bàsiques per aproximar-se a la predicció de l'estructura: la predicció de novo, en la qual se solen utilitzar mètodes estocàstics, i la predicció per comparació, en la qual es recorre a una biblioteca d'estructures prèviament conegudes.

Cada dos anys s'avalua el rendiment dels mètodes actuals a l'experiment CASP (Critical Assessment of Techniques for Protein Structure Prediction, "Avaluació Crítica de Tècniques per la Predicció de l'Estructura de les Proteïnes").

Estructura secundària

La predicció de l'estructura secundària és un conjunt de tècniques bioinformàtiques l'objectiu de les quals és predir l'estructura secundària local de seqüències de proteïnes i ARN basant-se només en el coneixement de la seva estructura primària d'aminoàcids o nucleòtids, respectivament. Per les proteïnes, una predicció consisteix a assignar regions com probables hèlixs alfa, cadenes beta (denominades sovint conformacions "esteses"), o bucles beta. L'èxit d'una predicció es determina per la seva comparació amb els resultats d'aplicar l'algoritme DSSP (mètode estàndard per assignar una estructura secundària als aminoàcids d'una proteïna donades les seves coordenades atòmiques de resolució) a l'estructura cristal·lina de la proteïna. Per àcids nucleics, podria determinar-se pel patró de ponts d'hidrogen. S'han desenvolupat algoritmes per la detecció de patrons específics ben definits tals com hèlixs transmembrana i hèlixs superenrotllades en les proteïnes, o estructures de microARN en l'ARN.^[1]

Els millors mètodes moderns de predicció d'estructura secundària en proteïnes assoleixen al voltant del 80% de precisió. Aquest percentatge tan elevat permet l'ús de les prediccions en l'enfilada de proteïnes i la predicció de l'estructura proteica ab initio, la classificació de motius estructurals i el refinament dels alineaments de seqüències. La precisió dels mètodes actuals de predicció de l'estructura secundària s'avalua en comparacions (benchmarks) setmanals tals com LiveBench i EVA.

Antecedents

Els mètodes inicials de predicció de l'estructura secundària, introduïts a la dècada del 1960 i principis de la dècada del 1970,^[2] se centraren en la identificació de possibles hèlixs alfa i es basaren, principalment, en models de transició hèlix-rodet.^[3] A la dècada del 1970 s'introduïren prediccions significativament més precises, que incloïen fulles beta. El seu fonament es trobava en avaluacions estadístiques basades en paràmetres de probabilitat derivats d'estructures resoltes conegudes. Aquests mètodes, aplicats a una única seqüència, tenen com a màxim una precisió del 60-65%, tot i que sovint no prediuen correctament les fulles beta.^[1] La conservació evolutiva d'estructures secundàries pot ser aprofitada mitjançant l'avaluació simultània de diverses seqüències homòloques en un alineament múltiple de seqüències, calculant així la tendència d'una seqüència d'aminoàcids alineada a formar xarxes d'estructura secundària.

Combinant aquests mètodes amb grans bases de dades d'estructures proteiques conegudes i amb els mètodes actuals d'aprenentatge automàtic tals com xarxes neuronals artificials i màquines de suport vectorial, pot assolir-se fins a un 80% de precisió en proteïnes globulars.^[4] El límit teòric superior de precisió es troba al voltant del 90%^[4] a causa, en part, de la idiosincràsia en l'assignació del DSSP prop dels extrems de les estructures secundàries, on les conformacions locals varien en condicions natives però poden forçar-se per assumir una única conformació cristal·lina a causa de les restriccions de l'empaquetatge. També imposa restriccions la incapacitat de la predicció de l'estructura secundària de prendre en compte l'estructura terciària. Per exemple, una seqüència predita com a probable hèlix pot ser capaç encara d'adoptar una conformació de cadena beta si està localitzada dins d'una regió de làmina beta de la proteïna i les seves cadenes laterals encaixen bé amb les seves veïnes. Els canvis conformacionals dràstics relacionats amb la funció o l'entorn de la proteïna poden alterar també l'estructura secundària local.

Mètode de Chou-Fasman

El mètode de Chou-Fasman fou un dels primers algoritmes desenvolupats per la predicció de l'estructura secundària i es fonamenta predominantment sobre paràmetres de probabilitat determinats per les freqüències relatives de les aparicions de cada aminoàcid en cada tipus d'estructura secundària.^[5] Els paràmetres originals del Chou-Fasman, determinats a partir del petit conjunt d'estructures resoltes a mitjans de la dècada del 1970, produeixen resultats pobres en comparació amb els obtinguts pels mètodes moderns, encara que la parametrització hagi sigut actualitzada des de la seva primera publicació. El mètode Chou-Fasman és precís, aproximadament, en un 50-60% en la predicció d'estructures secundàries.^[1]

Mètode GOR

El mètode GOR, així denominat pels tres científics que el desenvoluparen (Garnier, Osguthorpe i Robson), és un mètode basat en la teoria de la informació desenvolupat no molt després del Chou-Fasman i utilitza tècniques probabilístiques més apropiades d'inferència bayesiana.^[6] Aquest mètode pren en consideració no només la probabilitat que cada aminoàcid tingui una particular estructura secundària, sinó també la probabilitat condicional que l'aminoàcid assumeixi cada estructura considerant que els seus veïns assumeixin la mateixa estructura. Aquest mètode és més sensible i precís car les tendències estructurals dels aminoàcids són considerables només per un petit nombre d'aquestes molècules, tals com la prolina i la glicina. El mètode GOR original és precís en aproximadament el 65% i molt més reeixit en la predicció d'hèlixs alfa que làmines beta, que sovint són calculades erròniament com a bucles o regions desorganitzades.^[1]

Aprenentatge automàtic

Els mètodes basats en xarxes neuronals artificials utilitzen conjunts d'entrenament els elements dels quals són estructures resoltes per identificar seqüències motiu comunes associades amb disposicions particulars d'estructures secundàries. Aquests mètodes estan sobre el 70% de precisió en les seves prediccions, tot i que les cadenes beta encara venen sent predites en poca mesura a causa de la manca d'informació estructural tridimensional que pogués permetre l'avaluació dels patrons de ponts d'hidrogen amb els que pogués promoure's la formació de la conformació estesa requerida per la presència d'una làmina beta completa.^[1]

Les màquines de suport vectorial (MSV) han demostrat ser particularment útils en la predicció de les localitzacions dels bucles, que són difícils d'identificar amb mètodes estadístics.^[7] S'ha citat també la necessitat de relativament petits conjunts d'entrenament com un avantatge per evitar un excessiu ajustament sobre les dades estructurals existents.^[8]

Algunes extensions a les tècniques d'aprenentatge automàtic intenten predir propietats locals de granularitat més fina en les proteïnes, com els angles diedres en determinades regions de l'esquelet de les proteïnes. S'han aplicat a aquest problema tant MSV^[9] com xarxes neuronals.^[10]

Altres millores

A més de la seqüència de la proteïna, la formació de l'estructura secundària depèn d'altres factors. Per exemple, se sap que les tendències en l'estructura secundària depenen també de l'entorn local,^[11] l'accessibilitat dels residus a un dissolvent,^[12] la classe de l'estructura proteica,^[13] i fins i tot de l'organisme del qual s'obtenen les proteïnes.^[14] Segons aquestes observacions, alguns estudis han mostrat que la predicció de l'estructura secundària pot millorar mitjançant l'addició d'informació sobre la classe estructural de la proteïna,^[15] la seva accessibilitat al dissolvent,^[16]^[17] i també al número de contacte (una mesura simple de l'exposició al dissolvent) dels residus.^[18]

Els mètodes de covariància sobre la seqüència depenen de l'existència d'un conjunt de dades compost de múltiples seqüències homòloques d'ARN amb seqüències relacionades però diferents. Aquests mètodes analitzen la covariància de llocs de base individuals en evolució. Que es mantinguin aparellats dos llocs de bases de nucleòtids àmpliament separats indica la presència entre aquelles posicions d'un pont d'hidrogen requerit estructuralment. El problema general de la predicció d'un pseudonus ha demostrat ser NP-complet.^[19]

Estructura terciària

El paper pràctic de la predicció de l'estructura de les proteïnes és ara més important que mai. Els actuals esforços en la seqüenciació a gran escala, com el Projecte Genoma Humà, genera quantitats ingents de seqüències de proteïnes. Malgrat els enormes esforços de la comunitat científica en genòmica estructural, els resultats de la determinació experimental de les estructures proteiques (normalment mitjançant la molt laboriosa i relativament cara cristal·lografia de rajos X, o per espectroscòpia RMN) queden endarrerits després de l'obtenció de les seqüències proteiques.

La predicció de l'estructura proteica continua sent una empresa extremadament difícil i irresolta. Els dos principals problemes són el càlcul de l'energia lliure de la proteïna i la resolució del mínim global d'aquesta energia. Un mètode de predicció d'estructura ha d'explorar l'espai de possibles estructures proteiques, que és astronòmicament immens. Aquests problemes poden simplificar-se amb mètodes de modelatge per homologia i d'enfilada de proteïnes, on l'espai de cerca es poda assumint que la proteïna en qüestió adopta una estructura propera a la determinada experimentalment per una altra proteïna homòloga. Per la seva part, els mètodes de predicció de novo o ab initio han de resoldre de forma explícita aquests problemes.

Modelatge ab initio

Els mètodes de modelatge ab initio (o de novo) tracten de construir models proteics des de zero, basant-se, per exemple, en principis físics més que directament en estructures resoltes prèviament. Hi ha bastants procediments possibles que, o bé intentar imitar el plegament proteic, o bé apliquen algun mètode estocàstic per buscar possibles solucions (per exemple, l'optimització global d'una funció d'energia apropiada). Aquests procediments solen requerir amples recursos computacionals i per tant només han sigut portats a la pràctica per petites proteïnes. Predir de novo l'estructura d'una gran proteïna requerirà millors algoritmes i més recursos de computació, com els proporcionats pels superordinadors (com el Blue Gene o el MDGRAPE-3) o la computació distribuïda (com els projectes Folding@home, Human Proteome Folding Project i Rosetta@home). Tot i que aquests inconvenients computacionals són importants, els beneficis potencials de la genòmica estructural (ja sigui per predicció o per experimentació) fan de la predicció ab initio de l'estructura un camp actiu d'investigació.^[20]

Com a pas intermedi cap a la predicció d'aquestes estructures proteiques, s'han proposat els mapes de contacte en les proteïnes, que representen la distància entre cada dos residus d'una estructura tridimensional utilitzant una matriu bidimensional. Aquestes matrius proporcionen una representació més reduïda que l'estructura que inclou les coordenades atòmiques tridimensional completes.

Modelatge comparatiu

El modelatge comparatiu de proteïnes utilitza estructures resoltes prèviament com a punts de partida o plantilles. És eficaç car sembla que, malgrat l'enorme quantitat de proteïnes existent, hi ha un conjunt limitat de motius estructurals terciaris als que la majoria de les proteïnes s'adhereixen. S'ha suggerit que només existeixen al voltant de 2000 plegaments proteics diferents a la natura, mentre que existeixen diversos milions de proteïnes diferents.

Aquests mètodes poden ser dividits en dos grups:^[20]

Modelatge per homologia: es basa en la suposició raonable que dues proteïnes homòlogues compartiran unes estructures molt similars. Com que un plegament proteic està evolutivament més conservat que la seva seqüència d'aminoàcids, una seqüència objectiu pot ser modelada amb una precisió raonable sobre una plantilla relacionada molt distant, sempre que la relació entre objectiu i plantilla sigui perceptible en l'alineament de les seves seqüències. S'ha suggerit que el principal "coll d'ampolla" en el modelatge comparatiu prové més de les dificultats en l'alineament que dels errors en la predicció de l'estructura donat un bon alineament.^[21] No sorprèn que el modelatge per homologia sigui més precís quan l'objectiu i la plantilla tenen seqüències similars.

Enfilada de proteïnes:^[22] es contrasta la seqüència d'aminoàcids d'una estructura desconeguda amb una base de dades d'estructures resoltes. En cada cas, s'utilitza una funció de puntuació per avaluar la compatibilitat de la seqüència amb l'estructura, obtenint-se així possibles models tridimensionals. Aquest tipus de mètode també es coneix com a reconeixement del plegament 3D-1D a causa de la compatibilitat de l'anàlisi entre estructures tridimensionals i seqüències proteiques lineals. Aquest mètode ha facilitat el desenvolupament d'altres que efectuen una cerca inversa del plegament avaluant la compatibilitat d'una estructura donada contra una àmplia base de dades de seqüències, predient així quines seqüències tenen el potencial de produir un plegament determinat.

Predicció de la geometria de la cadena lateral

La configuració precisa de l'empaquetament de les cadenes laterals representa un problema addicional. Els mètodes que treballen específicament el problema de la predicció de la geometria de la cadena lateral inclouen algoritmes per minimitzar funcions sobre conjunts de variables independents discretes (dead-end elimination) i adaptacions de la teoria de camp mitjà (camp mitjà autoconsistent). Les conformacions amb baixa energia de la cadena lateral es determinen usualment sobre l'esquelet rígid polipeptídic utilitzant un conjunt de conformacions discretes de cadenes laterals conegudes com a "rotàmers". Els mètodes intenten identificar el conjunt de rotàmers que minimitza l'energia global del model.

Per fer-ho s'utilitzen biblioteques de rotàmers, que són, en definitiva, col·leccions de conformacions favorables multiangle per cada tipus de residu en proteïnes. Les biblioteques de rotàmers poden contenir informació sobre la conformació, la seva freqüència i la variància sobre la mitjana dels angles diedres, que poden utilitzar-se en el mostreig.^[23] Aquestes biblioteques es deriven de la bioinformàtica estructural o altres anàlisis estadístiques de conformacions de cadenes laterals en estructures de proteïnes conegudes, tals com l'agrupament de conformacions observades per carbonis tetraèdrics propers als valors de trontoll (60º, 180°, -60º). Les biblioteques de rotàmers poden ser independents de l'esquelet, dependents de l'estructura secundària, o dependents de l'esquelet. Les primeres no fan referència a la conformació de l'esquelet de pèptids i es calculen considerant totes les cadenes laterals disponibles d'un determinat tipus (com en el primer exemple de biblioteca de rotàmers, realitzat per Ponder i Richards a Yale el 1987).^[24] Les biblioteques dependents de l'estructura secundària presenten angles diedres diferents i freqüències de rotàmers per hèlixs alfa, fulles beta, o estructures secundàries en cabdell.^[25]^[26] D'altra banda, les biblioteques dependents de l'esquelet presenten conformacions i freqüències dependents de la conformació local de l'esquelet, segons queda definida pels seus angles diedres $\phi$ i $\psi$ , sigui la que sigui l'estructura secundària.^[27] Les versions modernes d'aquestes biblioteques que s'utilitzen en la majoria de programaris, es presenten com a distribucions multidimensionals de probabilitat o freqüència, on els pics corresponen a les conformacions dels angles diedres considerades com a rotàmers individuals en les llistes. Algunes versions són especialment sensibles a les regions prohibides en aquell espai conformacional i s'utilitzen bàsicament validar l'estructura,^[28] mentre que altres emfatitzen freqüències relatives a les regions favorables i són el tipus utilitzat principalment per la predicció de l'estructura (com la biblioteca de rotàmers Dunbrack).

Els mètodes d'empaquetament de cadena lateral són més útils per analitzar les proteïnes de nucli hidròfob, on les cadenes laterals estan empaquetades més a prop; tenen més dificultat en afrontar les menors restriccions i la major flexibilitat dels residus superficials, que sovint assoleixen múltiples conformacions de rotàmers en lloc de només una.^[29]

Predicció de classes estructurals

S'han desenvolupat mètodes estadístics per predir classes estructurals de proteïnes basats en la seva composició aminoacídica,^[30] composició de pseudoaminoàcids,^[31]^[32]^[33]^[34] i composició de dominis funcionals.^[35]

Estructura quaternària

En el cas de complexos de dues o més proteïnes i on les estructures de les proteïnes siguin conegudes o puguin predir-se amb alta precisió, es poden utilitzar mètodes de predicció d'acoblament proteïna-proteïna per calcular l'estructura del complex. La informació de l'efecte que possibles mutacions en llocs específics puguin tenir sobre l'afinitat del complex, ajuda a entendre l'estructura agrupada i a desenvolupar mètodes d'acoblament.

Programari

MODELLER és una popular eina de programari per generar models d'homologia utilitzant metodologia derivada de processament de dades d'espectroscòpia RMN. SwissModel Arxivat 2006-09-25 a Wayback Machine. proporciona un servei web automatitzat de modelatge bàsic per homologia.

I-TASSER és el millor servidor per predicció d'estructures de proteïnes segons recents experiments CASP (CASP7 i CASP8).

HHpred / HHsearch, bioinfo.pl Arxivat 2010-03-07 a Wayback Machine., Robetta, i Phyre Arxivat 2011-12-31 a Wayback Machine. són eines de programari comunes per l'enfilada de proteïnes.

RAPTOR (programari) és un programari per enfilada de proteïnes que es basa en programació amb enters. L'algoritme bàsic d'enfilada^[22] és molt senzill d'implementar.

Abalone és un programa basat en dinàmica molecular per simular plegaments amb models d'aigua implícits o explícits.

TIP Arxivat 2013-05-12 a Wayback Machine. és una base de coneixement de models STRUCTFAST^[36] i relacions precomputades de similitud entre seqüències, estructures i llocs d'acoblament. S'han implementat diversos projectes de computació distribuïda relatius a la predicció de l'estructura de les proteïnes, com ara Folding@home, Rosetta@home, Human Proteome Folding Project, Predictor@home i TANPAKU.

El programa Foldit busca investigar les habilitats de reconeixement de patrons i solució de trencaclosques inherents a la ment humana amb l'objectiu de crear programari més reeixit per predicció de l'estructura de les proteïnes.

Les aproximacions computacionals proporcionen una ruta alternativa ràpida a la predicció de l'estructura dels anticossos. Els algoritmes de predicció d'estructura d'alta resolució de la regió F_V dels anticossos, recentment desenvolupats (com RosettaAntibody) han demostrat generar models d'homologia d'alta resolució, els quals s'han utilitzat amb èxit en prediccions d'acoblament.^[37]

Es poden trobar revisions de programari per la predicció d'estructures,^[38] així com revisions dels progressos i els reptes en aquesta àrea.^[20]

Servidors per la predicció automàtica de l'estructura

CASP, inicials de Critical Assessment of Techniques for Protein Structure Prediction (avaluació crítica de tècniques de predicció de l'estructura de proteïnes), és un experiment orientat a una àmplia comunitat que té lloc cada dos anys des del 1994. CASP proporciona als usuaris i investigadors l'oportunitat de valorar la qualitat dels mètodes i servidors automàtics disponibles per la predicció de l'estructura de proteïnes. Els resultats oficials per servidors en el benchmark CASP7 es discuteixen per Battery i al.^[39] Els resultats oficiales del CASP8 poden obtenir-se per servidors automàtics i per la resta de predictors. Alguns resultats no oficials per servidors automàtics del CASP8 es resumeixen en diversos webs de laboratoris i són classificats amb criteris lleugerament canviants: Zhang lab Arxivat 2009-05-16 a Wayback Machine., Grishin lab, McGuffin lab, Baker lab Arxivat 2008-12-27 a Wayback Machine., Cheng lab Arxivat 2009-05-16 a Wayback Machine..

Vegeu també

Referències

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 Mount DM (2004). Bioinformatics: Sequence and Genome Analysis, 2, Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1
↑ Guzzo, AV «Influence of Amino-Acid Sequence on Protein Structure». Biophysical Journal, 5, 1965, pàg. 809–822. DOI: 10.1016/S0006-3495(65)86753-4.
Prothero, JW «Correlation between Distribution of Amino Acids and Alpha Helices». Biophysical Journal, 6, 1966, pàg. 367–370. DOI: 10.1016/S0006-3495(66)86662-6.
Schiffer, M; Edmundson AB «Use of Helical Wheels to Represent Structures of Proteins and to Identify Segments with Helical Potential». Biophysical Journal, 7, 1967, pàg. 121–?. DOI: 10.1016/S0006-3495(67)86579-2.
Kotelchuck, D; Scheraga HA «The Influence of Short-Range Interactions on Protein Conformation, II. A Model for Predicting the α-Helical Regions of Proteins». Proceedings of the National Academy of Science USA, 62, 1, 1969, pàg. 14–21. DOI: 10.1073/pnas.62.1.14. PMC: 285948. PMID: 5253650.
Lewis, PN; Gō N, Gō M, Kotelchuck D, Scheraga HA «Helix Probability Profiles of Denatured Proteins and Their Correlation with Native Structures». Proceedings of the National Academy of Science USA, 65, 4, 1970, pàg. 810–815. DOI: 10.1073/pnas.65.4.810. PMC: 282987. PMID: 5266152.
↑ Froimowitz M, Fasman GD. (1974). Prediction of the secondary structure of proteins using the helix-coil transition theory. Macromolecules 7(5):583-9.
↑ ^4,0 ^4,1 Dor O, Zhou Y. (2006). Achieving 80% tenfold cross-validated accuracy for secondary structure prediction by large-scale training. Proteins Epub. PMID: 17177203
↑ Chou PY, Fasman GD. (1974). Prediction of protein conformation. Biochemistry. 13(2):222-45.
↑ Garnier J, Osguthorpe DJ, Robson B. (1978). Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol 120:97-120.
↑ Pham TH, Satou K, Ho TB. (2005). Support vector machines for prediction and analysis of beta and gamma-turns in proteins. J Bioinform Comput Biol 3(2):343-58. PMID: 15852509
↑ Zhang Q, Yoon S, Welsh WJ. (2005). Improved method for predicting beta-turn using support vector machine. Bioinformatics 21(10):2370-4. PMID: 15797917
↑ Zimmermann O, Hansmann UH. (2006). Support vector machines for prediction of dihedral angle regions. Bioinformatics 22(24):3009-15. PMID: 17005536
↑ Kuang R, Leslie CS, Yang AS. (2004). Protein backbone angle prediction with machine learning approaches. Bioinformatics 20(10):1612-21. PMID: 14988121
↑ Zhong L, Johnson WC Jr. (1992). Environment affects amino acid preference for secondary structure. Proc Natl Acad Sci USA 89(10):4462-5. PMID: 1584778
↑ Macdonald JR, Johnson WC Jr. (2001). Environmental features are important in determining protein secondary structure. Protein Sci. 10(6):1172-7. PMID: 11369855
↑ Costantini S, Colonna G, Facchiano AM. (2006). Amino acid propensities for secondary structures are influenced by the protein structural class. Biochem Biophys Res Commun. 342(2):441-51. PMID: 16487481
↑ Marashi SA, et al. (2007). Adaptation of proteins to different environments: a comparison of proteome structural properties in Bacillus subtilis and Escherichia coli. J Theor Biol 244(1):127-32. PMID: 16945389
↑ Costantini S, Colonna G, Facchiano AM. (2007). PreSSAPro: a software for the prediction of secondary structure by amino acid properties. Comput Biol Chem 31(5-6):389-92. PMID: 17888742
↑ Momen-Roknabadi A, et al. (2008). Impact of residue accessible surface area on the prediction of protein secondary structures. BMC Bioinformatics. 9:357. PMID: 18759992
↑ Adamczak R, Porollo A, Meller J. (2005). Combining prediction of secondary structure and solvent accessibility in proteins. Proteins 59(3):467-75. PMID: 15768403
↑ Lakizadeh A, Marashi SA. (2009). Addition of contact number information can improve protein secondary structure prediction by neural networks. Arxivat 2011-07-19 a Wayback Machine. EXCLI J. 8:66-73.
↑ Lyngsø RB, Pedersen CN. (2000). RNA pseudoknot prediction in energy-based models. J Comput Biol 7(3-4): 409-427.
↑ ^20,0 ^20,1 ^20,2 Zhang Y «Progress and challenges in protein structure prediction». Curr Opin Struct Biol, 18, 3, 2008, pàg. 342–348. DOI: 10.1016/j.sbi.2008.02.004. PMC: 2680823. PMID: 18436442. Entrez PubMed 18436442.
↑ Zhang Y and Skolnick J «The protein structure prediction problem could be solved using the current PDB library». Proc Natl Acad Sci USA, 102, 4, 2005, pàg. 1029–1034. DOI: 10.1073/pnas.0407152101. PMC: 545829. PMID: 15653774. Entrez PubMed 15653774.
↑ ^22,0 ^22,1 Bowie JU, Luthy R, Eisenberg D «A method to identify protein sequences that fold into a known three-dimensional structure». Science, 253, 5016, 1991, pàg. 164–170. DOI: 10.1126/science.1853201. PMID: 1853201. Entrez PubMed 1853201.
↑ Dunbrack, RL «Rotamer Libraries in the 21st Century». Curr. Opin. Struct. Biol., 12, 4, 2002, pàg. 431–440. DOI: 10.1016/S0959-440X(02)00344-5. PMID: 12163064.
↑ Ponder JW, Richards FM «Tertiary templates for proteins: use of packing criteria in the enumeration of allowed sequences for different structural classes». J. Mol. Biol., 193, 1987, pàg. 775–791.
↑ Lovell SC, Word JM, Richardson JS, Richardson DC «The penultimate rotamer library». Proteins: Struc. Func. Genet., 40, 2000, pàg. 389–408. DOI: 10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2.
↑ «Richardson Rotamer Libraries». Arxivat de l'original el 2010-06-10. [Consulta: 3 febrer 2012].
↑ «Dunbrack Rotamer Libraries». Arxivat de l'original el 2010-05-24. [Consulta: 3 febrer 2012].
↑ MolProbity
↑ Voigt CA, Gordon DB, Mayo SL «Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design». J Mol Biol, 299, 3, 2000, pàg. 789–803. DOI: 10.1006/jmbi.2000.3758. PMID: 10835284. Entrez PubMed 10835284.
↑ Chou KC, Zhang CT «Prediction of protein structural classes». Crit. Rev. Biochem. Mol. Biol., 30, 4, 1995, pàg. 275–349. DOI: 10.3109/10409239509083488. PMID: 7587280.
↑ Chen C, Zhou X, Tian Y, Zou X, Cai P «Predicting protein structural class with pseudo-amino acid composition and support vector machine fusion network». Anal. Biochem., 357, 1, October 2006, pàg. 116–21. DOI: 10.1016/j.ab.2006.07.022. PMID: 16920060.
↑ Chen C, Tian YX, Zou XY, Cai PX, Mo JY «Using pseudo-amino acid composition and support vector machine to predict protein structural class». J. Theor. Biol., 243, 3, Desembre 2006, pàg. 444–8. DOI: 10.1016/j.jtbi.2006.06.025. PMID: 16908032.
↑ Lin H, Li QZ «Using pseudo amino acid composition to predict protein structural class: approached by incorporating 400 dipeptide components». J Comput Chem, 28, 9, July 2007, pàg. 1463–6. DOI: 10.1002/jcc.20554. PMID: 17330882.
↑ Xiao X, Wang P, Chou KC «Predicting protein structural classes with pseudo amino acid composition: an approach using geometric moments of cellular automaton image». J. Theor. Biol., 254, 3, October 2008, pàg. 691–6. DOI: 10.1016/j.jtbi.2008.06.016. PMID: 18634802.
↑ Chou KC, Cai YD «Predicting protein structural class by functional domain composition». Biochem. Biophys. Res. Commun., 321, 4, Setembre 2004, pàg. 1007–9. DOI: 10.1016/j.bbrc.2004.07.059. PMID: 15358128.
↑ Debe DA, Danzer JF, Goddard WA, Poleksic A «STRUCTFAST: Protein sequence remote homology detection and alignment using novel dynamic programming and profile-profile scoring». Proteins, 64, 4, 2006, pàg. 960–967. DOI: 10.1002/prot.21049. PMID: 16786595. Entrez PubMed 16786595.
↑ Sivasubramanian A, Sircar A, Chaudhury S, Gray J J «Toward high-resolution homology modeling of antibody Fv regions and application to antibody–antigen docking». Proteins, 74, 2, 2009, pàg. 497–514. DOI: 10.1002/prot.22309. PMID: 19062174.
↑ Nayeem A, Sitkoff D, Krystek S Jr «A comparative study of available software for high-accuracy homology modeling: From sequence alignments to structural models». Protein Sci, 15, 4, 2006, pàg. 808–824. DOI: 10.1110/ps.051892906. PMC: 2242473. PMID: 16600967. Entrez PubMed 16600967.
↑ Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T «Automated server predictions in CASP7». Proteins, 69, Suppl 8, 2007, pàg. 68–82.. DOI: 10.1002/prot.21761. PMID: 17894354.

^[1]

Enllaços externs

Pàgina web del CASP (anglès)
ExPASy Proteomics tools — Llista d'eines de predicció i servidors (anglès)

↑ Samudrala R, Moult J. An all-atom distance-dependent conditional probability discriminatory function for protein structure prediction. Journal of Molecular Biology 275: 893-914, 1998.

[Mount-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 Mount DM (2004). Bioinformatics: Sequence and Genome Analysis, 2, Cold Spring Harbor Laboratory Press. ISBN 0-87969-712-1

[2] Guzzo, AV «Influence of Amino-Acid Sequence on Protein Structure». Biophysical Journal, 5, 1965, pàg. 809–822. DOI: 10.1016/S0006-3495(65)86753-4.
Prothero, JW «Correlation between Distribution of Amino Acids and Alpha Helices». Biophysical Journal, 6, 1966, pàg. 367–370. DOI: 10.1016/S0006-3495(66)86662-6.
Schiffer, M; Edmundson AB «Use of Helical Wheels to Represent Structures of Proteins and to Identify Segments with Helical Potential». Biophysical Journal, 7, 1967, pàg. 121–?. DOI: 10.1016/S0006-3495(67)86579-2.
Kotelchuck, D; Scheraga HA «The Influence of Short-Range Interactions on Protein Conformation, II. A Model for Predicting the α-Helical Regions of Proteins». Proceedings of the National Academy of Science USA, 62, 1, 1969, pàg. 14–21. DOI: 10.1073/pnas.62.1.14. PMC: 285948. PMID: 5253650.
Lewis, PN; Gō N, Gō M, Kotelchuck D, Scheraga HA «Helix Probability Profiles of Denatured Proteins and Their Correlation with Native Structures». Proceedings of the National Academy of Science USA, 65, 4, 1970, pàg. 810–815. DOI: 10.1073/pnas.65.4.810. PMC: 282987. PMID: 5266152.

[Froimowitz-3] Froimowitz M, Fasman GD. (1974). Prediction of the secondary structure of proteins using the helix-coil transition theory. Macromolecules 7(5):583-9.

[Dor-4] 4,0 ^4,1 Dor O, Zhou Y. (2006). Achieving 80% tenfold cross-validated accuracy for secondary structure prediction by large-scale training. Proteins Epub. PMID: 17177203

[Chou-5] Chou PY, Fasman GD. (1974). Prediction of protein conformation. Biochemistry. 13(2):222-45.

[Garnier-6] Garnier J, Osguthorpe DJ, Robson B. (1978). Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins. J Mol Biol 120:97-120.

[Pham-7] Pham TH, Satou K, Ho TB. (2005). Support vector machines for prediction and analysis of beta and gamma-turns in proteins. J Bioinform Comput Biol 3(2):343-58. PMID: 15852509

[Zhang-8] Zhang Q, Yoon S, Welsh WJ. (2005). Improved method for predicting beta-turn using support vector machine. Bioinformatics 21(10):2370-4. PMID: 15797917

[Zimmermann-9] Zimmermann O, Hansmann UH. (2006). Support vector machines for prediction of dihedral angle regions. Bioinformatics 22(24):3009-15. PMID: 17005536

[Kuang-10] Kuang R, Leslie CS, Yang AS. (2004). Protein backbone angle prediction with machine learning approaches. Bioinformatics 20(10):1612-21. PMID: 14988121

[a0-11] Zhong L, Johnson WC Jr. (1992). Environment affects amino acid preference for secondary structure. Proc Natl Acad Sci USA 89(10):4462-5. PMID: 1584778

[a1-12] Macdonald JR, Johnson WC Jr. (2001). Environmental features are important in determining protein secondary structure. Protein Sci. 10(6):1172-7. PMID: 11369855

[a2-13] Costantini S, Colonna G, Facchiano AM. (2006). Amino acid propensities for secondary structures are influenced by the protein structural class. Biochem Biophys Res Commun. 342(2):441-51. PMID: 16487481

[a3-14] Marashi SA, et al. (2007). Adaptation of proteins to different environments: a comparison of proteome structural properties in Bacillus subtilis and Escherichia coli. J Theor Biol 244(1):127-32. PMID: 16945389

[m-15] Costantini S, Colonna G, Facchiano AM. (2007). PreSSAPro: a software for the prediction of secondary structure by amino acid properties. Comput Biol Chem 31(5-6):389-92. PMID: 17888742

[P-16] Momen-Roknabadi A, et al. (2008). Impact of residue accessible surface area on the prediction of protein secondary structures. BMC Bioinformatics. 9:357. PMID: 18759992

[Ph-17] Adamczak R, Porollo A, Meller J. (2005). Combining prediction of secondary structure and solvent accessibility in proteins. Proteins 59(3):467-75. PMID: 15768403

[az-18] Lakizadeh A, Marashi SA. (2009). Addition of contact number information can improve protein secondary structure prediction by neural networks. Arxivat 2011-07-19 a Wayback Machine. EXCLI J. 8:66-73.

[Lyngso-19] Lyngsø RB, Pedersen CN. (2000). RNA pseudoknot prediction in energy-based models. J Comput Biol 7(3-4): 409-427.

[zhang2008-20] 20,0 ^20,1 ^20,2 Zhang Y «Progress and challenges in protein structure prediction». Curr Opin Struct Biol, 18, 3, 2008, pàg. 342–348. DOI: 10.1016/j.sbi.2008.02.004. PMC: 2680823. PMID: 18436442. Entrez PubMed 18436442.

[zhang2005-21] Zhang Y and Skolnick J «The protein structure prediction problem could be solved using the current PDB library». Proc Natl Acad Sci USA, 102, 4, 2005, pàg. 1029–1034. DOI: 10.1073/pnas.0407152101. PMC: 545829. PMID: 15653774. Entrez PubMed 15653774.

[bowie1991-22] 22,0 ^22,1 Bowie JU, Luthy R, Eisenberg D «A method to identify protein sequences that fold into a known three-dimensional structure». Science, 253, 5016, 1991, pàg. 164–170. DOI: 10.1126/science.1853201. PMID: 1853201. Entrez PubMed 1853201.

[Rotamers21stCentury-23] Dunbrack, RL «Rotamer Libraries in the 21st Century». Curr. Opin. Struct. Biol., 12, 4, 2002, pàg. 431–440. DOI: 10.1016/S0959-440X(02)00344-5. PMID: 12163064.

[24] Ponder JW, Richards FM «Tertiary templates for proteins: use of packing criteria in the enumeration of allowed sequences for different structural classes». J. Mol. Biol., 193, 1987, pàg. 775–791.

[25] Lovell SC, Word JM, Richardson JS, Richardson DC «The penultimate rotamer library». Proteins: Struc. Func. Genet., 40, 2000, pàg. 389–408. DOI: 10.1002/1097-0134(20000815)40:3<389::AID-PROT50>3.0.CO;2-2.

[26] «Richardson Rotamer Libraries». Arxivat de l'original el 2010-06-10. [Consulta: 3 febrer 2012].

[27] «Dunbrack Rotamer Libraries». Arxivat de l'original el 2010-05-24. [Consulta: 3 febrer 2012].

[28] MolProbity

[voigt2000-29] Voigt CA, Gordon DB, Mayo SL «Trading accuracy for speed: A quantitative comparison of search algorithms in protein sequence design». J Mol Biol, 299, 3, 2000, pàg. 789–803. DOI: 10.1006/jmbi.2000.3758. PMID: 10835284. Entrez PubMed 10835284.

[pmid7587280-30] Chou KC, Zhang CT «Prediction of protein structural classes». Crit. Rev. Biochem. Mol. Biol., 30, 4, 1995, pàg. 275–349. DOI: 10.3109/10409239509083488. PMID: 7587280.

[pmid16920060-31] Chen C, Zhou X, Tian Y, Zou X, Cai P «Predicting protein structural class with pseudo-amino acid composition and support vector machine fusion network». Anal. Biochem., 357, 1, October 2006, pàg. 116–21. DOI: 10.1016/j.ab.2006.07.022. PMID: 16920060.

[pmid16908032-32] Chen C, Tian YX, Zou XY, Cai PX, Mo JY «Using pseudo-amino acid composition and support vector machine to predict protein structural class». J. Theor. Biol., 243, 3, Desembre 2006, pàg. 444–8. DOI: 10.1016/j.jtbi.2006.06.025. PMID: 16908032.

[pmid17330882-33] Lin H, Li QZ «Using pseudo amino acid composition to predict protein structural class: approached by incorporating 400 dipeptide components». J Comput Chem, 28, 9, July 2007, pàg. 1463–6. DOI: 10.1002/jcc.20554. PMID: 17330882.

[pmid18634802-34] Xiao X, Wang P, Chou KC «Predicting protein structural classes with pseudo amino acid composition: an approach using geometric moments of cellular automaton image». J. Theor. Biol., 254, 3, October 2008, pàg. 691–6. DOI: 10.1016/j.jtbi.2008.06.016. PMID: 18634802.

[pmid15358128-35] Chou KC, Cai YD «Predicting protein structural class by functional domain composition». Biochem. Biophys. Res. Commun., 321, 4, Setembre 2004, pàg. 1007–9. DOI: 10.1016/j.bbrc.2004.07.059. PMID: 15358128.

[debe2006-36] Debe DA, Danzer JF, Goddard WA, Poleksic A «STRUCTFAST: Protein sequence remote homology detection and alignment using novel dynamic programming and profile-profile scoring». Proteins, 64, 4, 2006, pàg. 960–967. DOI: 10.1002/prot.21049. PMID: 16786595. Entrez PubMed 16786595.

[37] Sivasubramanian A, Sircar A, Chaudhury S, Gray J J «Toward high-resolution homology modeling of antibody Fv regions and application to antibody–antigen docking». Proteins, 74, 2, 2009, pàg. 497–514. DOI: 10.1002/prot.22309. PMID: 19062174.

[nayeem2006-38] Nayeem A, Sitkoff D, Krystek S Jr «A comparative study of available software for high-accuracy homology modeling: From sequence alignments to structural models». Protein Sci, 15, 4, 2006, pàg. 808–824. DOI: 10.1110/ps.051892906. PMC: 2242473. PMID: 16600967. Entrez PubMed 16600967.

[39] Battey JN, Kopp J, Bordoli L, Read RJ, Clarke ND, Schwede T «Automated server predictions in CASP7». Proteins, 69, Suppl 8, 2007, pàg. 68–82.. DOI: 10.1002/prot.21761. PMID: 17894354.

[samudrala_1998a-40] Samudrala R, Moult J. An all-atom distance-dependent conditional probability discriminatory function for protein structure prediction. Journal of Molecular Biology 275: 893-914, 1998.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[1]