La predicción de la estructura de las proteínas es la predicción o cálculo de la estructura tridimensional de una proteína desde su secuencia de aminoácidos, es decir, la predicción de sus estructuras secundaria y terciaria desde su estructura primaria. La predicción de la estructura es fundamentalmente diferente del problema inverso del diseño de proteínas. Es uno de los principales objetivos de la bioinformática y de la química teórica, y altamente importante en medicina (en diseño de fármacos, por ejemplo) y biotecnología (en el diseño de nuevas enzimas, por ejemplo).
Existen dos estrategias básicas para aproximarse a la predicción de la estructura: la predicción de novo, en la que se suelen utilizar métodos estocásticos; y la predicción por comparación, en la que se recurre a una biblioteca de estructuras previamente conocidas.
Cada dos años se evalúa el rendimiento de los métodos actuales en el experimento CASP (Critical Assessment of Techniques for Protein Structure Prediction, Evaluación Crítica de Técnicas para la Predicción de la Estructura de las Proteínas).En julio de 2021 DeepMind y EMBL (Laboratorio Europeo de Biología Molecular), publican la predicción más de 350 000 estructuras tridimensionales de proteínas.[1][2]
La predicción de la estructura secundaria es un conjunto de técnicas bioinformáticas cuyo objetivo es predecir la estructura secundaria local de secuencias de proteínas y ARN basándose sólo en el conocimiento de su estructura primaria de aminoácidos o de nucleótidos, respectivamente. Para las proteínas, una predicción consiste en asignar regiones como probables hélices alfa, hebras beta (denominadas a menudo «conformaciones extendidas»), o bucles beta. El éxito de una predicción se determina por su comparación con los resultados de aplicar el algoritmo DSSP (método estándar para asignar una estructura secundaria a los aminoácidos de una proteína dadas sus coordenadas atómicas de resolución) a la estructura cristalina de la proteína. Para ácidos nucleicos, podría determinarse por el patrón de puentes de hidrógeno. Se han desarrollado algoritmos para la detección de patrones específicos bien definidos tales como hélices transmembrana y hélices superenrolladas en las proteínas, o estructuras de microARN en el ARN.[3]
Los mejores métodos modernos de predicción de estructura secundaria en proteínas alcanzan alrededor del 80% de precisión. Tan alto porcentaje permite el uso de las predicciones en el enhebrado de proteínas y la predicción de la estructura proteica ab initio, la clasificación de motivos estructurales, y el refinamiento de los alineamientos de secuencias. La precisión de los métodos actuales de predicción de la estructura secundaria se evalúa en comparaciones semanales tales como LiveBench y EVA.
Los métodos iniciales de predicción de la estructura secundaria, introducidos en la década de los 60 y los primeros 70 del siglo XX,[4] se centraron en la identificación de posibles hélices alfa y se basaron, principalmente, en modelos de transición hélice-ovillo.[5] En los 70 se introdujeron predicciones significativamente más precisas, que incluían hojas beta. Su fundamento se encontraba en evaluaciones estadísticas basadas en parámetros de probabilidad derivados de estructuras resueltas conocidas. Estos métodos, aplicados a una única secuencia, tienen como mucho una precisión del 60-65%, aunque a menudo no predicen correctamente las hojas beta.[3] La conservación evolutiva de estructuras secundarias puede ser aprovechada mediante la evaluación simultánea de varias secuencias homólogas en un alineamiento múltiple de secuencias, calculando así la propensión de una secuencia de aminoácidos alineada a formar redes de estructura secundaria.
Conjuntando estos métodos con grandes bases de datos de estructuras proteicas conocidas y con los métodos actuales de aprendizaje automático tales como redes neuronales artificiales y máquinas de soporte vectorial, puede alcanzarse hasta un 80% de precisión en proteínas globulares.[6] El límite teórico superior de precisión se encuentra alrededor del 90%[6] debido, en parte, a la idiosincrasia en la asignación del DSSP cerca de los extremos de las estructuras secundarias, donde las conformaciones locales varían bajo condiciones nativas pero pueden forzarse para asumir una única conformación cristalina debido a las restricciones del empaquetado. También impone restricciones la incapacidad de la predicción de la estructura secundaria de tomar en cuenta la estructura terciaria. Por ejemplo, una secuencia predicha como probable hélice puede ser capaz todavía de adoptar una conformación de hebra beta si está localizada dentro de una región hoja beta de la proteína y sus cadenas laterales encajan bien con sus vecinas. Los cambios conformacionales drásticos relacionados con la función o el entorno de la proteína pueden alterar también la estructura secundaria local.
El método de Chou-Fasman fue uno de los primeros algoritmos desarrollados para la predicción de la estructura secundaria, y se fundamenta predominantemente sobre parámetros de probabilidad determinados por las frecuencias relativas de las apariciones de cada aminoácido en cada tipo de estructura secundaria.[7] Los parámetros originales del Chou-Fasman, determinados desde el pequeño conjunto de estructuras resueltas a mediados de los 70, producen resultados pobres en comparación con los obtenidos por los métodos modernos, aunque la parametrización haya sido actualizada desde su primera publicación. El método Chou-Fasman es preciso, aproximadamente, en un 50-60% en la predicción de estructuras secundarias.[3]
El método GOR, así denominado por los tres científicos que lo desarrollaron (Garnier, Osguthorpe y Robson), es un método basado en la teoría de la información desarrollado no mucho después del Chou-Fasman, y usa técnicas probabilísticas más apropiadas de inferencia bayesiana.[8] Este método toma en consideración no sólo la probabilidad de que cada aminoácido tenga una particular estructura secundaria, sino también la probabilidad condicional de que el aminoácido asuma cada estructura considerando que sus vecinos asuman la misma estructura. Este método es más sensible y preciso puesto que las tendencias estructurales de los aminoácidos son considerables sólo para un pequeño número de estas moléculas, tales como la prolina y la glicina. El método GOR original es preciso en aproximadamente el 65%, y muchísimo más exitoso en la predicción de hélices alfa que hojas beta, que frecuentemente son calculadas erróneamente como bucles o como regiones desorganizadas.[3]
Los métodos basados en redes neuronales artificiales utilizan conjuntos de entrenamiento cuyos elementos son estructuras resueltas para identificar secuencias motivo comunes asociadas con disposiciones particulares de estructuras secundarias. Estos métodos están sobre el 70% de precisión en sus predicciones, aunque las hebras beta todavía vienen siendo predichas en poca medida debido a la carencia de información estructural tridimensional que pudiera permitir la evaluación de los patrones de puentes de hidrógeno con los que pudiera promoverse la formación de la conformación extendida requerida para la presencia de una hoja beta completa.[3]
Las máquinas de soporte vectorial (MSV) han demostrado ser particularmente útiles en la predicción de las localizaciones de los bucles, que son difíciles de identificar con métodos estadísticos.[9] Se ha citado también la necesidad de relativamente pequeños conjuntos de entrenamiento como una ventaja para evitar un excesivo ajuste sobre los datos estructurales existentes.[10]
Algunas extensiones a las técnicas de aprendizaje automático intentan predecir propiedades locales de granularidad más fina en las proteínas, como los ángulos diedros en determinadas regiones del esqueleto de las proteínas. Se han aplicado a este problema tanto MSVs[11] como redes neuronales.[12]
Además de la secuencia de la proteína, la formación de la estructura secundaria depende de otros factores. Por ejemplo, se sabe que las tendencias en la estructura secundaria dependen también del entorno local,[13] la accesibilidad de los residuos a un disolvente,[14] la clase de la estructura proteica,[15] e incluso del organismo del que se obtienen las proteínas.[16] De acuerdo a tales observaciones, algunos estudios han mostrado que la predicción de la estructura secundaria puede mejorarse mediante la adición de información sobre la clase estructural de la proteína,[17] su accesibilidad al disolvente,[18][19] y también al número de contacto (una medida simple de la exposición al disolvente) de los residuos.[20]
Los métodos de covarianza sobre la secuencia dependen de la existencia de un conjunto de datos compuesto de múltiples secuencias homólogas de ARN, con secuencias relacionadas pero diferentes. Estos métodos analizan la covarianza de sitios de bases individuales en evolución. Que se mantengan pareados dos sitios de bases de nucleótidos ampliamente separados, indica la presencia entre esas posiciones de un puente de hidrógeno requerido estructuralmente. El problema general de la predicción de un pseudonudo ha demostrado ser NP-completo.[21]
El papel práctico de la predicción de la estructura de las proteínas es ahora más importante que nunca. Los actuales esfuerzos en la secuenciación a gran escala, como el Proyecto Genoma Humano, generan cantidades masivas de secuencias de proteínas. A pesar de los enormes esfuerzos de la comunidad científica en genómica estructural, los resultados de la determinación experimental de las estructuras proteicas (normalmente mediante la muy laboriosa y relativamente cara cristalografía de rayos X, o por espectroscopia RMN) quedan rezagados tras la obtención de las secuencias proteicas.
La predicción de la estructura proteica sigue siendo una empresa extremadamente difícil e irresuelta. Los dos principales problemas son el cálculo de la energía libre de la proteína y la resolución del mínimo global de esta energía. Un método de predicción de estructura debe explorar el espacio de posibles estructuras proteicas, que es astronómicamente inmenso. Estos problemas pueden simplificarse con métodos de modelado por homología y de enhebrado de proteínas, donde el espacio de búsqueda se poda asumiendo que la proteína en cuestión adopta una estructura cercana a la determinada experimentalmente por otra proteína homóloga. Por su parte, los métodos de predicción de novo o ab initio deben resolver de forma explícita estos problemas.
Los métodos de modelado ab initio (o de novo) tratan de construir modelos proteicos desde cero, basándose, por ejemplo, en principios físicos más que directamente en estructuras resueltas previamente. Hay bastantes procedimientos posibles que, o bien intentan imitar el plegado de proteínas, o bien aplican algún método estocástico para buscar posibles soluciones (por ejemplo, la optimización global de una función de energía apropiada). Estos procedimientos suelen requerir amplios recursos computacionales, y por lo tanto sólo han sido llevados a la práctica para pequeñas proteínas. Predecir de novo una estructura de una gran proteína requerirá mejores algoritmos y mayores recursos de computación, como los proporcionados por los supercomputadores (como el Blue Gene o el MDGRAPE-3) o la computación distribuida (como los proyectos Folding@home, Human Proteome Folding Project y Rosetta@home). Aunque estos inconvenientes computacionales son importantes, los beneficios potenciales de la genómica estructural (bien sea por predicción o por experimentación) hacen de la predicción ab initio de la estructura un campo activo de investigación.[22]
Como un paso intermedio hacia la predicción de estas estructuras proteicas, se han propuesto los mapas de contacto en las proteínas, que representan la distancia entre cada dos residuos de una estructura tridimensional utilizando una matriz bidimensional. Estas matrices proporcionan una representación más reducida que la estructura que incluye las coordenadas atómicas tridimensionales completas.
El modelado comparativo de proteínas utiliza estructuras resueltas previamente como puntos de partida o plantillas. Es efectivo puesto que parece que, a pesar de la enorme cantidad de proteínas existente, hay un conjunto limitado de motivos estructurales terciarios a los que la mayoría de las proteínas se adhieren. Se ha sugerido que sólo existen alrededor de 2000 plegados proteicos diferentes en la naturaleza, mientras que existen varios millones de proteínas diferentes.
Estos métodos pueden ser divididos en dos grupos:[22]
La configuración precisa del empaquetamientos de las cadenas laterales representa un problema adicional. Los métodos que trabajan específicamente el problema de la predicción de la geometría de la cadena lateral incluyen algoritmos para minimizar funciones sobre conjuntos de variables independientes discretas (dead-end elimination) y adaptaciones de la teoría de campo medio (campo medio autoconsistente). Las conformaciones con baja energía de la cadena lateral se determinan usualmente sobre el esqueleto rígido polipeptídico usando un conjunto de conformaciones discretas de cadenas laterales conocidas como rotámeros. Los métodos intentan identificar el conjunto de rotámeros que minimiza la energía global del modelo.
Para lo anterior se usan bibliotecas de rotámeros, que son, en definitiva, colecciones de conformaciones favorables multiángulo para cada tipo de residuo en proteínas. Las bibliotecas de rotámeros pueden contener información sobre la conformación, su frecuencia, y la varianza sobre la media de los ángulos diedros, que pueden utilizarse en el muestreo.[25] Estas bibliotecas se derivan de la bioinformática estructural u otros análisis estadísticos de conformaciones de cadenas laterales en estructuras de proteínas conocidas, tales como el agrupamiento de conformaciones observadas para carbonos tetraédricos cercanos a los valores de tambaleo (60°, 180°, -60°). Las bibliotecas de rotámeros pueden ser independientes del esqueleto, dependientes de la estructura secundaria, o dependientes del esqueleto. Las primeras no hacen referencia a la conformación del esqueleto de péptidos, y se calculan considerando todas las cadenas laterales disponibles de un determinado tipo (como en el primer ejemplo de biblioteca de rotámeros, realizado por Ponder y Richards en Yale en 1987).[26] Las bibliotecas dependientes de la estructura secundaria presentan ángulos diedros diferentes y/o frecuencias de rotámeros para hélices alfa, hojas beta, o estructuras secundarias en ovillo.[27][28] Por su parte, las bibliotecas dependientes del esqueleto presentan conformaciones y/o frecuencias dependientes de la conformación local del esqueleto, según queda definida por sus ángulos diedros and , sea cual sea la estructura secundaria.[29] Las versiones modernas de estas bibliotecas que se usan en la mayor parte del software, se presentan como distribuciones multidimensionales de probabilidad o frecuencia, donde los picos corresponden a las conformaciones de los ángulos diedros consideradas como rotámeros individuales en las listas. Algunas versiones son especialmente sensibles a las regiones prohibidas en ese espacio conformacional, y se usan básicamente para validación de la estructura,[30] mientras que otras enfatizan frecuencias relativas en las regiones favorables y son el tipo usado principalmente para la predicción de la estructura (como la biblioteca de rotámeros Dunbrack).
Los métodos de empaquetamiento de cadena lateral son más útiles para analizar las proteínas con núcleo hidrófobo, donde las cadenas laterales están empaquetadas con mayor cercanía; tienen más dificultad en afrontar las más holgadas restricciones y la mayor flexibilidad de los residuos superficiales, que a menudo alcanzan múltiples conformaciones de rotámeros en lugar de sólo una.[31]
Se han desarrollado métodos estadísticos para predecir clases estructurales de proteínas basados en su composición aminoacídica,[32] composición de seudoaminoácidos,[33][34][35][36] y composición de dominios funcionales.[37]
En el caso de complejos de dos o más proteínas, y donde las estructuras de las proteínas sean conocidas o puedan predecirse con alta precisión, se pueden utilizar métodos de predicción de acoplamiento proteína-proteína para calcular la estructura del complejo. La información del efecto que posibles mutaciones en sitios específicos puedan tener sobre la afinidad del complejo, ayuda a entender la estructura agrupada y a desarrollar métodos de acoplamiento.
MODELLER es una popular herramienta de para generar modelos de homología utilizando metodología derivada de procesamiento de datos de espectroscopia RMN.SwissModel proporciona un servicio web automatizado para modelado básico por homología.
I-TASSER fue el mejor servidor para predicción de estructuras de proteínas en CASP7 y CASP8.
HHpred/HHsearch, bioinfo.pl, Robetta, y Phyre son herramientas software comunes para enhebrado de proteínas.
RAPTOR (software) es un programa para enhebrado de proteínas que se basa en programación con enteros.
Abalone es un programa basado en dinámica molecular para simular plegamientos con modelos de agua implícitos o explícitos.
TIP es una base de conocimiento de modelos STRUCTFAST[38] y relaciones precomputadas de similitud entre secuencias, estructuras, y sitios de acoplamiento. Se han implementado varios proyectos de computación distribuida relativos a la predicción de la estructura de las proteínas, tales com Folding@home, Rosetta@home, Human Proteome Folding Project, Predictor@home y TANPAKU.
El programa Foldit busca investigar las habilidades de reconocimiento de patrones y solución de rompecabezas inherentes a la mente humana, con el objetivo de crear software más exitoso para predicción de la estructura de las proteínas.
Las aproximaciones computacionales proporcionan una ruta alternativa rápida a la predicción de la estructura de los anticuerpos. Los algoritmos de predicción de estructura de alta resolución de la región FV de los anticuerpos, recientemente desarrollados (como RosettaAntibody) han demostrado generar modelos de homología de alta resolución, los cuales se han utilizado con éxito en predicciones de acoplamiento.[39] AlphaFold es un programa de inteligencia artificial (IA) desarrollado por DeepMind de Alphabets/Google,[40] que hace uso del aprendizaje profundo para prededir la estructura de proteínas.[41] AlphaFold 1 (2018) y AlphaFold 2 (2020) lograron los mejores resultados en CASP13 y CASP14 respectivamente.
CASP, iniciales de Critical Assessment of Techniques for Protein Structure Prediction (evaluación crítica de técnicas de predicción de la estructura de proteínas), es un experimento orientado a una amplia comunidad que toma lugar cada dos años desde 1994. CASP proporciona a los usuarios e investigadores la oportunidad de valorar la calidad de los métodos y servidores automáticos disponibles para la predicción de la estructura de proteínas.