Per predizione di struttura proteica (protein structure prediction) s'intende la predizione della struttura tridimensionale d'una proteina, a partire dalla sua sequenza aminoacidica, ossia la predizione della sua struttura secondaria, terziaria, quaternaria, partendo dalla sua struttura primaria.
La predizione di struttura (structure prediction) è l'operazione opposta al problema di progettazione proteica (protein design). Predire strutture proteiche è uno dei più importanti obiettivi della bioinformatica e della chimica teorica. È molto importante nella medicina (per esempio, nella progettazione di medicine, "drug design") e nelle biotecnologie (ad esempio, nella progettazione di nuovi enzimi).
Ogni due anni, la qualità dei metodi correnti è valutata nell'esperimento Casp (Critical Assessment of Techniques for Protein Structure Prediction).[1]
Nel campo della bioinformatica, la predizione di struttura secondaria è un insieme di tecniche che cerca di predire le strutture secondarie locali delle proteine e delle sequenze di RNA, basata solo sulla conoscenza della loro struttura primaria (rispettivamente sequenze di aminoacidi o sequenze di nucleotidi).
Per quanto concerne le proteine, una predizione consiste nell'indicare regioni della sequenza aminoacidiche come probabili eliche Alfa o foglietti Beta (spesso denotate come conformazioni "estese"). Il successo d'una predizione è determinato paragonando la stessa ai risultati dell'algoritmo Define Secondary Structure of Proteins (DSSP) applicato alla struttura cristallina della proteina; per gli acidi nucleici, può essere determinata dallo schema di legame a idrogeno.
Algoritmi specializzati sono stati sviluppati per la scoperta di schemi specifici ben definiti come le eliche transmembrana e le coiled coils nelle proteine, o le canoniche strutture di microRNA nell'RNA.
I migliori metodi moderni di predizione di struttura secondaria nelle proteine raggiungono circa l'80% d'accuratezza; questa alta accuratezza consente l'uso di predizioni nel riconoscimento di piegature ("fold recognition") e nella predizione di strutture proteiche "ab initio", nella classificazione di motivi strutturali, e nel rifinimento di allineamenti di sequenze. L'accuratezza dei metodi di predizione di struttura secondaria è valutata in "benchmarks" come LiveBench ed EVA.
Il ruolo concreto della predizione di struttura proteica è oggi più importante che mai. Enormi quantità di dati di sequenze proteiche sono prodotti da moderni sistemi di sequenziamento di DNA su larga scala, come ad esempio il Progetto Genoma Umano.
Nonostante gli sforzi di tutta la comunità nella genomica strutturale, l'output di strutture proteiche determinate sperimentalmente (tipicamente da metodi molto lunghi e relativamente costosi come cristallografia a raggi X o Spettroscopia di risonanza magnetica nucleare) sta lasciando molto indietro l'output delle sequenze proteiche.
La complessità dei parametri che determinano la struttura terziaria e le possibilità di ripiegamento della proteina richiedono una sempre maggiore potenza computazionale e sempre più complessi software di simulazione.