L'inferenza bayesiana in filogenesi è uno dei metodi più all'avanguardia usati per la costruzione di alberi filogenetici. Si basa sul teorema di Bayes e permette di condurre un'analisi a posteriori dei dati in possesso del ricercatore, e di risolvere alcuni problemi tipici della ricostruzione filogenetica.
L'inferenza bayesiana usa una funzione di likelihood per creare una quantità detta “probabilità a posteriori degli alberi” tramite modello di evoluzione. Questo modello è basato su delle probabilità a priori, e produce l’albero filogenetico più probabile. L’approccio bayesiano è divenuto popolare grazie all’integrazione degli algoritmi Markov chain Monte Carlo (MCMC).
L’inferenza bayesiana è un metodo probabilistico enunciato per la prima volta dal reverendo Thomas Bayes nel XVIII secolo. Il suo utilizzo in filogenesi venne suggerito da Joseph Felsenstein nel 1968 ma solo intorno al 1990 divenne realmente applicabile alla filogenesi.
Il teorema di Bayes permette calcolare velocemente un albero filogenetico anche con un dataset piuttosto ampio. Esamina i possibili alberi filogenetici basandosi sulla loro probabilità a posteriori P(H|D), ovvero la probabilità che un albero sia quello corretto dati i "dati" e le "assunzioni a priori" a disposizione. In particolare, considerando H l’ipotesi e D i dati, calcola il prodotto della probabilità di osservare i dati, data un’ipotesi P(D|H), moltiplicato per la probabilità a posteriori dell’ipotesi P(H), il tutto diviso per la probabilità a posteriori dei dati P(D). In filogenesi i dati corrispondono ad un set di caratteri e le ipotesi corrispondono ai possibili alberi filogenetici.
P(alberi|dati)=P(dati|alberi)P(alberi)/P(dati)
La P(dati|alberi) è la probabilità dei dati, dato l’albero. Questo richiede il calcolo del likelihood, ma a differenza del metodo di maximum likelihood, nell’approccio bayesiano viene aggiunta l’incertezza dei parametri, come la lunghezza dei rami.
La P(alberi) è la probabilità di avere l’albero vero tra tutti i possibili alberi, prima di analizzare i dati. La P(dati) è la somma di tutte le ipotesi, cioè la somma di tutti i possibili alberi, moltiplicate per la loro prior probability
Il problema principale della filogenesi bayesiana è calcolare la probabilità dei dati P(dati). Per ovviare a questo viene utilizzato un metodo chiamato MCMC (Catena di Markov Monte Carlo). Questo metodo sfrutta un algoritmo che, attraverso un procedimento a catena per cui viene variato uno stato dell’albero ad ogni generazione, consente di esplorare i diversi alberi finché tutto lo spazio di probabilità di trovare un albero è stato campionato a sufficienza. Gli alberi esplorati vengono rigettati o accettati in base ai dati di partenza e al modello: se viene trovato un albero con un valore di likelihood minore del precedente, questo può essere rigettato o accettato se la differenza di likelihood fra i due alberi è molto sottile. In generale il tempo totale trascorso a campionare nelle vicinanze di un punto è direttamente proporzionale alla sua vera probabilità a posteriori. Dopo numerose generazioni (anche diverse milioni) viene raggiunta una situazione di convergenza e la frequenza di ogni tipo di albero tra quelli ugualmente verosimili rappresenta la probabilità a posteriori che quel dato tipo di albero sia il migliore. Ciò che risulta da un’analisi di filogenesi bayesiana è un set di alberi con le relative probabilità associate. Alla fine dell’analisi viene mostrato un albero consenso, la cui topologia riflette quella degli alberi del set.
I metodi di ricostruzione degli alberi filogenetici che si basano sui caratteri discreti sono il criterio della massima parsimonia, il Maximum Likelihood (metodo della massima verosimiglianza) e i metodi bayesiani. Sono metodi che derivano dalle tecniche cladistiche, formalizzate da Willi Hennig in “Phylogenetic systematic” nel 1966.
Il metodo di Massima Parsimonia trova uno o più alberi ottimali basandosi su una matrice di caratteri discreti e non richiede un modello evolutivo. Questo metodo si basa sull’idea di Guglielmo di Ockham secondo cui la miglior ipotesi per spiegare un processo è quella più semplice: viene ricostruito l’albero filogenetico con il minor numero di cambiamenti possibili lungo le sequenze. La Massima Parsimonia cerca di scegliere tra ipotesi filogenetiche alternative in modo da minimizzare l’omoplasia: se c’è omoplasia si avranno delle topologie non corrette. Inoltre solo i siti informativi sono utilizzati: sono quelli che descrivono la topologia dell’albero. Un sito è informativo quando ci sono almeno 2 diversi nucleotidi ad un sito, ognuno dei quali è rappresentato in almeno in due delle sequenze di studio.
Il metodo di Maximum Likelihood si basa sulla verosimiglianza di un insieme di osservazioni rispetto ad un modello che dovrebbe descrivere il processo da cui i dati sono stati generati. Il modello evolutivo presenta il meccanismo attraverso cui le sequenze cambiano nel tempo. A differenza della Massima Parsimonia, il Maximum Likelihood stima accuratamente le lunghezze dei rami ed ogni sito ha una likelihood (vengono utilizzati tutti i siti, non solo quelli informativi), inoltre è possibile scegliere quale modello si adatti meglio ai dati. La Parsimonia non è consistente (per consistenza si intende l’abilità di un metodo di convergere al valore reale, aumentando il numero di dati), il Maximum Likelihood è invece consistente sotto alcune condizioni, infatti il risultato dipende dal modello di evoluzione utilizzato, se si sbaglia modello si perde consistenza. Con il Maximum Likelihood si vanno a selezionare i valori entro un range che massimizzano la likelihood di ottenere quei dati, l’approccio bayesiano va invece ad integrare tutti i possibili valori, pesati per la prior probability. In generale, nella Massima Parsimonia e nel Maximum Likelihood ad un singolo albero è possibile assegnare un punteggio, indipendentemente dagli altri alberi ricavati dall’analisi, invece una probabilità a posteriori bayesiana non può essere assegnata all’albero senza aver preso in considerazione tutti gli alberi possibili.
Nome | Descrizione | Metodo | Autori |
---|---|---|---|
Armadillo Workflow Platform | Piattaforma dedicata alla filogenesi e all’analisi bioinformatica | Inferenza filogenetica tramite distanza, maximum likelihood, massima parsimonia e metodi bayesiani | E. Lord, M. Leclercq, A. Boc, A. B. Diallo e V. Makarenkov |
Bali-Phy | Inferenza bayesiana dell’allineamento e filogenesi | Inferenza bayesiana, allineamento e ricerca di alberi | M.A. Suchard, B.D. Redelings |
BATWING | Analisi bayesiana di alberi con generazione di nodi interni | Inferenza bayesiana, storia demografica, population splits | I.J. Wilson, D. Weale, D. Balding |
Bayes Phylogenies | Inferenza bayesiana di alberi usando metodi MCMC | Inferenza bayesiana, modelli multipli, mixture model | M. Pagel, A. Meade |
PhyloBayes | MCMC per la ricostruzione filogenetica | Metodi non parametrici per modellizzare la variazione di nucleotidi o amminoacidi tra siti | N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer |
Beast | bayesian Evolutionary Analysis Sampling Trees | Inferenza bayesiana, relaxed molecular clock, storia demografica | A.J. Drummond, A. Rambaut, M.A. Suchard |
Geneious (MrBayes plugin) | Strumenti per la ricerca di genomi e proteomi | Selezione del modello filogenetico, analisi bayesiana e stima dell’albero filogenetico tramite maximum likelihood, individuazione di siti sotto selezione positiva e analisi della recombination breakpoint location | I.Milne, D.Lindner |
Mr. Bayes | Inferenza bayesiana in filogenesi | Inferenza bayesiana e utilizzo di MCMC | J. Huelsenbeck, B. Larget, P. van der Mark, F. Ronquist, D. Simon, M. Teslenko |