La long branch attraction (LBA) in italiano "Attrazione del ramo lungo" è un tipo di errore sistematico in cui si può incorrere facendo analisi filogenetiche, dovuto al modo in cui lavorano gli algoritmi di clustering. A causa di questo artefatto, due o più linee evolutive distanti tra loro vengono interpretate come strettamente correlate; ciò accade quando queste appaiono simili perché hanno entrambe accumulato al loro interno una grande quantità di mutazioni molecolari o morfologiche e non perché discendono da un antenato comune.
Tale bias è più comune quando la divergenza complessiva di alcuni taxa provoca lunghe ramificazioni all'interno di una filogenesi. Poiché i rami lunghi sono spesso attratti alla base di un albero filogenetico e, la linea di base inclusa per rappresentare un outgroup è spesso anche un ramo lungo (long branch), l’LBA è un problema per la ricostruzione di alberi filogenetici.[1][2][3]
Nelle analisi basate sulla sequenza del DNA, il problema dell’LBA si presenta quando sui rami lunghi dell’albero filogenetico troviamo organismi fast-evolving, il cui numero di sostituzioni per sito è più alto rispetto alla media. Quando le sequenze di due (o più) linee evolvono rapidamente, essendoci solo 4 nucleotidi, se i tassi di sostituzione del DNA sono elevati aumenta la probabilità che due linee evolutive evolvano lo stesso nucleotide nello stesso sito. Le sequenze dei fast-evolving risulteranno quindi simili non per reale vicinanza evolutiva ma a causa del gran numero di cambiamenti per sito, o meglio perché le omoplasie possono essere erroneamente interpretate come sinapomorfie. L’LBA può essere espresso in maniera più generale come attrazione tra “lunghezze dei rami” in quanto interessa anche i rami corti: se all’interno di un gruppo più ampio evoluto velocemente due rami presentano un’evoluzione particolarmente lenta questi potrebbero essere considerati strettamente correlati. Tuttavia sono tipicamente i rami lunghi che presentano attrazione.
La frequenza di un reale problema di LBA in dataset reali è poco chiara e spesso dibattuta e i metodi suggeriti per individuare ed evitare questo artefatto sono stati continuamente rivisti. Inizialmente si riteneva che solo il metodo della Massima Parsimonia (MP) fosse soggetto a questo tipo di errore, poiché la distanza evolutiva è calcolata in base al numero minimo di differenze esistenti tra le sequenze e si assume che il tasso di sostituzioni per sito sia omogeneo. Successivamente è stato visto influenzare tutti i principali metodi di ricostruzione dell’albero; numerose simulazioni informatiche hanno dimostrato che anche se i metodi probabilistici, cioè la Maximum Likelihood (ML) e l'Inferenza bayesiana (BI), sono più robusti rispetto alla MP, poiché è possibile correggere per le sostituzioni multiple nello stesso sito, sono comunque suscettibili all'artefatto dell’LBA. Per cui, sebbene i risultati delle analisi ottenute con il metodo della massima parsimonia e col metodo del maximum likelihood debbano essere riportati e interpretati con la stessa cautela, la maggior parte dei filogenetisti considera le conclusioni ottenute con metodi probabilistici come le più affidabili e questi ultimi hanno progressivamente soppiantato il metodo MP per l'inferenza degli alberi filogenetici.
Alcuni dei metodi per evitare gli artefatti del LBA includono l'esclusione di taxa con rami lunghi, l'esclusione delle terze posizioni dei codoni fast evolving, il campionamento di più taxa per spezzare i rami lunghi, il campionamento di più caratteri specialmente di diverso tipo, l’utilizzo di tratti che evolvono più lentamente, ad esempio regioni più conservative dei geni. Ad ogni modo le analisi filogenetiche dovrebbero sempre essere eseguite con e senza outgroup inclusi, per rilevare se l'outgroup origina solamente nel clade o se contemporaneamente ne altera la topologia stessa. In entrambi i casi, l’LBA rappresenta per gli outgroup il problema più comune: Il campionamento di taxon è fondamentale per una accurata stima filogenetica e l'affidabilità non può essere riposta in studi di genoma mitocondriale o cloroplastico di migliaia di caratteri ma di soli pochi taxa, nonostante i loro elevati valori di supporto. Il riconoscimento dell’LBA implica che ci siano altre prove che suggeriscono che la filogenesi sia errata. Ad esempio, i dati morfologici possono suggerire che i taxa considerati come strettamente correlati non sono veramente sister taxa. Il principio ausiliario di Henning suggerisce che le sinapomofie dovrebbero essere considerate come prova per i raggruppamenti a meno che non ci siano prove specifiche contrarie.[4][5][6]
Nel caso di 4-taxa, due taxa non correlati (A e C) si sono evoluti significativamente più velocemente rispetto ai loro sister group (B e D); l'albero dedotto crea dei gruppi artefatti tra i taxa in rapida evoluzione, perché numerosi cambiamenti convergenti lungo i due rami lunghi vengono interpretati come falsi sinapomorfi. In caso di artefatto LBA, i metodi di ricostruzione degli alberi sono incoerenti, vale a dire convergono verso una soluzione errata, in quanto vengono considerati più dati.