Alineament de seqüències

Un alineament de seqüències en bioinformàtica és una forma de representar i comparar dues o més seqüències o cadenes d'ADN, ARN, o estructures primàries proteiques per ressaltar les seves zones de similitud, que podrien indicar relacions funcionals o evolutives entre els gens o proteïnes consultades. Les seqüències alineades s'escriuen amb les lletres (representant aminoàcids o nucleòtids) en files d'una matriu en què, si cal, s'insereixen espais perquè les zones amb idèntica o similar estructura s'alineïn.

Si dues seqüències en un alineament comparteixen un avantpassat comú, les no coincidències poden interpretar-se com mutacions puntuals (substitucions), i els forats com indels (mutacions d'inserció o deleció) introduïdes en un o dos llinatges en el temps que va transcórrer des que divergí. En l'alineament de seqüències proteiques, el grau de similitud entre els aminoàcids que ocupen una posició concreta en la seqüència es pot interpretar com una mesura aproximada de la conservació en una regió particular o motius de seqüència entre llinatges. L'absència de substitucions, o la presència de substitucions molt conservades (la substitució d'aminoàcids la cadena lateral té propietats químiques similars) en una regió particular de la seqüència indica que aquesta zona té importància estructural o funcional. Tot i que les bases nucleotídiques de l'ADN i ARN són més semblants entre si que amb els aminoàcids, la conservació de l'aparellat de bases podria indicar papers funcionals o estructurals similars. L'alineament de seqüències es pot utilitzar amb seqüències no biològiques, com en la identificació de similituds en sèries de lletres i paraules del llenguatge humà o en anàlisi de dades financeres.

Seqüències molt curtes o molt similars es poden alinear manualment. Tot i així, els problemes més interessants necessiten alinear seqüències llargues, molt variables i extremadament nombroses que no poden ser alineades per humans. El coneixement humà s'aplica principalment en la construcció d'algorismes que produeixin alineaments d'alta qualitat, i ocasionalment ajustant el resultat final per a representar patrons que són difícils d'introduir en algorismes (especialment en el cas de seqüències de nucleòtids). Les aproximacions computacionals a l'alineament de seqüències es divideixen en dues categories: alineament global i alineament local. Calcular un alineament global és una forma d'optimització global que "força" a l'alineament a ocupar la longitud total de totes les seqüències introduïdes (seqüències problema). Comparativament, els alineaments locals identifiquen regions similars dins de llargues seqüències que normalment són molt divergents entre si. Sovint es prefereixen els alineaments locals, però poden ser més difícils de calcular perquè s'hi afegeix el desafiament d'identificar les regions de major similitud. S'apliquen gran varietat d'algorismes computacionals al problema d'alineament de seqüències, com a mètodes lents, però d'optimització, de programació dinàmica, i eficients mètodes heurístics o probabilístics dissenyats per a cerca a gran escala en bases de dades.

Representacions

Els alineaments es representen normalment amb un format gràfic i de text. En gairebé totes les representacions d'alineaments, les seqüències s'escriuen en files de manera que els residus alineats apareixen en columnes successives. En els formats de text, les columnes alineades contenen caràcters idèntics o similars, aquests últims indicats amb un sistema de símbols de conservats. A la imatge superior es fa servir l'asterisc per mostrar identitat entre dues columnes. Altres símbols menys comuns són la coma per substitucions conservatives i el punt per a substitucions semiconserves. Molts programes de visualització de seqüències utilitzen també esquemes acolorits per mostrar informació de les propietats dels elements seqüència individuals, en seqüències d'ADN i ARN significa assignar a cada base el seu propi color. En alineaments de proteïnes, com el de la imatge superior, els colors es fan servir per indicar propietats dels aminoàcids per ajudar en la caracterització de conservació o en una substitució aminoacídica donada. Quan s'introdueixen múltiples seqüències l'última fila de cada columna sol representar la seqüència consens determinada per l'alineament. També sol representar la seqüència consens en un format gràfic sota un logotip de seqüències, en què la mida de la lletra de cada nucleòtid o aminoàcid és proporcional al seu grau de conservació.^[1]

Els alineaments de seqüències poden emmagatzemar en una àmplia varietat de formats d'arxiu de text, molts dels quals han estat desenvolupats a la vegada que un programa o implementació d'alineament. La majoria de les eines web permeten diversos formats d'entrada i sortida, com el format FASTA i GenBank. La utilització d'eines específiques en cada laboratori de recerca pot complicar per la baixa compatibilitat. Hi ha programes de conversió genèrica en SEQRET (EMBOSS) Arxivat 2007-06-29 a Wayback Machine., o en DNA Baser Arxivat 2016-03-03 a Wayback Machine..

Alineaments locals i globals

Imatge d'un alineament local i un global demostrant la tendència a posar buits dels alineaments globals si les seqüències no són molt similars.

Els alineaments globals, que intenten alinear cada residu de cada seqüència, són més útils quan les seqüències problema inicials són similars i aproximadament de la mateixa mida (no vol dir que els alineaments globals no puguin acabar en forats). Una estratègia d'alineament global és l'algorisme Needleman-Wunsch basat en una programació dinàmica. Els alineaments locals són més útils per seqüències diferenciades en les quals se sospita que hi ha regions molt similars o motius de seqüències similars dins d'un context més gran. L'algorisme Smith-Waterman és un mètode general d'alineament local basat en una programació dinàmica. Amb seqüències prou semblants, no hi ha diferència entre alineaments globals i locals.

Els mètodes híbrids, coneguts com a semiglobals o mètodes "glocals" intenten trobar el millor alineament possible que inclogui l'inici i el final d'una o una altra seqüència. Pot ser especialment útil quan la part "corrent amunt" d'una seqüència se solapa amb la part "corrent baix" de l'altra. En aquest cas, ni l'alineament global ni el local són completament adequats: un alineament global tracta d'aconseguir a l'alineació a estendre's més enllà de la regió de solapament, mentre que l'alineament local no cobrirà totalment la regió solapada.^[2] ^[3]

Alineament de parells

Els mètodes d'alineament de parells, s'utilitzen per trobar la millor coincidència en bloc (local) o alineament global de dues seqüències. Els alineaments de parelles només poden utilitzar-se amb dues seqüències a la vegada, però són eficients de calcular, i són sovint utilitzats en mètodes que no requereixen precisió extrema, com la recerca en bases de dades de seqüències amb alta homologia respecte a una petició. Els tres mètodes principals de generar alineaments de parells són els de matriu de punts, els de programació dinàmica i els de recerca de paraula,^[4] encara que la majoria de mètodes d'alineació múltiple de seqüències poden funcionar amb només dues seqüències. Encara que cada mètode té els seus propis punts forts i febles, tots ells tenen problemes per alinear seqüències repetitives amb baix contingut en informació, especialment quan el nombre de repeticions pot ser diferent en les dues seqüències que s'alineen. Una manera de quantificar la utilitat d'un alineament de parells determinat és la "màxima coincidència individual", o la major subseqüència que es dona en les dues seqüències en estudi. En general, com més gran sigui tal subseqüència, més propera serà la seva relació.

Mètodes de matriu de punts

Una matriu de punts d'ADN del factor de transcripció dit de zinc en l'ésser humà (GenBank ID NM_002383), mostrant autosimilitud regional. La diagonal principal representa l'alineament de la seqüència amb si mateixa, les línies fora d'aquesta diagonal representen patrons similars o repetitius dins de la seqüència. És un exemple típic de gràfica recurrent.

L'enfocament de matriu de punts (o matrix-dot), que implícitament produeix una família d'alineaments per a regions individuals de la seqüència, és qualitatiu i simple, tot i que consumeix molt de temps per a l'anàlisi a gran escala. És fàcil identificar visualment determinades característiques de la seqüència (com ara insercions, esborrats, repeticions, o repeticions invertides) en una gràfica de matriu de punts. Per construir una gràfica de matriu de punts, les dues seqüències es col·loquen al llarg de la fila superior i de la columna que està més a l'esquerra de la matriu de dues dimensions i es col·loca un punt en qualsevol lloc en què els caràcters a les columnes corresponents coincideixin (aquesta és una típica gràfica recurrent). Algunes implementacions varien la mida o la intensitat dels punts en funció del grau de similitud dels dos caràcters, per donar cabuda a les substitucions conservades. La gràfica de punts de seqüències molt estretament relacionades apareix com una sola línia al llarg de la diagonal principal de la matriu.

Les gràfiques de punts també es poden utilitzar per avaluar repetitivitat en una sola seqüència: una seqüència és gràfica contra si mateixa, i les regions que comparteixen similituds significatives apareixeran com a línies fora de la diagonal principal. Aquest efecte pot ocórrer quan una proteïna consta de múltiples dominis estructurals similars.

Programació dinàmica

La tècnica de programació dinàmica pot aplicar-se per produir alineaments globals mitjançant l'algorisme de Needleman-Wunsch, així com alineaments locals mitjançant l'algorisme de Smith-Waterman. En una utilització habitual, en els alineaments de proteïnes s'utilitza una matriu de substitució per assignar puntuacions a les coincidències i les diferències entre aminoàcids, i una penalització per gap (literalment buit, encara que en bona part de la literatura en català s'utilitza el vocable anglès) en fer coincidir un aminoàcid d'una seqüència amb un buit en una altra. En alineaments d'ADN i ARN pot utilitzar-se una matriu de puntuacions, però a la pràctica, sovint, s'assigna simplement una puntuació positiva a les coincidències, una negativa a les diferències, i una altra penalització negativa als gaps. (En la programació dinàmica estàndard la puntuació de la posició de cada aminoàcid és independent de la identitat dels seus veïns, de manera que els efectes de l'apilament de bases no es prenen en compte. No obstant això, és possible fer-ho modificant l'algorisme.)

La programació dinàmica pot ser útil en l'alineament de nucleòtids amb seqüències de proteïnes, una tasca complicada per la necessitat de prendre en consideració les mutacions amb canvi (insercions o esborrats, normalment). La recerca del marc obert de lectura proporciona una sèrie d'alineaments de parells locals o globals entre una seqüència de nucleòtids a investigar (seqüència problema) i un conjunt de cerca de seqüències de proteïnes, o viceversa. Tot i que el mètode és molt lent, la seva habilitat per avaluar la compensació dels marcs de lectura per a un nombre arbitrari de nucleòtids el converteix en útil per seqüències que continguin un bon nombre d'indels, els quals poden ser molt difícils d'alinear amb mètodes heurístics més eficients. A la pràctica, el mètode requereix una bona quantitat de potència de còmput, o un sistema l'arquitectura estigui especialitzada en programació dinàmica. Les suites BLAST i EMBOSS proporcionen eines bàsiques per crear alineaments adaptats (tot i que algun d'aquests enfocaments treu avantatge dels efectes laterals de la capacitat de cerca de seqüències de les eines). S'aconsegueixen mètodes més generals tant de fonts comercials (com FrameSearch, distribuït com a part del paquet Accelrys GCG), com de programari de codi obert (com Genewise).

El mètode de programació dinàmica garanteix trobar un alineament òptim donada una funció de puntuació en particular; però, identificar una bona funció de puntuació és, usualment, més una qüestió empírica que teòrica. Tot i que la programació dinàmica és extensible a més de dues seqüències, és excessivament lenta per un gran nombre de seqüències extremadament llargues.

Mètodes de paraula curta

Els mètodes de paraula curta, també coneguts com a mètodes de k-tuples, són mètodes heurístics que no garanteixen trobar una solució d'alineament òptima, però són significativament més eficients que la programació dinàmica. Aquests mètodes són especialment útils en cerques sobre bases de dades a gran escala, on s'assumeix que una llarga proporció de les seqüències candidates no tindran coincidències significatives amb la seqüència problema. Els mètodes de paraula curta són més coneguts per la seva implementació en les eines de cerca en bases de dades FASTA i la família BLAST.^[4] Aquests mètodes identifiquen en la seqüència problema una sèrie de subseqüència curtes que no se solapen ("paraules"), i que es contrasten contra les seqüències de la base de dades. Les posicions relatives de la paraula en les dues seqüències a comparar es resten per obtenir un valor de desplaçament, es manifestarà així una regió d'alineament si diverses paraules diferents produeixen el mateix desplaçament. Només si aquesta regió és detectada, aquests mètodes aplicaran criteris d'alineament més sensibles. D'aquesta manera s'eliminen moltes comparacions innecessàries entre seqüències de similitud inapreciable.

Vegeu també

T-Coffee.

Referències

↑ Schneider TD, Stephens RM «Sequence logos: a new way to display consensus sequences». Nucleic Acids Res, 18, 1990, pàg. 6097-6100. DOI: 10.1093/nar/18.20.6097. PMID: 2172928.^{[Enllaç no actiu]}
↑ Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S «Glocal alignment: finding rearrangements during alignment». Bioinformatics, 19 Suppl 1, 2003, pàg. i54–62. DOI: 10.1093/bioinformatics/btg1005. PMID: 12855437.
↑ Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I «Automate whole-genome multiple alignment of rat, mouse, and human». Genome Research, 14, 2004, pàg. 685–692. DOI: 10.1101/gr.2067704.
↑ ^4,0 ^4,1 Mount DM.. Bioinformatics: Sequence and Genome Analysis 2nd ed.. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY, 2004. ISBN 0-87969-608-7.

[Schneider-1] Schneider TD, Stephens RM «Sequence logos: a new way to display consensus sequences». Nucleic Acids Res, 18, 1990, pàg. 6097-6100. DOI: 10.1093/nar/18.20.6097. PMID: 2172928.^{[Enllaç no actiu]}

[brudno-2] Brudno M, Malde S, Poliakov A, Do CB, Couronne O, Dubchak I, Batzoglou S «Glocal alignment: finding rearrangements during alignment». Bioinformatics, 19 Suppl 1, 2003, pàg. i54–62. DOI: 10.1093/bioinformatics/btg1005. PMID: 12855437.

[brudno_2-3] Brudno M, Poliakov A, Salamov A, Cooper GM, Sidow A, Rubin EM, Solovyev V, Batzoglou S, Dubchak I «Automate whole-genome multiple alignment of rat, mouse, and human». Genome Research, 14, 2004, pàg. 685–692. DOI: 10.1101/gr.2067704.

[mount-4] 4,0 ^4,1 Mount DM.. Bioinformatics: Sequence and Genome Analysis 2nd ed.. Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY, 2004. ISBN 0-87969-608-7.

[1]

[2]

[3]

[4]