Una seqüència altament conservada és aquella que es manté sense canvis en l'arbre filogenètic i durant les diferents etapes geològiques. Que una seqüència estigui conservada al llarg de l'evolució indica que és valuosa i per això la selecció natural l'ha mantingut. Alguns exemples de seqüències altament conservades són els components ARN dels ribosomes que es troben en tots els superregnes de la vida, la caixa homeòtica en eucariotes, i l'ARN mitocondrial en bacteris. L'estudi de la conservació de les seqüències inclou múltiples àrees d'investigació com ara la genòmica, la proteòmica, la biologia evolutiva, la filogenètica, la bioinformàtica i les matemàtiques
El descobriment del paper de l'ADN en l'herència i les observacions de Frederick Sanger sobre com varia la insulina entre animals [1]van ser el detonant perquè es comencés a estudiar la taxonomia des d'una perspectiva molecular.[2][3] Estudis realitzats durant els anys 60 van utilitzar la hibridació de l'ADN i tècniques de reactivitat creuada en proteïnes per mesurar la similitud entre proteïnes ortòlogues ja conegudes. Un exemple d'aquestes serien l'hemoglobina[4] i el citocrom C.[5]
L'any 1965, l'austríac Émile Zuckerkandl i l'americà Linus Pauling van introduir el concepte de rellotge molecular,[6] que consisteix en utilitzar la taxa de substitucions constants dels aminoàcids per determinar el temps de divergència entre dos organismes. Així com les primeres filogènies concordaven amb els registres fòssils, l'observació del que semblaven diferents ritmes en l'evolució dels gens va dur al desenvolupament de les teories de l'evolució molecular.[2][3] La importància de les seqüències conservades es va materialitzar amb la comparació que va realitzar Margaret Dayhoff l'any 1966 entre diferents seqüències de ferredoxina, en la que va observar com la selecció natural actua per conservar i optimitzar aquelles seqüències de proteïnes essencials per la vida.[7]
Les seqüències d'àcids nucleics del genoma d'un llinatge poden canviar gradualment en el temps i en vàries generacions degut a mutacions i delecions a l'atzar.,.[8][9] Aquestes seqüències també poden recombinar-se o suprimir-se degut a reorganitzacions cromosòmiques. Les seqüències conservades són aquelles que tot i aquests mecanismes, persisteixen en el genoma i tenen una taxa de mutació més baixa que l'esperada per atzar.[10]
La conservació pot tenir lloc en seqüències d'àcids nucleics codificants i no-codificants. Teòricament, les seqüències d'ADN altament conservades tenen valor funcional, encara que es coneix poc el paper de les regions altament conservades no codificants. (,)[11][12]
El fet que una seqüència es conservi o no pot dependre de les diferents pressions selectives, la seva tolerància a les mutacions, la genètica de poblacions i la deriva genètica. A més a més, moltes seqüències funcionals són també modulars, i per tant, contenen regions que poden estar subjectes a pressions selectives independents, com per exemple els dominis proteics, que estan subjectes a una pressió evolutiva diferent de la resta de la seqüència.[13]
Degut a la degeneració del codi genètic, les mutacions sinònimes en una seqüència codificant no afecten a la pròpia seqüència dels aminoàcids ni a la proteïna que codifiquen. Això ens porta a concloure que les seqüències d'àcids nucleics i aminoàcids (i per tant, codificants) poden estar conservades en diferent grau.[14]
Dins d'una seqüència, els aminoàcids que són importants pel plegament proteic, l'estabilitat estructural, o que formen un lloc d'unió són aquells que probablement estaran més conservats.[16][17]
La seqüència d'àcids nucleics d'una proteïna que codifica per un gen també pot conservar-se mitjançant altres pressions selectives. El biaix en l'ús de codons de certs organismes pot restringir el tipus de mutacions sinònimes d'una seqüència. Aquelles seqüències d'àcids nucleics que indueixen una estructura secundària a l'ARN missatger poden ser seleccionades en contra, ja que algunes estructures poden afectar negativament a la traducció, o bé es poden conservar allà on el ARNm en qüestió actuï també com a ARN no codificant.[18][19]
Les seqüències no codificants importants per la regulació gènica, així com els llocs de reconeixement o unió de ribosomes i factors de transcripció seran probablement conservats en el genoma. Per exemple, el promotor d'un gen conservat o d'un operó, i en les proteïnes, aquells àcids nucleics importants per l'estructura i la funció de l'ARN no codificant (ARNnc), es conservaran. Tanmateix, la conservació de seqüències en el ARNnc és bastant pobre en comparació amb la de les seqüències de proteïnes codificants. Consegüentment, aquells parells de bases que contribueixin a l'estructura i la funció es preservaran.[20][21]
Les seqüències conservades es poden identificar mitjançant mètodes bioinformàtics que es basen en l'alineament de seqüències. Des de l'any 2000 els avenços en espectrometria de masses de proteïnes i en la seqüenciació de l'ADN han permès obtenir moltes seqüències de proteïnes i molts genomes per dur a terme estudis comparatius.[22][23]
Les seqüències conservades es poden identificar buscant homologia entre seqüències, utilitzant eines com BLAST, HMMER, OrthologR[24] i Infernal [25]
Aquestes eines solen prendre com a input una seqüència d'una proteïna o d'un àcid nucleic, o bé utilitzen models estadístics generats en alineaments múltiples de seqüències conegudes i evolutivament properes.
Els models estadístics com ara profile-HMMs i els models de covariància d'ARN són útils en la cerca d'homologia de seqüències més llunyanes evolutivament perquè proporcionen informació estructural.[26]
Les seqüències input s'alineen amb una base de dades de seqüències d'individus relacionats però d'altres espècies. Els alineaments resultants es puntuen partint del nombre d'aminoàcids o bases que coincideixen, i el número de gaps o delecions.
Les substitucions conservades s'identifiquen mitjançant les matrius de substitució com PAM i BLOSUM. S'assumeix que els alineaments amb alta puntuació provenen de seqüències homòlogues. La conservació d'una seqüència s'infereix per la detecció de regions homòlogues en un ampli rang filogenètic.[27]
L'alineament de seqüències múltiples és útil per visualitzar regions conservades. Hi ha diversos programes com CLUSTAL que et permeten dur a terme aquests alineaments. Aquest programa et permet anotar les columnes conservades, distingint seqüències conservades (*), mutacions conservades (:), semiconservades (.)i no conservades.[29]
Els logos de seqüències també ens mostren les seqüències més conservades mitjançant una representació de les proporcions dels caràcters (alçada) en cada punt de l'alineament.[28]
Els estudis d'associació del genoma complet (en anglès, GWAS (Genome-wide association study) o WGAS (Whole genome association study)) també serveixen per trobar regions conservades al llarg de diferents espècies. L'ús d'aquests mètodes està limitat donada la complexitat computacional causada pels reordenaments, les regions repetides, i la llargada de molts genomes eucariotes.[30] Tot i això, la fiabilitat dels GWAS de bacteris de 30 o més espècies properes està augmentant.[31][32]
També hi ha altres aproximacions que utilitzen mètodes basats en tests estadístics. Aquests programes identifiquen seqüències que tenen un índex de mutacions diferent de l'esperat.
GERP (en anglès Genomic Evolutionary Rate Profiling) és un sistema de puntuació de la conservació de les seqüències genètiques al llarg de les espècies. Aquesta aproximació fa una estimació de l'índex de mutacions neutres en un conjunt d'espècies a partir d'un alineament de seqüències múltiple. Seguidament identifica les regions de les seqüències que presenten menys mutacions de les esperades. A aquestes regions se'ls assigna una puntuació d'acord amb la diferència entre l'índex de mutació observada i el de l'esperada. Un perfil alt de GERP indica que ens trobem amb una seqüència altament conservada.[33][34]
LIST (en anglès Local Identity and Shared Taxa) es basa en el supòsit que les variacions observades en espècies estretament relacionades amb l'ésser humà son més significatives a l'hora d'avaluar la conservació que aquelles variacions observades en espècies més distants. El programa utilitza la identitat en els alineaments locals de cada posició per identificar seqüències rellevants en l'alineament de seqüències múltiple. Tot seguit estima la conservació segons la distància taxonòmica d'aquestes seqüències en comparació amb l'ésser humà.[35][36]
Aminode: combina alineaments múltiples amb anàlisis filogenètics per analitzar canvis en proteïnes homòlogues. El programa ens proporciona un gràfic en el qual podem veure els índexs de mutacions locals i els canvis evolutius que comporten. Aquest mètode identifica Regions Evolutivament Constrenyides d'una proteïna, que són regions que estan sota la pressió de la selecció negativa i normalment són imprescindibles per la funció correcta d'aquesta proteïna.[37]
PhyloP i PhylopHmm incorporen anàlisis filogenètiques per comparar la distribució de probabilitats dels índexs de substitució. Això permet la detecció de mutacions accelerades i conservades. A partir d'un arbre filogenètic es calcula una distribució de probabilitats de les substitucions esperades per una columna de l'alineament de seqüències múltiple. Les relacions evolutives entre les espècies d'interès s'utilitzen per calcular la significança de qualsevol substitució (una substitució entre dues espècies properes és menys probable que es doni, i per tant és més significant). Per detectar les seqüències més conservades, es calcula la distribució de probabilitats per un subconjunt de l'alineament múltiple de seqüències, i es compara amb la distribució esperada. Per valorar la significança estadística es realitza un test com el test de raó de versemblança o l'score test. Els valors de p (p-value en anglès) obtinguts de comparar les dues distribucions de probabilitat s'utilitzen per identificar les regions conservades. PhyloHMM utilitza el model ocult de Màrkov per generar les distribucions de probabilitat. El programari PhyloP compara les distribucions de probabilitats utilitzant el test de raó de versemblança, el score test, o el sistema de puntuació GERP-like score (en anglès Genomic Evolutionary Rate Profiling) [38][39][40]
Els elements ultra conservats o UCEs (en anglès) són seqüències que són molt similars o idèntiques entre múltiples categories taxonòmiques. Es van descobrir per primer cop en vertebrats,[41] i posteriorment han estat identificats en tàxons que difereixen entre ells.[42]
Tot i que es desconeix bona part de l'origen i la funció dels UCEs,[43] aquests han estat utilitzats per investigar divergències en amniotes,[44]insectes,[45] i entre animals i plantes[46]
Els gens més altament conservats són aquells que podem trobar en tots els organismes. Aquests consisteixen bàsicament en els ARNnc i les proteïnes que es requereixen a l'hora de realitzar la transcripció i la traducció, i s'assumeix que han estat conservats des de l'últim avantpassat comú universal.[47]
Entre els gens o les famílies de gens que s'han identificat com a universalment conservats, trobem els factors d'elongació termoinestables d'unió a GTP, la metionina aminopeptidasa 2, la serina hidroximetiltransferasa, i els transportadors d'ATP (Transportadors ABC).[48] Altres elements universalment conservats són els components de la maquinària de transcripció, com ara l'ARN polimerasa i les helicases, i els components de la traducció, com l'ARN ribosòmic, l'ARN de transferència i les proteïnes ribosomals.[49]
Els conjunts de seqüències conservades s'utilitzen per generar arbres filogenètics, ja que s'assumeix que organismes amb seqüències similars són filogenèticament propers.[50]
La tria de les seqüències pot canviar en funció de l'objectiu taxonòmic de l'estudi. Per exemple, gens altament conservats com el 16S ARN i altres seqüències ribosòmiques, són útils per reconstruir relacions filogenètiques llunyanes i identificar els fílums de bacteris en estudis metagenòmics.[51][52]Les seqüències que es conserven en un clade però pateixen algunes mutacions, com els gens constitutius, es poden utilitzar per estudiar les relacions entre espècies.[53][54][55] L'espaiador transcrit intern, que és necessari per espaiar els gens del rRNA conservats però alhora pateix una evolució ràpida, s'utilitza per classificar els fongs i les soques de bacteris que també evolucionen ràpidament.[56][57][58][59]
Com normalment les seqüències conservades tenen funcions biològiques importants, poden ser útils per identificar causes de malalties genètiques. Molts desordres metabòlics congènits i malalties per dipòsit liposomal són el resultat de canvis individuals en gens conservats, donant lloc a enzims defectuosos que són la causa dels símptomes de la malaltia. Les malalties genètiques es poden preveure amb la identificació de seqüències conservades entre persones i organismes de laboratori com els ratolins[60] o les mosques del vinagre,[61] i amb l'estudi dels efectes d'aquests organismes genoanul·lats.[62] Els estudis d'associació de tot el genoma (GWAS) també poden ser útils per identificar variacions en seqüències conservades que es puguin associar a un estat de salut o malaltia. Per exemple en investigacions sobre l'Alzehimer s'han trobat més de dues dotzenes de nous locis potencialment relacionats amb aquesta malaltia. Encara que falten altres investigacions amb una mostra més gran de pacients es pot confirmar que aquest tipus d'estudis serveixen per trobar nous gens que permetin entendre millor la malaltia.[63][64]
Identificar seqüències conservades pot servir per descobrir i preveure seqüències funcionals com ara gens.[65] Les seqüències conservades amb una funció coneguda, com els dominis proteics, poden utilitzar-se per preveure la funció d'una seqüència. Les bases de dades dels dominis proteics conservats com Pfam i Conserved Domain Database poden servir per anotar dominis funcionals en gens que es preveu que són codificants per proteïnes.[66]
↑Faircloth, Brant C.; Branstetter, Michael G.; White, Noor D.; Brady, Seán G. «[http://dx.doi.org/10.1111/1755-0998.12328 Target enrichment of ultraconserved elements from arthropods provides a genomic perspective on relationships among
H
ymenoptera]». Molecular Ecology Resources, 15, 3, 29-09-2014, pàg. 489–501. DOI: 10.1111/1755-0998.12328. ISSN: 1755-098X.