En bioloxía, as secuencias conservadas son secuencias similares ou idénticas que aparecen nos ácidos nucleicos (secuencias de nucleótidos do ADN e ARN), en péptidos e proteínas (secuencias de aminoácidos) ou en carbohidratos poliméricos de distintas especies (secuencias ortólogas) ou en diferentes moléculas producidas por un mesmo organismo (secuencias parálogas). No caso de que haxa conservación en distintas especies, isto indica que unha determinada secuencia puido ser mantida pola evolución a pesar dos cambios implicados na especiación. Canto máis atrás no tempo ao longo dunha árbore filoxenética apareza unha secuencia conservada, máis altamente conservada está. Como a información da secuencia é transmitida normalmente dos pais á proxenie por medio dos xenes, a presenza dunha secuencia conservada implica que existe un xene conservado.
Crese que unha mutación nunha rexión "altamente consevada" orixina unha forma de vida xeralmente non viable, ou unha forma que é eliminada pola selección natural. O que determina a conservación ou non conservación é o ambiente. Se por exemplo, un microorganismo con xenes para a resistencia a antibióticos vive en presenza de antibióticos, os xenes de resistencia estarán moi conservados. Se non vive en presenza de antibióticos, os xenes non serán conservados.
Algunhas secuencias de nucleótidos dos ácidos nucleicos ou secuencias de aminoácidos das proteínas (e indirectamente a dos xenes que as codifican) están moi conservadas. As secuencias de ADN altamente conservadas pénsase que teñen un valor funcional. Algunhas destas secuencias son non codificantes e a súa función non se coñece. As secuencias ou elementos ultraconservados (UCEs ou UCRs, do inglés ultra-conserved regions) que comparten un 100% de identidade entre humanos, ratos e ratas foron primeiramente descritas por Bejerano e colegas en 2004.[2] Un estudo recente no que se eliminaron catro secuencias de ADN non codificantes altamente conservadas en ratos obtivo ratos viables sen diferenzas fenotípicas evidentes; os autores describiron os seus descubrimentos como "inesperados".[3] Moitas rexións do ADN, incluíndo as secuencias altamente conservadas, constan de elementos de secuencias repetidas. Unha posible explicación de hipótese nula é que a eliminación dunha única secuencia repetida ou un conxunto delas podería teoricamente preservar o funcionamento fenotípico asumindo que unha desas secuencias é suficiente para manter a función e que as repeticións son superfluas para procesos esenciais da vida; pero non se especifica no artigo se as secuencias eliminadas eran secuencias repetidas. Aínda que a maioría das funcións biolóxicas das secuencias conservadas non se coñecen polo momento, hai poucos transcritos derivados de secuencias conservadas que mostren que a súa expresión está desregulada en tecidos cancerosos humanos.[4]
No caso das proteínas, ademais da conservación da secuencia poden ter unha conservación da estrutura. A conservación da estrutura non necesariamente se corresponde cunha alta conservación da secuencia. Por exemplo, o pregamento de histona está conservado entre as histonas H2A a nivel estrutural; pero a secuencia xenética que as codifica cambia entre variantes.[5]
Unha notación común para indicar o nivel de conservación de secuencia é a utilizada polos programas de aliñamento Clustal. Na figura de arriba indícase un conxunto de secuencias aliñadas, nas columnas dos residuos indícase con símbolos se están completamente conservados (*), se conteñen só mutacións conservadoras (:), mutacións semiconservadoras (.), ou mutacións non conservadoras ( ).[6]
Un tipo de secuencia altamente conservada son as chamadas illas CG (ou CpG). A metilación do ADN de células da liña xerminal pode ser utilizada para desactivar a expresión xénica. As secuencias de citosina-guanina dos xenes son potenciais sitios de metilación, e cando están metilados distorsionan a expresión regular desa porción do xene. Cando a citosina metilada (5-metilcitosina) se desamina, convértese en timina, que despois se aparea incorrectamente cunha guanina. A guanina pode despois ser substituída por adenina, fixando unha secuencia xénica alterada. Co tempo, as 5-metilcitosinas son probablemente desaminadas, o cal reduce a frecuencia de CG nas rexións metiladas do xene. Porén, algunhas rexións do xene poden ter unha alta frecuencia de secuencias CG, xa que non están sendo metiladas. Esta ausencia de metilación, que xeralmente afecta a rexións promotoras do xene, permite a expresión regular do xene. Estas rexións, xeralmente denominadas illas CG, son secuencias altamente conservadas, porque calquera alteración desa secuencia, como a metilación, é prexudicial para o organismo. Por tanto, as illas CG están baixo presión selectiva. Poden atoparse illas CG similares nos xenomas de varias especies, o que indica a conservación desas secuencias durante un longo período de tempo.
Unha puntuación GERP (GERP score, do inglés Genomic Evolutionary Rate Profiling, Perfil de Taxa Evolutiva Xenómica) mide a conservación evolutiva de secuencias xenéticas a través das especies.[7] Hai unha relación entre unha puntuación GERP de secuencias e a proporción de alelos variantes dentro desa secuencia. A medida que se incrementa a puntuación GERP dunha secuencia, a variación dentro desa secuencia faise máis rara. Unha GERP máis alta significa unha secuencia altamente conservada, na cal a alteración é nociva, polo que as variantes adversas reducirían a fitness do organismo e serían seleccionadas en contra.
As secuencias altamente conservadas son moitas veces necesarias para o funcionamento celular básico, estabilidade ou reprodución. A similitude de secuencia utilízase como evidencia de conservación estrutural e funcional, e de relacións evolutivas entre secuencias. Consecuentemente, os elementos funcionais son identificados frecuentemente buscando secuencias conservadas nun xenoma.
A conservación de secuencias codificantes de proteínas orixina a presenza de residuos de aminoácidos idénticos en rexións análogas da estrutura da proteína e, por tanto, cunha función similar. As mutacións conservadoras alteran a secuencia de aminoácidos substituíndoos por residuos quimicamente similares, polo que, a pesar do cambio, non afectan á función da proteína. Entre as secuencias máis altamente conservadas están os centros activos dos encimas e os sitios de unión dos receptores proteicos.
As secuencias non codificantes conservadas non codifican proteínas, mais adoitan a albergar elementos reguladores en cis. Suxeriuse que algunhas delecións de secuencias altamente conservadas en humanos (hCONDELs) e outros organismos son unha causa potencial de diferenzas anatómicas e comportamentais en humanos e outros mamíferos.[8][9] A secuencia promotora TATA é un exemplo de secuencia de ADN altamente conservada que se encontra na maioría dos eucariotas.
A secuencia de monosacáridos do glicosaminoglicano heparina está conservada nunha ampla gama de especies.
A investigación das secuencias xenéticas conservadas é extremadamente beneficiosa para a comunidade científica. A detección de secuencias similares en xenomas de diversas especies pode proporcionar unha útil información sobre a historia evolutiva destas especies. Ademais, o exame das secuencias conservadas pode axudar á investigación médica. Ao indentificárense alelos raros dentro das secuencias conservadas, a información pode ser compilada e utilizada para avaliar o risco de padecer enfermidades nos humanos. Os estudos de asociación en todo o xenoma (GWAS, do inglés Genome-wide association studies) comparan varios alelos no xenoma humano e as súas asociacións co risco de ter unha determinada doenza ou padecemento.