La secuencia Kozak es una secuencia de nucleótidos que funciona como el sitio de iniciación de la traducción de proteínas en la mayoría de las transcripciones de ARNm eucariota. Considerada como la secuencia óptima para iniciar la traducción en eucariotas, la secuencia es un aspecto integral de la regulación de proteínas y la salud celular general, además de tener implicaciones en las enfermedades humanas. Asegura que una proteína se traduzca correctamente del mensaje genético, mediando el ensamblaje de ribosomas y el inicio de la traducción. Un sitio de inicio incorrecto puede resultar en proteínas no funcionales. A medida que se ha vuelto más estudiado, han surgido expansiones de la secuencia de nucleótidos, bases de importancia y excepciones notables. La secuencia lleva el nombre de la científica que la descubrió, Marilyn Kozak. Kozak descubrió la secuencia a través de un análisis detallado de secuencias genómicas de ADN.[1][2]
La secuencia de Kozak no debe confundirse con el sitio de unión al ribosoma (RBS), que es la caperuza 5' de un ARN mensajero o un sitio interno de entrada al ribosoma (IRES).[3]
La secuencia de Kozak se determinó mediante la secuenciación de 699 ARNm de vertebrados y se verificó mediante mutagénesis dirigida al sitio. Aunque inicialmente se limitó a un subconjunto de vertebrados (es decir, humanos, vacas, gatos, perros, gallinas, conejillos de Indias, hámsteres, ratones, cerdos, conejos, ovejas y armadillos), estudios posteriores confirmaron su conservación en eucariotas en general. La secuencia se definió como 5'- -3' (la notación de nucleobase de la IUPAC se resume aquí) donde: (gcc)gccRccAUGG.[4][5]
El AUG es el codón de iniciación que codifica un aminoácido metionina en el extremo N-terminal de la proteína. (En raras ocasiones, GUG se usa como codón de iniciación, pero la metionina sigue siendo el primer aminoácido, ya que es el ARN-met ten el complejo de iniciación que se une al ARNm). La variación dentro de la secuencia Kozak altera la "fuerza" de la misma. La fuerza de la secuencia Kozak se refiere a la favorabilidad de la iniciación, lo que afecta la cantidad de proteína que se sintetiza a partir de un ARNm dado. La AEl nucleótido del "AUG" se delinea como +1 en las secuencias de ARNm con la base anterior etiquetada como -1. Para un consenso 'fuerte', los nucleótidos en las posiciones +4 (es decir, G en el consenso) y −3 (es decir, A o G en el consenso) en relación con el nucleótido +1 deben coincidir con el consenso (no hay posición 0). Un consenso 'adecuado' tiene solo 1 de estos sitios, mientras que un consenso 'débil' no tiene ninguno. Los cc en −1 y −2 no están tan conservados, pero contribuyen a la fuerza general. También hay evidencia de que una G en la posición -6 es importante en el inicio de la traducción. Si bien las posiciones +4 y −3 en la secuencia de Kozak tienen la mayor importancia relativa en el establecimiento de un contexto de iniciación favorable, se encontró que un motivo CC o AA en −2 y −1 es importante en el inicio de la traducción. Se descubrió que la biosíntesis proteica se ve muy afectada por la composición de la secuencia de Kozak, y el enriquecimiento de adenina da como resultado niveles más altos de expresión génica. Una secuencia subóptima de Kozak puede permitir que PIC explore más allá del primer sitio AUG y comience la iniciación en un codón AUG aguas abajo.[6][7][8]
El ribosoma se ensambla en el codón de inicio (AUG), ubicado dentro de la secuencia de Kozak. Antes del inicio de la traducción, el complejo de preiniciación (PIC) realiza un escaneo. El PIC consiste en el 40S (subunidad ribosomal pequeña) unido al complejo ternario, eIF2 -GTP-inciadorMet ARNt (TC) para formar el ribosoma 43S. Con la ayuda de varios otros factores de iniciación (eIF1 y eIF1A, eIF5, eIF3, proteína de unión a polA), se recluta en el extremo 5 'del ARNm. El ARNm eucariota está cubierto con una 7-metilguanosina (m7G) nucleótido que puede ayudar a reclutar el PIC para el ARNm e iniciar la exploración. Este reclutamiento a la caperuza 5' m7G está respaldado por la incapacidad de los ribosomas eucariotas para traducir el ARNm circular, que no tiene un caperuza 5'. Una vez que el PIC se une al ARNm, escanea hasta que alcanza el primer codón AUG en una secuencia de Kozak. Este escaneo se conoce como el mecanismo de escaneo de iniciación.[9][10][11]
El mecanismo de escaneo de iniciación comienza cuando el PIC se une al extremo 5 'del ARNm. El escaneo es estimulado por las proteínas Dhx29 y Ddx3/Ded1 y eIF4. Dhx29 y Ddx3/Ded1 son helicasas de caja muerta que ayudan a desenrollar cualquier estructura secundaria de ARNm que podría dificultar el escaneo. El escaneo de un ARNm continúa hasta que se alcanza el primer codón AUG en el ARNm, esto se conoce como la "primera regla AUG". Si bien existen excepciones a la "Primera regla AUG", la mayoría de las excepciones tienen lugar en un segundo codón AUG que se encuentra de 3 a 5 nucleótidos aguas abajo del primer AUG, o dentro de los 10 nucleótidos desde la caperuza 5 'del ARNm. En el codón AUG, un anticodón de ARNt de metionina es reconocido por el codón de ARNm. Tras el emparejamiento de bases con el codón de inicio, el eIF5 en el PIC ayuda a hidrolizar un trifosfato de guanosina (GTP) unido al eIF2. Esto conduce a un reordenamiento estructural que obliga al PIC a unirse a la subunidad ribosómica grande (60S) y formar el complejo ribosómico (80S). Una vez que se forma el complejo de ribosomas 80S, comienza la fase de elongación de la traducción.[12][13][14][15]
El primer codón de inicio más cercano a la caperuza 5 'de la hebra no siempre se reconoce si no está contenido en una secuencia similar a Kozak. Lmx1b es un ejemplo de un gen con una secuencia de consenso de Kozak débil. Para el inicio de la traducción desde dicho sitio, se requieren otras características en la secuencia del ARNm para que el ribosoma reconozca el codón de inicio. Pueden ocurrir excepciones a la primera regla AUG si no está contenida en una secuencia similar a Kozak. Esto se denomina escaneo con fugas y podría ser una forma potencial de controlar la traducción a través del inicio. Para el inicio de la traducción desde dicho sitio, se requieren otras características en la secuencia del ARNm para que el ribosoma reconozca el codón de inicio.[16][17]
Se cree que el PIC está estancado en la secuencia de Kozak por interacciones entre eIF2 y los nucleótidos -3 y +4 en la posición de Kozak. Este estancamiento permite que el codón de inicio y el anticodón correspondiente tengan tiempo para formar el enlace de hidrógeno correcto. La secuencia de consenso de Kozak es tan común que la similitud de la secuencia alrededor del codón AUG con la secuencia de Kozak se usa como criterio para encontrar codones de inicio en eucariotas.[18]
La científica Marilyn Kozak demostró, a través del estudio sistemático de mutaciones puntuales, que cualquier mutación en una secuencia de consenso fuerte en la posición -3 o en la posición +4 resultó en un inicio de la traducción muy deteriorado tanto in vitro como in vivo.[19]
La investigación ha demostrado que una mutación de G—>C en la posición −6 del gen de la globina β (β+45; humano) altera la función del fenotipo hematológico y biosintético. Esta fue la primera mutación encontrada en la secuencia de Kozak y mostró una disminución del 30% en la eficiencia de traducción. Se encontró en una familia del sureste de Italia que padecía talasemia intermedia. La displasia campomélica, que es un trastorno que provoca problemas esqueléticos, es el resultado de una mutación aguas arriba en la secuencia de Kozak.[20]
Se hicieron observaciones similares con respecto a las mutaciones en la posición -5 desde el codón de inicio, AUG. La citosina en esta posición, a diferencia de la timina, mostró una traducción más eficiente y una mayor expresión del receptor de adhesión plaquetaria, la glicoproteína Ibα en humanos.[21]
Las mutaciones en la secuencia de Kozak también pueden tener efectos drásticos sobre la salud humana, en particular, la enfermedad cardíaca con el gen GATA4. El gen GATA4 es responsable de la expresión génica en una amplia variedad de tejidos, incluido el corazón. Cuando la guanosina en la posición -6 en la secuencia Kozak de GATA4 se muta a una citosina, se produce una reducción en los niveles de proteína GATA4, lo que provoca una comunicación interauricular en el corazón.[22][23]
La capacidad de la secuencia de Kozak para iniciar la traducción puede generar nuevos codones de iniciación en la región típicamente no traducida de la caperuza 5' (5' UTR) del transcrito de ARNm. Cuando se observó una mutación de G a A en esta región, resultó en una mutación fuera de marco y, por lo tanto, en una proteína. Esta proteína mutada produce displasia campomélica. La displasia campomélica es un trastorno del desarrollo que produce malformaciones esqueléticas.[24]