Seqüència de nucleòtids

Cromatograma d'una seqüenciació automatitzada mostrant part d'una seqüència d'ADN

Una seqüència de nucleòtids o seqüència genètica és una successió de lletres que representen part de l'estructura primària d'una molècula real o hipotètica d'àcid nucleic (ADN o ARN). Les possibles lletres són A, C, G, T i U, que simbolitzen les cinc subunitats de nucleòtids (adenina, citosina, guanina, timina i uracil), que són bases covalentment lligades a cadenes de fòsfor. En el típic cas, les seqüències es presenten enganxades les unes a les altres, sense espais, com en la seqüència AAAGTCTGAC, anant de 5' a 3' d'esquerra a dreta.

Una successió de qualsevol nombre de nucleòtids major a quatre és possible de dir-se una seqüència. En relació amb la seva funció biològica, que pot dependre del context, una seqüència pot tenir sentit o antisentit, i ser tant codificant com no codificant. Les seqüències d'ADN poden contenir "ADN no codificant".

Les seqüències poden derivar-se de material biològic de descartament mitjançant el procés de seqüenciació d'ADN.

En alguns casos especials, les lletres seguides de A, T, C i G es presenten en una seqüència. Aquestes lletres representen ambigüitat. De totes les molècules mostres, hi ha més d'una classe de nucleòtids en aquesta posició. Les regles de la Unió Internacional de Química Pura i Aplicada (IUPAC) són les que segueixen:

A = adenina
C = citosina
G = guanina
T = timina
U = uracil
R = G A (purina)
Y = T C (pirimidina)
K = G T (keto)
M = A C (amino)
S = G C (enllaços forts)
W = A T (enllaços dèbils)
B = G T C (tots excepte A)
D = G A T (tots excepte C)
H = A C T (tots excepte G)
V = G C A (tots excepte T)
N = A G C T (qualsevol)

Complexitat lingüística de seqüència

[modifica]

La complexitat lingüística de seqüència és una mesura de la 'riquesa del vocabulari' d'un “text genètic” dins seqüències gèniques.[1] Quan una seqüència de nucleòtids és escrita en format text utilitzant un alfabet de quatre lletres, la repetitivitat del text, és a dir, la repetició del seus N-caràcters (paraules), pot ser calculat i serveix com a mesura de la complexitat de seqüència. Per això, com més complexa siga una seqüència d'ADN, més ric serà el seu vocabulari de nucleòtids, mentre que seqüències repetitives solen tenir complexitats més baixes. Posteriorment, s'ha millorat l'algoritme original descrit en Trifonov (1990), sense canviar l'essència de l'aproximació de complexitat lingüística.[1][2][3][4]

Referències

[modifica]
  1. 1,0 1,1 Edward N. Trifonov. «Making sense of the human genome». A: Structure and Methods, Vol. 1. Albany (Nova York): Adenine Press, 1990, p. 69–77. 
  2. Gabrielian, A. «Sequence complexity and DNA curvature». Computers & Chemistry, 23, 3–4, 1999, pàg. 263–201. DOI: 10.1016/S0097-8485(99)00007-8.
  3. Orlov, Y. L.; Potapov, V. N. «Complexity: An internet resource for analysis of DNA sequence complexity». Nucleic Acids Research, 32, Web Server issue, 2004, pàg. W628–W633. DOI: 10.1093/nar/gkh466. PMC: 441604. PMID: 15215465.
  4. Janson, S.; Lonardi, S.; Szpankowski, W. «On average sequence complexity». Theoretical Computer Science, 326, 2004, pàg. 213. DOI: 10.1016/j.tcs.2004.06.023.

Enllaços externs

[modifica]