A base de datos RefSeq (Reference Sequence, Secuencia de referencia)[1] é unha colección de acceso aberto, anotada e revisada de secuencias de nucleótidos (de ADN e ARN) dispoñibles publicamente e dos seus produtos proteicos. Esta base de datos está sendo desenvolvida polo NCBI (National Center for Biotechnology Information dos Estados Unidos), e, a diferenza de GenBank, proporciona soamente un só rexistro para cada molécula biolóxica natural (é dicir, ADN, ARN, ou proteína) para organismos que van desde os virus ás bacterias e os eucariota.
Para cada organismo modelo, RefSeq pretende proporcionar rexistros separados e ligados do seu ADN xenómico, os transcritos dos xenes e as proteínas que se orixinan a partir deses transcritos. RefSeq está limitada a organismos para os cales hai datos suficientes (había datos de máis de 66.000 organismos especificamente “nomeados" en setembro de 2011),[2] mentres que GenBank inclúe secuencias de calquera organismo do que se envíe información (aproximadamente 250.000 organismos especificamente nomeados).
Categoría | Descrición |
---|---|
NC | Moléculas xenómicas completas |
NG | Rexión xenómica incompleta |
NM | ARNm |
NR | ARNnc |
NP | Proteína |
XM | modelo de ARNm predito |
XR | modelo de ARNnc predito |
XP | modelo de proteína predito (secuencias eucariotas) |
WP | modelo de proteína predito (secuencias procariotas) |
Para mís detalles e máis categorías ver Táboa 1 en Capítulo 18 do libro The Reference Sequence (RefSeq) Database.