Rfam é unha base de datos que contén información sobre familias de ARN non codificante (ncRNA) e outros elementos de ARN estruturados. É unha base de datos anotada de acceso aberto desenvolvido orixinalmente no Wellcome Trust Sanger Institute en colaboración con Janelia Farm,[1][2][3][4] e albergado actualmente no Instituto Europeo de Bioinformática.[5] Rfam está deseñado para ser similar á base de datos Pfam de familias proteicas anotadas.
A diferenza das proteínas, os ARN non codificantes adoitan ter unha estrutura secundaria semellante sen compartir unha secuencia primaria moi similar. Rfam divide os ARN non codificantes en familias baseándose na evolución a partir dun antepasado común. Realizar aliñamentos de secuencias múltiples destas familias pode proporcionar coñecementos da súa estrutura e función, de xeito similar ao que ocorre coas familias de proteínas. Estes aliñamentos de secuencias múltiples máis útiles ao engadirse información da estrutura secundaria. Os investigadores de Rfam tamén contribúen ao Wikiproxecto ARN de Wikipedia.[4][6]
A base de datos Rfam pode utilizarse para diversas funcións. Para cada familia de ARN non codificante, a interface permite aos usuarios ver e descargar aliñamentos de secuencias múltiples, ler anotacións, e examinar a distribución nas especies dos membros da familia. Hai tamén ligazóns a referencias da literatura científica e outras bases de datos de ARN. A Rfam tamén proporciona ligazóns a Wikipedia para que as entradas poidan ser creadas ou editadas polos usuarios.
A interface da páxina web Rfam permite que os usuarios busquen os ARN non codificantes por palabra clave, nome da familia ou xenoma, así como buscar pola secuencia do ARN non codificante ou número de acceso de EMBL. [1] A información da base de datos tamén se pode descargar, instalar e usar utilizando o paquete de software INFERNAL.[7][8][9] O paquete INFERNAL pode tamén utilizarse para anotar secuencias (includíndo xenomas completos) de homólogos de ARN non codificsntes coñecidos.
Na base de datos a información da estrutura secundaria dos ARN e da secuencia primaria, representada polo aliñamento de secuencias múltiples, está combinado en modelos estatísticos chamados gramática libre de contexto estocástica de perfís (SCFG), tamén coñecidos como modelos de covarianza. Estes son análogos aos modelos de Markov ocultos usados para a anotación de familias proteicas na base de datos Pfam.[1] Cada familia na base de datos está representada por dous aliñamentos de secuencias mñultiples en formato Stockholm e un SCFG.
O primeiro aliñamento de secuencias múltiples é o aliñamento "semente". É un aliñamento revisado á man que contén membros representativos da familia de ARN non codificantes e é anotado con información estrutural. Este aliñamento semente é utilizado para crear o SCFG, que se utiliza co software INFERNAL de Rfam para identificar membros adicionais da familia e engadilos ao aliñamento. Escóllese un valor limiar específico de familia para evitar falsos positivos.
Ata a versión 12, Rfam usaba un paso de filtrado BLAST inicial porque os perfís SCFG eran demasiado caros computacionalmente. Porén, as últimas versións de INFERNAL son xa suficientemente rápidas,[10] polo que o paso BLAST xa non é necesario.[11]
O segundo aliñamento de secuencias múltiples é o aliñamento “completo”, que se crea como resultado dunha investigación usando o modelo de covarianza contra a base de datos de secuencias. Todos os homólogos detectados son aliñados ao modelo, dando o aliñamento completo producido automaticamente.
A versión 1.0 de Rfam apareceu en 2003 e contiña 25 familias de ARN non codificante e uns 50 000 xenes de ARN non codificante anotados. En 2005, lanzouse a versión 6.1 que contiña 379 familias e uns 280 000 xenes anotados. En agosto de 2012, a versión 11.0 contiña 2 208 familias de ARN, mentres que a versión actual (13.0) comprende 2 686 familias anotadas.