Pfam

Pfam é unha base de datos de familias de proteínas na que se inclúen as súas anotacións e aliñamentos de secuencias múltiples xerados usando modelos de Markov ocultos.[1][2][3]

Características

[editar | editar a fonte]

Para cada familia proteica incluída en Pfam pódese:

  • Buscar aliñamentos múltiples
  • Ver arquitecturas de dominios proteicos
  • Examinar a distribución das especies
  • Seguir ligazóns a outras bases de datos
  • Ver estruturas de proteínas coñecidas

As descricións das familias Pfam poden ser consultadas polo público xeral usando Wikipedia.

Case o 80% das secuencias de proteínas contidas na UniProt Knowledgebase teñen polo menos unha correspondencia en Pfam.[4] Esta cifra denomínase cobertura de secuencias.

A base de dartos Pfam contén información sobre dominios e familias proteicas. Pfam-A é a porción revisada manualmente da base de datos que contén unhas 16.000 entradas. Para cada entrada almacénase un aliñamento de secuencias de proteínas e un modelo de Markov oculto. Estes modelos de Markov ocultos poden utilizarse para procurar información nas bases de datos de secuencias co paquete HMMER escrito por Sean Eddy.

Como as entradas en Pfam-A non cobren todas as proteínas coñecidas, proporcionouse ademais un suplemento xerado automaticamente chamado Pfam-B, o cal contiña un gran número de pequenas familias derivadas de agrupamentos producidos por un algoritmo chamado ADDA.[5] Aínda que son dunha calidade menor, as familias Pfam-B podían ser útiles cando non se encontraban familias nunha busca en Pfam-A. Non obstante, Pfam-B deixou de ofrecerse na versión 28.0.[6]

A base de datos iPfam[7] almacena a descrición de dominios de Pfam. Investiga se diferentes proteínas que son descritas xuntas na base de datos de estrutura de proteínas PDB están o suficientemente próximas como para potencialmente interaccionar.

A versión actual de Pfam é "Pfam 28.0" (maio de 2015; 16.230 familias).[8]

  1. Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "The Pfam protein families database". Nucleic Acids Res 36 (Database issue): D281–8. PMC 2238907. PMID 18039703. doi:10.1093/nar/gkm960. 
  2. Finn, R. D.; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, S. R.; Sonnhammer, E. L.; Bateman, A. (Jan 2006). "Pfam: clans, web tools and services" (Free full text). Nucleic Acids Research 34 (Database issue): D247–D251. ISSN 0305-1048. PMC 1347511. PMID 16381856. doi:10.1093/nar/gkj149. 
  3. Bateman, A.; Coin, L.; Durbin, R.; Finn, R. D.; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, E. L.; Studholme, D. J.; Yeats, C.; Eddy, S. R. (2004). "The Pfam protein families database". Nucleic Acids Research 32 (Database issue): 138D–1141. ISSN 0305-1048. PMC 308855. PMID 14681378. doi:10.1093/nar/gkh121. 
  4. Punta, M.; Coggill, P. C.; Eberhardt, R. Y.; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G. (2011). "The Pfam protein families database". Nucleic Acids Research 40 (D1): D290–D301. ISSN 0305-1048. PMC 3245129. PMID 22127870. doi:10.1093/nar/gkr1065. 
  5. Heger, A.; Wilton, C. A.; Sivakumar, A.; Holm, L. (Jan 2005). "ADDA: a domain database with global coverage of the protein universe" (Free full text). Nucleic Acids Research 33 (Database issue): D188–D191. ISSN 0305-1048. PMC 540050. PMID 15608174. doi:10.1093/nar/gki096. 
  6. "Pfam 28.0 release notes". Consultado o 30 June 2015. 
  7. Finn, R. D.; Marshall, M.; Bateman, A. (Feb 2005). "IPfam: visualization of protein-protein interactions in PDB at domain and amino acid resolutions" (Free full text). Bioinformatics (Oxford, England) 21 (3): 410–412. ISSN 1367-4803. PMID 15353450. doi:10.1093/bioinformatics/bti011. 
  8. "Pfam current release notes". Consultado o 30 June 2015. 

Véxase tamén

[editar | editar a fonte]

Outros artigos

[editar | editar a fonte]
  • TrEMBL: base de datos na que se realiza unha anotación de secuencia de proteínas automatizada
  • InterPro Integración de bases de datos de familias de proteínas e dominios proteicos
  • PDBfam — asignación completa de dominios Pfam a secuencias no Protein Data Bank (PDB)[1][2]

Ligazóns externas

[editar | editar a fonte]
  1. Dunbrack, Roland. "PDBfam". PDBfam. Fox Chase Cancer Center. Consultado o 9 de marzo de 2013. 
  2. Xu, Qifang; Dunbrack, Roland (2012). "Assignment of protein sequences to existing domain and family classification systems: Pfam and the PDB". Bioinformatics 28 (21): 2763–72. PMC 3476341. PMID 22942020. doi:10.1093/bioinformatics/bts533.