La bioinformàtica, segons una de les seves definicions més senzilles, és l'aplicació de tecnologia d'ordinadors a la gestió i anàlisi de dades biològiques. [1] Els termes bioinformàtica, biologia computacional i, de vegades, biocomputació, utilitzats en moltes situacions com a sinònims,[2][3] fan referència a camps d'estudis interdisciplinaris molt vinculats que requereixen l'ús o el desenvolupament de diferents tècniques estudiades universitàriament a la enginyeria informàtica com a ciència aplicada de la disciplina informàtica.[4] Entre aquestes poden destarcar-se les següents: matemàtica aplicada,[5]estadística,[6] ciències de la computació,[7] intel·ligència artificial,[8] química [9] i bioquímica [10] amb les quals l'enginyer iInformàtic soluciona problemes en analitzar dades, o simular sistema sobre mecanismes, tots ells d'índole biològica, i usualment (però no de forma exclusiva) al nivell molecular.[11] El nucli principal d'aquestes tècniques es troba en la utilització de recursos computacionals per a solucionar o investigar problemes sobre escales de tal magnitud que sobrepassen el discerniment humà. La investigació en biologia computacional se solapa sovint amb la biologia de sistemes.[12]
Els principals esforços d'investigació en aquests camps inclouen l'alineament de seqüències, la predicció de gens, muntatge del genoma, alineament estructural de proteïnes, predicció d'estructura de proteïnes, predicció de la expressió gènica, interaccions proteïna-proteïna, i modelatge de l'evolució.[13]
Una constant en projectes de bioinformàtica i biologia computacional és l'ús d'eines matemàtiques per extreure informació útil de dades obtingudes per tècniques biològiques d'alta productivitat, com la seqüenciació del genoma. En particular, el muntatge o acoblament de seqüències genòmiques d'alta qualitat des de fragments obtinguts després de la seqüenciació de l'ADN a gran escala és una àrea d'alt interès. [13] [14] Altres objectius són l'estudi de la regulació de l'expressió gènica per interpretar perfils d'expressió gènica utilitzant dades de xips d'ADN o espectrometria de masses.[15]
Els termes bioinformàtica, biologia computacional i biocomputació són utilitzats sovint com a sinònims, i apareixen sovint en la literatura bàsica de forma indiferenciada en els seus usos comuns. No obstant això, hi ha conformades àrees d'aplicació pròpies de cada terme. Els Instituts Nacionals de la Salut dels Estats Units (NIH, de l'anglès National Institutes of Health), per exemple, tot i reconèixer prèviament que cap definició podria eliminar completament el solapament entre activitats de les diferents tècniques, defineix explícitament els termes bioinformàtica i biologia computacional: [16]
D'aquesta manera, la bioinformàtica tindria més a veure amb la informació, mentre que la biologia computacional ho faria amb les hipòtesis. D'altra banda, el terme biocomputació sol emmarcar-se en les actuals investigacions amb biocomputador si, per exemple, T. Kaminuma el defineix així: «Biocomputació és la construcció i ús d'ordinadors que contenen components biològics o funcionen com organismes vius.»[17]
A part de les definicions formals d'organismes o institucions de referència, els manuals d'aquesta matèria aporten les seves pròpies definicions operatives, vinculades en major o menor mesura amb les ja vistes. Com a exemple, David W. Mount, en un difós text sobre bioinformàtica,[18] precisa que:
« | ... la bioinformàtica se centra més en el desenvolupament d'eines pràctiques per a la gestió de dades i l'anàlisi (per exemple, la presentació d'informació genòmica i anàlisi seqüencial), però amb menys èmfasi en l'eficiència i en la precisió. | » |
D'altra banda, i segons el mateix autor:
« | ... la biologia computacional generalment es relaciona amb el desenvolupament de algoritmes nous i eficients, que es pot demostrar funcionen sobre un problema difícil, com com el alineament múltiple de seqüències o el muntatge (o ensamblat) de fragments de genoma. | » |
Finalment, es troba de vegades una categorització explícita d'aquests conceptes segons la qual la bioinformàtica és una subcategoria de la biologia computacional. Per exemple, la biòloga Cynthia gibas afirma:[19]
« | La bioinformàtica és la ciència de l'ús de la informació per entendre la biologia. (...) Parlant estrictament, la bioinformàtica és un subconjunt del camp més gran de la biologia computacional, (sent aquesta última) l'aplicació de tècniques analítiques quantitatives en el modelatge de sistemes biològics. | » |
Tanmateix, i fent referència al seu propi text ( Developing Bioinformatics Computer Skills, desenvolupament d'habilitats computacionals per bioinformàtica), de seguida passa a aclarir que:
« | ... passarem de bioinformàtica a biologia computacional i viceversa. Les distincions entre les dues no són importants per al nostre propòsit aquí. | » |
En moltes ocasions, per tant, els termes seran intercanviables i, excepte en contextos de certa especialització, el significat últim es mantindrà clar utilitzant qualsevol d'ells.
A més dels fets rellevants directament relacionats amb el desenvolupament de la bioinformàtica, s'esmenten aquí algunes fites científiques i tecnològiques per posar en un context adequat aquest desenvolupament.[20] La història de la bioinformàtica comença en la dècada de 1950, en què James Watson i Francis Crick proposen l'estructura de doble hèlix de l'ADN (1953),[21] Frederic Sanger seqüència la primera proteïna (insulina bovina) (1955),[22] i Jack Kilby construeix el primer circuit integrat per en els laboratoris de Texas Instruments (1958).[23]
En la dècada de 1960, Linus Pauling elabora la seva teoria sobre evolució molecular (1962),[24] i Margaret Dayhoff, una de les pioneres de la bioinformàtica, publica el primer dels Atles of Protein Sequences (1965), que tindrà continuïtat en anys posteriors, es convertirà en una obra bàsica en el desenvolupament estadístic, alguns anys més tard, de les matrius de substitució PAM, i serà precursor de les actuals bases de dades de proteïnes.[25] En l'àrea de la tecnologia de computadors, es presenten en l'ARPA ( Advanced Research Projects Agency, agència de projectes d'investigació avançats) els protocols de commutació de paquets de dades sobre xarxes d'ordinadors (1968), que permetran enllaçar poc després diversos ordinadors de diferents universitats als EUA. Havia nascut ARPANET (1969), embrió del que posteriorment serà Internet.[26]
El 1970 es publica l'algorisme de Needleman-Wunsch per a alineament de seqüències; [27] s'estableix el Brookhaven Protein Data Bank (1971),[28] s'obté la primera molècula de ADN recombinant (Paul Berg, 1972),[29] E. M. Southern desenvolupa la tècnica Southern blot de localització de seqüències específiques d'ADN (1976),[30] comença la seqüenciació d'ADN i el desenvolupament de programari per a analitzar (F. Sanger, programari de R. Staden, 1977),[31][32] i es publica el 1978 la primera seqüència de gens completa d'un organisme, el fag Φ-X174 (5386 parells de bases que codifiquen nou proteïnes).[33] En àmbits tecnològics vinculats, en aquests anys neix el correu electrònic (Ray Tomlinson, BBN, 1971),[34] Robert Metcalfe desenvolupa Ethernet (protocol de comunicacions que facilitarà la interconnexió d'ordinadors, principalment a xarxes d'àmbit local) (1973),[35] i Vinton Cerf i Robert Kahn desenvolupen el protocol TCP (Transmission Control Protocol, protocol de control de transmissió) (1974), un dels protocols bàsics d'Internet.[36]
En la dècada de 1980 es produeixen destacats avenços en diverses àrees.
Quatre anys després de la seqüenciació del fag Φ-X174, el 1982 Sanger aconsegueix la seqüenciació del genoma del fag λ (fag lambda) utilitzant una nova tècnica, la seqüenciació shotgun (seqüenciació per perdigonada), desenvolupada per ell mateix.[37] Entre 1981 i 1982 K. Wüthrich publica el mètode d'utilització de la RMN (ressonància magnètica nNuclear) per determinar estructures de proteïnes.[38] Ford Doolittle treballa amb el concepte de seqüència motiu (similituds supervivents, segons les anomena en el resum del seu article) el 1981.[39] El 1983, Kary Mullis descobreix la tècnica de la reacció en cadena de la polimerasa (PCR, de l'anglès polymerase chain reaction) que permet obtenir moltes còpies d'un fragment d'ADN específic, el que en facilita l'anàlisi.[40] El 1987, Sr T. Burke et al. descriuen l'ús de cromosomes artificials de llevat (YAC, Yeast Artificial Chromosome ),[41] i Kulesh et al. senten les bases dels xips d'ADN.[42]
Pel que fa al desenvolupament d'algorismes, mètodes i programes, apareixen l'algorisme de Smith-Waterman (1981),[43] l'algorisme de recerca en bases de dades de seqüències (Wilbur-Lipman, 1983),[44] FASTP/FASTN (recerca ràpida de similituds entre seqüències, 1985),[45] l'algorisme FASTA per comparació de seqüències (Pearson i Lipman, 1988),[46] i comencen a utilitzar-se models ocults de Markov per analitzar patrons i composició de les seqüències (Churchill, 1989),[47] el que permetrà més endavant localitzar gens [48] i predir estructures proteiques.[49] També en aquesta dècada apareixen importants bases de dades biològiques (GenBank el 1982, Swiss-Prot el 1986),[50][51] xarxes que les interconnecten (EMBnet el 1988),[52] i es potencien o es creen diferents organismes i institucions (EMBL es constitueix el 1974 però es desenvolupa durant la dècada de 1980, NCBI el 1988).[53][54] Es comença a estudiar la viabilitat de la Human Genome Initiative (First Santa Fe Conference, 1985), que el Departament d'Energia del Govern dels EUA anunciarà un any després i posarà en marxa projectes pilot per desenvolupar recursos i tecnologies crítiques. El 1987 els NIH comencen a aportar fons a projectes genoma, mentre que el 1988 arrenca la Human Genome Initiative, més coneguda finalment com a Projecte Genoma Humà (Human Genome Project).[55][56]
L'any 1983 veurà l'aparició de l'estàndard disc compacte (CD) en la seva versió per a ser llegit per un ordinador (Yellow Book ).[57] El 1984. Jon Postel i Paul Mockapetris desenvolupen el sistema de noms de domini (DNS, de l'anglès domain name system) necessari per a un adreçament correcte i àgil a Internet.[58] El 1987 Larry Wall desenvolupa el llenguatge de programació PERL, d'ampli ús posterior en bioinformàtica, [59] i a finals de la dècada sorgeixen les primeres grans empreses privades amb activitats vinculades al genoma, proteïnes, bioquímica, etc. (Genetics Computer Group - GCG, Oxford Molecular Group, Ltd), i que, en general, experimentaran importants transformacions anys més tard.[60]
El 1991 comença la seqüenciació amb EST ( Expressed Sequence Tags, marcatge de seqüències expressades); [61] l'any següent és publicat el mapa de lligament genètic (en baixa resolució) del genoma humà complet; [62] el 1995 s'aconsegueix seqüenciar completament els primers genomes de bacteris ( Haemophilus influenzae, Mycoplasma genitalium, de 1,8 milions de parells de bases-Mbps-i 0,58 Mbps, respectivament); [63][64] el 1996, i en diferents passos (per cromosoma), es fa el mateix amb el primer genoma eucariota, el del llevat ( Saccharomyces cerevisiae, amb 12 Mbp),[65] i el 1997 amb el genoma d'Escherichia coli (4,7 Mbp),[66] el 1998 amb el primer genoma d'un organisme multicel·lular (97 MBP del Caenorhabditis elegans ),[67] per acabar la dècada amb el primer cromosoma humà (el 22) completament seqüenciat el 1999 (33,4 Mbp).[68]
El 1990 es desenvolupa la recerca ràpida de similituds entre seqüències amb BLAST; [69] base de dades d'empremtes de proteïnes PRINTS, de Attwood i Beck (1994); [70] ClustalW, orientat a l'alineament múltiple de seqüències, el 1994,[71] i PSI-BLAST el 1997; [72] a finals de la dècada es desenvolupa T-Coffee, que es publica el 2000.[73] Pel que fa a activitats institucionals i nous organismes, el 1990, el DoE i els NIH presenten al Congrés dels EUA un pla d'esforços conjunts al Projecte Genoma Humà per a cinc anys; [74] es creen el Sanger Centre (Hinxton, UK, 1993; ara Wellcome Sanger Institute ) i el European Bioinformatics Institute (EBI, Hinxton, UK, 1992-1995).[75][76]
Tim Berners-Lee inventa la World Wide Web (1990) mitjançant aplicació de protocols de xarxa que exploten les característiques del hipertext; [77] el 1991 apareixen els protocols definitius d'Internet (CERN) [78] i la primera versió del sistema operatiu Linux,[79] molt utilitzat posteriorment en aplicacions científiques. El 1998 Craig Venter funda Celera, companyia que perfeccionarà la seqüenciació per perdigonada de F. Sanger i analitzarà els resultats amb programari propi.[80]
En la primera dècada del segle xxi estan culminant múltiples projectes de seqüenciació de genomes de diferents organismes: el 2000 es publiquen, entre d'altres, el genoma de Arabidopsis thaliana (100 Mb) [81] i el de Drosophila melanogaster (180 MBP).[82] Després d'un esborrany operatiu de la seqüència d'ADN del genoma humà del any 2000,[83] el 2001 apareix publicat el genoma humà (3 GBP).[84] Poc després, el 2003, i amb dos anys d'avançament sobre que preveu, es completa el Projecte Genoma Humà.[85] El 2004 apareix l'esborrany del genoma de Rattus norvegicus (rata),[86] el 2005 el del ximpanzé,[87] el 2006 el del macaco rhesus,[88] el 2007 el del gat domèstic,[89] i el 2008 se seqüència per primera vegada el genoma d'una dona.[90] Gràcies al desenvolupament de les tècniques adequades, s'han anat seqüenciant genomes de tot tipus d'organismes.
el 2003 es funda a Espanya el Institut Nacional de Bioinformàtica,[91] suportat per la Fundació Genoma Espanya (fundada, al seu torn, un any abans i que pretén constituir-se en instrument de l'estat per a potenciar la investigació en aquest camp).[92] el 2004, l'Adminsitració d'Aliments i Fàrmcas dels Estats Units (FDA, de l'anglès Food and Drug Administration) autoritza l'ús d'un xip d'ADN per primera vegada.[93] el 2005 es completa el projecte HapMap (catalogació de variacions genètiques en l'ésser humà).[94] el 2008 UniProt presenta el primer esborrany del proteoma complet del ésser humà, amb més de vint mil entrades.[95]
A poc a poc, els primers programes bioinformàtics es van perfeccionant, i se'n produeixen versions més completes com la 2.0 de ClustalW (reescrit en C++ el 2007).[96]
Des que el fag Φ-X174 va ser seqüenciat el 1977 (seqüència provisional: un any més tard es publicaria la seqüència completa definitiva),[33] les seqüències de ADN de centenars d'organismes han estat descodificades i guardades en bases de dades. Aquestes dades són analitzats per determinar els gens que codifiquen per a certes proteïnes, així com també seqüències reguladores. Una comparació de gens en una espècie o entre espècies pot mostrar similituds entre funcions de proteïnes, o relacions entre espècies (ús de filogenètica molecular per construir arbres filogenètics).[97]
Amb la creixent quantitat de dades, des de fa molt s'ha tornat poc pràctic analitzar seqüències de ADN manualment. Avui s'usen programes de ordinador per estudiar el genoma de milers de organismes, contenint milers de milions de nucleòtid s. Aquests programes poden compensar mutacions (amb bases intercanviades, esborrades o inserides) en la seqüència d'ADN, per identificar seqüències que estan relacionades, però que no són idèntiques.[39] Una variant d'aquest alineament de seqüències s'usa en el procés de seqüenciació.
La seqüenciació coneguda com shotgun (o per perdigonada : va ser usada, per exemple, per l'Institut d'Investigació Genòmica - The Institute for Genomic Research, TIGR, avui J. Craig Venter Institute - per seqüenciar el primer genoma de bacteri, Haemophilus influenzae) [63] no dona una llista seqüencial de nucleòtids, però en canvi ens ofereix les seqüències de milers de petits fragments d'ADN (cadascun d'aproximadament 600-800 nucleòtids de llarg). Les terminacions d'aquests fragments se superposen i, quan són alineats de la manera correcta, constitueixen el genoma complet de l'organisme en qüestió.[98]
El seqüenciament shotgun proporciona dades de seqüència ràpidament, però la tasca de acoblar els fragments pot ser força complicada per genomes molt grans. En el cas del Projecte Genoma Humà, va portar diversos mesos de temps de processador (en una estació DEC Alpha d'arreu del 2000) per acoblar els fragments. El shotgun sequencing és el mètode d'elecció per a tots els genomes seqüenciats avui en dia i els algoritmes de ensamblat genòmic són una àrea crítica de la recerca en bioinformàtica.
Un altre aspecte de la bioinformàtica en anàlisi de seqüències és la cerca automàtica de gens i seqüències reguladores dins d'un genoma.[99] No tots els nucleòtids dins d'un genoma són gens. Dins del genoma d'organismes més avançats, grans parts de l'ADN no serveixen a cap propòsit obvi. Aquest ADN, conegut com "ADN escombraries", pot, però, contenir elements funcionals encara no reconeguts.[100] La bioinformàtica serveix per estrènyer la bretxa entre els projectes de genoma i proteoma (per exemple, en l'ús de seqüències d'ADN per a identificació de proteïnes).
En el context de la genòmica, «anotació» és el procés de marcat dels gens i altres característiques biològiques de la seqüència d'ADN.[101] El primer sistema programari d'anotació de genomes va ser dissenyat el 1995 per Owen White, qui va ser membre de l'equip que va seqüenciar i analitzar el primer genoma a ser descodificat d'un organisme independent, el bacteri Haemophilus influenzae. White va construir un programari per localitzar els gens (llocs en la seqüència de DNA que codifiquen una proteïna), el ARN de transferència, i altres característiques, així com per realitzar les primeres atribucions de funció a aquests gens.[63] La majoria dels actuals sistemes d'anotació genòmica treballen de manera similar, però els programes disponibles per a l'anàlisi del genoma es troben en continu canvi i millora.
La biologia evolutiva és l'estudi de l'origen ancestral de les espècies, així com del seu canvi a través del temps.[102] La informàtica ha donat suport als biòlegs evolutius en camps clau. Ha permès als investigadors seguir l'evolució de molts organismes mesurant canvis en el seu ADN, en lloc de fer-ho exclusivament mitjançant la seva taxonomia física o observacions fisiològiques.[39] La comparació de genomes complets permet l'estudi d'esdeveniments evolutius més complexos, com ara la duplicació de gens, la transferència horitzontal de gens, o la predicció de factors significatius en la especiació bacteriana.[103] La informàtica aplicada als estudis evolutius també permet construir models computacionals complexos de poblacions per predir el resultat del sistema a través del temps[104] i seguir i compartir informació sobre un gran nombre d'espècies i organismes com més va més gran.
Els esforços futurs se centraran a reconstruir el cada vegada més complex arbre filogenètic de la vida.[105] L'àrea d'investigació de les ciències de la computació denominada computació evolutiva es confon ocasionalment amb la biologia evolutiva computacional, però ambdues àrees no guarden relació. Aquest camp se centra en el desenvolupament de algoritmes genètics i altres estratègies de resolució de problemes amb una marcada inspiració evolutiva i genètica.
La biodiversitat d'un ecosistema pot definir-se com el conjunt genòmic complet de totes les espècies presents en un medi ambient particular,[106] ja sigui aquest una biopel·lícula en una mina abandonada, una gota d'aigua de mar, un grapat de terra, o la biosfera completa del planeta Terra. S'utilitzen bases de dades per recollir els noms de les espècies i de les seves descripcions, distribucions, informació genètica, estat i mides de les poblacions, necessitats del seu hàbitat, i com cada organisme interacciona amb altres espècies. S'usa un programari especialitzat per trobar, visualitzar i analitzar la informació.[107] La simulació computacional pot modelar fenòmens com ara la dinàmica poblacional, o calcular la millora del patrimoni genètic d'una varietat (en agricultura), o la població amenaçada (en biologia de la conservació). A més, és possible preservar les seqüències completes del ADN, o genomas d'espècies amenaçades d'extinció, permetent registrar els resultats de l'experimentació genètica de la natura in silico per a la seva possible reutilització futura, encara que aquestes espècies s'haguessin extingit.[108] Poden citar-se, com a exemples significatius, els projectes Species 2000 o uBio.
La expressió gènica de molts gens es pot determinar pel mesurament de nivells de mRNA mitjançant diverses tècniques, com ara xips d'ADN, seqüenciació de EST (expressed sequence tag), anàlisi en sèrie de l'expressió gènica (SAGE, de l'anglès serial analysis of gene axpression), MPSS (Massively Parallel Signature Sequencing), o diverses aplicacions d'hibridació in situ. Totes aquestes tècniques són extremadament propenses al soroll i/o subjectes a biaixos en el mesurament biològic, i una de les principals àrees de recerca en la biologia computacional tracta del desenvolupament d'eines estadístiques per separar el senyal del soroll en els estudis d'expressió gènica amb alt volum de processament.[109] Aquests estudis es fan servir sovint per determinar els gens implicats en un desordre: podrien, per exemple, comparar dades de xips d'ADN de cèl·lulas epitelials canceroses amb dades de cèl·lules no canceroses per determinar les transcripcions que són activades o reprimides en una població particular de cèl·lules canceroses.[110]
La regulació gènica és la complexa orquestració d'esdeveniments que comencen amb un senyal extracel·lular com ara una hormona, que condueixen a un increment o decrement en l'activitat d'una o més proteïnas.[111] S'han aplicat tècniques bioinformàtiques per explorar diversos passos en aquest procés. Per exemple, l'anàlisi del promotor d'un gen implica la identificació i estudi de les seqüències motiu al voltant de l'ADN de la regió codificant d'un gen.[112] Aquests motius influeixen en l'abast segons el qual aquesta regió es transcriu a ARNm. Les dades d'expressió poden usar-se per inferir la regulació gènica: podrien comparar dades de xips d'ADN provinents d'una àmplia varietat d'estats d'un organisme per formular hipòtesis sobre els gens que intervenen en cada estat. En un organisme unicel·lular, podrien comparar etapes del cicle cel·lular al llarg de condicions variades d'estrès (xoc de calor, inanició, etc.). Podrien aplicar, llavors, algoritmes d'agrupament (algoritmes de clustering, o anàlisi de clúster ) a aquesta informació d'expressió per determinar quins gens són expressats simultàniament.[113] Per exemple, els promotors d'aquests gens es poden buscar segons l'abundància de seqüències o elements reguladors.
Els xips d'ADN de proteïnes i la espectrometria de masses d'alt rendiment poden proporcionar una instantània de les proteïnes presents en una mostra biològica. La bioinformàtica està molt compromesa en donar suport a ambdós procediments. L'aproximació als xips d'ADN de proteïnes presenten problemes similars als existents per al xips d'ADN destinats a ARNm,[114] mentre que, per a la espectrometria de masses, el problema és casar grans quantitats de dades de massa contra masses predites per bases de dades de seqüències de proteïnes, a més de la complicada anàlisi estadística de mostres en què es detecten molts, però incomplets, pèptids de cada proteïna.[115]
En el càncer, els genomes de les cèl·lules afectades són reordenats en maneres complexes i/o encara impredictibles. Es fan grans esforços de seqüenciació per a identificar substitucions individuals de bases (o mutacions puntuals) encara desconegudes en una varietat de gens en el càncer.[116] Els bioinformàtics continuen produint sistemes automatitzats per gestionar l'important volum de dades de seqüències obtingut, i creen nous algoritmes si programari per comparar els resultats de seqüenciació[No s'entén] amb la creixent col·lecció de seqüències del genoma humà i dels polimorfismes de la línia germinal. S'estan utilitzant noves tecnologies de detecció física, com els microarrays d'oligonucleòtids per identificar pèrdues i guanys cromosòmiques (tècnica anomenada hibridació genòmica comparativa),[117] i els xips de polimorfismes de nucleòtid simple per detectar punts de mutació coneguts.[118] Aquests mètodes de detecció mesuren simultàniament bastants centenars de milers de posicions al llarg del genoma, i quan s'usen amb una alta productivitat per analitzar milers de mostres, generen terabits de dades en cada experiment. D'aquesta manera les quantitats massives i nous tipus de dades proporcionen noves oportunitats per als bioinformàtics. Sovint es troba en les dades una considerable variabilitat, o soroll, de manera que mètodes com el dels models ocults de Markov i l'anàlisi de punts de canvi estan sent desenvolupats per inferir canvis reals en el nombre de còpies dels gens (nombre de còpies d'un gen particular en el genotip d'un individu, la magnitud pot ser elevada en cèl·lules canceroses).[119][120]
Un altre tipus de dades que requereix nous desenvolupaments informàtics és l'anàlisi de les lesions trobades de manera recurrent en bon nombre de tumors, principalment per anàlisi automatitzat d'imatge clínica.
La predicció de l'estructura de les proteïnes és una altra important aplicació de la bioinformàtica. La seqüència de aminoàcids d'una proteïna, també anomenada estructura primària, es pot determinar fàcilment des de la seqüència de nucleòtids sobre el gen que la codifica.[121] En la immensa majoria dels casos, aquesta estructura primària determina únicament una estructura de la proteïna en el seu ambient natiu. (Hi ha excepcions, com ara l'encefalopatia espongiforme bovina, o «mal de les vaques boges; vegeu, també, prió.) El coneixement de l'estructura de la proteïna és fonamental per entendre'n la funció.[122] En absència de millors termes, la informació estructural de les proteïnes es classifica usualment com a estructura secundària, terciària i quaternària. Una solució general viable per a la predicció d'aquestes estructures roman encara com problema obert. Per ara, la majoria dels esforços han estat dirigits cap heurístiques que funcionen la majoria de les vegades.[123]
Una de les idees clau en bioinformàtica és la noció d'homologia. A la branca genòmica de la bioinformàtica, s'usa l'homologia per predir la funció d'un gen: si la seqüència de gen A, la funció del qual és coneguda, és homòloga a la seqüència de gen B, la funció del qual és desconeguda, pot inferir-se que B podria compartir la funció d'A [124] A la branca estructural de la bioinformàtica, l'homologia s'usa per dir quines["quines" què?] d'una proteïna són importants en la formació de l'estructura i en la interacció amb altres proteïnes. En la tècnica anomenada modelat per homologia, aquesta informació s'utilitza per predir l'estructura d'una proteïna un cop coneguda l'estructura d'una proteïna homòloga.[125] Aquesta via és, actualment, l'única per predir estructures de proteïnes d'una manera fiable.
Un exemple d'això és la similar homologia proteica entre l'hemoglobina dels humans i l'hemoglobina dels llegums (leghemoglobina). Ambdues serveixen per a la mateixa funció de transportar oxigen en l'organisme. Tot i que les dues tenen una seqüència d'aminoàcids completament diferent, les seves estructures són pràcticament idèntiques, el que reflecteix les seves funcions, pràcticament idèntiques.[126]
Altres tècniques per predir l'estructura de les proteïnes són l'enfilat de proteïnes (protein threading) [127] i el modelatge de novo (des de zero), basat en les característiques físiques i químiques.[128]
Sobre això, es poden veure també motiu estructural (structural motif) i domini estructural (structural domain).
El nucli de l'anàlisi comparativa del genoma és l'establiment de la correspondència entre gens (anàlisi ortòleg) o entre altres característiques genòmiques de diferents organismes. Aquests mapes intergenómics són els que fan possible rastrejar els processos evolutius responsables de la divergència entre dos genomes. Molts esdeveniments evolutius actuant a diferents nivells organitzatius conformen l'evolució del genoma.[129] Al nivell més baix, les mutacions puntuals afecten nucleòtids individuals. Al major nivell, amplis segments cromosòmics experimenten duplicació, transferència horitzontal, inversió, transposició, esborrat i inserció. Finalment, els genomes sencers poden intervenir en processos d'hibridació, poliploïdia i endosimbiosi, que sovint originen una sobtada especiació.
La complexitat de l'evolució del genoma planteja molts reptes a desenvolupadors de models matemàtics i algoritmes, que han de recórrer a diverses tècniques algorítmiques, estadístiques i matemàtiques que s'estenen des d'exactes, heurístiques, amb paràmetres fixats, i mitjançant algoritmes d'aproximació per problemes basats en models de parsimònia, fins a algoritmes de la cadena de Màrkov Monte Carlo (MCMC, de l'anglès Markov chain Monte Carlo) per anàlisi bayesià de problemes basats en models probabilístics.[130]
Molts d'aquests estudis estan basats en la detecció d'homologia i la computació de famílies de proteïnes.
La biologia de sistemes es basa en simulacions per ordinador de subsistemes cel·lulars (com ara xarxes de metabòlits i enzims que comprenen el metabolisme, vies de transducció de senyals i xarxes de regulació genètica), tant per analitzar com per a visualitzar les complexes connexions d'aquests processos cel·lulars.[131] La vida artificial o l'evolució virtual tracten d'entendre els processos evolutius mitjançant de la simulació per ordinador de senzilles formes de vida (artificial).[132]
S'estan usant tecnologies de computació per accelerar o automatitzar completament el processament, quantificació i anàlisi de grans quantitats d'imatges biomèdiques amb alt contingut d'informació. Els moderns sistemes de anàlisi d'imatge incrementen l'habilitat de l'observador per realitzar anàlisis sobre un conjunt d'imatges ampli o complex, tot millorant-ne la precisió, l'objectivitat (independència dels resultats segons l'observador) o la rapidesa. Un sistema d'anàlisi totalment desenvolupat podria reemplaçar completament l'observador. Tot i que aquests sistemes no són exclusius del camp de les imatges biomèdiques, cada vegada són més importants tant per al diagnòstic com per a la investigació. En són alguns exemples: la quantificació i localització subcel·lular amb alta productivitat i precisió (high-content screening, citohistopatología);[133] la morfometria;.[134] l'anàlisi i visualització d'imatges clíniques;[135] la determinació de patrons en el flux de l'aire en temps real de la respiració pulmonar d'animals vius; la quantificació de la grandària de l'oclusió a través d'imatges en temps real, tant per desenvolupament com per recuperació, de lesions artèrials;[136] les observacions conductuals basades en enregistraments en vídeo perllongats d'animals de laboratori, i les observacions amb infraroig (espectroscòpia infraroja) per a la determinació de l'activitat metabòlica.[137]
En les últimes dues dècades, desenes de milers d'estructures tridimensionals de proteïnes han estat determinades per cristal·lografia de raigs X i espectroscòpia mitjançant ressonància magnètica nuclear de proteïnes (RMN de proteïnes). Una qüestió central per als científics és si resulta viable la predicció de possibles interaccions proteïna-proteïna sols basats en aquestes formes en tres dimensions, sense fer experiments identificatius d'aquestes interaccions. S'han desenvolupat una varietat de mètodes per enfrontar-se al problema de l'acoblament proteïna-proteïna, si bé sembla que queda encara molta feina en aquest camp.[138]
Els programes per a bioinformàtica van des de simples eines de línia d'ordres fins a programes gràfics molt més complexos i serveis web autònoms situats en companyies de bioinformàtica o institucions públiques. La més coneguda eina de biologia computacional entre els els biòlegs és, probablement, BLAST, un algorisme per determinar la similitud de seqüències arbitràries amb altres seqüències,[69] probablement residents en bases de dades de proteïnes o de seqüències d'ADN. El Centre Nacional per a la Informació Biotecnològica dels Estats Units (NCBI, de l'anglès National Center for Biotechnology Information), per exemple, proporciona una implementació molt utilitzada, basada en web, i que treballa sobre les seves bases de dades.[139]
Per alineaments múltiples de seqüències, el clàssic ClustalW,[71] és el programari de referència. Es pot treballar amb una implementació d'aquest programari a l'Institut Europeu de Bioinformàtica (EBI, de l'anglès European Bioinformatics Institute).[140]
BLAST i ClustalW són només dos exemples dels molts programes de alineament de seqüències disponibles. Hi ha, d'altra banda, altres programaris bioinformàtics amb altres objectius: alineament estructural de proteïnes, predicció de gens i altres motius, predicció d'estructura de proteïnes, predicció d'acoblament proteïna–proteïna, o modelat de sistemes biològics, entre d'altres. En Annex: Programari per alineament de seqüències i Annex: Programari per alineament estructural es poden trobar sengles relacions de programes o serveis web adequats per a cada un d'aquests dos objectius en particular.
S'han desenvolupat interfícies basades en protocol simple d'accés a objectes (SOAP, de l'anglès simple object access protocol) i en REST ( Representational State Transfer, transferència d'estat representacional) per a una gran varietat d'aplicacions bioinformàtiques, que permeten que una aplicació, corrent en un ordinador de qualsevol part del món, pugui utilitzar algoritmes, dades i recursos de computació allotjats a servidors en qualsevol altra part del planeta. Els principals avantatges radiquen en el fet que l'usuari final no s'ha de preocupar de fer actualitzacions i modificacions en el programari o en les bases de dades.[141] Els serveis bioinformàtics bàsics, d'acord a la classificació implícita de l'Institut Europeu de Bioinformàtica, són: Serveis d'obtenció d'informació en línia (consultes a bases de dades, per exemple); eines d'anàlisi (per exemple, serveis que donen accés a emboss); cerca de similituds entre seqüències (serveis d'accés a FASTA o BLAST, per exemple); alineaments múltiples de seqüències (accés a ClustalW o T-Coffee); anàlisi estructural (accés a serveis de alineament estructural de proteïnes, per exemple) i serveis d'accés a literatura especialitzada i ontologies.[142]
La disponibilitat d'aquests serveis web basats en SOAP a través de sistemes com ara els serveis de registre,[143] (serveis de distribució i descobriment de dades a través de serveis web) demostra l'aplicabilitat de solucions bioinformàtiques basades en web. Aquestes eines varien des d'una col·lecció d'eines autònomes amb un format de dades comú, i sota una única interfície autònoma o basada en web, fins a sistemes integradors i extensibles per a la gestió del flux de treball bioinformàtic.