Bioinformatika je vědní disciplína, která se zabývá metodami pro shromažďování, analýzu a vizualizaci rozsáhlých souborů biologických dat, zejména dat molekulárně-biologických.
Předmětem zájmu a používanými metodami se bioinformatika prolíná s dalšími příbuznými obory, např. molekulární biologií, genomikou, proteomikou, genetikou, výpočetní biologií, matematickou biologií, systémovou biologií, teoretickou biologií, biomedicínskou informatikou, biomedicínským inženýrstvím, výpočetní chemií, informatikou a počítačovou lingvistikou.
Dostupné bioinformatické nástroje a databáze jsou shromážděny v Tools and Data Services Registry[1] (bio.tools) evropské bioinformatické infrastruktury ELIXIR. České bioinformatické nástroje a databáze v bio.tools sdružuje konsorcium ELIXIR-CZ.
Snaha o nacházení genů, míst interakce s proteiny a dalších významných oblastí v sekvenci DNA je nazývána anotací genomu. Zabývá se jí více vědních oborů, především molekulární biologie. Bioinformatika se snaží na základě vlastností laboratorně (např. sekvenováním mRNA) nalezených oblastí předpovědět pozice dalších oblastí výpočetními metodami. U prokaryot lze s úspěchem použít metody založené na znalostech vlastností promotorů a dalších hraničních oblastí genů, tzv. ab initio metody. U eukaryot je použití těchto metod náročnější, protože mají mnohem složitější strukturu genomu. Dalšími často volenými nástroji jsou pravděpodobnostní modely (např. Skryté Markovovy Modely (Hidden Markov modelss) či metody strojového učení (Vhodné jsou např. support vector machines).
Základním úkonem, potřebným v mnoha bioinformatických aplikacích, je zarovnání sekvencí a analýza jejich podobnosti (sequence alignment), povětšinou se jedná o sekvence nukleových kyselin či aminokyselin v bílkovině. Několik sekvencí je třeba nejdříve přiložit k sobě tak, aby si prvky na jednotlivých pozicích co nejvíce odpovídaly a bylo tak možné vyhodnotit míru podobnosti. Základními algoritmy pro tento úkon jsou Smith-Waterman a Needleman-Wunsch. Při hledání a porovnávání dlouhých sekvencí na úrovni genomu je třeba využívat jisté heuristiky, protože základní algoritmy jsou příliš pomalé. Příkladem programu pro rychlé vyhledávání na dlouhých sekvencích s využitím heuristiky je BLAST.
Molekulární biologové laboratorními metodami měří úroveň exprese jistých genů, tedy jaké množství mRNA je z daného genu v daném období transkribováno. Často používanými metodami jsou reverzní transkripce do cDNA (metoda EST), microarray či SAGE (serial analysis of gene expression). Výsledky těchto analýz jsou rozsáhlé soubory dat s velkou úrovní šumu, bioinformatika data upravuje do použitelné podoby.
Reakce buňky na změny v prostředí jsou z velké části založeny na genové regulaci. Komplexním systémem informačních drah je informace o podnětu z vnějšího prostředí (např. hormon nebo podnět z chemoreceptoru) přenesena do jádra, kde ovlivní míru exprese jednotlivých genů. Buňka tak začne produkovat proteiny, potřebné v dané situaci. Bioinformatika zkoumá principy této regulace. Je například možné porovnat microarray data z buňky v běžném stavu a buňky vystavené vlivu léčiva a zjistit tak přesně, které geny byly léčivem ovlivněny. Analýza genové regulace je velmi důležitou součástí výzkumu rakoviny.
Struktura proteinu z velké části determinuje její funkci, proto je jeho znalost důležitá. Experimentální zjištění tohoto tvaru (např. pomocí rentgenové krystalografie) je však drahé, pomalé a ne vždy možné. Proto se bioinformatika snaží získat prostorové uspořádání proteinů jinak.
Primární strukturu proteinu (pořadí aminokyselin) lze jednoduše získat například sekvenací mRNA pro daný protein. Sekundární, terciární (popř. kvarterní) strukturu se bioinformatika a teoretická chemie snaží předpovědět na základě znalosti primární struktury. Používaných technik je mnoho, základní přístupy jsou tyto:
Zatímco při předpovědi sekundární struktury bývá dosaženo poměrně dobrých výsledků, (Současné metody mají úspěšnost přes 70%) předpověď terciární struktury je náročnější a méně přesná.
Srovnávací genomika se snaží porozumět vztahům genů či jiných částí genomu napříč organismy a lépe tak porozumět procesu evoluce, případně přispět k anotaci genomů na základě znalostí vztahů mezi nimi. Jelikož genomy jsou rozsáhlé a mají složitou strukturu, vyžaduje tvorba srovnávacích syntenických map hlubší analýzu a automatizaci výpočtů.
Jedním z často využívaných open source programů na analýzu bioinformatických dat je například RStudio, který využívá programovacího jazyka R. S vcelku přátelským GUI (grafickým uživatelským rozhraním) je mnohostranně využitelný, ať už se jedné o exprese genů, fylogenetickou analýzu či DNA alignmenty. Jednou ze základních metod na zobrazení právě exprese genů fylogeneze je například teplotní mapa.
Další hojně využívanou platformou především pro taxonomickou analýzu a studie založené na sekvenaci 16S rRNA podjednotky je QIIME.
Obor Bioinformatiky lze studovat na několika vysokých školách:
Pojem bioinformatika lze najít i literatuře zabývající se paranormálními jevy, kde je tímto termínem myšleno mimosmyslové vnímání.[10]