Компјутерска геномика се однесува на употребата на пресметковна и статистичка анализа за дешифрирање на биологијата од секвенците на геномот и поврзаните податоци,[1] вклучувајќи ја и ДНК и РНК секвенцата како и други „постгеномски“ податоци (т.е. експериментални податоци добиени со технологии кои бараат геномската секвенца, како што се микронизите на геномската ДНК). Овие, во комбинација со пресметковни и статистички пристапи за разбирање на функцијата на гените и анализа на статистичката асоцијација, ова поле често се нарекува и пресметковна и статистичка генетика/геномика. Како таква, компјутерската геномика може да се смета како подмножество на биоинформатиката и пресметковната биологија, но со фокус на користење на цели геноми (наместо поединечни гени) за да се разберат принципите за тоа како ДНК на еден вид ја контролира неговата биологија на молекуларно ниво и подалеку. Со сегашното изобилство на масивни биолошки збирки на податоци, пресметковните студии станаа едно од најважните средства за биолошко откритие. [2]
Корените на пресметковната геномика се споделени со оние на биоинформатиката. Во текот на 1960-тите, Маргарет Дејхоф и други во Националната фондација за биомедицински истражувања собраа бази на податоци со хомологни протеински секвенци за еволутивно проучување.[3]Нивното истражување развило филогенетско дрво кое ги одредува еволутивните промени кои биле потребни за одреден протеин да се промени во друг протеин врз основа на основните секвенци на аминокиселини. Ова ги навело да создадат матрица за бодување што ја проценува веројатноста еден протеин да биде поврзан со друг
Почнувајќи од 1980-тите, базите на податоци на геномските секвенци почнале да се снимаат, но ова претставувало нови предизвици во форма на пребарување и споредување на базите на податоци на генски информации. За разлика од алгоритмите за пребарување текст што се користат на веб-локации како што се Google или Wikipedia, пребарувањето за делови од генетска сличност бара да се најдат низи кои не се едноставно идентични, туку слични. Ова довело до развој на Нидлман–Вуншовиот алгоритам, кој е динамичен програмски алгоритам за споредување на множества од секвенци на амино киселини едни со други со користење на матрици за бодување добиени од претходното истражување на Дејхоф. Подоцна, алгоритмот BLAST бил развиен за извршување на брзи, оптимизирани пребарувања на бази на податоци за генската секвенца. BLAST и неговите деривати се веројатно најкористените алгоритми за оваа намена. .[4]
Појавата на фразата „компјутерска геномика“ се совпаѓа со достапноста на комплетни секвенционирани геноми во средината до крајот на 1990-тите. Првиот состанок на Годишната конференција за компјутерска геномика беше организиран од научници од Институтот за геномски истражувања (ТИГР) во 1998 година, обезбедувајќи форум за оваа специјалност и ефективно разликувајќи ја оваа област на наука од поопштите области на геномијата или компјутерската биологија.[5]Првата употреба на овој термин во научната литература, според апстрактите на MEDLINE, била само една година порано во истражувањето за нуклеинските киселини. Последната конференција за компјутерска геномика била одржана во 2006 година, на која имало главен говор на нобеловецот Бери Маршал, ко-откривач на врската помеѓу Helicobacter pylori и чир на желудникот. Од 2014 година, водечките конференции во областа вклучуваат Интелигентни системи за молекуларна биологија (ISMB) и Истражување во компјутерска молекуларна биологија (RECOMB).
Развојот на компјутерски потпомогната математика (со користење на производи како што се Mathematica или Matlab) им помогна на инженерите, математичарите и компјутерските научници да почнат да работат во овој домен, а јавната колекција на студии на случај и демонстрации расте, почнувајќи од споредби на целиот геном до генска анализа. [6] Ова го зголемило воведувањето на различни идеи, вклучувајќи концепти од системи и контрола, теорија на информации, анализа на жици и ископување податоци. Се очекува дека пресметковните пристапи ќе станат и ќе останат стандардна тема за истражување и настава, додека студентите кои течно зборуваат за двете теми ќе почнат да се формираат во повеќекратните курсеви создадени во изминатите неколку години.
Придонесите од истражувањето на компјутерската геномика во биологијата вклучуваат
Развиени се компјутерски алатки за да се процени сличноста на геномските секвенци. Некои од нив се растојанија засновани на порамнување, како што е просечен идентитет на нуклеотид.[7] Овие методи се многу специфични, додека се пресметковно бавни. Други методи без усогласување, вклучуваат статистички и веројатни пристапи. Еден пример е Mash,[8]веројатен пристап кој користи минхаш. Во овој метод, со даден број k, геномската секвенца се трансформира во пократка скица преку случајна хаш-функција на можните k-mers. На пример, ако k=2, се конструираат скици со големина 4 и им е дадена следнава хаш функција
(AA,0) (AC,8) (AT,2) (AG,14) (CA,6) (CC,13) (CT,5) (CG,4) (GA,15) (GC,12) (GT,10) (GG,1) (TA,3) (TC,11) (TT,9) (TG,7)
скицата на низата
CTGACCTTAACGGGAGACTATGATGACGACCGCAT
е {0,1,1,2} кои се најмалите хаш вредности на неговите k-мери со големина 2. Овие скици потоа се споредуваат за да се процени фракцијата на споделени k-мери ( Џакард индекс ) од соодветните секвенци. Вреди да се забележи дека хаш-вредноста е бинарен број. Во вистински геномски амбиент, корисната големина на k-mers се движи од 14 до 21, а големината на скиците би била околу 1000.
Со намалување на големината на низите, дури и стотици пати, и споредувајќи ги на начин без порамнување, овој метод значително го намалува времето на проценка на сличноста на низите.
|name-list-style=
(help)