STRING | |
---|---|
Содержимое | |
Описание | Биоинформатический ресурс об известных и предсказанных белок-белковых взаимодействиях |
Организмы | Все |
Контакты | |
Лаборатория | CPR, EMBL, KU, SIB, TUD, UZH |
Дата выпуска | 2000 |
Доступность | |
Сайт | STRING |
Прочее | |
Версия | 10.5 (2017) |
STRING (сокр. от англ. Search Tool for the Retrieval of Interacting Genes/Proteins) — база данных и веб-ресурс для поиска информации об известных и предсказанных белок-белковых взаимодействиях[1][2][3][4][5][6][7][8].
STRING обобщает информацию из различных источников: экспериментальные данные, литературные данные и предсказания de novo. Версия 10 содержит информацию о взаимодействиях 9 643 763 белков в 2031 виде организмов, от бактерий и архей до человека. База данных регулярно обновляется и доступна для свободного скачивания[1].
STRING разработан консорциумом европейских университетов CPR, EMBL, KU, SIB, TUD и UZH.
В STRING основная единица — функциональная взаимосвязь, т.е. специфичная и биологически значимая функциональная связь между двумя белками [3].
Для каждой функциональной взаимосвязи STRING рассчитывает оценку достоверности, интегрирующую различные типы доказательств данной взаимосвязи (экспериментальные данные, литературные данные и предсказания de novo на основании ортологии экспериментально изученным белкам, а также на основании сравнительного анализа геномного контекста [9]). Такой комплексный подход имеет следующие преимущества [6]:
При расчёте оценки достоверности функциональной взаимосвязи различные типы доказательств данной взаимосвязи считаются независимыми и оценка рассчитывается по следующей формуле [6]:
где — вклад одного типа доказательств.
STRING не содержит информации о механизме белок-белковых взаимодействий, а также о том, в какое время клеточного цикла может иметь место данное взаимодействие, как оно зависит от внешних условий и насколько оно тканеспецифично. Напротив, STRING содержит информацию о всех возможных белок-белковых взаимодействиях в данном организме, в том числе информацию, предсказанную с определённой достоверностью, что делает STRING наиболее полным ресурсом о белок-белковых взаимодействиях, доступным на сегодняшний день, и особенно полезным для поиска информации о белках, не изученных экспериментально[4].
STRING интегрирует информацию о взаимодействиях белков в структурных комплексах и метаболических путях, заимствованную из баз данных BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO, HPRD, IntAct, KEGG, MINT, NCI-Nature Pathway Interaction Database, PDB, Reactome, TISSUES[1][3].
STRING извлекает информацию о взаимодействиях белков из полных текстов статей из баз данных PubMed, SGD, OMIM, FLyBase и из аннотаций статей из базы данных MEDLINE. Для этого в текстах производится автоматический поиск статистически значимых совместных упоминаний названий генов и их синонимов (данные о синонимах берутся из Swiss-Prot) с использованием обработки естественного языка. Для увеличения точности разработана оценочная система, учитывающая совместное упоминание названий генов в предложениях, абзацах и полных текстах статей[2].
STRING стремится дополнить функциональную аннотацию вновь секвенированных геномов путём de novo предсказаний функциональных взаимосвязей на основании ортологии экспериментально изученным белкам, а также на основании сравнительного анализа геномного контекста[9]. STRING также даёт собственную оценку экспериментально изученным функциональным взаимосвязям, дополняя информацию о них.
Импорт полностью секвенированных геномов
Начиная с версии 9 (2011), STRING импортирует для анализа полностью секвенированные геномы, доступные в базах данных RefSeq и Ensembl, а также на специализированных сайтах[3]. Импортированные геномы предварительно проверяются вручную на предмет полноты и неизбыточности. STRING не хранит информацию о различных изоформах белка, полученных в результате альтернативного сплайсинга или посттрансляционной модификации. Напротив, STRING ставит в соответствие одному локусу одну изоформу белка (как правило, наиболее длинную изоформу)[5]. Такая фильтрация необходима для нормальной работы алгоритмов предсказания белок-белковых взаимодействий.
Предсказания взаимодействий белков на основании ортологии с экспериментально изученными белками
STRING считает референсным взаимодействие белков, участвующих в одном метаболическом пути KEGG, поскольку эта база данных курируется вручную и охватывает ряд организмов и функциональных областей. STRING переносит взаимодействия белков, описанные в метаболических путях KEGG, на ортологичные белки других организмов и присваивает каждому предсказанному белок-белковому взаимодействию определённый вес, который соответствует вероятности нахождения данных белков в одном метаболическом пути KEGG[6] и вносит вклад в итоговую оценку достоверности данной функциональной взаимосвязи.
До версии 8 (2009) предсказания на основании ортологии с белками, описанными в метаболических путях KEGG, производились с использованием кластеров ортологичных групп белков (COGs)[10], затем стали использоваться иерархические ортологичные группы белков из базы данных eggNOG [11].
Начиная с версии 9.1 (2013) предсказания на основании ортологии с белками, описанными в метаболических путях KEGG, производятся с учётом таксономии организмов, что позволяет избежать ошибочного переноса взаимодействия белков одного организма на предполагаемые ортологичные белки другого организма при наличии паралогов данных белков в другом организме, которые возникли вследствие дупликации соответствующих генов в процессе эволюции. Используется версия таксономии, поддерживаемая NCBI. Перенос белок-белковых взаимодействий между организмами на основании ортологии производится последовательно от низших к высшим уровням таксономической иерархии[2].
Предсказания на основании сравнительного анализа геномного контекста
Гены, белковые продукты которых совместно функционируют в метаболическом пути или структурном комплексе, часто имеют общую регуляцию и испытывают общее давление естественного отбора. Такие гены имеют тенденцию к ко-локализации[12] и даже к образованию фьюжн-гена[13]. Часто такие гены находятся близко друг к другу, предположительно являясь одной транскрипционной единицей (опероном). В оперонах разных организмов набор генов и их порядок похожи, но не обязательно идентичны. STRING различает следующие типы геномного контекста[9]:
У эукариот не наблюдается оперонных структур, но некоторые эукариотические белки ортологичны прокариотическим белкам, поэтому STRING переносит на эукариотические белки функциональные взаимосвязи, предсказанные на основании сравнительного анализа геномного контекста у прокариот[8].
STRING производит поиск консервативных генных кластеров, эволюционные истории которых похожи сильнее, чем ожидалось бы случайно. STRING стартует с одного гена-затравки и на первой итерации находит гены, которые часто встречаются с данным геном в одном геномном контексте у многих филогенетически далёких организмов. Идеального совпадения между встречаемостью генов не требуется, хотя эта информация оценивается количественно. На следующей итерации в качестве затравок используются новые гены, найденные на предыдущей итерации. Итерации продолжаются до тех пор, пока не будет найдено ни одного нового гена (сходимость). Таким образом, находится множество генов, косвенно связанных с геном-затравкой. Допускается вхождение в один геномный контекст только генов, расстояния между которыми не более 300 пар нуклеотидов[8]. Начиная с версии 8 допускается вхождение в один геномный контекст генов, расположенных на разных цепях ДНК. В последнем случае предсказанной функциональной взаимосвязи присваивается меньший вес, вносящий меньший вклад в итоговую оценку достоверности данной взаимосвязи, по сравнению с функциональной взаимосвязью, предсказанной по геномному контексту, состоящему из генов, расположенных только на одной цепи ДНК[4]. Присваеваемый вес нормируется на число организмов, у которых предсказана данная взаимосвязь[7], и увеличивается при предсказании данной взаимосвязи у филогенетически далёких орнанизмов[6].
При сборке консервативного окружения гена начиная с версии 8 игнорируются короткие частично перекрывающиеся гены на некодирующей цепи ДНК, т.к. они могут оказаться ложными предсказаниями[4].
Начиная с 2005 года в STRING имеются два подхода к предсказанию белок-белковых взаимодействий на основании сравнительного анализа геномного контекста: при запросе пользователь может выбрать COGs-режим или Proteins-режим. В COGs-режиме поиск консервативных генных кластеров производится с требованием ортологичности белков, т.е. взаимодействия предсказываются по принципу «всё или ничего». В Proteins-режиме поиск консервативных генных кластеров производится по количественному сходству аминокислотных последовательностей белков, т.е. предсказываемые взаимодействия могут быть распространены на паралоги, если они есть в организме[6]. Ранее в STRING количественное сходство аминокислотных последовательностей белков определялось по алгоритму Смита — Ватермана. Начиная с версии 9 (2011) для количественного определения сходства аминокислотных последовательностей белков используются матрицы SIMAP[3][14].
Для того, чтобы сделать запрос в базу данных STRING, нужно указать идентификатор или аминокислотную последовательность одного или нескольких белков, а также выбрать организм. В случае запроса для аминокислотной последовательности белка, проводится поиск BLAST против всех белков выбранного организма (порог E-value = 10−5)[8] и пользователю предлагается выбрать одну из находок, для которой будут показаны возможные взаимодействия с другими белками (Proteins-режим) или COGs (COGs-режим) в данном организме.
Экспериментально известные и предсказанные de novo взаимодействия заданного белка с другими белками представлены в виде графа, вершинами которого являются белки, а ребрами — различные типы доказательств функциональных взаимосвязей между этими белками. Вершины, соответствующие белкам, для которых расшифрована (или предсказана с определенной идентичностью) кристаллографическая структура, показаны более крупно. При клике на вершину во всплывающем окне доступны ссылки на сторонние ресурсы с информацией о данном белке, такие, как RefSeq, KEGG, UniProt, SMART и SWISS-MODEL, а также доступен предпросмотр доменной архитектуры и кристаллографической структуры (расшифрованной или предсказанной с определенной идентичностью) данного белка. Возможна кластеризация сети взаимодействий, добавление в сеть взаимодействий других белков при понижении порога достоверности функциональной взаимосвязи (и наоборот, удаление из сети взаимодействий белков при повышении порога), настройка допустимых типов доказательств функциональной взаимосвязи (например, можно оставить в сети взаимодействий только те белки, для взаимодействий которых есть экспериментальные доказательства), а также сохранение списка найденных белок-белковых взаимодействий в виде текстового файла и сохранение картинки сети взаимодействий[3].
Список возможных функциональных взаимосвязей заданного белка содержит доказательства каждой взаимосвязи и ранжирован по уровню оцененной достоверности каждой взаимосвязи[2].
Доступен просмотр филогенетического дерева, построенного по сцепленным выравниваниям последовательностей небольшого числа универсальных белковых семейств[5][15], с нанесёнными на него различными типами геномного контекста. Доступны ссылки на статьи, в которых упоминается заданный белок, в том числе экспериментальные статьи.
Имеется плагин STRING для Cytoscape[16]. Начиная с версии 10 (2015) программный пакет STRINGdb доступен для скачивания с Bioconductor и позволяет делать запросы к серверу STRING из языка программирования R[1].
Эта статья входит в число добротных статей русскоязычного раздела Википедии. |