Логотип последовательностей

Показаны наиболее консервативные основания, окружающие стартовый кодон в структуре различных мРНК человека (Консенсусная последовательность Козак).

Логотип последовательностей (англ. Sequence logo) (в биоинформатике) — метод графического представления консервативности нуклеотидов (в цепи РНК или ДНК) или аминокислот (в белках). Логотип строится по набору выровненных последовательностей. Этот метод позволяет на одном графике отразить следующие характеристики анализируемого участка:

консенсусную последовательность выравнивания;
относительные частоты встречаемости элементов в каждой позиции последовательности;
информационное содержание каждой позиции в последовательности (измеренное в битах);
наличие специфического локуса^[1].

Общее представление

Логотип состоит из набора букв на каждой позиции. Логотип показывает, как хорошо нуклеотиды (или аминокислотные остатки) сохранились в процессе эволюции в каждой позиции: чем выше частота встречаемости буквы в определенной колонке, тем выше ее относительный размер. Суммарная высота букв на каждой отдельной позиции отражает информационное содержание этой колонки. Логотип может показывать, например, консервативные сайты связывания транскрипционных факторов или других лигандов^[1].

Создание логотипа последовательностей

Для создания логотипа набора последовательностей в начале производится их локальное выравнивание, по необходимости — относительно какой-то конкретной позиции (например, сайты связывания рибосомы могут быть выровнены относительно точки инициации трансляции). Построение логотипа последовательности имеет смысл только для консервативного участка^[1]. По результатам выравнивания строится таблица частот встречаемости каждого элемента в каждой позиции.

Затем в полученной таблице каждый столбец сортируется по убыванию, так что наиболее часто встречающееся в данной позиции (так называемое "консенсусное") основание помещается в первую строку таблицы.

Консенсусное основание часто используется для создания консенсуса последовательности. Однако такой консенсус не дает полной информации о последовательностях, так как в выравнивании другие буквы также могут встречаться со значительной частотой. Например, наиболее частый прокариотический инициаторный кодон — AUG, но также инициаторными могут быть GUG и UUG. Без этой дополнительной информации данные будут искаженными^[1]. Это является одной из основных причин, почему консенсусная последовательность является плохой моделью для описания сайтов связывания.

Важность каждой позиции удобно описывать величиной, которая называется информационным содержанием колонки. Она измеряется в битах, то есть единицах информации. Например, если позиция в выравнивании содержит только один тип нуклеотидов, то необходимо ровно 2 бита информации, то есть ответы на 2 бинарных, требующих ответа "да — нет" вопроса. Если позиция содержит остатки двух типов, то достаточно одного вопроса, так как выбор двух из четырех нуклеотидов эквивалентен выбору одного из двух^[1].

Если частоты нуклеотидов не является равными, требуется более сложный способ подсчета информационного содержания.

Мера неопределенности, которая используется при построении логотипа называется энтропией Шеннона:

H_{i}=-\sum f_{a,i}\times \log _{2}f_{a,i}

,

где $f_{a,i}$ — частота азотистого основания или аминокислотного остатка $a$ в позиции $i$ . Она также измеряется в битах информации.

Полная информация колонки выравнивания вычисляется как уменьшение неопределенности на этой позиции:

R_{i}=log_{2}s-(H_{i}+e(n))

,

где $H_{i}$ — энтропия Шеннона для колонки $i$ , $2$ — максимальная неопределенность, $s$ равно 4 для нуклеотидной последовательности и 20 для аминокислотной, а $e(n)$ — поправка для небольших выборок, размер которых — $n$ :

e_{n}={\frac {1}{\ln {2}}}\times {\frac {s-1}{2n}}

.

Такая поправка не позволить сделать логотип по выравниванию небольшого числа последовательностей — получится логотип с практически одинаковым информационным содержанием разных позиций^[1].

Набор значений $R_{i}$ отражает роль каждой позиции для сайта связывания. Размер каждой буквы в каждой позиции (в битах информации) вычисляется из произведения частоты этой буквы и информационного содержания всей колонки:

r_{a,i}=f_{a,i}\times R_{i}

.

Далее основания изображаются друг над другом в порядке увеличения их частоты в данной колонке.

При наличии в колонке гэпов суммарная высота стека символов на получаемой картинке корректируется на долю значимых символов в нем. Это необходимо, так как позиция не может считаться консервативной, если на этом месте существуют инсерционно-делеционный полиморфизм во многих последовательностях^[1].

Интерпретация логотипов сайтов связывания

Логотипы содержат несколько разных типов информации. Во-первых, на каждой позиции основания ранжированы согласно их представленности (наиболее часто встречающееся основание изображено на вершине стопки символов)^[1]. Поэтому общий консенсус можно прочитать по верхнему ряду букв каждой позиции.

Относительный размер символа каждого из четырех оснований показывает относительную частоту встречаемости каждого нуклеотида на этой позиции^[1].

Высота всего набора символов пропорциональна информации, которую несет эта колонка выравнивания. Поэтому наиболее важные позиции легко визуально выделить. Например, в логотипах бактериальных сайтов связывания рибосом из-за существования альтернативных инициаторных кодонов, первая буква наиболее распространенного AUG обычно немного ниже следующих двух — она менее консервативная^[1].

Сайты связывания транскрипционных факторов часто являются палиндромными последовательностями, так как сам транскрипционный фактор нередко функционирует в виде димера. Такие сайты симметричны не только по нуклеотидному составу, но и по консервативности позиций, что можно видеть на логотипах таких сайтов^[1].

Следует иметь в виду, что неожиданно высокая консервативность может быть результатом перекрывания двух сайтов связывания^[2].

Разновидности логотипов

Логотип консенсуса

Это упрощенный вариант логотипа последовательностей, главным преимуществом которого является возможность представления в текстовом формате^[3]. Также как и логотип последовательностей, логотип консенсуса последовательностей строится по множественному выравниванию последовательностей ДНК/РНК или белков и отражает выравнивания и выражает информацию о консервативности в каждой позиции последовательности.

Вместо набора всех возможных нуклеотидов (или аминокислот) и их относительной частоты на каждой позиции, логотип консенсуса отражает только степень консервативности, используя высоту консенсусной буквы на каждой позиции^[3].

В таком варианте логотипа теряется значительная часть информации, он является промежуточным звеном между последовательностью консенсуса и логотипом, описанным выше^[3].

Нормированный логотип (flat logo)

Строится также, как и вышеописанный логотип, но высота наборов букв всех позиций одинакова^[4]. Получается, что высота каждой отдельной буквы отвечает частоте этого нуклеотида или аминокислоты в соответствующей колонке выравнивания. При этом почти полностью теряется информация о консервативности, поэтому такой тип логотипа используется редко.

Ссылки

Инструменты для создания логотипов

Примечания

↑ ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Schneider T. D., Stephens R. M. Sequence Logos: A New Way to Display Consensus Sequences (англ.) // Nucleic Acids Res : journal. — 1990. — Vol. 18, no. 20. — P. 6097—6100. — doi:10.1093/nar/18.20.6097. — PMID 2172928. — PMC 332411. Архивировано 7 июня 2020 года.
↑ Schneider T. D., Stormo G. D., Gold L., Ehrenfeucht A. Information content of binding sites on nucleotide sequences (англ.) // Journal of Molecular Biology^[англ.] : journal. — 1986. — Vol. 188, no. 3. — P. 415—431. — doi:10.1016/0022-2836(86)90165-8. — PMID 3525846.
↑ ¹ ² ³ Schneider T. D. Consensus Sequence Zen (неопр.) // Appl Bioinform. — 2002. — Т. 1, № 3. — С. 111—119. — PMID 15130839. — PMC 1852464.
↑ Chou M. F. Biological sequence motif discovery using motif-x. (неопр.) // Curr Protoc Bioinformatics. — 2011. — С. 15—24. — doi:10.1002/0471250953.bi1315s35. — PMID 21901740.

[Schneider1990-1] ¹ ² ³ ⁴ ⁵ ⁶ ⁷ ⁸ ⁹ ¹⁰ ¹¹ Schneider T. D., Stephens R. M. Sequence Logos: A New Way to Display Consensus Sequences (англ.) // Nucleic Acids Res : journal. — 1990. — Vol. 18, no. 20. — P. 6097—6100. — doi:10.1093/nar/18.20.6097. — PMID 2172928. — PMC 332411. Архивировано 7 июня 2020 года.

[Schneider1986-2] Schneider T. D., Stormo G. D., Gold L., Ehrenfeucht A. Information content of binding sites on nucleotide sequences (англ.) // Journal of Molecular Biology^[англ.] : journal. — 1986. — Vol. 188, no. 3. — P. 415—431. — doi:10.1016/0022-2836(86)90165-8. — PMID 3525846.

[Schneider2002-3] ¹ ² ³ Schneider T. D. Consensus Sequence Zen (неопр.) // Appl Bioinform. — 2002. — Т. 1, № 3. — С. 111—119. — PMID 15130839. — PMC 1852464.

[Chou2011-4] Chou M. F. Biological sequence motif discovery using motif-x. (неопр.) // Curr Protoc Bioinformatics. — 2011. — С. 15—24. — doi:10.1002/0471250953.bi1315s35. — PMID 21901740.

[1]

[2]

[3]

[4]