Стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE) — это алгоритм машинного обучения для визуализации, разработанный Лоренсом ван дер Маатеном и Джеффри Хинтоном[1]. Он является техникой нелинейного снижения размерности[англ.], хорошо подходящей для вложения данных высокой размерности для визуализации в пространство низкой размерности (двух- или трехмерное). В частности, метод моделирует каждый объект высокой размерности двух- или трёхмерной точкой таким образом, что похожие объекты моделируются близко расположенными точками, а непохожие точки моделируются с большой вероятностью точками, далеко друг от друга отстоящими.
Алгоритм t-SNE состоит из двух главных шагов. Сначала t-SNE создаёт распределение вероятностей по парам объектов высокой размерности таким образом, что похожие объекты будут выбраны с большой вероятностью, в то время как вероятность выбора непохожих точек будет мала. Затем t-SNE определяет похожее распределение вероятностей по точкам в пространстве малой размерности и минимизирует расстояние Кульбака — Лейблера между двумя распределениями с учётом положения точек. Заметим, что исходный алгоритм использует евклидово расстояние между объектами как базу измерения сходства, это может быть изменено сообразно обстоятельствам.
Алгоритм t-SNE использовался для визуализации широкого ряда приложений, включая исследование компьютерной безопасности[2], музыкальный анализ[англ.][3], исследования по раку[англ.][4], биоинформатику[5] и обработку биомедицинских сигналов[6]. Алгоритм часто используется для визуализации высокоуровневых представлений, полученных из искусственной нейронной сети[7].
Поскольку t-SNE отображения часто используются для показа кластеров, а на визуализацию кластеров может оказывать значительное влияние выбранная параметризация, постольку необходимо умение работать с параметрами алгоритма t-SNE. Для выбора параметров и проверки результатов могут оказаться необходимы интерактивные[неизвестный термин] исследования[8][9]. Было продемонстрировано, что алгоритм t-SNE часто способен обнаружить хорошо отделённые друг от друга кластеры, а при специальном выборе параметров аппроксимировать простой вид спектральной кластеризации[10].
Если дан набор из объектов высокой размерности , t-SNE сначала вычисляет вероятности , которые пропорциональны похожести объектов и следующим образом:
Ван дер Маатен и Хинтон объясняли: «Похожесть точки данных точке является условной вероятностью , что для будет выбрана в качестве соседней точки, если соседи выбираются пропорционально их гауссовой плотности вероятности с центром в »[1].
Более того, вероятности с принимаются равными нулю:
Полоса пропускания гауссовых ядер устанавливается с помощью метода бисекции так, что перплексивность[англ.] условного распределения равна предопределённой перплексивности. Как результат полоса пропускания адаптируется плотности данных — меньшие значения используются в более плотных частях пространства данных.
Поскольку гауссово ядро использует евклидово расстояние , оно подвержено проклятию размерности и в данных высокой размерности, когда расстояния теряют возможность различать, становятся слишком похожи (асимптотически, они сходятся к константе). Предлагается подкорректировать расстояние с помощью экспоненциального преобразования, основываясь на внутреннем размере[англ.] каждой точки, чтобы смягчить проблему[11].
Алгоритм t-SNE стремится получить отображение в -мерное пространство (с ), которое отражает похожести , насколько это возможно. Для этого алгоритм измеряет похожесть между двумя точками и с помощью очень похожего подхода. Конкретно, определяется как
Здесь имеющее утяжелённый хвост t-распределение Стьюдента (с одной степенью свободы, которое является тем же, что и распределение Коши) используется для измерения похожести между точками в пространстве низкой размерности, чтобы иметь возможность непохожие объекты расположить на карте далеко друг от друга. Заметим, что в этом случае мы также устанавливаем
Расположения точек в пространстве малой размерности определяется минимизацией (несимметричной) расстояния Кульбака — Лейблера распределения от распределения , то есть
Минимизация расстояния Кульбака — Лейблера по отношению к точкам осуществляется с помощью градиентного спуска. Результатом оптимизации является отображение, которое отражает похожесть между объектами пространства высокой размерности.
Для улучшения этой статьи желательно:
|