Стохастическое вложение соседей с t-распределением

Стохастическое вложение соседей с t-распределением (англ. t-distributed Stochastic Neighbor Embedding, t-SNE) — это алгоритм машинного обучения для визуализации, разработанный Лоренсом ван дер Маатеном и Джеффри Хинтоном^[1]. Он является техникой нелинейного снижения размерности^[англ.], хорошо подходящей для вложения данных высокой размерности для визуализации в пространство низкой размерности (двух- или трехмерное). В частности, метод моделирует каждый объект высокой размерности двух- или трёхмерной точкой таким образом, что похожие объекты моделируются близко расположенными точками, а непохожие точки моделируются с большой вероятностью точками, далеко друг от друга отстоящими.

Описание

Алгоритм t-SNE состоит из двух главных шагов. Сначала t-SNE создаёт распределение вероятностей по парам объектов высокой размерности таким образом, что похожие объекты будут выбраны с большой вероятностью, в то время как вероятность выбора непохожих точек будет мала. Затем t-SNE определяет похожее распределение вероятностей по точкам в пространстве малой размерности и минимизирует расстояние Кульбака — Лейблера между двумя распределениями с учётом положения точек. Заметим, что исходный алгоритм использует евклидово расстояние между объектами как базу измерения сходства, это может быть изменено сообразно обстоятельствам.

Алгоритм t-SNE использовался для визуализации широкого ряда приложений, включая исследование компьютерной безопасности^[2], музыкальный анализ^[англ.]^[3], исследования по раку^[англ.]^[4], биоинформатику^[5] и обработку биомедицинских сигналов^[6]. Алгоритм часто используется для визуализации высокоуровневых представлений, полученных из искусственной нейронной сети^[7].

Поскольку t-SNE отображения часто используются для показа кластеров, а на визуализацию кластеров может оказывать значительное влияние выбранная параметризация, постольку необходимо умение работать с параметрами алгоритма t-SNE. Для выбора параметров и проверки результатов могут оказаться необходимы интерактивные^{[неизвестный термин]} исследования^[8]^[9]. Было продемонстрировано, что алгоритм t-SNE часто способен обнаружить хорошо отделённые друг от друга кластеры, а при специальном выборе параметров аппроксимировать простой вид спектральной кластеризации^[10].

Детали

Если дан набор из $N$ объектов высокой размерности ${\displaystyle \mathbf {x} _{1},\dots ,\mathbf {x} _{N))$ , t-SNE сначала вычисляет вероятности ${\displaystyle p_{ij))$ , которые пропорциональны похожести объектов ${\displaystyle \mathbf {x} _{i))$ и ${\displaystyle \mathbf {x} _{j))$ следующим образом:

p_{j\mid i}={\frac {\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{j}\rVert ^{2}/2\sigma _{i}^{2})}{\sum _{k\neq i}\exp(-\lVert \mathbf {x} _{i}-\mathbf {x} _{k}\rVert ^{2}/2\sigma _{i}^{2}))),

Ван дер Маатен и Хинтон объясняли: «Похожесть точки данных ${\displaystyle x_{j))$ точке ${\displaystyle x_{i))$ является условной вероятностью ${\displaystyle p_{j|i))$ , что для ${\displaystyle x_{i))$ будет выбрана ${\displaystyle x_{j))$ в качестве соседней точки, если соседи выбираются пропорционально их гауссовой плотности вероятности с центром в ${\displaystyle x_{i))$ »^[1].

p_{ij}={\frac {p_{j\mid i}+p_{i\mid j)){2N))

Более того, вероятности с $i=j$ принимаются равными нулю: $p_{ii}=0$

Полоса пропускания гауссовых ядер ${\displaystyle \sigma _{i))$ устанавливается с помощью метода бисекции так, что перплексивность^[англ.] условного распределения равна предопределённой перплексивности. Как результат полоса пропускания адаптируется плотности данных — меньшие значения ${\displaystyle \sigma _{i))$ используются в более плотных частях пространства данных.

Поскольку гауссово ядро использует евклидово расстояние $\lVert x_{i}-x_{j}\rVert$ , оно подвержено проклятию размерности и в данных высокой размерности, когда расстояния теряют возможность различать, ${\displaystyle p_{ij))$ становятся слишком похожи (асимптотически, они сходятся к константе). Предлагается подкорректировать расстояние с помощью экспоненциального преобразования, основываясь на внутреннем размере^[англ.] каждой точки, чтобы смягчить проблему^[11].

Алгоритм t-SNE стремится получить отображение ${\displaystyle \mathbf {y} _{1},\dots ,\mathbf {y} _{N))$ в $d$ -мерное пространство (с ${\displaystyle \mathbf {y} _{i}\in \mathbb {R} ^{d))$ ), которое отражает похожести ${\displaystyle p_{ij))$ , насколько это возможно. Для этого алгоритм измеряет похожесть ${\displaystyle q_{ij))$ между двумя точками ${\displaystyle \mathbf {y} _{i))$ и ${\displaystyle \mathbf {y} _{j))$ с помощью очень похожего подхода. Конкретно, ${\displaystyle q_{ij))$ определяется как

{\displaystyle q_{ij}={\frac {(1+\lVert \mathbf {y} _{i}-\mathbf {y} _{j}\rVert ^{2})^{-1)){\sum _{k\neq l}(1+\lVert \mathbf {y} _{k}-\mathbf {y} _{l}\rVert ^{2})^{-1))))

Здесь имеющее утяжелённый хвост t-распределение Стьюдента (с одной степенью свободы, которое является тем же, что и распределение Коши) используется для измерения похожести между точками в пространстве низкой размерности, чтобы иметь возможность непохожие объекты расположить на карте далеко друг от друга. Заметим, что в этом случае мы также устанавливаем $q_{ii}=0$

Расположения точек ${\displaystyle \mathbf {y} _{i))$ в пространстве малой размерности определяется минимизацией (несимметричной) расстояния Кульбака — Лейблера распределения $Q$ от распределения $P$ , то есть

{\displaystyle KL(P||Q)=\sum _{i\neq j}p_{ij}\log {\frac {p_{ij)){q_{ij))))

Минимизация расстояния Кульбака — Лейблера по отношению к точкам ${\displaystyle \mathbf {y} _{i))$ осуществляется с помощью градиентного спуска. Результатом оптимизации является отображение, которое отражает похожесть между объектами пространства высокой размерности.

Программное обеспечение

Алгоритм Лоуренса ван дер Маатена «t-Distributed Stochastic Neighbor Embedding» https://lvdmaaten.github.io/tsne/
ELKI^[англ.] содержит tSNE с аппроксимацией Барнеса-Хата. https://github.com/elki-project/elki/blob/master/elki/src/main/java/de/lmu/ifi/dbs/elki/algorithm/projection/TSNE.java (недоступная ссылка)

Примечания

↑ ¹ ² van der Maaten, Hinton, 2008, с. 2579–2605.
↑ Gashi, Stankovic, Leita, Thonnard, 2009, с. 4–11.
↑ Hamel, Eck, 2010, с. 339–344.
↑ Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010, с. 339–35.
↑ Wallach, Liliean, 2009, с. 615–620.
↑ Birjandtalab, Pouyan, Nourani, 2016, с. 595–598.
↑ Olah’s blog, 2015.
↑ Pezzotti, Lelieveldt, van der Maaten и др., 2017, с. 1739–1752.
↑ Wattenberg, Viégas, Johnson, 2016.
↑ Linderman, Steinerberger, 2017.
↑ Schubert, Gertz, 2017, с. 188–203.

Литература

van der Maaten L.J.P., Hinton G.E. Visualizing Data Using t-SNE // Journal of Machine Learning Research. — 2008. — Ноябрь (т. 9).
Gashi I., Stankovic V., Leita C., Thonnard O. An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines // Proceedings of the IEEE International Symposium on Network Computing and Applications. — 2009.
Hamel P., Eck D. Learning Features from Music Audio with Deep Belief Networks // Proceedings of the International Society for Music Information Retrieval Conference. — 2010.
Jamieson A.R., Giger M.L., Drukker K., Lui H., Yuan Y., Bhooshan N. Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE // Medical Physics. — 2010. — Т. 37, вып. 1. — doi:10.1118/1.3267037. — PMID 20175497. — PMC 2807447.
Wallach I., Liliean R. The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding // Bioinformatics. — 2009. — Т. 25, вып. 5. — doi:10.1093/bioinformatics/btp035. — PMID 19153135.
Birjandtalab J., Pouyan M. B., Nourani M. Nonlinear dimension reduction for EEG-based epileptic seizure detection. — 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). — 2016. — ISBN 978-1-5090-2455-1. — doi:10.1109/BHI.2016.7455968.
Christopher Olah. Visualizing Representations: Deep Learning and Human Beings. — 2015.
Nicola Pezzotti, Boudewijn P. F. Lelieveldt, Laurens van der Maaten, Thomas Hollt, Elmar Eisemann, Anna Vilanova. Approximated and User Steerable tSNE for Progressive Visual Analytics // IEEE Transactions on Visualization and Computer Graphics. — 2017. — Т. 23, вып. 7. — ISSN 1077-2626. — doi:10.1109/tvcg.2016.2570755. — PMID 28113434.
Martin Wattenberg, Fernanda Viégas, Ian Johnson. How to Use t-SNE Effectively. — Distill, 2016.
George C. Linderman, Stefan Steinerberger. Clustering with t-SNE, provably. — 2017.
Erich Schubert, Michael Gertz. Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection // SISAP 2017 – 10th International Conference on Similarity Search and Applications. — 2017. — doi:10.1007/978-3-319-68474-1_13.

Ссылки

Visualizing Data Using t-SNE, Google Tech Talk about t-SNE

Для улучшения этой статьи желательно: Проверить качество перевода с иностранного языка.Исправить статью согласно стилистическим правилам Википедии.После исправления проблемы исключите её из списка. Удалите шаблон, если устранены все недостатки.

Категория

[_d6b8383a1e3d5c1e-1] ¹ ² van der Maaten, Hinton, 2008, с. 2579–2605.

[_6a2285221897655e-2] Gashi, Stankovic, Leita, Thonnard, 2009, с. 4–11.

[_c0f0821a495734eb-3] Hamel, Eck, 2010, с. 339–344.

[_582a45a4a72887dd-4] Jamieson, Giger, Drukker, Lui, Yuan, Bhooshan, 2010, с. 339–35.

[_b6bb6f3eb242c89d-5] Wallach, Liliean, 2009, с. 615–620.

[_fb860cab454c9118-6] Birjandtalab, Pouyan, Nourani, 2016, с. 595–598.

[_d8de7fe07568a74b-7] Olah’s blog, 2015.

[_884178612109ddb7-8] Pezzotti, Lelieveldt, van der Maaten и др., 2017, с. 1739–1752.

[_d084e0b0a00d4f4a-9] Wattenberg, Viégas, Johnson, 2016.

[_fafb60e106ff3b46-10] Linderman, Steinerberger, 2017.

[_7d7ea85d8dbae9ea-11] Schubert, Gertz, 2017, с. 188–203.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Стохастическое вложение соседей с t-распределением

Материал из Википедии — свободной энциклопедии

Описание

Детали

Программное обеспечение

Примечания

Литература

Ссылки

Suggest as cover photo

Thank you for helping!

Install Wikiwand

Don't forget to rate us

Tell your friends about Wikiwand!

Enjoying Wikiwand?

Tell your friends and spread the love:

Your preferred languages

All languages

Follow Us

Don't forget to rate us

Our magic isn't perfect

Thank you for helping!

Oh no, there's been an error