WikiDer > T-распределенное стохастическое вложение соседей

T-distributed stochastic neighbor embedding

t-распределенное стохастическое вложение соседей (t-SNE) это машинное обучение алгоритм для визуализация основан на стохастическом соседнем встраивании, первоначально разработанном Сэмом Роуисом и Джеффри Хинтон,^[1] куда Лоренс ван дер Маатен предложил т-распределенный вариант.^[2] Это уменьшение нелинейной размерности Техника хорошо подходит для встраивания данных большой размерности для визуализации в двух- или трехмерном пространстве низкой размерности. В частности, он моделирует каждый многомерный объект двух- или трехмерной точкой таким образом, что аналогичные объекты моделируются ближайшими точками, а разные объекты с высокой вероятностью моделируются удаленными точками.

Алгоритм t-SNE состоит из двух основных этапов. Сначала t-SNE конструирует распределение вероятностей над парами объектов большой размерности таким образом, что похожим объектам присваивается более высокая вероятность, а разным точкам - более низкая вероятность. Во-вторых, t-SNE определяет аналогичное распределение вероятностей по точкам на карте малой размерности и минимизирует Дивергенция Кульбака – Лейблера (Расхождение KL) между двумя распределениями относительно расположения точек на карте. В то время как исходный алгоритм использует Евклидово расстояние между объектами в качестве основы его метрики подобия, это можно изменить при необходимости.

t-SNE использовался для визуализации в широком спектре приложений, включая компьютерная безопасность исследование,^[3] музыкальный анализ,^[4] исследования рака,^[5] биоинформатика,^[6] и обработка биомедицинских сигналов.^[7] Он часто используется для визуализации высокоуровневых представлений, изученных искусственная нейронная сеть.^[8]

Хотя графики t-SNE часто кажутся кластеры, выбранная параметризация может сильно влиять на визуальные кластеры, поэтому необходимо хорошее понимание параметров t-SNE. Такие «кластеры» могут появляться даже в некластеризованных данных,^[9] а значит, могут быть ложные выводы. Таким образом, для выбора параметров и проверки результатов может потребоваться интерактивное исследование.^[10]^[11] Было продемонстрировано, что t-SNE часто может восстанавливать хорошо разделенные кластеры и при специальном выборе параметров приближается к простой форме спектральная кластеризация.^[12]

Подробности

Учитывая набор ${ displaystyle N}$ многомерные объекты ${ displaystyle mathbf {x} _ {1}, dots, mathbf {x} _ {N}}$ , t-SNE сначала вычисляет вероятности ${ displaystyle p_ {ij}}$ которые пропорциональны подобию предметов ${ Displaystyle mathbf {х} _ {я}}$ и ${ displaystyle mathbf {x} _ {j}}$ , следующее.

За ${ displaystyle i neq j}$ , определять

{ displaystyle p_ {j mid i} = { frac { exp (- lVert mathbf {x} _ {i} - mathbf {x} _ {j} rVert ^ {2} / 2 sigma _ {i} ^ {2})} { sum _ {k neq i} exp (- lVert mathbf {x} _ {i} - mathbf {x} _ {k} rVert ^ {2 } / 2 sigma _ {i} ^ {2})}}}

и установить ${ displaystyle p_ {i mid i} = 0}$ . Обратите внимание, что ${ displaystyle sum _ {j} p_ {j mid i} = 1}$ для всех ${ displaystyle i}$ .

Как объяснили Ван дер Маатен и Хинтон: «Сходство точки данных ${ displaystyle x_ {j}}$ датировать ${ displaystyle x_ {i}}$ - условная вероятность, ${ displaystyle p_ {j | i}}$ , который ${ displaystyle x_ {i}}$ выбрал бы ${ displaystyle x_ {j}}$ в качестве своего соседа, если бы соседи были выбраны пропорционально их плотности вероятности при гауссиане с центром в ${ displaystyle x_ {i}}$ ."^[2]

Теперь определим

{ displaystyle p_ {ij} = { frac {p_ {j mid i} + p_ {i mid j}} {2N}}}

и обратите внимание, что ${ displaystyle p_ {ij} = p_ {ji}}$ , ${ displaystyle p_ {ii} = 0}$ , и ${ Displaystyle сумма _ {я, j} p_ {ij} = 1}$ .

Пропускная способность Гауссовы ядра ${ displaystyle sigma _ {я}}$ устанавливается таким образом, что недоумение условного распределения равняется заранее заданной сложности с использованием метод деления пополам. В результате полоса пропускания адаптируется к плотность данных: меньшие значения ${ displaystyle sigma _ {я}}$ используются в более плотных частях пространства данных.

Поскольку ядро Гаусса использует евклидово расстояние ${ displaystyle lVert x_ {i} -x_ {j} rVert}$ , на него влияет проклятие размерности, а в данных большой размерности, когда расстояния теряют способность различать, ${ displaystyle p_ {ij}}$ становятся слишком похожими (асимптотически они сходятся к константе). Было предложено регулировать расстояния с помощью степенного преобразования на основе внутреннее измерение каждой точки, чтобы облегчить это.^[13]

t-SNE стремится изучить ${ displaystyle d}$ -мерная карта ${ displaystyle mathbf {y} _ {1}, dots, mathbf {y} _ {N}}$ (с ${ displaystyle mathbf {y} _ {i} in mathbb {R} ^ {d}}$ ), что отражает сходство ${ displaystyle p_ {ij}}$ как можно лучше. С этой целью он измеряет сходство ${ displaystyle q_ {ij}}$ между двумя точками на карте ${ displaystyle mathbf {y} _ {i}}$ и ${ displaystyle mathbf {y} _ {j}}$ , используя очень похожий подход. В частности, для ${ displaystyle i neq j}$ , определять ${ displaystyle q_ {ij}}$ в качестве

{ displaystyle q_ {ij} = { frac {(1+ lVert mathbf {y} _ {i} - mathbf {y} _ {j} rVert ^ {2}) ^ {- 1}} { sum _ {k} sum _ {l neq k} (1+ lVert mathbf {y} _ {k} - mathbf {y} _ {l} rVert ^ {2}) ^ {- 1 }}}}

и установить ${ displaystyle q_ {ii} = 0}$ . Здесь хвостатый Распределение Стьюдента (с одной степенью свободы, что аналогично Распределение Коши) используется для измерения сходства между точками низкой размерности, чтобы можно было смоделировать разнородные объекты далеко друг от друга на карте.

Расположение точек ${ displaystyle mathbf {y} _ {i}}$ на карте определяются путем минимизации (несимметричного) Дивергенция Кульбака – Лейблера распределения ${ displaystyle P}$ из раздачи ${ displaystyle Q}$ , то есть:

{ displaystyle mathrm {KL} left (P parallel Q right) = sum _ {i neq j} p_ {ij} log { frac {p_ {ij}} {q_ {ij}}} }

Минимизация расходимости Кульбака – Лейблера по точкам ${ displaystyle mathbf {y} _ {i}}$ выполняется с использованием градиентный спуск. Результатом этой оптимизации является карта, которая отражает сходство между многомерными входными данными.

Программного обеспечения

ELKI содержит tSNE, также с приближением Барнса-Хата
Scikit-Learn, популярный инструментарий машинного обучения на Python реализует t-SNE как с точными решениями, так и с приближением Барнса-Хата.

внешняя ссылка

Визуализация данных с помощью t-SNE, Google Tech Talk о t-SNE
Реализации t-SNE на разных языках, Коллекция ссылок, которую поддерживает Лоренс ван дер Маатен

[SNE-1] Роуис, Сэм; Хинтон, Джеффри (январь 2002 г.). Стохастическое вложение соседа (PDF). Системы обработки нейронной информации.

[MaatenHinton-2] а ^б van der Maaten, L.J.P .; Хинтон, Г. (Ноябрь 2008 г.). «Визуализация данных с помощью t-SNE» (PDF). Журнал исследований в области машинного обучения. 9: 2579–2605.

[3] Гаши, I .; Станкович, В .; Leita, C .; Тоннард, О. (2009). «Экспериментальное исследование разнообразия с помощью готовых антивирусных механизмов». Материалы Международного симпозиума IEEE по сетевым вычислениям и приложениям: 4–11.

[4] Hamel, P .; Экк, Д. (2010). «Возможности обучения из музыкального аудио в сетях глубокого убеждения». Материалы конференции Международного общества поиска информации о музыке: 339–344.

[5] Jamieson, A.R .; Giger, M.L .; Drukker, K .; Луи, H .; Yuan, Y .; Бхошан, Н. (2010). «Изучение уменьшения размерности пространства нелинейных признаков и представления данных в CADx груди с помощью лапласовских собственных карт и t-SNE». Медицинская физика. 37 (1): 339–351. Дои:10.1118/1.3267037. ЧВК 2807447. PMID 20175497.

[6] Wallach, I .; Лилиан, Р. (2009). «База данных« белок-малые молекулы », неизбыточный структурный ресурс для анализа связывания белок-лиганд». Биоинформатика. 25 (5): 615–620. Дои:10.1093 / биоинформатика / btp035. PMID 19153135.

[7] Birjandtalab, J .; Pouyan, M. B .; Нурани, М. (01.02.2016). Нелинейное уменьшение размеров для обнаружения эпилептических припадков на основе ЭЭГ. Международная конференция IEEE-EMBS по биомедицинской и медицинской информатике (BHI), 2016 г.. С. 595–598. Дои:10.1109 / BHI.2016.7455968. ISBN 978-1-5090-2455-1. S2CID 8074617.

[8] Визуализация репрезентаций: глубокое обучение и человеческие существа Блог Кристофера Олаха, 2015 г.

[9] «К-означает кластеризацию на выходе t-SNE». Перекрестная проверка. Получено 2018-04-16.

[10] Пеццотти, Никола; Lelieveldt, Boudewijn P. F .; Маатен, Лоуренс ван дер; Холлт, Томас; Эйсеманн, Эльмар; Виланова, Анна (01.07.2017). «Приблизительный и управляемый пользователем tSNE для прогрессивной визуальной аналитики». IEEE Transactions по визуализации и компьютерной графике. 23 (7): 1739–1752. arXiv:1512.01655. Дои:10.1109 / tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. S2CID 353336.

[11] Ваттенберг, Мартин; Вьегас, Фернанда; Джонсон, Ян (2016-10-13). «Как эффективно использовать t-SNE». Дистиллировать. Получено 4 декабря 2017.

[12] Линдерман, Джордж С .; Штайнербергер, Стефан (8 июня 2017 г.). «Кластеризация с t-SNE, доказуемо». arXiv:1706.02582 [cs.LG].

[13] Шуберт, Эрих; Герц, Майкл (2017-10-04). Внутреннее t-стохастическое вложение соседей для визуализации и обнаружения выбросов. SISAP 2017 - 10-я Международная конференция по поиску и применению подобия. С. 188–203. Дои:10.1007/978-3-319-68474-1_13.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

Navigation

Navigation

Themenportale

WikiDer > T-распределенное стохастическое вложение соседей

Содержание

Подробности

Программного обеспечения

Рекомендации

внешняя ссылка