WikiDer > T-распределенное стохастическое вложение соседей

T-distributed stochastic neighbor embedding

t-распределенное стохастическое вложение соседей (t-SNE) это машинное обучение алгоритм для визуализация основан на стохастическом соседнем встраивании, первоначально разработанном Сэмом Роуисом и Джеффри Хинтон,[1] куда Лоренс ван дер Маатен предложил т-распределенный вариант.[2] Это уменьшение нелинейной размерности Техника хорошо подходит для встраивания данных большой размерности для визуализации в двух- или трехмерном пространстве низкой размерности. В частности, он моделирует каждый многомерный объект двух- или трехмерной точкой таким образом, что аналогичные объекты моделируются ближайшими точками, а разные объекты с высокой вероятностью моделируются удаленными точками.

Алгоритм t-SNE состоит из двух основных этапов. Сначала t-SNE конструирует распределение вероятностей над парами объектов большой размерности таким образом, что похожим объектам присваивается более высокая вероятность, а разным точкам - более низкая вероятность. Во-вторых, t-SNE определяет аналогичное распределение вероятностей по точкам на карте малой размерности и минимизирует Дивергенция Кульбака – Лейблера (Расхождение KL) между двумя распределениями относительно расположения точек на карте. В то время как исходный алгоритм использует Евклидово расстояние между объектами в качестве основы его метрики подобия, это можно изменить при необходимости.

t-SNE использовался для визуализации в широком спектре приложений, включая компьютерная безопасность исследование,[3] музыкальный анализ,[4] исследования рака,[5] биоинформатика,[6] и обработка биомедицинских сигналов.[7] Он часто используется для визуализации высокоуровневых представлений, изученных искусственная нейронная сеть.[8]

Хотя графики t-SNE часто кажутся кластеры, выбранная параметризация может сильно влиять на визуальные кластеры, поэтому необходимо хорошее понимание параметров t-SNE. Такие «кластеры» могут появляться даже в некластеризованных данных,[9] а значит, могут быть ложные выводы. Таким образом, для выбора параметров и проверки результатов может потребоваться интерактивное исследование.[10][11] Было продемонстрировано, что t-SNE часто может восстанавливать хорошо разделенные кластеры и при специальном выборе параметров приближается к простой форме спектральная кластеризация.[12]

Подробности

Учитывая набор многомерные объекты , t-SNE сначала вычисляет вероятности которые пропорциональны подобию предметов и , следующее.

За , определять

и установить . Обратите внимание, что для всех .

Как объяснили Ван дер Маатен и Хинтон: «Сходство точки данных датировать - условная вероятность, , который выбрал бы в качестве своего соседа, если бы соседи были выбраны пропорционально их плотности вероятности при гауссиане с центром в ."[2]

Теперь определим

и обратите внимание, что , , и .

Пропускная способность Гауссовы ядра устанавливается таким образом, что недоумение условного распределения равняется заранее заданной сложности с использованием метод деления пополам. В результате полоса пропускания адаптируется к плотность данных: меньшие значения используются в более плотных частях пространства данных.

Поскольку ядро ​​Гаусса использует евклидово расстояние , на него влияет проклятие размерности, а в данных большой размерности, когда расстояния теряют способность различать, становятся слишком похожими (асимптотически они сходятся к константе). Было предложено регулировать расстояния с помощью степенного преобразования на основе внутреннее измерение каждой точки, чтобы облегчить это.[13]

t-SNE стремится изучить -мерная карта ), что отражает сходство как можно лучше. С этой целью он измеряет сходство между двумя точками на карте и , используя очень похожий подход. В частности, для , определять в качестве

и установить . Здесь хвостатый Распределение Стьюдента (с одной степенью свободы, что аналогично Распределение Коши) используется для измерения сходства между точками низкой размерности, чтобы можно было смоделировать разнородные объекты далеко друг от друга на карте.

Расположение точек на карте определяются путем минимизации (несимметричного) Дивергенция Кульбака – Лейблера распределения из раздачи , то есть:

Минимизация расходимости Кульбака – Лейблера по точкам выполняется с использованием градиентный спуск. Результатом этой оптимизации является карта, которая отражает сходство между многомерными входными данными.

Программного обеспечения

  • ELKI содержит tSNE, также с приближением Барнса-Хата
  • Scikit-Learn, популярный инструментарий машинного обучения на Python реализует t-SNE как с точными решениями, так и с приближением Барнса-Хата.

Рекомендации

  1. ^ Роуис, Сэм; Хинтон, Джеффри (январь 2002 г.). Стохастическое вложение соседа (PDF). Системы обработки нейронной информации.
  2. ^ а б van der Maaten, L.J.P .; Хинтон, Г. (Ноябрь 2008 г.). «Визуализация данных с помощью t-SNE» (PDF). Журнал исследований в области машинного обучения. 9: 2579–2605.
  3. ^ Гаши, I .; Станкович, В .; Leita, C .; Тоннард, О. (2009). «Экспериментальное исследование разнообразия с помощью готовых антивирусных механизмов». Материалы Международного симпозиума IEEE по сетевым вычислениям и приложениям: 4–11.
  4. ^ Hamel, P .; Экк, Д. (2010). «Возможности обучения из музыкального аудио в сетях глубокого убеждения». Материалы конференции Международного общества поиска информации о музыке: 339–344.
  5. ^ Jamieson, A.R .; Giger, M.L .; Drukker, K .; Луи, H .; Yuan, Y .; Бхошан, Н. (2010). «Изучение уменьшения размерности пространства нелинейных признаков и представления данных в CADx груди с помощью лапласовских собственных карт и t-SNE». Медицинская физика. 37 (1): 339–351. Дои:10.1118/1.3267037. ЧВК 2807447. PMID 20175497.
  6. ^ Wallach, I .; Лилиан, Р. (2009). «База данных« белок-малые молекулы », неизбыточный структурный ресурс для анализа связывания белок-лиганд». Биоинформатика. 25 (5): 615–620. Дои:10.1093 / биоинформатика / btp035. PMID 19153135.
  7. ^ Birjandtalab, J .; Pouyan, M. B .; Нурани, М. (01.02.2016). Нелинейное уменьшение размеров для обнаружения эпилептических припадков на основе ЭЭГ. Международная конференция IEEE-EMBS по биомедицинской и медицинской информатике (BHI), 2016 г.. С. 595–598. Дои:10.1109 / BHI.2016.7455968. ISBN 978-1-5090-2455-1. S2CID 8074617.
  8. ^ Визуализация репрезентаций: глубокое обучение и человеческие существа Блог Кристофера Олаха, 2015 г.
  9. ^ «К-означает кластеризацию на выходе t-SNE». Перекрестная проверка. Получено 2018-04-16.
  10. ^ Пеццотти, Никола; Lelieveldt, Boudewijn P. F .; Маатен, Лоуренс ван дер; Холлт, Томас; Эйсеманн, Эльмар; Виланова, Анна (01.07.2017). «Приблизительный и управляемый пользователем tSNE для прогрессивной визуальной аналитики». IEEE Transactions по визуализации и компьютерной графике. 23 (7): 1739–1752. arXiv:1512.01655. Дои:10.1109 / tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. S2CID 353336.
  11. ^ Ваттенберг, Мартин; Вьегас, Фернанда; Джонсон, Ян (2016-10-13). «Как эффективно использовать t-SNE». Дистиллировать. Получено 4 декабря 2017.
  12. ^ Линдерман, Джордж С .; Штайнербергер, Стефан (8 июня 2017 г.). «Кластеризация с t-SNE, доказуемо». arXiv:1706.02582 [cs.LG].
  13. ^ Шуберт, Эрих; Герц, Майкл (2017-10-04). Внутреннее t-стохастическое вложение соседей для визуализации и обнаружения выбросов. SISAP 2017 - 10-я Международная конференция по поиску и применению подобия. С. 188–203. Дои:10.1007/978-3-319-68474-1_13.

внешняя ссылка