T-розподілене вкладення стохастичної близькості (англ.t-distributed Stochastic Neighbor Embedding, t-SNE) — це метод машинного навчання візуалізації даних, розроблений Лоренсом ван дер Маатеном і Джефрі Гінтоном.[1] Це зручний метод нелінійного зниження розмірності[en] шляхом вкладення багатовимірних даних у дво- або тривимірний простір для подальшої візуалізації. Зокрема, він відображає кожну точку багатовимірного простору в дво- або тривимірну точку евклідового простору так, що подібні об'єкти розташовуються поруч, а несхожі об'єкти відповідають віддаленим точкам з високою ймовірністю.
Алгоритм t-SNE складається з двох основних етапів. Спочатку, t-SNE створює розподіл імовірностей по парах багатовимірних об'єктів таким чином, що подібні об'єкти мають високу ймовірність бути вибраними, у той час як несхожі точки мають надзвичайно малу ймовірність бути вибраними разом. Далі, t-SNE визначає подібний розподіл ймовірностей для точок у карті низьковимірного простору та мінімізує розбіжності за відстанню Кульбака–Лейблера між двома розподілами за місцем розташування точок на карті. Зверніть увагу, що хоч оригінальний алгоритм і використовує евклідову відстань між об'єктами, як основну метрику подібності об'єктів, проте, вона може бути змінена при необхідності.
Хоча візуалізації отримані за допомогою t-SNE часто використовуються для відображення кластерів, отримане зображення може суттєво залежати від обраної параметризації і тому потрібне глибоке розуміння параметрів, які використовуються для t-SNE. Навіть для некластеризованих даних можуть з'явитись «кластери»[8], що може привести до помилкових висновків. Тим самим, для правильного підбору параметрів і перевірки результатів може бути потрібне інтерактивне дослідження даних.[9][10] Було продемонстровано, що t-SNE часто здатний відновлювати добре розділені кластери, та зі спеціальним вибором параметрів, він наближається до простої форми спектральної кластеризації.[11]
Деталі
Для даного набору багатовимірних об'єктів t-SNE спочатку обчислює ймовірності пропорційні схожості і наступним чином:
Ван дер Маатен та Гінтон пояснюють такий вибір відстані наступним чином: «подібність точки даних до точки даних — це умовна ймовірність, , що вибрав би як свого сусіда, якби сусіди були обрані пропорційно їх гаусовій густині ймовірності з центром в .»[1]
Більш того, коли , ймовірності дорівнюють нулю:
Пропускна здатність Гаусового ядравстановлюється за допомогою методу бісекції так, що перплексивність умовного розподілу дорівнює попередньо визначеній перплексивності. У результаті пропускна здатність адаптується до густини даних: менші значення використовуються у більш густих частинах даних.
Через те що Гаусове ядро використовує евклідову відстань , то, у випадку дуже високої розмірності даних, слід мати на увазі ефект прокляття розмірності, коли відстані втрачають здатність до розділення і стають дуже схожими (асимптотично, вони збігаються до константи).
Для пом'якшення цього ефекту запропоновано[12] регулювати відстані степеневим перетворенням, спираючись на внутрішню розмірність[en] кожної точки.
t-SNE намагається дізнатись -вимірне відображення (де ), яке відображає подібність наскільки це можливо. З цією метою він вимірює схожість між двома точками відображення та за допомогою аналогічного підходу. Зокрема, визначається як:
Тут використовується T-розподіл Стьюдента з обважнілим кінцем (з одним ступенем свободи, який є по суті розподілом Коші) для вимірювання подібностей між точками у низьковимірному просторі для того, щоб різнорідні об'єкти були змодельовані далеко один від одного при відображенні. Зверніть увагу, що в даному випадку ми прирівнюємо
Координати точок при відображенні визначаються шляхом мінімізації (несиметричної) відмінності по мірі Кульбака–Лейблера розподілу від розподілу , тобто:
Мінімізація розбіжностей Кульбака–Лейблера по точкам здійснюється за допомогою градієнтного спуску. Результатом такої оптимізації є відображення, яке добре зберігає подібність між входовими даними високої розмірності.
↑ абvan der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). Visualizing Data Using t-SNE(PDF). Journal of Machine Learning Research. 9: 2579—2605. Архів оригіналу(PDF) за 9 серпня 2017. Процитовано 27 грудня 2018.
↑Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines. Proceedings of the IEEE International Symposium on Network Computing and Applications: 4—11.
↑Hamel, P.; Eck, D. (2010). Learning Features from Music Audio with Deep Belief Networks. Proceedings of the International Society for Music Information Retrieval Conference: 339—344.
↑Wallach, I.; Liliean, R. (2009). The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding. Bioinformatics. 25 (5): 615—620. doi:10.1093/bioinformatics/btp035. PMID19153135.
↑Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (13 жовтня 2016). How to Use t-SNE Effectively (English) . Distill. Архів оригіналу за 19 грудня 2017. Процитовано 4 грудня 2017.
↑Linderman, George C.; Steinerberger, Stefan (8 червня 2017). Clustering with t-SNE, provably. arXiv:1706.02582 [cs.LG].
↑Schubert, Erich; Gertz, Michael (4 жовтня 2017). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection. SISAP 2017 – 10th International Conference on Similarity Search and Applications. с. 188—203. doi:10.1007/978-3-319-68474-1_13.