T-розподілене вкладення стохастичної близькості

T-розподілене вкладення стохастичної близькості (англ. t-distributed Stochastic Neighbor Embedding, t-SNE) — це метод машинного навчання візуалізації даних, розроблений Лоренсом ван дер Маатеном і Джефрі Гінтоном.[1] Це зручний метод нелінійного зниження розмірності[en] шляхом вкладення багатовимірних даних у дво- або тривимірний простір для подальшої візуалізації. Зокрема, він відображає кожну точку багатовимірного простору в дво- або тривимірну точку евклідового простору так, що подібні об'єкти розташовуються поруч, а несхожі об'єкти відповідають віддаленим точкам з високою ймовірністю.

Алгоритм t-SNE складається з двох основних етапів. Спочатку, t-SNE створює розподіл імовірностей по парах багатовимірних об'єктів таким чином, що подібні об'єкти мають високу ймовірність бути вибраними, у той час як несхожі точки мають надзвичайно малу ймовірність бути вибраними разом. Далі, t-SNE визначає подібний розподіл ймовірностей для точок у карті низьковимірного простору та мінімізує розбіжності за відстанню Кульбака–Лейблера між двома розподілами за місцем розташування точок на карті. Зверніть увагу, що хоч оригінальний алгоритм і використовує евклідову відстань між об'єктами, як основну метрику подібності об'єктів, проте, вона може бути змінена при необхідності.

t-SNE використовується для візуалізації в різноманітних застосунках, таких як дослідження по комп'ютерній безпеці,[2] аналізу музики,[3] дослідженнях раку[en],[4] біоінформатики,[5] та біомедичній обробці сигналів.[6] Він часто використовується для візуалізації високорівневих представлень, отриманих за допомогою штучної нейронної мережі.[7]

Хоча візуалізації отримані за допомогою t-SNE часто використовуються для відображення кластерів, отримане зображення може суттєво залежати від обраної параметризації і тому потрібне глибоке розуміння параметрів, які використовуються для t-SNE. Навіть для некластеризованих даних можуть з'явитись «кластери»[8], що може привести до помилкових висновків. Тим самим, для правильного підбору параметрів і перевірки результатів може бути потрібне інтерактивне дослідження даних.[9][10] Було продемонстровано, що t-SNE часто здатний відновлювати добре розділені кластери, та зі спеціальним вибором параметрів, він наближається до простої форми спектральної кластеризації.[11]

Деталі

Для даного набору багатовимірних об'єктів t-SNE спочатку обчислює ймовірності пропорційні схожості і наступним чином:

Ван дер Маатен та Гінтон пояснюють такий вибір відстані наступним чином: «подібність точки даних до точки даних  — це умовна ймовірність, , що вибрав би як свого сусіда, якби сусіди були обрані пропорційно їх гаусовій густині ймовірності з центром в [1]

Більш того, коли , ймовірності дорівнюють нулю:

Пропускна здатність Гаусового ядра встановлюється за допомогою методу бісекції так, що перплексивність умовного розподілу дорівнює попередньо визначеній перплексивності. У результаті пропускна здатність адаптується до густини даних: менші значення використовуються у більш густих частинах даних.

Через те що Гаусове ядро використовує евклідову відстань , то, у випадку дуже високої розмірності даних, слід мати на увазі ефект прокляття розмірності, коли відстані втрачають здатність до розділення і стають дуже схожими (асимптотично, вони збігаються до константи). Для пом'якшення цього ефекту запропоновано[12] регулювати відстані степеневим перетворенням, спираючись на внутрішню розмірність[en] кожної точки.

t-SNE намагається дізнатись -вимірне відображення (де ), яке відображає подібність наскільки це можливо. З цією метою він вимірює схожість між двома точками відображення та за допомогою аналогічного підходу. Зокрема, визначається як:

Тут використовується T-розподіл Стьюдента з обважнілим кінцем (з одним ступенем свободи, який є по суті розподілом Коші) для вимірювання подібностей між точками у низьковимірному просторі для того, щоб різнорідні об'єкти були змодельовані далеко один від одного при відображенні. Зверніть увагу, що в даному випадку ми прирівнюємо

Координати точок при відображенні визначаються шляхом мінімізації (несиметричної) відмінності по мірі Кульбака–Лейблера розподілу від розподілу , тобто:

Мінімізація розбіжностей Кульбака–Лейблера по точкам здійснюється за допомогою градієнтного спуску. Результатом такої оптимізації є відображення, яке добре зберігає подібність між входовими даними високої розмірності.

Програмне забезпечення

Примітки

  1. а б van der Maaten, L.J.P.; Hinton, G.E. (Nov 2008). Visualizing Data Using t-SNE (PDF). Journal of Machine Learning Research. 9: 2579—2605. Архів оригіналу (PDF) за 9 серпня 2017. Процитовано 27 грудня 2018.
  2. Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines. Proceedings of the IEEE International Symposium on Network Computing and Applications: 4—11.
  3. Hamel, P.; Eck, D. (2010). Learning Features from Music Audio with Deep Belief Networks. Proceedings of the International Society for Music Information Retrieval Conference: 339—344.
  4. Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE. Medical Physics. 37 (1): 339—351. doi:10.1118/1.3267037. PMC 2807447. PMID 20175497.
  5. Wallach, I.; Liliean, R. (2009). The Protein-Small-Molecule Database, A Non-Redundant Structural Resource for the Analysis of Protein-Ligand Binding. Bioinformatics. 25 (5): 615—620. doi:10.1093/bioinformatics/btp035. PMID 19153135.
  6. Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (1 лютого 2016). Nonlinear dimension reduction for EEG-based epileptic seizure detection. с. 595—598. doi:10.1109/BHI.2016.7455968. ISBN 978-1-5090-2455-1. {{cite book}}: Проігноровано |journal= (довідка)
  7. Visualizing Representations: Deep Learning and Human Beings Блог Крістофера Ола, 2015. Архів оригіналу за 25 вересня 2017. Процитовано 27 грудня 2018.
  8. K-means clustering on the output of t-SNE. Cross Validated. Процитовано 16 квітня 2018.
  9. Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (1 липня 2017). Approximated and User Steerable tSNE for Progressive Visual Analytics. IEEE Transactions on Visualization and Computer Graphics (амер.). 23 (7): 1739—1752. doi:10.1109/tvcg.2016.2570755. ISSN 1077-2626. PMID 28113434. Архів оригіналу за 30 листопада 2018. Процитовано 27 грудня 2018.
  10. Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (13 жовтня 2016). How to Use t-SNE Effectively (English) . Distill. Архів оригіналу за 19 грудня 2017. Процитовано 4 грудня 2017.
  11. Linderman, George C.; Steinerberger, Stefan (8 червня 2017). Clustering with t-SNE, provably. arXiv:1706.02582 [cs.LG].
  12. Schubert, Erich; Gertz, Michael (4 жовтня 2017). Intrinsic t-Stochastic Neighbor Embedding for Visualization and Outlier Detection. SISAP 2017 – 10th International Conference on Similarity Search and Applications. с. 188—203. doi:10.1007/978-3-319-68474-1_13.

Посилання

Read other articles:

PanularanKelurahanPeta lokasi Kelurahan PanularanNegara IndonesiaProvinsiJawa TengahKotaSurakartaKecamatanLaweyanKode Kemendagri33.72.01.1004 Kode BPS3372010004 Kelurahan Panularan atau Penularan (Jawa: ꦥꦤꦸꦭꦫꦤ꧀, translit. Panularan) adalah kelurahan di kecamatan Laweyan, Surakarta. Kelurahan ini memiliki kode pos 57149. Pada tahun 2020, kelurahan ini berpenduduk 9.489 jiwa. Beberapa fasilitas umum dan tempat usaha yang berada di Kelurahan Panularan diantaranya Rusu...

 

The Most ExcellentThe Marquess of Samaranch1998 Presiden Komite Olimpiade Internasional ke-7Masa jabatan3 Agustus 1980 – 16 Juli 2001 PendahuluLord KillaninPenggantiJacques RoggePresiden Kehormatan Komite Olimpiade InternasionalMasa jabatan16 Juli 2001 – 21 April 2010PresidenJacques Rogge Pendahulukosong, Lord Killanin (1999)Penggantikosong, Jacques Rogge (2013) Informasi pribadiLahir(1920-07-17)17 Juli 1920Barcelona, SpanyolMeninggal21 April 2010(2010-04-21) (umur&#...

 

العلاقات البحرينية النيجيرية البحرين نيجيريا   البحرين   نيجيريا تعديل مصدري - تعديل   العلاقات البحرينية النيجيرية هي العلاقات الثنائية التي تجمع بين البحرين ونيجيريا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتين: وجه ال...

العلاقات البريطانية السيشلية المملكة المتحدة سيشل   المملكة المتحدة   سيشل تعديل مصدري - تعديل   العلاقات البريطانية السيشلية هي العلاقات الثنائية التي تجمع بين المملكة المتحدة وسيشل.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية ل...

 

Department of France in Île-de-France Department of France in Île-de-FranceYvelinesDepartment of FranceFrom top down, left to right: prefecture building in Versailles, view of La Celle-Saint-Cloud, forest and lake in Guyancourt, marble courtyard and gardens of the Palace of Versailles FlagCoat of armsLocation of Yvelines in FranceCoordinates: 48°50′N 1°55′E / 48.833°N 1.917°E / 48.833; 1.917CountryFranceRegionÎle-de-FrancePrefectureVersaillesSubprefecturesMa...

 

State Natural Area in Wisconsin Black Tern Bog State Natural AreaBlack Tern BogLocation of Black Tern Bog State Natural Area in WisconsinShow map of WisconsinBlack Tern Bog State Natural Area (the United States)Show map of the United StatesLocationVilas, Wisconsin, United StatesCoordinates45°58′1.25″N 89°41′53.11″W / 45.9670139°N 89.6980861°W / 45.9670139; -89.6980861Area26 acres (11 ha)Established1967 Black Tern Bog State Natural Area is a Wisconsin D...

Traditional Taiwanese pork dish This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Pork ball – news · newspapers · books · scholar · JSTOR (February 2013) (Learn how and when to remove this message) Pork ballA bowl of pork ball soupTraditional Chinese貢丸Simplified Chinese贡丸Literal meaningpounded bal...

 

Judul yang benar dari artikel ini adalah #TerlanjurMencinta. penggantian tanda # karena keterbatasan teknis. Terlanjur MencintaSingel oleh Lyodra Ginting, Tiara Andini, Ziva MagnolyaDirilis26 Juni 2020 (2020-06-26)FormatDigital downloadDirekam2020StudioGS03 UK StudioGenrePop, BaladaDurasi3.52, 3.44 LabelUniversal Music IndonesiaPenciptaYovie WidiantoProduserYovie Widianto & Adrian Kitut Kronologi singel Lyodra Ginting Gemintang Hatiku(2020) Terlanjur Mencinta(2020) Tentang Kamu(...

 

Attuale logo della serie Galaxy ALa serie Samsung Galaxy A (Alpha) è una linea di smartphone e tablet Android, originariamente di sola fascia medio-alta, prodotta da Samsung Electronics. La serie Galaxy A inizialmente era simile alla serie Galaxy S in termini di qualità costruttiva ma inferiore per quanto riguarda prezzi, prestazioni e determinate componenti hardware. Il primo modello della serie, il Galaxy Alpha, è stato introdotto il 13 agosto 2014. Dal 2019 la serie di dispositivi è st...

Частина серії проФілософіяLeft to right: Plato, Kant, Nietzsche, Buddha, Confucius, AverroesПлатонКантНіцшеБуддаКонфуційАверроес Філософи Епістемологи Естетики Етики Логіки Метафізики Соціально-політичні філософи Традиції Аналітична Арістотелівська Африканська Близькосхідна іранська Буддій�...

 

La filosofia moderna si fa iniziare con l'Umanesimo (XIV secolo circa) dalla rivalutazione dell'uomo e della sua esperienza eminentemente terrena, e terminare con la figura di Immanuel Kant (1724-1804) che aprirà la strada al Romanticismo e alla filosofia contemporanea. Il tratto distintivo di quest'epoca è un accentuato antropocentrismo, unito pur sempre ad un costante riferimento a valori assoluti, fino a quando in alcuni pensatori, soprattutto verso la fine del XVIII secolo con l'Illumin...

 

Shadow Secretary of State for Culture, Media and SportIncumbentThangam Debbonairesince 4 September 2023StyleShadow Culture Secretary (informal)Member ofOfficial Opposition Shadow CabinetAppointerLeader of the OppositionInaugural holderBryan GouldFormation18 July 1992 The Shadow Secretary of State for Culture, Media and Sport (DCMS), previously Shadow Secretary of State for National Heritage and Shadow Secretary of State for Digital, Culture, Media and Sport, is a position in the Officia...

乔冠华 中华人民共和国外交部部长 中国人民对外友好协会顾问 任期1974年11月—1976年12月总理周恩来 → 华国锋前任姬鹏飞继任黄华 个人资料性别男出生(1913-03-28)1913年3月28日 中華民國江蘇省盐城县逝世1983年9月22日(1983歲—09—22)(70歲) 中华人民共和国北京市籍贯江蘇鹽城国籍 中华人民共和国政党 中国共产党配偶明仁(1940年病逝) 龚澎(1970年病逝) 章含�...

 

American educator, hydrogeologist, and NASA astronaut Joe AcabáJoe Acabá pictured in 2008BornJoseph Michael Acabá (1967-05-17) May 17, 1967 (age 57)Inglewood, California, U.S.EducationUniversity of California, Santa Barbara (BS)University of Arizona (MS)Texas Tech University (MEd)Space careerNASA astronautRankSergeant, USMCRTime in space306d 34mSelectionNASA Group 19 (2004)Total EVAs3Total EVA time19h 46mMissionsSTS-119Soyuz TMA-04M (Expedition 31/32)Soyuz MS-06 (Expedition 53/54)Mis...

 

American journalist Michael MustoMichael Musto in 2007Born (1955-12-03) December 3, 1955 (age 68)Brooklyn, New York, United StatesOccupationJournalist, actor, authorNationalityAmericanEducationColumbia University (BA)Websiteout.com/entertainment/michael-musto Michael Musto (born December 3, 1955) is an American journalist who has long been a prevalent presence in entertainment-related publications, as well as on websites and television shows. Best known as a columnist for The Village Voi...

Le Chudakarana (IAST : Cūḍākaraṇa, dévanagari : चूड़ाकरण), ou mundana, est une des cérémonies de l'hindouisme : un samskara[1]. Elle marque chez le nourrisson sa première coupe de cheveux et doit s'effectuer avant la troisième année de vie. Il est dans la tradition de laisser une maigre touffe sur la tête près du sommet : le nom de ces cheveux restants est shikha ou chuda ; les fidèles pensent que ce reliquat protège le crâne et ainsi ...

 

Diagnostic test or benchmark that is the best available under reasonable conditions For tests performed on actual gold, see Metallurgical assay. For other uses, see Gold standard (disambiguation). In medicine and medical statistics, the gold standard, criterion standard,[1] or reference standard[2] is the diagnostic test or benchmark that is the best available under reasonable conditions.[3] It is the test against which new tests are compared to gauge their validity, a...

 

Bucaramanga Bucaramanga Bucaramanga (Kolumbien) Bucaramanga Bucaramanga auf der Karte von Kolumbien Lage der Gemeinde Bucaramanga auf der Karte von Santander Koordinaten 7° 6′ 8″ N, 73° 6′ 26″ W7.1022222222222-73.107222222222959Koordinaten: 7° 6′ 8″ N, 73° 6′ 26″ W Basisdaten Staat Kolumbien Departamento Santander Einwohner 528.610 (2019) – im Ballungsraum 1.160.243 Stadtinsignien Detaildaten Fläche 1...

  لمعانٍ أخرى، طالع كين (توضيح). كين الإحداثيات 37°56′35″N 84°38′28″W / 37.9430853°N 84.6411156°W / 37.9430853; -84.6411156   تاريخ التأسيس 1844  تقسيم إداري  البلد الولايات المتحدة[1]  التقسيم الأعلى مقاطعة جيسامين  خصائص جغرافية ارتفاع 272 متر  عدد السكان  عدد السك...

 

Type of decree by the Catholic pope For the horse, see Papal Bull (horse). This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Papal bull – news · newspapers · books · scholar · JSTOR (March 2014) (Learn how and when to remove this message) Papal bull of Pope Urban VIII, 1637, sealed with a lead bulla The aposto...