Incrustación de vecinos estocásticos distribuidos en t (t-SNE)

Visualización T-SNE de incrustaciones de palabras (word embedding) generadas a partir de literatura del siglo XIX

La incrustación de vecinos estocásticos distribuidos en t (t-SNE) es un método estadístico para visualizar datos de alta dimensión asignando a cada punto de datos una ubicación en un mapa bidimensional o tridimensional. Se basa en la incrustación de vecinos estocástica desarrollada originalmente por Geoffrey Hinton y Sam Roweis,[1]​ donde Laurens van der Maaten propuso la variante t-distribuida.[2]​ Se trata de una técnica no lineal de reducción de la dimensionalidad para incrustar datos de alta dimensión para su visualización en un espacio de baja dimensión de dos o tres dimensiones. Concretamente, modela cada objeto de alta dimensión mediante un punto bidimensional o tridimensional, de tal forma que los objetos similares se modelan mediante puntos cercanos y los objetos disímiles se modelan mediante puntos distantes con alta probabilidad.

Incrustaciones T-SNE del conjunto de datos MNIST

El algoritmo t-SNE consta de dos etapas principales. En primer lugar, t-SNE construye una distribución de probabilidad sobre pares de objetos de alta dimensión de tal forma que a los objetos similares se les asigna una probabilidad mayor, mientras que a los puntos disímiles se les asigna una probabilidad menor. En segundo lugar, t-SNE define una distribución de probabilidad similar sobre los puntos del mapa de baja dimensión y minimiza la divergencia de Kullback-Leibler (divergencia KL) entre las dos distribuciones con respecto a las ubicaciones de los puntos en el mapa. Aunque el algoritmo original utiliza la distancia euclidiana entre objetos como base de su métrica de similitud, ésta puede modificarse según convenga. Una variante riemanniana es UMAP.

La t-SNE se ha utilizado para la visualización en una amplia gama de aplicaciones, como la genómica, la investigación en seguridad informática,[3]​ el procesamiento del lenguaje natural, el análisis musical,[4]​ la investigación del cáncer,[5]​ la bioinformática,[6]​ la interpretación de dominios geológicos,[7][8][9]​ y el procesamiento de señales biomédicas.[10]

Aunque los gráficos t-SNE a menudo parecen mostrar clusters, los clústers o conglomerados visuales pueden estar fuertemente influenciados por la parametrización elegida y, por lo tanto, es necesario un buen conocimiento de los parámetros para t-SNE. Se puede demostrar que estos "conglomerados" aparecen incluso en datos no agrupados,[11]​ por lo que pueden ser falsos hallazgos. Por tanto, puede ser necesaria una exploración interactiva para elegir los parámetros y validar los resultados.[12][13]​ Se ha demostrado que t-SNE a menudo es capaz de recuperar conglomerados bien separados y, con elecciones especiales de los parámetros, se aproxima a una forma simple de agrupación espectral.[14]

Para un conjunto de datos con n elementos, t-SNE se ejecuta en tiempo O(n2) y requiere espacio O(n2).[15]

Detalles

Dado un conjunto de objetos de alta dimensión , t-SNE calcula primero las probabilidades que son proporcionales a la similitud de los objetos y como sigue:

Para se define:

Y se establece . Obsérvese que el denominador anterior garantiza para todas las .

Como explicaron van der Maaten y Hinton: "La similitud de los puntos de datos a los puntos de datos es la probabilidad condicional de que escoja a como su vecino si los vecinos se eligieran en proporción a su densidad de probabilidad bajo una gaussiana centrada en .

Luego se define:

Esto es motivado debido a que y de las N muestras se estiman como 1/N, por lo que la probabilidad condicional puede escribirse como y . Teniendo en cuenta que se puede obtener la fórmula anterior.

También se debe tener en cuenta que y .

El ancho de banda de los núcleos gaussianos se fija de forma que la entropía de la distribución condicional sea igual a una entropía predefinida mediante el método de bisección. Como resultado, el ancho de banda se adapta a la densidad de los datos: los valores más pequeños de se utilizan en las partes más densas del espacio de datos.

Dado que el kernel gaussiano utiliza la distancia euclidiana , se ve afectada por la maldición de la dimensionalidad, y en datos de alta dimensionalidad cuando las distancias pierden la capacidad de discriminar, entonces se vuelven demasiado similares (asintóticamente, convergerían a una constante). Para paliarlo, se ha propuesto ajustar las distancias con una transformada de potencia, basada en la dimensión intrínseca de cada punto.

t-SNE pretende aprender un mapa dimensional , que es (con y normalmente elegido como 2 o 3) que refleje las similitudes lo mejor posible. Para ello, mide las similitudes entre dos puntos del mapa y utilizando un enfoque muy similar. Específicamente, para , se define como:

Y se establece . En este caso se utiliza una distribución t de Student de colas gruesas (con un grado de libertad, que es lo mismo que una distribución de Cauchy) para medir las similitudes entre puntos de baja dimensión, con el fin de permitir que los objetos disímiles se modelen muy separados en el mapa.

La ubicación del punto en el mapa se determina minimizando la divergencia (no simétrica) de Kullback-Leibler de la distribución de la distribución , es decir:

La minimización de la divergencia de Kullback-Leibler con respecto al punto se realiza mediante el descenso de gradiente. El resultado de esta optimización es un mapa que refleja las similitudes entre las entradas de alta dimensión.

Software

  • El paquete R Rtsne implementa t-SNE en R.
  • ELKI contiene tSNE, también con aproximación Barnes-Hut
  • scikit-learn, una popular biblioteca de aprendizaje automático en Python, implementa t-SNE tanto con soluciones exactas como con la aproximación de Barnes-Hut.
  • Tensorboard, el kit de visualización asociado a TensorFlow, también implementa t-SNE

Referencias

  1. Hinton, Geoffrey; Roweis, Sam (2002). «Stochastic neighbor embedding». Neural Information Processing Systems. 
  2. van der Maaten, L.J.P.; Hinton, G.E. (2008). «"Visualizing Data Using t-SNE"». Journal of Machine Learning Research. 
  3. Gashi, I.; Stankovic, V.; Leita, C.; Thonnard, O. (2009). «"An Experimental Study of Diversity with Off-the-shelf AntiVirus Engines"». Proceedings of the IEEE International Symposium on Network Computing and Applications. 
  4. Hamel, P.; Eck, D. (2010). «"Learning Features from Music Audio with Deep Belief Networks"». Proceedings of the International Society for Music Information Retrieval Conference. 
  5. Jamieson, A.R.; Giger, M.L.; Drukker, K.; Lui, H.; Yuan, Y.; Bhooshan, N. (2010). «"Exploring Nonlinear Feature Space Dimension Reduction and Data Representation in Breast CADx with Laplacian Eigenmaps and t-SNE"». Medical Physics. PMID 20175497. doi:10.1118/1.3267037. 
  6. Wallach, Izhar; Lilien, Ryan (19 de enero de 2009). «The protein–small-molecule database, a non-redundant structural resource for the analysis of protein-ligand binding». Bioinformatics 25 (5): 615-620. ISSN 1367-4811. doi:10.1093/bioinformatics/btp035. Consultado el 2 de mayo de 2024. 
  7. Balamurali, Mehala; Silversides, Katherine L.; Melkumyan, Arman (2019). «"A comparison of t-SNE, SOM and SPADE for identifying material type domains in geological data"». Computers & Geosciences. ISSN 0098-3004. doi:10.1016/j.cageo.2019.01.011. 
  8. Balamurali, Mehala; Melkumyan, Arman (2016). «t-SNE Based Visualisation and Clustering of Geological Domain». En Hirose, Akira, ed. Neural Information Processing (en inglés) (Springer International Publishing): 565-572. ISBN 978-3-319-46681-1. doi:10.1007/978-3-319-46681-1_67. Consultado el 2 de mayo de 2024. 
  9. Leung, Raymond; Balamurali, Mehala; Melkumyan, Arman (1 de enero de 2021). «Sample Truncation Strategies for Outlier Removal in Geochemical Data: The MCD Robust Distance Approach Versus t-SNE Ensemble Clustering». Mathematical Geosciences (en inglés) 53 (1): 105-130. ISSN 1874-8953. doi:10.1007/s11004-019-09839-z. Consultado el 2 de mayo de 2024. 
  10. Birjandtalab, J.; Pouyan, M. B.; Nourani, M. (2016). «"Nonlinear dimension reduction for EEG-based epileptic seizure detection"». 2016 IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI). ISBN 978-1-5090-2455-1. doi:10.1109/BHI.2016.7455968. 
  11. «Clustering on the output of t-SNE». Cross Validated (en inglés). Consultado el 2 de mayo de 2024. 
  12. Pezzotti, Nicola; Lelieveldt, Boudewijn P. F.; Maaten, Laurens van der; Hollt, Thomas; Eisemann, Elmar; Vilanova, Anna (2017). «"Approximated and User Steerable tSNE for Progressive Visual Analytics".». IEEE Transactions on Visualization and Computer Graphics. PMID 28113434. doi:10.1109/tvcg.2016.2570755. 
  13. Wattenberg, Martin; Viégas, Fernanda; Johnson, Ian (13 de octubre de 2016). «How to Use t-SNE Effectively». Distill (en inglés) 1 (10): e2. ISSN 2476-0757. doi:10.23915/distill.00002. Consultado el 2 de mayo de 2024. 
  14. Linderman, George C.; Steinerberger, Stefan (2017). "Clustering with t-SNE, provably". 
  15. Pezzotti, Nicola (2023). "Approximated and User Steerable tSNE for Progressive Visual Analytics". 

Enlaces externos

Read other articles:

Averrhoa Averrhoa bilimbiTaksonomiDivisiTracheophytaSubdivisiSpermatophytesKladAngiospermaeKladmesangiospermsKladeudicotsKladcore eudicotsKladSuperrosidaeKladrosidsKladfabidsOrdoOxalidalesFamiliOxalidaceaeGenusAverrhoa Linnaeus, 1753 Tipe taksonomiAverrhoa bilimbi Tata namaDinamakan berdasarkanIbnu Rusyd SpesiesLihat tekslbs Averrhoa adalah genus tumbuhan-tumbuhan yang merupakan anggota famili Oxalidaceae, ordo Oxalidales. Nama genus ini diambil dari Averroes yang merupakan Latinisasi dari na...

 

Amrullah Salehامرالله صالحSaleh 2011 Presiden Afganistan (terakhir)Masa jabatan17 August 2021 – 6 September 2021 PendahuluAshraf GhaniPenggantiJabatan dihapuskanWakil Presiden Afganistan Yang ke-5Masa jabatan19 February 2020 – 6 September 2021PresidenAshraf Ghani PendahuluAbdul Rashid DostumPenggantiSirajuddin Haqqani (sebagai Wakil Pemimpin Pertama)Menteri dalam negeriMasa jabatan23 December 2018 – 19 January 2019PresidenAshraf Ghani PendahuluWais ...

 

Dikarbon monoksida Nama Nama IUPAC Dikarbon monoksida Penanda Nomor CAS 12071-23-7 Model 3D (JSmol) Gambar interaktif 3DMet {{{3DMet}}} Nomor EC Nomor RTECS {{{value}}} CompTox Dashboard (EPA) DTXSID80152576 SMILES [C]=C=O Sifat Massa molar 40,02 g mol−1 Kecuali dinyatakan lain, data di atas berlaku pada suhu dan tekanan standar (25 °C [77 °F], 100 kPa). Referensi Dikarbon monoksida (C2O) merupakan sebuah molekul yang sangat reaktif yang mengandung dua atom ka...

Gereja Salib SuciKościół św. Krzyża (Polandia)Informasi umumGaya arsitekturBarokKotaWarsawaNegaraPolandiaMulai dibangun1682Rampung1757Dibongkar1944KlienMichał Stefan RadziejowskiDesain dan konstruksiArsitekJózef Fontana Gereja Salib Suci (Polandia: Bazylika Świętego Krzyżacode: pl is deprecated ) adalah sebuah rumah ibadah Katolik Roma di Warsawa, Polandia. Terletak di Krakowskie Przedmieście di seberang kampus utama Universitas Warsawa, itu adalah salah satu gereja Barok paling te...

 

Historic church in Missouri, United States United States historic placeSt. Mary of Victories ChurchU.S. National Register of Historic PlacesSt. Louis Landmark ExteriorShow map of St. LouisShow map of MissouriShow map of the United StatesLocation744 S. 3rd St., St. Louis, MissouriCoordinates38°37′5″N 90°11′26″W / 38.61806°N 90.19056°W / 38.61806; -90.19056Arealess than one acreBuilt1843ArchitectGeorge I. Barnett and Franz SalerArchitectural styleManneri...

 

Substance used to reduce or regulate the temperature of a system A coolant is a substance, typically liquid, that is used to reduce or regulate the temperature of a system. An ideal coolant has high thermal capacity, low viscosity, is low-cost, non-toxic, chemically inert and neither causes nor promotes corrosion of the cooling system. Some applications also require the coolant to be an electrical insulator. While the term coolant is commonly used in automotive and HVAC applications, in indus...

Armoiries de la France (1831-1848) L’orléanisme est un mouvement politique français apparu au XIXe siècle et qui se décline sous deux formes, en deux périodes distinctes : l'orléanisme pur ou primitif (1830-1883), qui désignait les partisans de la maison d'Orléans et du régime de la monarchie de Juillet et qui s’est parfois appliqué aux courants politiques de la droite modérée ; l'orléanisme-fusionniste (depuis 1883), qui désigne les partisans de la maison d'O...

 

Fish that remove parasites and dead tissue from other species Two bluestreak cleaner wrasses removing dead skin and external parasites from a potato grouper Video of bluestreak cleaner wrasse cleaning the gills of an elongate surgeonfish Cleaner fish are fish that show a specialist feeding strategy[1] by providing a service to other species, referred to as clients,[2] by removing dead skin, ectoparasites, and infected tissue from the surface or gill chambers.[2] This e...

 

Monarchical title of inheritance For the novel by Henry Wade, see Heir Presumptive (novel). This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Heir presumptive – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this template message) An heir presumptive (FEM: heiress pre...

سبيل قايتبايمعلومات عامةنوع المبنى سبيلالمكان القاهرةالبلد  مصرتعديل - تعديل مصدري - تعديل ويكي بيانات سبيل السلطان قايتباي أنشأه السّلطان المملوكي الأشرف أبو النصر قايتباى سنة 1479م (884هـ)، السبيل قائم حالياً بشارخ شيخون المتفرع من ميدان صلاح الدين بالقلعة وهو سبيل مستق...

 

Papan backgammon modern Papan backgammon, abad ke-19 Backgammon adalah sebuah permainan papan untuk dua pemain. Setiap pemain memiliki limabelas biji yang digerakkan di atas papan yang terdiri dari duapuluh empat segitiga menurut lemparan dua dadu. Tujuan permainan adalah menjadi pemain pertama yang menempatkan semua bijinya di luar papan permainan. Sejarah Backgammon adalah permainan tertua yang pernah dicatat dalam sejarah. Secara tradisional, permainan ini dianggap berasal dari Mesopotamia...

 

Curly hair maintenance method This article is written like a personal reflection, personal essay, or argumentative essay that states a Wikipedia editor's personal feelings or presents an original argument about a topic. Please help improve it by rewriting it in an encyclopedic style. (December 2022) (Learn how and when to remove this message) This article may need to be rewritten to comply with Wikipedia's quality standards. You can help. The talk page may contain suggestions. (December 2022)...

坐标:43°11′38″N 71°34′21″W / 43.1938516°N 71.5723953°W / 43.1938516; -71.5723953 此條目需要补充更多来源。 (2017年5月21日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:新罕布什尔州 — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源...

 

Government initiative to encourage manufacturing in India For other uses, see Made in India (disambiguation). Make in IndiaCountryIndiaPrime Minister(s)Narendra ModiKey peopleMinistry of Commerce and Industry (India)LaunchedSeptember 25, 2014; 9 years ago (2014-09-25)StatusActiveWebsitewww.makeinindia.com This article is part of a series on the Politics of India Constitution and law Constitution of India Fundamental Rights, Directive Principles and Fundamental Duties of Indi...

 

Railway station in Ōmuta, Fukuoka Prefecture, Japan JB  26  Ginsui Station銀水駅 Ginsui Station in 2018General informationLocation229 Kusagi, Omuta-shi, Fukuoka-ken 837-0917JapanCoordinates33°03′17″N 130°27′40″E / 33.054842°N 130.461059°E / 33.054842; 130.461059Operated by JR KyushuLine(s)JB Kagoshima Main Line Distance144.3 km from MojikōPlatforms1 side + 1 island platformsTracks3ConstructionStructure typeAt gradeParkingAvailableAccessi...

Founding Father, 1st president of the United States General Washington redirects here. For other uses, see General Washington (disambiguation) and George Washington (disambiguation). George WashingtonPortrait c. 18031st President of the United StatesIn officeApril 30, 1789 – March 4, 1797Vice PresidentJohn AdamsPreceded byOffice establishedSucceeded byJohn Adams Additional offices 7th Senior Officer of the United States ArmyIn officeJuly 13, 1798 – December...

 

Mass repressionin the Soviet Union Economic repression Collectivization Dekulakization Soviet famine of 1930–1933 Ukraine Kazakhstan Political repression Red Terror Purges of the Communist Party Great Purge Gulag Punitive psychiatry Ideological repression Religion 1917–1921 1921–1928 1928–1941 1958–1964 1975–1987 Christianity Islam Judaism Legislation Science Censorship Images Art Ethnic repression De-Cossackization National operations Population transfers Repressions of Poles Uk...

 

Art museum in New York City This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Neue Galerie New York – news · newspapers · books · scholar · JSTOR (August 2017) (Learn how and when to remove this message) Neue Galerie New YorkLocation of The Neue Galerie in New York CityEstablishedNovember 16, 2001Location1048 ...

List of events ← 1901 1900 1899 1902 in the United States → 1903 1904 1905 Decades: 1880s 1890s 1900s 1910s 1920s See also: History of the United States (1865–1918) Timeline of United States history (1900–1929) List of years in the United States 1902 in the United States1902 in U.S. states and territories States Alabama Arkansas California Colorado Connecticut Delaware Florida Georgia Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Massachusetts Michigan M...

 

KageraAkageraPertemunan sungai Kagera dengan sungai Ruvubu dekat Air terjun Rusumo, Rwanda/TanzaniaPeta sungai Kagera mengalir ke Danau VictoriaLokasiNegaraBurundi, Rwanda, Tanzania, UgandaCiri-ciri fisikHulu sungai  - koordinat2°21′18″S 30°22′22″E / 2.35500°S 30.37278°E / -2.35500; 30.37278 Gabungan huludekat Danau Tanganyika - lokasiBurundi Muara sungai  - lokasiDanau Victoria - koordinat0°56′41″S 31�...