Agrupamiento jerárquico

En minería de datos, el agrupamiento jerárquico es un método de análisis de grupos puntuales, el cual busca construir una jerarquía de grupos. Estrategias para agrupamiento jerárquico generalmente caen en dos tipos:

  • Aglomerativas: Este es un acercamiento ascendente: cada observación comienza en su propio grupo, y los pares de grupos son mezclados mientras uno sube en la jerarquía.
  • Divisivas: Este es un acercamiento descendente: todas las observaciones comienzan en un grupo, y se realizan divisiones mientras uno baja en la jerarquía.

En general, las mezclas y divisiones son determinadas con un Algoritmo voraz. Los resultados del agrupamiento jerárquico son usualmente presentados en un dendrograma.

En el caso general, la complejidad del agrupamiento aglomerativo es , lo cual los hace demasiado lentos para grandes conjuntos de datos. El agrupamiento divisivo con búsqueda exhaustiva es lo cual es aún peor. Sin embargo, para algunos casos especiales, óptimos y eficientes métodos aglomerativos (de complejidad ) son conocidos: SLINK[1]​ para agrupamiento de enlace-simple y CLINK[2]​ para agrupamiento de enlace completo.

Disimilitud de grupo

En orden de decidir qué grupos deberían ser combinados (para aglomerativo), o cuando un grupo debería ser dividido (para divisivo), una medida de disimilitud entre conjuntos de observaciones es requerida. En la mayoría de los métodos de agrupamiento jerárquico, esto es logrado mediante uso de una métrica apropiada (una medida de distancia entre pares de observaciones), y un criterio de enlace el cual especifica la disimilitud de conjuntos como una función de las distancias dos a dos entre observaciones en los conjuntos.

Métrica

La elección de una métrica apropiada influenciará la forma de los grupos, ya que algunos pueden estar cerca unos de otros de acuerdo a una distancia y más lejos de acuerdo a otra. Por ejemplo, en un espacio 2-dimensional, la distancia entre el punto (1,0) y el origen (0,0) es siempre 1 de acuerdo a las normas usuales, pero la distancia entre el punto (1,1) y el origen (0,0) puede ser 2, o 1 bajo la distancia Manhattan, la distancia euclidiana o la distancia máxima respectivamente.

Algunas métricas comúnmente usadas para agrupamiento jerárquico son:[3]

Names Formula
Distancia euclidiana
Distancia euclidiana al cuadrado
Distancia Manhattan
distancia máxima
Distancia de Mahalanobis donde S es la matriz de covarianza
Similitud coseno

Para texto u otro dato no numérico, métricas como la Distancia de Hamming o la Distancia de Levenshtein son frecuentemente usadas.

Criterio de enlace

El criterio de enlace determina la distancia entre conjuntos de observaciones como una función de las distancias entre observaciones dos a dos. Algunos criterios de enlace entre dos conjuntos de observaciones A y B frecuentemente usados son:[4][5]

Nombres Fórmula
Agrupamiento de máximo o completo enlace
Agrupamiento de mínimo o simple enlace
Agrupamiento de enlace media o promedio, o UPGMA
Agrupamiento de mínima energía

Donde d es la métrica escogida. Otros criterios de enlace incluye:

  • La suma de todas las varianzas intragrupo.
  • El decrecimiento en la varianza para los grupos que están siendo mezclados (criterio de Ward).
  • La probabilidad de que grupos candidatos se produzcan desde la misma función de distribución.(V-enlace)

Discusión

El agrupamiento jerárquico tiene la ventaja distintiva de que cualquier medida de distancia puede ser usada. De hecho, las observaciones de por sí no son requeridas: todo lo que se usa es una matriz de distancia.

Ejemplo para agrupamiento aglomerativo

Por ejemplo, suponga que estos datos van a ser agrupados, y que la distancia euclidiana será la métrica de distancia.

Cortar el árbol a una altura determinada dará un grupo particionante de una precisión seleccionada. En este ejemplo, cortar después de la segunda fila dará como resultado los grupos {a} {b c} {d e} {f}. Cortar después de la tercera fila dará como resultado los grupos {a} {b c} {d e f}, el cual es un agrupamiento ‘tosco’, con un número menor de grupos mayores.

Datos sin procesar
Datos sin procesar

El dendrograma del agrupamiento jerárquico sería como este:

Representación tradicional
Representación tradicional

Este método construye la jerarquía desde los elementos individuales mediante progresivamente ir mezclando grupos. En nuestro ejemplo, tenemos seis elementos {a} {b} {c} {d} {e} y {f}. El primer paso es determinar cuales elementos mezclar en un grupo. Usualmente, queremos tomar los dos elementos más cercanos, de acuerdo a una distancia escogida.

Opcionalmente, uno solo puede construir una matriz de distancias a este nivel, donde el número en la i-ésima fila j-ésima columna es la distancia entre los i-ésimo y j-ésimo elementos. Entonces, a medida que el agrupamiento progresa, filas y columnas son mezcladas como también son mezclados los grupos y las distancias actualizadas. Esta es una forma común de implementar este tipo de agrupamiento y tiene el beneficio de almacenar las distancias entre grupos. Un algoritmo de agrupamiento aglomerativo simple es descrito en la página agrupamiento de enlace simple; puede ser fácilmente adaptado a diferentes tipos de enlace (ver abajo).

Suponga que hemos mezclado los dos elementos más cercanos b y c, ahora tenemos los siguientes grupos {a}, {b, c}, {d}, {e} y {f}, y queremos mezclarlos más adelante. Para hacerlo, necesitamos tomar la distancia entre {a} y {b c}, y por tanto definir la distancia entre dos grupos.

Usualmente la distancia entre dos grupos and es una de los siguientes:

  • • La distancia máxima entre elementos de cada grupo (también llamada agrupamiento de enlace completo):
  • • La distancia mínima entre elementos de cada grupo (también llamada agrupamiento de enlace simple):
  • • La distancia media entre elementos de cada grupo (también llamada agrupamiento de enlace promedio, usado e.g. en UPGMA):
  • La suma de todas las varianzas intra-grupo..
  • El aumento en la varianza de los grupos que están siendo mezclados (método de Ward).
  • La probabilidad de que grupos candidatos sean producidos desde la misma función de distribución (enlace-V).

Cada aglomeración ocurre a una mayor distancia entre grupos que la aglomeración anterior, y no puede decidir parar de agrupar ya sea cuando los grupos están muy lejos para ser mezclados (criterio de distancia) o cuando hay un suficientemente pequeño número de grupos (criterio de número).

Software

Libre

  • R tiene varias funciones de agrupamiento jerárquico.[6]
  • Orange, una suite software gratis de minería de datos, módulo orngClustering para hacer scripts en Python, o análisis de grupo a través de visual programming.[7]
  • hcluster es software Python, basado en NumPy, el cual soporta agrupamiento jerárquico y plotting.
  • Cluster 3.0 provee una agradable GUI para acceder a diferentes rutinas de agrupamiento y está disponible para Windows, Mac OS X, Linux, Unix.[8]
  • ELKI incluye múltiples algoritmos de agrupamiento jerárquico.
  • figue Un paquete JavaScript que implementa algunas funciones de agrupamiento aglomerativo (enlace simple, enlace completo, enlace promedio) y funciones para visualizar resultados de agrupamientos (e.g. dendrogramas)
  • MultiDendrograms Una aplicación open source en Java para agrupamiento jerárquico aglomerativo de grupos variables, con GUI.[9]
  • CrimeStat implementa dos rutinas de agrupamiento jerárquico, una de vecino más cercano (Nnh) y una de riesgo-ajustado (Rnnh).
  • Complete C# DEMO implementado como proyecto de Visual Studio que incluye procesado real de archivos de texto, construcción de matrices documento-término con filtrado de stopwords y stemming. El mismo sitio ofrece comparación con otros algoritmos.
  • HAC C# es una implementación de un algoritmo de agrupamiento aglomerativo que usa enlace-simple.

Comercial

  • Software for analyzing multivariate data with instant response using Hierarchical clustering
  • SAS

Véase también

Referencias

  1. R. Sibson (1973). «SLINK: an optimally efficient algorithm for the single-link cluster method». The Computer Journal (British Computer Society) 16 (1): 30-34. 
  2. D. Defays (1977). «An efficient algorithm for a complete link method». The Computer Journal (British Computer Society) 20 (4): 364-366. 
  3. «The DISTANCE Procedure: Proximity Measures». SAS/STAT 9.2 Users Guide. SAS Institute. Consultado el 26 de abril de 2009. 
  4. «The CLUSTER Procedure: Clustering Methods». SAS/STAT 9.2 Users Guide. SAS Institute. Consultado el 26 de abril de 2009. 
  5. Székely, G. J. and Rizzo, M. L. (2005) Hierarchical clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification 22, 151-183.
  6. Gruen, Friedrich Leisch and Bettina (3 de mayo de 2017). CRAN Task View: Cluster Analysis & Finite Mixture Models. Consultado el 6 de julio de 2017. 
  7. http://www.ailab.si/orange/screenshots.psp (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  8. «Open source Clustering software». bonsai.hgc.jp. Consultado el 6 de julio de 2017. 
  9. «Sergio Gómez - DEIM - URV». deim.urv.cat. Consultado el 6 de julio de 2017. 

Bibliografía

Enlaces externos

Read other articles:

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Desember 2022. China-Brasil Earth Resources Satellite 2B (CBERS-2B), juga dikenal sebagai Ziyuan I-02B atau Ziyuan 1B2, adalah satelit penginderaan jauh yang dioperasikan sebagai bagian dari program China Centre for Resources Satellite Data and Application dan aplik...

 

本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。 此條目需要补充更多来源。 (2018年3月17日)请协助補充多方面可靠来源以改善这篇条目,无法查证的内容可能會因為异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:羅生門 (電影) — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。 �...

 

العلاقات الجزائرية الدومينيكية الجزائر دومينيكا   الجزائر   دومينيكا تعديل مصدري - تعديل   العلاقات الجزائرية الدومينيكية هي العلاقات الثنائية التي تجمع بين الجزائر ودومينيكا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية للدولتي�...

Italian economist and academic, religious sister, and Holy See official Alessandra SmerilliF.M.A.TitlePhDPersonalBorn (1974-11-14) 14 November 1974 (age 49)Vasto, ItalyReligionCatholicNationalityItalianAlma materRoma Tre University, University of East Anglia, Pontifical Faculty of Educational Sciences AuxiliumProfessionEconomist, Secretary of the Dicastery for Promoting Integral Human DevelopmentOrderSalesian Sisters of Don Bosco F.M.A.Senior postingAwardsOrder of the Star of ItalyP...

 

Unincorporated community in Florida, United StatesMelroseUnincorporated communityA former gas station now serving as commercial building on Florida SR 26 and Grove Street.MelroseLocation within the state of FloridaCoordinates: 29°43′N 82°3′W / 29.717°N 82.050°W / 29.717; -82.050CountryUnited StatesStateFloridaCountyAlachua, Bradford, Clay, and PutnamTime zoneUTC-5 (Eastern (EST)) • Summer (DST)UTC-4 (EDT)ZIP code32666[1] Melrose is an uninc...

 

Indian politician from Gujarat state Bharti ShiyalShiyal in 2019National Vice President of BJPIn office2020 - 2023PresidentJagat Prakash NaddaMember of Parliament, Lok SabhaIncumbentAssumed office 16 May 2014Preceded byRajendrasinh RanaConstituencyBhavnagarMember of the Gujarat Legislative AssemblyIn office2012–2014Preceded byBhavanaben MakwanaSucceeded byShivabhai GohilConstituencyTalaja Personal detailsBorn (1964-03-23) 23 March 1964 (age 60)Bhavnagar, Gujarat, IndiaPolitical par...

Синелобый амазон Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:ЗавропсидыКласс:Пт�...

 

← Het Tet Yod → Fenisia Ibrani Aram Suryani Arab ט ܛ ط Alfabetturunan Yunani Latin Kiril Θ - Ѳ Representasi fonemik: tˤ Urutan dalam alfabet: 9 Nilai huruf/Gematria: 9 Tet (Ṭēth, juga Teth) adalah huruf ke-9 dalam banyak aksara Semit, termasuk abjad Fenisia, abjad Aram, abjad Ibrani Tet ט, abjad Suryani ܛ dan abjad Arab Ṭāʾ/Thoʾ ط; merupakan huruf ke-9 dalam urutan abjadi dan ke-16 dalam bahasa Arab modern. Nilai suaranya adalah /tˤ/, salah satu konsonan emfatik Semit. ...

 

Spicy Vietnamese dish Bò khoBò khoAlternative namesBò khoCourseMain coursePlace of originVietnamRegion or stateSouth VietnamServing temperatureHotMain ingredientsbeef, carrotFood energy(per serving)168-316[1][2] kcalNutritional value(per serving)Protein17-31 gFat7-16 gCarbohydrate10-11 g  Media: Bò kho Bò kho is a dish of South Vietnamese origin using the kho cooking method, it is a spicy dish made commonly with beef which is known throughout ...

Irish footballer Danny O'Connor O'Connor in action for Shamrock RoversPersonal informationFull name Daniel O'ConnorDate of birth (1980-09-28) 28 September 1980 (age 43)Place of birth Dublin, IrelandHeight 1.88 m (6 ft 2 in)Position(s) Centre backMidfielderSenior career*Years Team Apps (Gls)1999–2001 Bray Wanderers 9 (0)2001–2005 Drogheda United 123 (8)2005–2006 Longford Town 58 (2)2007–2008 Shamrock Rovers 54 (1)2009–2010 Newry City 11 (0)2010–2014 Bray Wandere...

 

Pour les articles homonymes, voir Emmerich. Cet article est une ébauche concernant une localité allemande. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Emmerich am Rhein Armoiries Drapeau Administration Pays Allemagne Land Rhénanie-du-Nord-Westphalie Arrondissement(Landkreis) Clèves Bourgmestre(Bürgermeister) Johannes Diks Partis au pouvoir CDU Code postal 46446 Code communal(Gemeindeschlüssel) 05 1 54 ...

 

Justin HammerJustin Hammer interpretato da Sam Rockwell nel film Iron Man 2 UniversoUniverso Marvel Lingua orig.Inglese AutoriDavid Michelinie John Romita, Jr. Bob Layton EditoreMarvel Comics 1ª app.marzo 1979 1ª app. inIron Man (vol. 1[1]) n. 120 Editore it.Editoriale Corno 1ª app. it.febbraio 1981 1ª app. it. inUomo Ragno n. 282 Interpretato daSam Rockwell Voci italianeChristian Iansante (Iron Man 2) Vittorio Guerrieri (What If...?) Caratteristiche immagina...

Rule of thumb in driving The three second rule is a time for the defensive driver to judge the minimum safe trailing distance to help avoid collisions under ideal driving conditions. The red car's driver picks a tree to judge a two-second safety buffer. The two-second rule is a rule of thumb by which a driver may maintain a safe trailing distance at any speed.[1][2] The rule is that a driver should ideally stay at least two seconds behind any vehicle that is directly in front ...

 

هذه المقالة عن المجموعة العرقية الأتراك وليس عن من يحملون جنسية الجمهورية التركية أتراكTürkler (بالتركية) التعداد الكليالتعداد 70~83 مليون نسمةمناطق الوجود المميزةالبلد  القائمة ... تركياألمانياسورياالعراقبلغارياالولايات المتحدةفرنساالمملكة المتحدةهولنداالنمساأسترالي�...

 

Glory Hole в туалете. Glory hole — отверстие в стене для пениса с целью совершения анонимных сексуальных контактов, чаще всего гомосексуальных и в общественных туалетах. Содержание 1 Термин 2 Предназначение и использование 3 См. также 4 Примечания 5 Литература 6 Ссылки Термин В англ�...

Maroomba Airlines IATA ICAO Kode panggil KN N/A N/A Armada2Perusahaan indukNantay Pty LtdSitus webwww.maroomba.com.au Maroomba Airlines merupakan sebuah maskapai penerbangan yang berbasis di Australia. Perusahaan induknya adalah Nantay Pty Ltd. Armada Bulan Agustus 2006, armada Maroomba Airlines telah meliputi:[1] 2 Bombardier Dash 8 Q100 Pranala luar Maroomba Airlines Catatan kaki ^ Flight International, 3-9 October 2006 lbsMaskapai penerbangan di AustraliaMaskapai penumpang ter...

 

غاليوم → زنك ← نحاس -↑Zn↓Cd 30Zn المظهر رمادي فضي الخواص العامة الاسم، العدد، الرمز زنك، 30، Zn تصنيف العنصر فلز انتقالي المجموعة، الدورة، المستوى الفرعي 12، 4، d الكتلة الذرية 65.38(2) غ·مول−1 توزيع إلكتروني Ar]; 3d10 4s2] توزيع الإلكترونات لكل غلاف تكافؤ 2, 8, 18, 2 (صورة) الخواص الفيزيائ�...

 

Eudora Welty Library, the main library Jackson/Hinds Library System (JHLS) is the public library system of Jackson and Hinds County in Mississippi. Branches Jackson Eudora Welty Library - It is the main library and is in a former Sears building, built circa 1938. As of 2018 the second story has a study area and over 50,000 books. By 2018 the building had multiple maintenance and mold problems, with stairwells that, according to The Clarion Ledger, are too dangerous to navigate, as well as non...

LiveLeakHalaman depan pada Bulan April 2008URLhttp://www.liveleak.com/TipeLayanan penyimpanan videoBersifat komersial?YaPendaftaranOptionalBahasaInggris PemilikTidak diketahuiPembuatHayden Hewitt (co-pendiri)Berdiri sejakOctober 31, 2006Service retirement (en) 5 Mei 2021 Lokasi kantor pusatLondon NegaraBritania Raya Peringkat Alexa1.170 (29 November 2017) LiveLeak adalah situs berbagi video yang mempersilakan pengguna memasukan dan berbagi video, mirip dengan YouTube. LiveLeak menekankan pada...

 

Sporting event delegationSudan at the2023 World Aquatics ChampionshipsFlag of SudanFINA codeSUDNational federationSudan Amateur Swimming Associationin Fukuoka, JapanCompetitors2 in 1 sportMedals Gold 0 Silver 0 Bronze 0 Total 0 World Aquatics Championships appearances197319751978198219861991199419982001200320052007200920112013201520172019202220232024 Sudan is set to compete at the 2023 World Aquatics Championships in Fukuoka, Japan from 14 to 30 July. Swimming Main article: Swimming at the 2...