Índice Dunn

O Índice Dunn (introduzido por J. C. Dunn em 1974) é uma métrica para avaliar algoritmos de clusterização (agrupamento).[1][2] Isso faz parte de um grupo de índices de validação, incluindo o Índice de Davies-Bouldin ou Índice de Silhueta, no sentido de que é um esquema de avaliação interna, onde o resultado é baseado nos próprios dados agrupados. Como todos os outros índices desse tipo, o objetivo é identificar conjuntos de agrupamentos que sejam compactos, com uma pequena variância entre os membros do agrupamento, e bem separados, onde as médias de diferentes agrupamentos estão suficientemente distantes, em comparação com a variância dentro do agrupamento.

Para uma atribuição dada de agrupamentos, um índice de Dunn mais alto indica um melhor agrupamento. Uma das desvantagens de usar isso é o custo computacional à medida que o número de agrupamentos e a dimensionalidade dos dados aumentam.

Preliminares

Antes de falarmos de fato sobre o índice Dunn, precisamos explicitar algumas coisas mais gerais que se aplicam na validade de um cluster.

Classes de validação

As medidas de validade de clusters, usadas para avaliar a qualidade ou a validade de agrupamentos de dados, podem ser classificadas em três categorias distintas. Essas categorias podem representar diferentes abordagens ou critérios usados para avaliar a eficácia de algoritmos de clustering.

  1. Validação de cluster interno:
    • O resultado do cluster é avaliado com base nos próprios dados clusterizados (informações internas) sem referência a informações externas, como por exemplo rótulos verdadeiros ou classes conhecidas.
    • O indice Dunn pertence a essa classe de validação.
  2. Validação de cluster externo:
    • Os resultados do cluster são avaliados com base em algum resultado conhecido externamente, como rótulos de classe fornecidos externamente.
  3. Validação relativa de cluster
    • Os resultados do cluster são avaliados variando diferentes parâmetros para o mesmo algoritmo (por exemplo, alterando o número de clusters).

Distâncias (intercluster e intraclusters)

Outro conceito muito importante quando falamos sobre análise de clusters esta relacionado à validação e avaliação da qualidade dos agrupamentos.

Para isso, é crucial entender como os clusters estão separados uns dos outros (distância intercluster) e quão coesos são internamente (distância intracluster). A combinação dessas métricas pode fornecer uma visão abrangente da qualidade do agrupamento resultante.

Distância intracluster

Essa métrica avalia quão similares são os pontos dentro de um cluster em comparação com outros clusters, isso é, expressa o quão coesão ou disperso é cluster. O diâmetro é uma maneira comum de representar a distância intracluster, sendo definido como a maior distância entre dois pontos dentro do mesmo cluster.

Existem muitas maneiras de defini-la:

  1. Pode ser a distância entre os pontos mais distantes dentro de um cluster.
  2. Pode ser a média de todas as distâncias entre pares de pontos de dados dentro do cluster.
  3. Pode ser a distância de cada ponto de dados do centroide do cluster.

Cada uma dessas formulações é mostrada matematicamente abaixo:

Seja Ci um agrupamento de vetores. Sejam x e y dois vetores de características n dimensionais atribuídos ao mesmo agrupamento Ci.

  1. que calcula a distância máxima (a versão proposta por Dunn).
  2. que calcula a distância média entre todos os pares.
  3. calcula a distância de todos os pontos da média.

Distância intercluster

Essa métrica avalia quão separados ou distintos são os clusters uns dos outros, isso é, refere-se à medida de distância ou dissimilaridade entre dois clusters distintos.

Existem muitas maneiras de defini-la:

  1. A distância mínima entre dois objetos pertencentes a clusters distintos (Single-linkage clustering). Foi a utilizada por J. C. Dunn.
  2. A distância máxima entre qualquer ponto de dados no primeiro cluster e qualquer ponto de dados no segundo cluster (Complete-linkage clustering)
  3. A distância média entre todos os objetos pertencentes a dois clusters distintos (Average linkage distance)
  4. A distância entre o centróide de dois clusters distintos (Centroid linkage distance)


Cada uma dessas formulações é mostrada matematicamente abaixo:

Seja:

  • a distância entre os elementos e ;
  • e dois conjuntos de elementos (clusters);
  • a distância entre os dois clusters e ;
  • e o número de elementos em cada cluster respectivamente;
  • e os centróides dos respectivos clusters;
  • a distância entre os centróides.

Temos que,

  1. representa a distância de ligação única (Single-linkage clustering).
  2. representa a distância de ligação completa (Complete-linkage clustering)
  3. representa a distância média de ligação (Average linkage distance)
  4. representa a distância de ligação do centróide (Centroid linkage distance)

Logo, as distâncias entre clusters fornecem uma maneira de quantificar a separação ou proximidade entre grupos de dados, permitindo uma compreensão mais aprofundada da estrutura implícita dos dados.

Definição

Logo, seja Ci um agrupamento de vetores e seja x e y dois vetores de características n dimensionais atribuídos ao mesmo agrupamento Ci.

Com a notação acima, se houver m agrupamentos, então o Índice de Dunn para o conjunto é definido como:

.


Pela formula, conseguimos perceber que o índice Dunn compara a distância mínima entre clusters (separação) com a distância máxima dentro de cada cluster (coesão). O objetivo é maximizar a separação e minimizar a coesão, em outras palavras, ele procura agrupamentos onde a distância entre clusters é grande em comparação com a distância dentro dos clusters, sendo indicativo de clusters compactos e bem separados.

Explicação

Sendo definido dessa maneira, o DI depende de m, o número de agrupamentos no conjunto. Se o número de agrupamentos não for conhecido a priori, o m para o qual o DI é o mais alto pode ser escolhido como o número de agrupamentos. Também há alguma flexibilidade quando se trata da definição de d(x,y) onde qualquer uma das métricas conhecidas pode ser usada, como a distância de Manhattan ou distância euclidiana com base na geometria do problema de agrupamento. Esta formulação tem um problema peculiar, pois se um dos agrupamentos se comporta mal, enquanto os outros estão bem agrupados, uma vez que o denominador contém um termo 'max' em vez de um termo médio, o Índice de Dunn para esse conjunto de agrupamentos será atipicamente baixo. Isso é, portanto, um indicador de pior caso e deve ser levado em consideração. Existem implementações prontas do índice de Dunn em algumas linguagens de programação baseadas em vetores como MATLAB, R e Apache Mahout.[3][4][5]

Implementação

Por se tratar de uma métrica conhecida quando se fala em índices para avaliar a qualidade de clusters, diversas linguagens apresentam implementações já prontas em suas bibliotecas padrão ou em específicas.


library(clValid)

data(mouse)

express <- mouse[1:25,c("M1","M2","M3","NC1","NC2","NC3")]

rownames(express) <- mouse$ID[1:25]

## hierarchical clustering

clusterObj <- hclust(Dist, method="average")

nc <- 2 ## number of clusters

cluster <- cutree(clusterObj,nc)

dunn(Dist, cluster)


  • No Python, ela deveria ser encontrada no pacote chamado "jqmcvi" , porém ao tentar usar os comandos from jqmcvi import base ou pip install jqmcvi, erros podem aparecer.
  • Isso ocorre, pois aparentemente essa biblioteca não esta instalada no Python Package Index (PyPI), para encontrar se uma biblioteca ainda se encontra ou não listada, entre aqui.
  • Uma alternativa é instalar diretamente do github de pessoas que implementaram esse método, por exemplo aqui. Porém, cuidado ao baixar algo malicioso, estou indicando apenas para ter uma alternativa e assim não precise implementa-la do zero.

Notas e Referências

  1. Dunn, J. C. (17 de setembro de 1973). «Um Parente Fuzzy do Processo ISODATA e Seu Uso na Detecção de Agrupamentos Compactos e Bem Separados». Journal of Cybernetics. 3 (3): 32–57. doi:10.1080/01969727308546046 
  2. Dunn, J. C. (1 de setembro de 1973). «Agrupamentos Bem Separados e Partições Fuzzy Ótimas» (publicado em 1974). Journal of Cybernetics. 4 (1): 95–104. ISSN 0022-0280. doi:10.1080/01969727408546059 
  3. «Implementação MATLAB do Índice de Dunn». Consultado em 5 de dezembro de 2011 
  4. Lukasz, Nieweglowski. «Pacote 'clv'» (PDF). Projeto R. CRAN. Consultado em 2 de abril de 2013 
  5. «Apache Mahout». Apache Software Foundation. Consultado em 9 de maio de 2013 

Ligações externas

Read other articles:

City in Utah, United States For other uses, see Manti (disambiguation). City in Utah, United StatesManti, UtahCityBirdseye view of Manti and the Sanpete Valley, August 2004Location in Sanpete County and the state of Utah.Coordinates: 39°15′53″N 111°38′20″W / 39.26472°N 111.63889°W / 39.26472; -111.63889CountryUnited StatesStateUtahCountySanpeteFounded1849Incorporated1851Founded byGeorge Washington Bradley and Isaac MorleyNamed forA city in the Book of Mormo...

 

Explore Scientific LLCCompany typeLLCIndustryImaging/ManufacturingFoundedLaguna Hills, California (2008)HeadquartersSpringdale, ArkansasProductsTelescopes, spotting scopes, binoculars, eyepieces and microscopesOwnerJourneyNorth Inc. (2014–present)Websitewww.explorescientificusa.com Explore Scientific is a company founded by former Meade Instruments Vice President of Brand Community Scott W. Roberts in 2008. Headquartered in Springdale, Arkansas, the company designs and manufactures telescop...

 

American architect (1867–1959) This article's use of external links may not follow Wikipedia's policies or guidelines. Please improve this article by removing excessive or inappropriate external links, and converting useful links where appropriate into footnote references. (February 2024) (Learn how and when to remove this message) Frank Lloyd WrightWright in 1954Born(1867-06-08)June 8, 1867Richland Center, Wisconsin, U.S.DiedApril 9, 1959(1959-04-09) (aged 91)Phoenix, Arizona, U.S.Alm...

The British folk revival incorporates a number of movements for the collection, preservation and performance of folk music in the United Kingdom and related territories and countries, which had origins as early as the 18th century. It is particularly associated with two movements, usually referred to as the first and second revivals, respectively in the late 19th to early 20th centuries and the mid-20th century. The first included increased interest in and study of traditional folk music, th...

 

Species of shark Blacktailed spurdog from New Caledonia Conservation status Data Deficient  (IUCN 3.1)[1] Scientific classification Domain: Eukaryota Kingdom: Animalia Phylum: Chordata Class: Chondrichthyes Subclass: Elasmobranchii Subdivision: Selachimorpha Order: Squaliformes Family: Squalidae Genus: Squalus Species: S. melanurus Binomial name Squalus melanurusFourmanoir & Rivaton, 1979 Range of the blacktailed spurdog (in blue) Sharks portal The blacktailed spurdog (S...

 

Month of 1966 1966 January February March April May June July August September October November December << July 1966 >> Su Mo Tu We Th Fr Sa 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31   July 18, 1966: Young and Collins go further from Earth than anyone before July 30, 1966: England wins the World Cup at Wembley July 18, 1966: Sukarno, the Father of Indonesia, loses most of his power The following events occurred in July 1966:...

Dubel Meriyenes Informasi pribadiLahir15 Agustus 1957 (umur 66) Padang, Sumatera BaratAlma materSepawamil (1986)Karier militerPihak IndonesiaDinas/cabang TNI Angkatan DaratMasa dinas1986–2015Pangkat Brigadir Jenderal TNISatuanCorps Kesehatan Militer (Ckm)Sunting kotak info • L • B Letnan Jenderal TNI (Purn.) dr. Dubel Meriyenes, Sp.B., FINACS (lahir 15 Agustus 1957) adalah seorang Purnawirawan perwira tinggi TNI Angkatan Darat yang pernah menjabat sebagai Direkt...

 

Cubiérettes Blason Administration Pays France Région Occitanie Département Lozère Arrondissement Mende Intercommunalité Communauté de communes Mont Lozère Maire Mandat Christian Benoit 2020-2026 Code postal 48190 Code commune 48054 Démographie Gentilé Cubiérettois Populationmunicipale 47 hab. (2021 ) Densité 4,1 hab./km2 Géographie Coordonnées 44° 27′ 36″ nord, 3° 47′ 16″ est Altitude Min. 960 mMax. 1 625 m Superfi...

 

この項目には、一部のコンピュータや閲覧ソフトで表示できない文字が含まれています(詳細)。 数字の大字(だいじ)は、漢数字の一種。通常用いる単純な字形の漢数字(小字)の代わりに同じ音の別の漢字を用いるものである。 概要 壱万円日本銀行券(「壱」が大字) 弐千円日本銀行券(「弐」が大字) 漢数字には「一」「二」「三」と続く小字と、「壱」「�...

Spanish baseball coach (born 1983) Baseball player Paco FigueroaFigueroa with the Phillies in 2022Philadelphia Phillies – No. 38Second baseman / CoachBorn: Francisco Figueroa (1983-02-19) 19 February 1983 (age 41)Miami, Florida, U.S.Bats: RightThrows: Right TeamsAs coach Philadelphia Phillies (2019–present) Francisco Paco Figueroa (born 19 February 1983) is a baseball coach and former professional player who played as a second baseman. Born in the United States, he represented Spain ...

 

2016年美國總統選舉 ← 2012 2016年11月8日 2020 → 538個選舉人團席位獲勝需270票民意調查投票率55.7%[1][2] ▲ 0.8 %   获提名人 唐納·川普 希拉莉·克林頓 政党 共和黨 民主党 家鄉州 紐約州 紐約州 竞选搭档 迈克·彭斯 蒂姆·凱恩 选举人票 304[3][4][註 1] 227[5] 胜出州/省 30 + 緬-2 20 + DC 民選得票 62,984,828[6] 65,853,514[6]...

 

Konstantinos X DoukasKaisar dan Otokrat RomawiHistamenon emas Konstantinos X.Kaisar Kekaisaran BizantiumBerkuasa24 November 1059 – 22 Mei 1067PendahuluIsaac I KomnenosPenerusRomanos IV DiogenesInformasi pribadiKelahiran1006Kematian22 Mei 1067 (usia 61)AyahAndronikos DoukasPasangantidak diketahuiEudokia MakrembolitissaAnakMichael VII DoukasAndronikos DoukasKonstantios DoukasAnna DoukainaTheodora Anna DoukainaZoe Doukaina Konstantinos X Doukas atau Dukas, di-Latinisasi menjadi ...

Tujuan Dana Inovasi Uni Eropa Dana Inovasi Uni Eropa (Bahasa Inggris: EU's Innovation Fund) adalah sebuah program pendanaan penanggulan perubahan iklim terbesar di dunia. Negara-negara di Uni Eropa bekerjasama untuk mengatasi perubahan iklim global.[1] Dana Inovasi ini merupakan pendanaan yang disiapkan Sistem Perdagangan Emisi UE (EU Emissions Trading System disingkat EU ETS) yang telah direvisi.[2] Uni Eropa bergerak cepat untuk mengatasi pemanasan global, perubahan iklim, g...

 

Northern Europe Ireland Uilleann pipes: Also known as Union pipes and Irish pipes, depending on era. Bellows-blown bagpipe with keyed or un-keyed 2-octave chanter, 3 drones and 3 regulators. The most common type of bagpipes in Irish traditional music. Great Irish Warpipes: One of the earliest references to the Irish bagpipes comes from an account of the funeral of Donnchadh mac Ceallach, king of Osraige in AD 927.[1] Bagpipes were a noted instrument in Irish warfare since medieval ti...

 

English computer scientist (1912–1954) Turing redirects here. For other uses, see Turing (disambiguation). Alan TuringOBE FRSTuring in 1936BornAlan Mathison Turing(1912-06-23)23 June 1912Maida Vale, London, EnglandDied7 June 1954(1954-06-07) (aged 41)Wilmslow, Cheshire, EnglandCause of deathCyanide poisoning as an act of suicide[note 1]Alma mater University of Cambridge (BA, MA) Princeton University (PhD) Known for Cryptanalysis of the Enigma Turing's proof T...

Tamil Emigration: Early migrations (before 1800s) - Various destinations, Medieval period A map of the territories and five states in South India. The South Indian diaspora (Tamil: அயலகத் தென்னிந்தியர்) (Malayalam: തെന്നിന്ത്യൻ പ്രവാസികൾ) (Kannada: ದಕ್ಷಿಣ ಭಾರತೀಯ ವಲಸೆಗಾರ) (Telugu: దక్షిణ భారత డయాస్పోరా) comprises people who have emigrated f...

 

The Great Hallof the University of SydneyThe interior of the Great HallGeneral informationStatusCompletedArchitectural styleVictorian Academic Gothic revivalLocationMain Quadrangle, The University of Sydney, Camperdown Campus, Sydney, New South WalesCountryAustraliaCoordinates33°53′07″S 151°11′20″E / 33.8854°S 151.1890°E / -33.8854; 151.1890Construction started1855CompletedJuly 1859 (1859-07)OwnerThe University of SydneyTechnical detailsMaterialS...

 

Higher education school in Malaysia Fire and Rescue Academy of MalaysiaAkademi Bomba dan Penyelamat MalaysiaFormer namesSekolah Latihan Bomba Malayan Union (1957)Pusat Latihan Bomba (1958–1997)TypePublicEstablished1957 (1957)Affiliation Fire and Rescue Department of MalaysiaOfficer in chargeSenior Assistant Fire Commissioner Md Ali Ismail, Assistant Director General of the TrainingLocation MalaysiaCampusMultiple sites, 470.6 acres (190.4 ha) (For 5 campuses)Websitefram.bomba....

Biologi selSel hewanKomponen sel hewan pada umumnya: Nukleolus Inti sel Ribosom (titik-titik kecil sebagai bagian dari no. 5) Vesikel Retikulum endoplasma kasar Badan Golgi Sitoskeleton Retikulum endoplasma halus Mitokondria Vakuola Sitosol (cairan yang berisi organel, yang terdiri dari sitoplasma) Lisosom Sentrosom Membran sel Mikrograf badan Golgi, terlihat sebagai tumpukan cincin setengah lingkaran berwarna hitam di bagian bawah gambar. Sejumlah vesikel bulat terlihat di sekitar organel in...

 

Unincorporated community in Virginia, United States This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Damon, Virginia – news · newspapers · books · scholar · JSTOR (January 2024)Unincorporated community in Virginia, United StatesDamonUnincorporated communityDamonLocation within the state of VirginiaS...