K-medoides

O problema k -medoids é um problema de agrupamento semelhante ao k -means. O nome foi cunhado por Leonard Kaufman e Peter J. Rousseeuw no seu algoritmo PAM (Partitioning Around Medoids). [1] Ambos os algoritmos k -means e k -medoids são particionais (quebrando o conjunto de dados em grupos) e tentam minimizar a distância entre os pontos rotulados como pertencentes a um cluster e um ponto designado como o centro desse cluster. Em contraste com o algoritmo k -means, k -medoids escolhe pontos de dados reais como centros ( medoids ou exemplares) e, assim, permite maior interpretabilidade dos centros de cluster do que o k -means, onde o centro de um cluster não é necessariamente um dos pontos de dados de entrada (é a média entre os pontos no cluster). Além disso, k -medoides podem ser usados com medidas de dissimilaridade arbitrárias, enquanto k -means geralmente requer distância euclidiana para soluções eficientes. Como k -medoids minimiza uma soma de dissimilaridades aos pares em vez de uma soma de distâncias euclidianas ao quadrado, é mais robusto a ruído e outliers (anomalias) do que k -means .

k-medoides é uma técnica clássica de particionamento para agrupamento de dados que divide o conjunto de dados de n objetos em k clusters, onde o número k de clusters, a priori, assume-se conhecer ( o que implica que o programador deve especificar k antes da execução de um algorítmos k-medoides). O quão bom é o valor de k pode ser obtido com métodos como o método silhouete


O medoide de um cluster é definido como o objeto no cluster cuja dissimilaridade média para todos os objetos no cluster é mínima, ou seja, é um ponto localizado mais centralmente no cluster.

Algoritmos

PAM escolhendo medoids iniciais, então iterando para convergência para k=3 clusters, visualizados com ELKI .

Em geral, o problema k -medoids é NP-difícil de resolver exatamente. Como tal, existem muitas soluções heurísticas.

Particionamento em Medoides (PAM)

O PAM usa uma busca gulosa que pode não encontrar a solução ótima, mas é mais rápida que a busca exaustiva. Funciona da seguinte forma:

  1. (CONSTRUIR) Inicializar: selecione avidamente k dos n pontos de dados como os medoids para minimizar o custo
  2. Associe cada ponto de dados ao medoid mais próximo.
  3. (SWAP) Enquanto o custo da configuração diminui:
    1. Para cada medoid m, e para cada ponto de dados não medoid o :
      1. Considere a troca de m e o e calcule a mudança de custo
      2. Se a mudança de custo for a melhor atual, lembre-se desta combinação m e o
    2. Faça a melhor troca de e , se diminui a função de custo. Caso contrário, o algoritmo termina.

A complexidade do tempo de execução do algoritmo PAM original por iteração de (3) é , computando apenas a mudança no custo. Uma implementação ingênua recalculando toda a função de custo toda vez estará em . Este tempo de execução pode ser ainda mais reduzido para , dividindo a mudança de custo em três partes de forma que os cálculos possam ser compartilhados ou evitados (FastPAM). O tempo de execução pode ser ainda mais reduzido executando swaps (FasterPAM), [2] momento em que uma inicialização aleatória se torna uma alternativa viável para BUILD.

Otimização alternada

Algoritmos diferentes do PAM também têm sido sugeridos na literatura, incluindo o seguinte método de iteração de Voronoi conhecido como heurística "Alternativa" na literatura, pois alterna entre duas etapas de otimização: [3] [4] [5]

  1. Selecione medoids iniciais aleatoriamente
  2. Iterar enquanto o custo diminui:
    1. Em cada cluster, faça o ponto que minimiza a soma das distâncias dentro do cluster o medoid
    2. Reatribua cada ponto ao cluster definido pelo medoid mais próximo determinado na etapa anterior

A iteração Voronoi k -means-style tende a produzir resultados piores e exibir "comportamento errático". [6] :957Como não permite reatribuir pontos a outros clusters durante a atualização, ele explora apenas um espaço de pesquisa menor. Pode-se mostrar que mesmo em casos simples esta heurística encontra soluções inferiores que os métodos baseados em swap podem resolver.

Agrupamento hierárquico

Várias variantes de agrupamento hierárquico com uma "ligação medoide" foram propostas. O critério de ligação Minimum Sum [7] usa diretamente o objetivo de medoids, mas a ligação Minimum Sum Growth mostrou produzir melhores resultados (semelhante a como Ward linkage usa o aumento no erro quadrado). Abordagens anteriores simplesmente usavam a distância dos medoids de cluster dos medoids anteriores como medida de ligação, [8] [9] mas que tende a resultar em soluções piores, pois a distância de dois medoids não garante que exista um bom medoid para a combinação . Essas abordagens têm uma complexidade de tempo de execução de , e quando o dendrograma é cortado em um determinado número de clusters k, os resultados normalmente serão piores do que os resultados encontrados pelo PAM. [7] Portanto, esses métodos são principalmente de interesse quando uma estrutura de árvore hierárquica é desejada.

Outros algoritmos

Outros algoritmos aproximados, como CLARA e CLARANS, trocam qualidade por tempo de execução. CLARA aplica PAM em várias subamostras, mantendo o melhor resultado. O CLARANS trabalha com todo o conjunto de dados, mas explora apenas um subconjunto das possíveis trocas de medoides e não medoides usando amostragem. BanditPAM usa o conceito de bandidos multi-armados para escolher trocas de candidatos em vez de amostragem uniforme como em CLARANS. [10]

Programas

  • ELKI inclui várias variantes de k -medoid, incluindo k -medoids de iteração de Voronoi, o algoritmo PAM original, melhorias de Reynolds e os algoritmos O(n²) FastPAM e FasterPAM, CLARA, CLARANS, FastCLARA e FastCLARANS.
  • Julia contém uma implementação k -medoid do algoritmo de estilo k-means (rápido, mas com qualidade de resultado muito pior) no pacote JuliaStats/Clustering.jl .
  • O KNIME inclui uma implementação k -medoid que suporta uma variedade de medidas eficientes de distância de matriz, bem como várias implementações k -means nativas (e integradas de terceiros)
  • Python contém FasterPAM e outras variantes no pacote " kmedoids ", implementações adicionais podem ser encontradas em muitos outros pacotes
  • R contém PAM no pacote " cluster ", incluindo as melhorias FasterPAM por meio das opções variant = "faster" e medoids = "random" . Também existe um pacote "fastkmedoids".
  • O RapidMiner tem um operador chamado KMedoids, mas não implementa nenhum dos algoritmos KMedoids acima. Em vez disso, é uma variante k-means, que substitui a média pelo ponto de dados mais próximo (que não é o medoid), que combina as desvantagens do k-means (limitado a dados coordenados) com o custo adicional de encontrar o ponto mais próximo ao meio.
  • Rust tem uma caixa " kmedoids " que também inclui a variante FasterPAM.
  • O MATLAB implementa PAM, CLARA e dois outros algoritmos para resolver o problema de agrupamento k -medoid.

Referências

  1. Kaufman, Leonard; Rousseeuw, Peter J. (8 de março de 1990), «Partitioning Around Medoids (Program PAM)», ISBN 978-0-470-31680-1, Hoboken, NJ, USA: John Wiley & Sons, Inc., Wiley Series in Probability and Statistics (em inglês): 68–125, doi:10.1002/9780470316801.ch2, consultado em 13 de junho de 2021 
  2. Schubert, Erich; Rousseeuw, Peter J. (2021). «Fast and eager k -medoids clustering: O(k) runtime improvement of the PAM, CLARA, and CLARANS algorithms». Information Systems (em inglês). 101. 101804 páginas. arXiv:2008.05171Acessível livremente. doi:10.1016/j.is.2021.101804 
  3. Maranzana, F. E. (1963). «On the location of supply points to minimize transportation costs». IBM Systems Journal. 2 (2): 129–135. doi:10.1147/sj.22.0129 
  4. T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning, Springer (2001), 468–469.
  5. Park, Hae-Sang; Jun, Chi-Hyuck (2009). «A simple and fast algorithm for K-medoids clustering». Expert Systems with Applications (em inglês). 36 (2): 3336–3341. doi:10.1016/j.eswa.2008.01.039 
  6. Teitz, Michael B.; Bart, Polly (1 de outubro de 1968). «Heuristic Methods for Estimating the Generalized Vertex Median of a Weighted Graph». Operations Research. 16 (5): 955–961. ISSN 0030-364X. doi:10.1287/opre.16.5.955 
  7. a b Schubert, Erich (2021). HACAM: Hierarchical Agglomerative Clustering Around Medoids – and its Limitations (PDF). LWDA’21: Lernen, Wissen, Daten, Analysen September 01–03, 2021, Munich, Germany. pp. 191–204 – via CEUR-WS 
  8. Miyamoto, Sadaaki; Kaizu, Yousuke; Endo, Yasunori (2016). Hierarchical and Non-Hierarchical Medoid Clustering Using Asymmetric Similarity Measures. 2016 Joint 8th International Conference on Soft Computing and Intelligent Systems (SCIS) and 17th International Symposium on Advanced Intelligent Systems (ISIS). pp. 400–403. doi:10.1109/SCIS-ISIS.2016.0091 
  9. Herr, Dominik; Han, Qi; Lohmann, Steffen; Ertl, Thomas (2016). Visual Clutter Reduction through Hierarchy-based Projection of High-dimensional Labeled Data (PDF). Graphics Interface. Graphics Interface (em inglês). doi:10.20380/gi2016.14. Consultado em 4 de novembro de 2022 
  10. Tiwari, Mo; Zhang, Martin J.; Mayclin, James; Thrun, Sebastian; Piech, Chris; Shomorony, Ilan (2020). «BanditPAM: Almost Linear Time k-Medoids Clustering via Multi-Armed Bandits». Advances in Neural Information Processing Systems (em inglês). 33 

Read other articles:

German folk song Ein Heller und ein Batzen in Das neue Soldaten-Liederbuch. Die bekanntesten und meistgesungenen Lieder unserer Wehrmacht. Mainz 1938 Ein Heller und ein Batzen, also known by its chorus of Heidi, heido, heida,[1] (with all three words being modifications of the name Adelheid[2]) is a German folk song. Written by Albert von Schlippenbach in 1830 as a drinking song, it later became a popular marching song in the Wehrmacht during the Second World War.[3]&...

 

Adrian Mutu Mutu nel 2007 Nazionalità  Romania Altezza 180 cm Peso 74 kg Calcio Ruolo Allenatore (ex attaccante) Squadra  CFR Cluj Termine carriera 20 maggio 2016 - giocatore Carriera Giovanili 1992-1996 Argeș Pitești Squadre di club1 1996-1998 Argeș Pitești41 (11)1998-2000 Dinamo Bucarest33 (22)2000 Inter10 (0)2000-2002 Verona57 (16)2002-2003 Parma31 (18)2003-2004 Chelsea27 (6)2005-2006 Juventus33 (7)2006-2011 Fiorentina112 (54)201...

 

Senior White House official White House Press SecretaryLogo of the White House.IncumbentKarine Jean-Pierresince May 13, 2022White House Office of the Press SecretaryAppointerPresident of the United StatesFormationMarch 4, 1929; 95 years ago (1929-03-04)First holderGeorge AkersonSalary$180,000 USD (2021)[1]Websitewww.whitehouse.gov/briefing-room/press-briefings/ The White House press secretary is a senior White House official whose primary responsibility is to ac...

This article relies largely or entirely on a single source. Relevant discussion may be found on the talk page. Please help improve this article by introducing citations to additional sources.Find sources: Macapagal Boulevard – news · newspapers · books · scholar · JSTOR (December 2020) Macapagal BoulevardPresident Diosdado Macapagal BoulevardMacapagal AvenueMacapagal Boulevard in Central Business Park I-A, PasayNamesakeDiosdado MacapagalMaintained byPh...

 

2017 Kansas's 4th congressional district special election ← 2016 April 11, 2017 (2017-04-11) 2018 → Kansas's 4th congressional districtTurnout28.9%[1]   Nominee Ron Estes James Thompson Party Republican Democratic Popular vote 64,044 56,435 Percentage 52.2% 46.0% Results by county Estes   50–59%   60–69%   70–79%   80–89% Thompson   50–59% U.S. Representative before electi...

 

1939 film For the fantasy novel by Jim Butcher, see Captain's Fury. Captain FuryFilm posterDirected byHal RoachWritten byGrover JonesJack JevneWilliam C. deMilleProduced byHal RoachStarringBrian AherneVictor McLaglenCinematographyNorbert BrodineEdited byWilliam H. ZieglerMusic byMarvin HatleyProductioncompanyHal Roach StudiosDistributed byUnited ArtistsRelease date May 26, 1939 (1939-05-26) Running time92 minutesCountryUnited StatesLanguageEnglishBudget£250,000[1]Box o...

Vous lisez un « article de qualité » labellisé en 2009. SN 1054 La nébuleuse du Crabe, rémanent de SN 1054, photographiée près de 1 000 ans après l'observation de son explosion au matin du 4 juillet 1054. Données d’observation(Époque J2000.0) Constellation Taureau Ascension droite (α) 05h 34m 31,97s Déclinaison (δ) +22° 00′ 52,1″ Coordonnées galactiques ℓ = 184,557 5 · b = −05,784 3 Magnitude apparente (V) E...

 

جان-نويل هاك (بالفرنسية: Jean-Noël Huck)‏    معلومات شخصية الميلاد 20 ديسمبر 1948 (العمر 75 سنة)موتزيغ  مركز اللعب وسط الجنسية فرنسا  مسيرة الشباب سنوات فريق 1967–1968 Mutzig المسيرة الاحترافية1 سنوات فريق م. (هـ.) 1968–1971 ستراسبورغ 89 (8) 1971–1978 نيس 236 (28) 1978–1979 باريس 32 (1) 1979–1981 باريس سان...

 

Nycticorax mauritianus Status konservasiPunahIUCN22728777 TaksonomiKerajaanAnimaliaFilumChordataKelasAvesOrdoPelecaniformesFamiliArdeidaeGenusNycticoraxSpesiesNycticorax mauritianus (Newton dan Gadow, 1893) Tata namaProtonimButorides mauritianus DistribusiEndemikMauritius Island (en) lbs Nycticorax mauritianus adalah spesies Nycticorax punah dari Mauritius. Spesies tersebut sempat dibahas secara ilmiah pada 1893 oleh Edward Newton dan Hans Gadow dari Universitas Cambridge. Referensi Pengident...

Lambang Negara Armenia - Bahasa Armenia: Հայաստանի ԶինանշանDetailPemangkuRepublik ArmeniaDigunakan sejak19 April 1992PerisaiSebuah perisai dengan 4 lambang wangsa Armenia Artaxia, Arshakunian, Bagratuni, dan Rubinian; Di tengah menampilkan Gunung Ararat dengan Bahtera Nuh di atasnyaPenopangSeekor Elang dan SingaKompartemenHimpunan bunga gandum, bulu burung, rantai terputus, pita, dan pedang[1]Versi awal1918-1920, Republik Demokratik ArmeniaPenggunaanpada mata uang; di...

 

2020 studio album by Lil WayneFuneralStudio album by Lil WayneReleasedJanuary 31, 2020Recorded2016–2019GenreHip hop[1]Length76:04Label Young Money Republic Producer Aaron Z Alex Delicata B Ham Ben Billions Benny Wond3r Bijan Amir Blue Cheeze Bobby Keyz Brandon Finessin Charlie Handsome Chill Shump Cool & Dre Dunk Rock Kamo Loctor Duke LostKidSamy Louis Haze Jahlil Beats Javar Rockamore Mannie Fresh Manny Galvez Mike Will Made It MonstaBeatz Murda Beatz Prxz Rex Cudo R!O ...

 

1983 American romantic drama film by Adrian Lyne This article is about the 1983 film. For other uses, see Flashdance (disambiguation). FlashdanceTheatrical release posterDirected byAdrian LyneScreenplay by Tom Hedley Joe Eszterhas Story byTom HedleyProduced by Don Simpson Jerry Bruckheimer Starring Jennifer Beals Michael Nouri CinematographyDonald PetermanEdited by Walt Mulconery Bud Smith Music byGiorgio MoroderProductioncompanyPolyGram PicturesDistributed byParamount PicturesRelease date Ap...

Pour les articles homonymes, voir F14. Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus. Cet article ne cite pas suffisamment ses sources (mars 2024). Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ». En pratique : Qu...

 

Microtus Periode Pliosen Akhir - kini Microtus lusitanicusTaksonomiKerajaanAnimaliaFilumChordataKelasMammaliaOrdoRodentiaFamiliCricetidaeGenusMicrotus Schrank, 1798 Spesieslbs Microtus adalah sebuah genus vole yang ditemukan di Amerika Utara, Eropa dan utara Asia. Sekitar 62 spesies dimasukkan dalam genus tersebut. Referensi Musser, G. G.; Carleton, M. D. (2005). Superfamily Muroidea. Dalam Wilson, D. E.; Reeder, D. M. Mammal Species of the World (edisi ke-3rd). Johns Hopkins University Press...

 

Vòng loại giải vô địch bóng đá thế giới 2022 khu vực châu Á (Vòng 4)Sự kiệnvòng loại khu vực châu Á UAE Úc 1 2 Ngày7 tháng 6 năm 2022Địa điểmSân vận động Ahmed bin Ali, Al Rayyan, QatarTrọng tàiIlgiz Tantashev (Uzbekistan)[1]← 2018 2026 → Vòng 4 cho vòng loại giải vô địch bóng đá thế giới 2022 khu vực châu Á chỉ diễn ra một trận đấu vào ngày 7 tháng 6 năm 2022.[2][3] Vò...

2009 basketball championship series This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: 2009 NBA Finals – news · newspapers · books · scholar · JSTOR (May 2023) (Learn how and when to remove this message) 2009 NBA finals TeamCoachWins Los Angeles Lakers Phil Jackson 4 Orlando Magic Stan Van Gundy 1 DatesJune 4�...

 

Jon Dahl TomassonTomasson alla guida del Malmö nel 2021Nazionalità Danimarca Altezza182 cm Peso75 kg Calcio RuoloAllenatore (ex attaccante) Squadra Svezia Termine carriera2012 - giocatore CarrieraGiovanili 1984-1985 Solrød1985-1992 Køge BK Squadre di club1 1992-1994 Køge BK55 (37)1994-1997 Heerenveen78 (37)1997-1998 Newcastle Utd23 (3)1998-2002 Feyenoord122 (55)2002-2005 Milan75 (22)2005-2007 Stoccarda30 (8)2007-2008 Villarreal36 (7)2008-...

 

Halaman ini berisi artikel tentang sejarah Poso sebelum tahun 1959. Untuk sejarah Poso setelah bergabung dengan Indonesia, lihat Sejarah Kabupaten Poso. Garis waktu Kabupaten Poso Poso di bawah kekuasaan Luwu (1600—1897) Afdeling Poso (1919—1942; 1946—1948) Afdeling Poso (1942—1945) Afdeling Poso (1948—1949) Daerah Otonom Poso (1949—1959) Kabupaten Poso (1959—sekarang) Sejarah Poso (bahasa Inggris: History of Poso) dimulai sejak zaman batu hingga zaman megalitikum. Wilayah i...

8th Seattle Film Critics Society AwardsDateJanuary 8, 2024SiteSeattle, WashingtonHighlightsBest PicturePast LivesMost awardsGodzilla Minus One / The Holdovers (3)Most nominationsKillers of the Flower Moon (11)Poor Things (11) ← 2022 Seattle Film Critics Society Awards 2024 → The 8th Seattle Film Critics Society Awards were announced on January 8, 2024.[1][2][3] The SFCS announced the first phase of their awards with the 10 Best Films of 2023 as vo...

 

District in Oddar Meanchey, CambodiaChong Kal ចុងកាលChong KhanDistrict (srok)Chong KalLocation in CambodiaCoordinates: 14°10′N 103°35′E / 14.167°N 103.583°E / 14.167; 103.583Country CambodiaProvinceOddar MeancheyElevation32 m (105 ft)Time zone+7Geocode2203 Chong Kal District is a district in Oddar Meancheay province in northern Cambodia. According to the 1998 census of Cambodia, it had a population of 18,843.[1] Administration...