Метод k-средних

Метод k-средних (англ. k-means) — наиболее популярный метод кластеризации. Был изобретён в 1950-х годах математиком Гуго Штейнгаузом[1] и почти одновременно Стюартом Ллойдом[2]. Особую популярность приобрёл после работы Маккуина[3].

Действие алгоритма таково, что он стремится минимизировать суммарное квадратичное отклонение точек кластеров от центров этих кластеров:

где  — число кластеров,  — полученные кластеры, , а  — центры масс всех векторов из кластера .

По аналогии с методом главных компонент центры кластеров называются также главными точками, а сам метод называется методом главных точек[4] и включается в общую теорию главных объектов, обеспечивающих наилучшую аппроксимацию данных[5].

Алгоритм

Алгоритм представляет собой версию EM-алгоритма, применяемого также для разделения смеси гауссиан. Он разбивает множество элементов векторного пространства на заранее известное число кластеров k.

Основная идея заключается в том, что на каждой итерации перевычисляется центр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь в соответствии с тем, какой из новых центров оказался ближе по выбранной метрике.

Алгоритм завершается, когда на какой-то итерации не происходит изменения внутрикластерного расстояния. Это происходит за конечное число итераций, так как количество возможных разбиений конечного множества конечно, а на каждом шаге суммарное квадратичное отклонение V уменьшается, поэтому зацикливание невозможно.

Как показали Дэвид Артур и Сергей Васильвицкий, на некоторых классах множеств сложность алгоритма по времени, нужному для сходимости, равна [6].

Демонстрация алгоритма

Действие алгоритма в двумерном случае. Начальные точки выбраны случайно.

Исходные точки и случайно выбранные начальные центры.
Точки, отнесённые к начальным центрам. Разбиение на плоскости — диаграмма Вороного относительно начальных центров.
Вычисление новых центров кластеров (Ищется центр масс).
Предыдущие шаги, за исключением первого, повторяются, пока алгоритм не сойдётся.

Проблемы k-means

Типичный пример сходимости метода k средних к локальному минимуму. В этом примере результат «кластеризации» методом k средних противоречит очевидной кластерной структуре множества данных. Маленькими кружками обозначены точки данных, четырёхлучевые звезды — центроиды. Принадлежащие им точки данных окрашены в тот же цвет. Иллюстрация подготовлена с помощью апплета Миркеса[7].
Результат кластеризации методом k-средних для ирисов Фишера и реальные виды ирисов, визуализированные с помощью ELKI[англ.]. Центры кластеров отмечены с помощью крупных, полупрозрачных маркеров.
  • Не гарантируется достижение глобального минимума суммарного квадратичного отклонения V, а только одного из локальных минимумов.
  • Результат зависит от выбора исходных центров кластеров, их оптимальный выбор неизвестен.
  • Число кластеров надо знать заранее.

Расширения и вариации

Широко известна и используется нейросетевая реализация K-means — сети векторного квантования сигналов (одна из версий нейронных сетей Кохонена).

Существует расширение k-means++, которое направлено на оптимальный выбор начальных значений центров кластеров.


Применение для задач глубокого обучения и машинного зрения

В алгоритмах глубокого обучения метод k-средних иногда применяют не по прямому назначению (классификация разбивкой на кластеры), а для создания так называемых фильтров (ядер свёртки, словарей). Например, для распознавания изображений в алгоритм k-средних подают небольшие случайные кусочки изображений обучающей выборки, допустим, размером 16х16 в виде линейного вектора, каждый элемент которого кодирует яркость своей точки. Количество кластеров k задается большим, например 256. Обученный метод k-средних при определенных условиях вырабатывает при этом центры кластеров (центроиды), которые представляют собой удобные базисы, на которые можно разложить любое входное изображение. Такие "обученные" центроиды в дальнейшем используют в качестве фильтров, например для свёрточной нейронной сети в качестве ядер свёртки или других аналогичных систем машинного зрения[8]. Таким образом осуществляется обучение без учителя при помощи метода k-средних.

Ссылки

  1. Steinhaus H. (1956). Sur la division des corps materiels en parties. Bull. Acad. Polon. Sci., C1. III vol IV: 801—804.
  2. Lloyd S. (1957). Least square quantization in PCM’s. Bell Telephone Laboratories Paper.
  3. MacQueen J. (1967). Some methods for classification and analysis of multivariate observations. In Proc. 5th Berkeley Symp. on Math. Statistics and Probability, pages 281—297.
  4. Flury B. (1990). Principal points. Biometrika, 77, 33-41.
  5. Gorban A.N., Zinovyev A.Y. (2009). Principal Graphs and Manifolds, Ch. 2 in: Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques, Emilio Soria Olivas et al. (eds), IGI Global, Hershey, PA, USA, pp. 28-59.
  6. David Arthur & Sergei Vassilvitskii (2006). "How Slow is the k-means Method?" (PDF). Proceedings of the 2006 Symposium on Computational Geometry (SoCG). Архивировано (PDF) 24 января 2009. Дата обращения: 20 апреля 2008.
  7. E.M. Mirkes, K-means and K-medoids applet Архивная копия от 29 мая 2013 на Wayback Machine. University of Leicester, 2011.
  8. Adam Coates and Andrew Y. Ng. Learning Feature Representations with K-means Архивная копия от 21 июня 2015 на Wayback Machine, Stanford University, 2012

Демонстрация и визуализация

Read other articles:

Saint Ignatius of Loyola UniversityUniversidad San Ignacio de Loyola (Spanish)MottoEmprendedores que Forman Emprendedores (Spanish)Motto in EnglishEntrepreneurs Educating EntrepreneursTypePrivate Research Coeducational Higher education institutionEstablishedDecember 7, 1995; 28 years ago (1995-12-07)FounderRaúl Diez Canseco TerryAffiliationCorporación Educativa USILChancellorRamiro Salas BravoRectorJorge Talavera Traverso[1]Students18,763 (2018)[2]Unde...

 

 

Tokyo, contoh pulau panas perkotaan. Suhu normal Tokyo naik dibanding wilayah sekitarnya. Pulau panas perkotaan (Inggris: urban heat island (UHI)) adalah sebuah wilayah metropolitan yang lebih hangat dibanding wilayah pedesaan sekitarnya. Fenomena ini pertama diselidiki dan dijelaskan oleh Luke Howard pada 1810-an, meski ia bukanlah satu-satunya yang menjelaskan fenomena ini.[1] Perbedaan suhu biasanya lebih besar pada malam hari daripada siang hari, dan lebih tampak ketika angin lema...

 

 

CIA files on cyber war and surveillanceLogo for documents collectively labeled Vault 7.Some of this article's listed sources may not be reliable. Please help improve this article by looking for better, more reliable sources. Unreliable citations may be challenged and removed. (February 2024) (Learn how and when to remove this template message) Vault 7 is a series of documents that WikiLeaks began to publish on 7 March 2017, detailing the activities and capabilities of the United States Centra...

Hypothetical artificial intelligence scenario Robots revolt in R.U.R., a 1920 Czech play translated as Rossum's Universal Robots Part of a series onArtificial intelligence Major goals Artificial general intelligence Recursive self-improvement Planning Computer vision General game playing Knowledge reasoning Machine learning Natural language processing Robotics AI safety Approaches Symbolic Deep learning Bayesian networks Evolutionary algorithms Situated approach Hybrid intelligent systems Sys...

 

 

Japanese film series in tetralogy Rebuild of EvangelionRebuild of Evangelion key visualヱヴァンゲリヲン新劇場版(Evangerion Shin Gekijōban)GenreMecha[1] Anime film seriesDirected byHideaki Anno (chief director)Kazuya TsurumakiMasayuki (films 1–3)Mahiro Maeda (films 3–4)Katsuichi Nakayama (film 4)Written byHideaki AnnoMusic byShirō SagisuLicensed byFunimation (films 1–3; formerly)Prime Video (streaming rights)GKIDS (theatrical and home video right...

 

 

Akaigawa 赤井川村DesaKantor Desa Akaigawa BenderaEmblemLokasi Akaigawa di Hokkaido (Subprefektur Shiribeshi)AkaigawaLokasi di JepangKoordinat: 43°5′N 140°49′E / 43.083°N 140.817°E / 43.083; 140.817Koordinat: 43°5′N 140°49′E / 43.083°N 140.817°E / 43.083; 140.817NegaraJepangWilayahHokkaidoPrefektur Hokkaido (Subprefektur Shiribeshi)DistrikYoichiPemerintahan • WalidesaMotomu BabaLuas • Total280,09&#...

Sceaux 行政国 フランス地域圏 (Région) イル=ド=フランス地域圏県 (département) オー=ド=セーヌ県郡 (arrondissement) アントニー郡小郡 (canton) 小郡庁所在地INSEEコード 92071郵便番号 92330市長(任期) フィリップ・ローラン(2008年-2014年)自治体間連合 (fr) メトロポール・デュ・グラン・パリ人口動態人口 19,679人(2007年)人口密度 5466人/km2住民の呼称 Scéens地理座標 北緯48度4...

 

 

† Палеопропитеки Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:СинапсидыКласс:�...

 

 

Protective scriptures in Buddhism Translations ofParittaEnglishprotection, safeguardSanskritparitranaPaliparittaBurmeseပရိတ်(Parit) (MLCTS: pəjeiʔ)Khmerបរិត្ត (UNGEGN: Paret)Sinhalaපිරිත් (pirit)ThaiปริตรRTGS: paritGlossary of Buddhism Part of a series onBuddhism Glossary Index Outline History Timeline The Buddha Pre-sectarian Buddhism Councils Silk Road transmission of Buddhism Decline in the Indian subcontinent Later Buddhists Buddhist mode...

Musical component This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Counter-melody – news · newspapers · books · scholar · JSTOR (December 2009) (Learn how and when to remove this message) Primary and secondary melody in Bach's BWV 1079[1] Playⓘ In music, a counter-melody (often countermelody) is a s...

 

 

Grade II listed state grammar school in the United Kingdom Reading SchoolReading SchoolAddressErleigh RoadReading, Berkshire, RG1 5LWUnited KingdomCoordinates51°26′54″N 0°57′18″W / 51.44833°N 0.95500°W / 51.44833; -0.95500InformationType Grammar academy Day and boarding school List of state boarding schools in England MottoFloreat Redingensis(Latin: May Reading [School] flourish)Religious affiliation(s)previously Church of EnglandEstablished1125; 89...

 

 

American singer-songwriter David BerkeleyDavid Berkeley live at Bloc, Glasgow, June 2009Background informationBirth nameDavid Berkeley FriedlandBorn (1976-09-22) 22 September 1976 (age 47)New Jersey, United StatesGenresAcoustic, indie, AmericanaInstrument(s)Vocals, guitarYears active2002–presentLabelsStraw ManWebsitewww.davidberkeley.comMusical artist David Berkeley (born David Berkeley Friedland,[1] September 22, 1976) is an American singer and songwriter. He has released four...

ولاية أريانة    موقع ولاية أريانة في الجمهورية التونسية    الإحداثيات 36°51′45″N 10°11′44″E / 36.8625°N 10.195556°E / 36.8625; 10.195556   [1] تاريخ التأسيس 1983  تقسيم إداري  البلد تونس[3][2]  التقسيم الأعلى تونس[3]  العاصمة أريانة  التقسيمات الإد�...

 

 

City in Baden-Württemberg, GermanyOffenburg CityAerial view FlagCoat of armsLocation of Offenburg within Ortenaukreis district Offenburg Show map of GermanyOffenburg Show map of Baden-WürttembergCoordinates: 48°28′N 7°56′E / 48.467°N 7.933°E / 48.467; 7.933CountryGermanyStateBaden-WürttembergAdmin. regionFreiburg DistrictOrtenaukreis Government • Lord mayor (2018–26) Marco Steffens[1] (CDU)Area • Total78.38 km2 (30....

 

 

Ludvig Holberg Född3 december 1684[1][2][3]Bergen[4]Död28 januari 1754[1][2][3] (69 år)Köpenhamn[4]BegravdSorø klosterkyrka[5]Andra namnHans Mikkelsen[6]Medborgare iNorge[7] och Konungariket Danmark[7]Utbildad vidKöpenhamns universitetBergen katedralskole SysselsättningFörfattare[8][9], självbiograf, manusförfattare, universitetslärare, essäist, dramatiker[8], historiker, filosof, poetBefattningProfessorRektor, Köpenhamns universitet (1735–1736)[10]ArbetsgivareK�...

English philosopher and ethicist This article is about the philosopher. For the poet, see Richard Braithwait. R. B. BraithwaiteFBABornRichard Bevan Braithwaite(1900-01-15)15 January 1900Banbury, EnglandDied21 April 1990(1990-04-21) (aged 90)Cambridge, EnglandAlma materKing's College, CambridgeSpouse Margaret Masterman ​ ​(m. 1932; died 1986)​EraContemporary philosophyRegionWestern philosophySchoolAnalytic philosophyAcademic adviso...

 

 

War between Sweden and Denmark Kalundborg WarPart of Dano-Swedish WarKing Magnus Eriksson IV of Sweden, VII of Norway, as seen on the title page of his Swedish national law.Date1341–1343LocationDenmarkResult Swedish-Holsteinian victoryTerritorialchanges Valdemar admits his sale of Scania, Blekinge, and Halland to Magnus. Valdemar waives the right of repurchase that had previously applied to the Swedish purchase of the provinces Magnus renounces all claims west of the Sound.Belligerents Firs...

 

 

This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these messages) This biography of a living person relies too much on references to primary sources. Please help by adding secondary or tertiary sources. Contentious material about living persons that is unsourced or poorly sourced must be removed immediately, especially if potentially libelous or harmful.Find sources: Takashi Ikegami – news · ...

United States-based guitar manufacturer This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Guild Guitar Company – news · newspapers · books · scholar · JSTOR (August 2008) (Learn how and when to remove this message) Guild Guitar CompanyCompany typeSubsidiaryIndustryMusical instrumentFounded1952; 72 ...

 

 

لواء الحسينية  - لواء -  تقسيم إداري البلد الأردن  [1] المحافظة محافظة معان إحداثيات 30°32′01″N 35°47′43″E / 30.53357°N 35.7953°E / 30.53357; 35.7953   [2] السكان التعداد السكاني 17323 نسمة (إحصاء 2015)   • الذكور 9035   • الإناث 8288   • عدد الأسر 3229 الرمز الجغرافي...