Кластерний аналіз

Результат кластерного аналізу показано у вигляді точок розфарбованих у три кольори.

Кластерний аналіз (англ. Data clustering) — задача розбиття заданої вибірки об'єктів (ситуацій) на підмножини, які називаються кластерами, так, щоб кожен кластер складався з схожих об'єктів, а об'єкти різних кластерів істотно відрізнялися. Завдання кластеризації належить до статистичної обробки, а також до широкого класу завдань некерованого навчання.

Кластерний аналіз — це не якийсь один алгоритм, а загальна задача, для розв'язання якої використовуються різні підходи. Зокрема, алгоритми побудови кластерів можуть суттєво відрізнятись у розумінні того, що відносити в один кластер і як їх ефективно шукати. Серед популярних концепцій кластерів є групи з елементами, які утворюються ґрунтуючись на відстані між ними, на щільності ділянок у просторі даних, інтервалах або на конкретних статистичних розподілах. Тому кластеризація може бути сформульована як задача багатокритеріальної оптимізації. Відповідний алгоритм кластеризації та вибору параметрів (включаючи такі параметри, як функція відстані, порогове значення щільності або кількість очікуваних кластерів) залежать від конкретного набору даних та мети використання результатів. Кластерний аналіз як такий є не автоматизованим завданням, а ітераційним процесом виявлення знань або інтерактивної багатокритеріальної оптимізації, який містить спроби та невдачі. Часто доводиться змінювати процес опрацювання даних та параметри моделі поки не буде отримано з результат з заданими властивостями.

Окрім терміну кластеризація існує багато термінів з аналогічним значенням, серед яких автоматична класифікація, числова таксономія[en] та типологічний аналіз. Тонкі розбіжності часто полягають у використанні результатів: для добування даних, отримані групи є предметом інтересу, при автоматичній класифікації, навпаки, більш важливий степінь розбіжності.

Кластерний аналіз походить з антропології, де він був започаткований Драйвером (англ. Driver) і Крьобером (англ. Kroeber) у 1932 році. В психологію він був введений Зубіним у 1938 році і Робертом Тріоном[en] у 1939[1][2]. Став відомий завдяки використанню Кеттелем для класифікації теорії ознак в психології особистості, починаючи з 1943 року[3].

Загальна характеристика

Кластерний аналіз — це багатовимірна статистична процедура, яка виконує збір даних, що містять інформацію про вибірку об'єктів і потім упорядковує об'єкти в порівняно однорідні групи — кластери (Q-кластеризація, або Q-техніка, власне кластерний аналіз).

Основна мета кластерного аналізу — знаходження груп схожих об'єктів у вибірці. Спектр застосувань кластерного аналізу дуже широкий: його використовують в археології, антропології, медицині, психології, хімії, біології, державному управлінні, філології, маркетингу, соціології та інших дисциплінах. Однак універсальність застосування привела до появи великої кількості несумісних термінів, методів і підходів, що ускладнюють однозначне використання і несуперечливу інтерпретацію кластерного аналізу.

Формальне визначення кластеризації

Нехай  — множина об'єктів,  — множина номерів (імен, міток) кластерів. Задано функцію відстані між об'єктами . Є кінцева вибірка об'єктів . Потрібно розбити вибірку на непересічні підмножини, що називаються кластерами, так, щоб кожен кластер складався з об'єктів, близьких по метриці , а об'єкти різних кластерів істотно відрізнялися. При цьому кожному об'єкту приписується номер кластеру .

Алгоритм кластеризації — це функція , яка будь-якому об'єкту ставить у відповідність номер кластера . Множина в деяких випадках відома заздалегідь, проте частіше ставиться завдання визначити оптимальне число кластерів, з погляду деякого критерію якості кластеризації.

Завдання

Кластерний аналіз виконує наступні основні завдання:

  • Розробка типології або класифікації.
  • Дослідження корисних концептуальних схем групування об'єктів.
  • Породження гіпотез на основі дослідження даних.
  • Перевірка гіпотез або дослідження для визначення, чи дійсно групи, виділені тим чи іншим способом, присутні в наявних даних.

Етапи

Незалежно від конкретної сфери, застосування кластерного аналізу передбачає наступні етапи:

  • Відбір вибірки для кластеризації.
  • Визначення множини характеристик, по яких будуть оцінюватися об'єкти у вибірці.
  • Обчислення значень тієї чи іншої міри схожості між об'єктами.
  • Застосування одного з методів кластерного аналізу для створення груп схожих об'єктів.
  • Перевірка достовірності результатів кластеризації.

Якщо кластерному аналізу передує факторний аналіз, то вибірка не потребує коректування — викладені вимоги виконуються автоматично самою процедурою факторного моделювання. В іншому випадку вибірку потрібно коректувати.

Методи кластеризації

Оскільки поняття «кластеру» не може бути точно визначено, то це є однією з причин чому існує так багато різних методів кластеризації[4]. Але є і спільна риса — це об'єднання схожих об'єктів у групи. Однак, різні дослідники використовують різні моделі кластерів і для кожної з цих моделей можуть бути застосовані різні алгоритми. Поняття кластера, які отримуються у різних алгоритмах, різняться властивостями. Розуміння цих «кластерних моделей» є ключовим для розуміння відмінностей між різними алгоритмами. Типовими кластерними моделями є:

  • Моделі зв'язності. Наприклад, ієрархічна кластеризація або таксономія будуються на основі відстані між вузлами.
  • Центроїдні моделі. Наприклад, метод K-середніх (K-means) представляє кожен кластер єдиним усередненим вектором.
  • Статистичні моделі. Кластери будуються ґрунтуючись на статистичних розподілах. Таких як багатовимірний нормальний розподіл з допомогою ЕМ-алгоритму.
  • Моделі засновані на щільності. Наприклад, в DBSCAN і в OPTICS кластери визначаються як зв'язані області відповідної щільності у просторі даних.
  • Групові моделі. Деякі алгоритми не забезпечують вдосконалену модель для своїх результатів, а просто описують групування об'єктів.
  • Графові моделі. Поняття кліки (така підмножина вершин, в якій кожна пара вершин з'єднана ребром) у графі слугує прототипом кластеру. Пом'якшення вимоги до повної зв'язності (тобто, частина ребер може бути відсутня) призводить до поняття відомого як квазі-кліка. Вони будуються алгоритмом HCS[en].
  • Нейронні моделі. Найбільш відомою моделлю нейронної мережі з некерованим навчанням є нейронна мережа Кохонена. Ці моделі, як правило, можна охарактеризувати як схожі на одну або подібні якійсь з наведених вище моделей, включаючи моделі у підпросторах, коли нейронні мережі реалізують метод головних компонент або аналіз незалежних компонент[en].

«Кластеризацією» зазвичай вважають такий набір кластерів, які містять усі об'єкти набору даних. Додатково, можна розглянути відношення між кластерами. Наприклад, ієрархію вкладеності кластерів один у одного. Грубо можна виділити такі кластеризації:

  • Жорстка кластеризація. Кожен об'єкт або належить кластеру або ні.
  • М'яка кластеризація (також нечітка кластеризація). Кожен об'єкт належить кожному кластеру до певної міри. Наприклад, це ймовірність належності кластеру.

Серед них виділяють декілька доладних:

  • Жорстке розбиття на кластери. Кожен об'єкт належить рівно одному кластеру.
  • Жорстке розбиття на кластери з викидами. Об'єкт може не належати жодному кластеру і розглядається як викид.
  • Кластери з перетином. Об'єкт може належати більш ніж одному кластеру.
  • Ієрархічна кластеризація. Якщо об'єкт належить нащадку, то він також належить і предку.
  • Підпросторова кластеризація. Хоч кластери і можуть перетинатись, проте в межах визначеного підпростору кластери не перетинаються. Для прикладу дивись SUBCLU[en].

Вхідні дані

Типи вхідних даних

Вхідними даними кластерного аналізу є набір об'єктів. В залежності від способу представлення цих об'єктів розрізняють такі типи вхідних даних:

Вимоги до вхідних даних

Кластерний аналіз висуває наступні вимоги до даних:

  • Об'єкти не повинні корелювати між собою.
  • Об'єкти мають бути безрозмірними.
  • Розподіл об'єктів має бути близьким до нормального.
  • Об'єкти повинні відповідати вимозі стійкості, під якою розуміється відсутність впливу на їх значення випадкових чинників.
  • Вибірка повинна бути однорідна.

Результати

Причини неоднозначності

Рішення задачі кластеризації принципове неоднозначне, і цьому є декілька причин:

  • Не існує однозначно якнайкращого критерію якості кластеризації. Відомий цілий ряд евристичних критеріїв, а також ряд алгоритмів, що не мають чітко вираженого критерію, але здійснюють достатньо розумну кластеризацію «по побудові». Всі вони можуть давати різні результати.
  • Число кластерів, як правило, невідоме заздалегідь і встановлюється відповідно до деякого суб'єктивного критерію.
  • Результат кластеризації істотно залежить від метрики, вибір якої, як правило, також суб'єктивний і визначається експертом.

Інтерпретація результатів

Результатом кластеризації є групи об'єктів, об'єднані за певною характеристикою чи характеристиками. Однак ці результати можуть бути інтерпретовані по-різному. Зокрема, при аналізі результатів соціологічних досліджень рекомендується здійснювати аналіз ієрархічними методами, наприклад методом Уорда, при якому всередині кластерів оптимізується мінімальна дисперсія і в результаті створюються кластери приблизно рівних розмірів. Як міра відмінності між кластерами використовується квадратична евклідова відстань, що сприяє збільшенню контрастності кластерів.

Тепер виникає питання стійкості знайденого кластерного рішення. По суті, перевірка стійкості кластеризації зводиться до перевірки її достовірності. Тут існує емпіричне правило — стійка типологія зберігається при зміні методів кластеризації. Результати ієрархічного кластерного аналізу можна перевіряти ітеративним кластерним аналізом методом k-середніх. Якщо при порівнянні групи збігаються більше, ніж на 70 % (понад 2/3 збігів), то кластерне рішення приймається.

Перевірити адекватність рішення, не вдаючись до допомоги інших видів аналізу, не можна. Принаймні, в теоретичному плані ця проблема не вирішена. Деякі додаткові методи перевірки стійкості відкидаються з певних причин:

  • Кофенетична кореляція — не рекомендується і обмежена у використанні.
  • Тести значущості (дисперсійний аналіз) — завжди дають значущий результат.
  • Метод повторних випадкових вибірок — не доводить правильність рішення.
  • Тести значущості для зовнішніх ознак — придатні тільки для повторних вимірювань.
  • Методи Монте-Карло — дуже складні і доступні тільки досвідченим математикам.

Дотичні терміни

  • Кластерування (рос. кластерирование, англ. clustering) — метод обробки даних, що полягає у встановленні в певній сукупності за певним алгоритмом членів, які є подібними.

Якісні або кількісні критерії подібності задаються. Широко використовується в хемометриці, комбінаторній хімії, при обробці хімічної та біохімічної інформації.

Див. також

Примітки

  1. Bailey, Ken (1994). Numerical Taxonomy and Cluster Analysis. Typologies and Taxonomies. с. 34. ISBN 9780803952591.
  2. Tryon, Robert C. (1939). Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality. Edwards Brothers.
  3. Cattell, R. B. (1943). The description of personality: Basic traits resolved into clusters. Journal of Abnormal and Social Psychology. 38 (4): 476—506. doi:10.1037/h0054116.
  4. Estivill-Castro, Vladimir (20 червня 2002). Why so many clustering algorithms – A Position Paper. ACM SIGKDD Explorations Newsletter. 4 (1): 65—75. doi:10.1145/568574.568575.

Джерела

  • Jain, Murty, Flynn Data clustering: a review. // ACM Comput. Surv. 31(3), 1999.
  • Журавлев Ю. И., Рязанов В. В., Сенько О. В. Распознавание. Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  • Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  • Мандель И. Д. Кластерный анализ. — М.: Финансы и статистика, 1988. ISBN 5-279-00050-7.
  • Олдендерфер М. С., Блэшфилд Р. К. Кластерный анализ / Факторный, дискриминантный и кластерный анализ: пер. с англ.; Под. ред. И. С. Енюкова. — М.: Финансы и статистика, 1989. — 215 с.
  • Шуметов В. Г. Шуметова Л. В. Кластерный анализ: подход с применением ЭВМ. — Орел: ОрелГТУ, 2000. — 118 с.
  • Глосарій термінів з хімії // Й. Опейда, О. Швайка. Ін-т фізико-органічної хімії та вуглехімії ім. Л. М. Литвиненка НАН України, Донецький національний університет. — Донецьк: Вебер, 2008. — 758 с. — ISBN 978-966-335-206-0
  • Tan, Pang-Ning; Michael, Steinbach; Kumar, Vipin (2005). Chapter 7. Cluster Analysis: Basic Concepts and Algorithms (PDF). Introduction to Data Mining. Addison-Wesley. ISBN 0-321-32136-7. Архів оригіналу (PDF) за 18 Жовтня 2018. Процитовано 3 Серпня 2018.

Посилання


Read other articles:

Jalur Jalan Raya Petojo Utara - Duren Sawit merupakan Jalur Jalan Raya utama di wilayah Provinsi DKI Jakarta, Indonesia yang memiliki panjang 24 km menghubungkan Pasar Tanah Abang, pusat bisnis Kuningan, kawasan Cipinang, hingga bertemu Jalan Pondok Kopi Raya. Jalan ini terbagi menjadi 11 bagian, yakni Jalan Cideng Timur, Jalan Cideng Barat, Jalan Haji Fachrudin, Jalan Kyai Haji Mas Mansyur, Jalan Professor Doktor Satrio, Jalan Casablanca, Jalan Kyai Haji Abdullah Syafei, Jalan Kampung M...

 

 

Doren Wakerkwa Penjabat Bupati Kabupaten Lanny JayaMasa jabatan27 Mei 2023 – 6 November 2023PresidenJoko WidodoGubernurRidwan Rumasukun PendahuluPetrus WakerkwaPenggantiPetrus WakerkwaSekretaris Daerah Papua (penjabat)Masa jabatan1 Maret 2021 – 15 Maret 2021 PendahuluRidwan RumasukunPenggantiDance Yulian FlassyPenjabat Bupati Kabupaten KeeromMasa jabatan16 November 2015 – 17 Februari 2016PresidenJoko WidodoGubernurLukas Enembe PenggantiYusuf Wally Informasi pr...

 

 

Body of salt water covering the majority of Earth This article is about natural science aspects of Earth's oceans. For more on human experience, history and culture of oceans, see Sea. For other uses, see Ocean (disambiguation). Earth's oceanPacific Ocean side, Apollo 11, July 1969Basin countriesList of countries by length of coastlineSurface area361,000,000 km2 (139,382,879 sq mi)(71% Earth's surface area)[1]Average depth3.688 km (2 mi)[2]Max. de...

جائحة فيروس كورونا في جزر أولاند 2020 المرض مرض فيروس كورونا 2019 السلالة فيروس كورونا المرتبط بالمتلازمة التنفسية الحادة الشديدة النوع 2 التواريخ 22 مارس 2020(4 سنوات، و1 أسبوع) المنشأ الصين المكان جزر أولاند  الوفيات 0   الحالات المؤكدة 12 (13 مايو 2020)  حالات متعافية ...

 

 

Representative of the Indian people in the lower house of the Indian Parliament Not to be confused with Member of Parliament, Rajya Sabha. For other uses, see Member of Parliament (India). Member of ParliamentEmblem of IndiaFlag of IndiaIncumbent17th Lok Sabhasince 23 May 2019Style Honourable (Inside India) His/Her Excellency (Outside India) StatusActiveAbbreviationMPMember ofLok SabhaReports toSpeakerSeatParliament of IndiaTerm length5 years; renewableConstituting instrumentArticle 81 o...

 

 

سيدارهورست   الإحداثيات 40°37′33″N 73°43′42″W / 40.6258°N 73.7283°W / 40.6258; -73.7283  [1] تقسيم إداري  البلد الولايات المتحدة[2][3]  التقسيم الأعلى مقاطعة ناسو  خصائص جغرافية  المساحة 1.748121 كيلومتر مربع (1 أبريل 2010)  ارتفاع 8 متر  عدد السكان  عدد الس�...

Topik artikel ini mungkin tidak memenuhi kriteria kelayakan umum. Harap penuhi kelayakan artikel dengan: menyertakan sumber-sumber tepercaya yang independen terhadap subjek dan sebaiknya hindari sumber-sumber trivial. Jika tidak dipenuhi, artikel ini harus digabungkan, dialihkan ke cakupan yang lebih luas, atau dihapus oleh Pengurus.Cari sumber: Erwin Izharuddin – berita · surat kabar · buku · cendekiawan · JSTOR (Pelajari cara dan kapan saatnya untuk ...

 

 

Volcanic peak in the country of Canada Plinth PeakNorth face of Plinth PeakHighest pointElevation2,677 m (8,783 ft)[1]Prominence947 m (3,107 ft)[1]Coordinates50°38′42.7″N 123°30′38.9″W / 50.645194°N 123.510806°W / 50.645194; -123.510806GeographyLocationBritish Columbia, CanadaDistrictLillooet Land DistrictParent rangePacific RangesTopo mapNTS 92J12 Mount DalgleishGeologyAge of rockPleistoceneMountain typeStratov...

 

 

Artikel ini membutuhkan rujukan tambahan agar kualitasnya dapat dipastikan. Mohon bantu kami mengembangkan artikel ini dengan cara menambahkan rujukan ke sumber tepercaya. Pernyataan tak bersumber bisa saja dipertentangkan dan dihapus.Cari sumber: Nielsen Holdings – berita · surat kabar · buku · cendekiawan · JSTORNielsen Holdings N.V.JenisPublic (NYSE: NLSN)IndustriMediaDidirikan1923KantorpusatNew York, Amerika SerikatTokohkunciDavid L. Calhoun, CEOSu...

Echinometra viridis Klasifikasi ilmiah Domain: Eukaryota Kerajaan: Animalia Filum: Echinodermata Kelas: Echinoidea Ordo: Camarodonta Famili: Echinometridae Genus: Echinometra Spesies: Echinometra viridisA. Agassiz, 1863 [1] Sinonim[1] Echinometra plana (A. Agassiz, 1863) Ellipsechinus viridis (A. Agassiz, 1863) Echinometra viridis, landak karang, adalah spesies bulu babi dalam keluarga Echinometridae. Ini ditemukan di terumbu karang di bagian yang sangat dangkal di Samudra At...

 

 

American college football stadium in Massachusetts For other uses, see Alumni Stadium (disambiguation). Alumni StadiumAlumniThe stadium from above in 2023Alumni StadiumLocation in MassachusettsShow map of MassachusettsAlumni StadiumLocation in the United StatesShow map of the United StatesLocation140 Commonwealth Avenue, Chestnut Hill, MA 02467Coordinates42°20′6″N 71°09′59″W / 42.33500°N 71.16639°W / 42.33500; -71.16639OwnerBoston CollegeOperatorBoston Coll...

 

 

American Basketball Association team in Buffalo, New York Buffalo eXtremeFounded2023; 1 year ago (2023)LeagueABADivisionWhiteRegionEastBased inBuffalo, New YorkArenaXGen Elite Sports ComplexColorsRed, black, white     OwnerDarren FennHead coachRichard JacobOverall record16–5 (.762)Playoff berths1 (2024)Local mediaStreaming: SFBNWebsitebuffaloextreme.com The Buffalo eXtreme are a basketball team based in Buffalo, New York. The team competes in the American Ba...

City in North Carolina, United StatesConover, North CarolinaCityBusinesses along 1st Avenue (NC 16) FlagSealNicknames: Wye Town, Canova, “C-Town”Motto(s): Community and IndustryLocation of Conover, North CarolinaCoordinates: 35°42′40″N 81°13′11″W / 35.71111°N 81.21972°W / 35.71111; -81.21972CountryUnited StatesStateNorth CarolinaCountyCatawbaGovernment • TypeCouncil-Manager • MayorKyle Hayman • City Manager...

 

 

Сибирский горный козёл Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:СинапсидыКла�...

 

 

Francisco AlboInformación personalNacimiento Siglo XV Isla de Quíos (Grecia) Fallecimiento Siglo XVI Información profesionalOcupación Militar y navegante Rango militar Contramaestre [editar datos en Wikidata] Francisco Albo fue un marino griego del siglo XVI. Formó parte de la expedición de Magallanes-Elcano, terminando el viaje como piloto de la Victoria.[1]​ Escribió un derrotero describiendo la ruta seguida en la primera circunnavegación de la Tierra.[2]​...

Relation between chemical reaction rate and concentrations of the reactants In chemistry, the rate equation (also known as the rate law or empirical differential rate equation) is an empirical differential mathematical expression for the reaction rate of a given reaction in terms of concentrations of chemical species and constant parameters (normally rate coefficients and partial orders of reaction) only.[1] For many reactions, the initial rate is given by a power law such as v 0 = k ...

 

 

Lenticular galaxy in the constellation Cetus NGC 168SDSS image of NGC 168Observation data (J2000 epoch)ConstellationCetusRight ascension00h 36m 38.6s[1]Declination−22° 35′ 37″[1]Redshift0.012980[1]Apparent magnitude (V)14.87[1]CharacteristicsTypeS0/a[1][2]Apparent size (V)1.2' × 0.2'[1]Other designationsPGC 2192.[1] NGC 168 is a lenticular galaxy located in the constellation Cetus. It was d...

 

 

American politician Jenny WilsonMayor of Salt Lake CountyIncumbentAssumed office January 29, 2019Preceded byBen McAdamsMember of the Salt Lake County CouncilAt-LargeIn officeJanuary 2015 – January 29, 2019Seat APreceded byRandy HoriuchiSucceeded byShireen GhorbaniIn officeJanuary 2005 – January 2011Seat BPreceded byStephen HarmsenSucceeded byRichard Snelgrove Personal detailsBorn (1965-11-01) November 1, 1965 (age 58)Salt Lake City, Utah, U.S.Political partyDemo...

Italian Space Operations CommandComando delle Operazioni SpazialiActive2020 – presentCountry ItalyBranch Ministry of DefenceTypeJoint space commandRoleSpace warfarePart ofJoint Operations CommandGarrison/HQRomeMotto(s)Hic sunt leones (Here be lions)CommandersCurrentcommanderGen. Luca CapassoMilitary unit The Italian Space Operations Command (Italian: Comando delle Operazioni Spaziali, COS) is the joint space command of the Italian Armed Forces.[1] It was established in 202...

 

 

Building in Tōkyō, JapanMeiji Memorial Picture Gallery聖徳記念絵画館Aerial view of the galleryGeneral informationAddress1-1 Kasumigaoka-machiTown or cityShinjuku, TōkyōCountryJapanCoordinates35°40′44″N 139°43′04″E / 35.678778°N 139.717639°E / 35.678778; 139.717639Construction started3 October 1919[1]Completed22 October 1926[2]Opened23 October 1926[1]Technical detailsFloor countSingle storey, plus basement[3]Floor a...