Клъстерен анализ

Пример за клъстерен анализ с алгоритъма OPTICS за откриване клъстери в пространствени данни на база плътността им

Клъстерен анализ (на английски: cluster analysis) или клъстеризация (clustering) е понятие от информатиката и математическото моделиране, с което се означава групиране на множество разнообразни обекти по такъв начин, че обектите от една и съща група (наречена клъстер) са най-сходни (по даден признак) помежду си в сравнение с обектите, отнесени към останалите клъстери. Клъстерният анализ е основна задача в анализа на данни и обичайно се използва в много области като разпознаване на образи, анализ на образи, извличане на информация, извличане на знания от данни, компресиране на данни, машинно обучение, биоинформатика.

Клъстерният анализ не обозначава един конкретен алгоритъм за класификация, а цялостната класификационна задача, която трябва да се реши. Решението може да се получи чрез множество алгоритми, които чувствително се различават по това как и колко ефикасно се дефинират клъстерите.[1] Обичайно ползваните определения за клъстери включват: групи от обекти с малки разстояния между тях, плътни области от пространството на данните, интервали, или конкретни статистически разпределения. Следователно, клъстеризацията може да се дефинира като многокритериална оптимизационна задача. Подходящият алгоритъм за клъстеризация и настройките на параметрите му (като функция за разстояние между обектите, праг на плътност, или брой очаквани клъстери в резултат от клъстеризацията) зависят от конкретния набор от данни и планираната употреба на резултатите от анализа.

В този смисъл клъстерният анализ е итеративен процес по извличане на знания от данни, който включва проби и грешки. Често е необходимо да се модифицират параметрите на модела и данните да се подлагат на предварителна обработка дотогава докато полученият резултат от анализа не постигне желаните качества. Съществуват над 100 публикувани алгоритъма за клъстеризация. Не може да се посочи един обективно „правилен“ алгоритъм, тъй като качеството на резултата от клъстеризацията зависи в голяма степен от преценката на изследователя и конкретните му нужди и цели – особеност, афористично изразена като „клъстеризацията е в очите на гледащия“ („clustering is in the eye of the beholder“).[1]

Сред областите, в които клъстерният анализ намира приложение, са: медицина (медицинска образна диагностика), финанси, маркетинговите проучвания (пазарна сегментация, продуктово позициониране, разработка на нови продукти, определяне на тестови пазари), компютърна лингвистика (групиране на резултати при търсене по ключови думи), анализ на социални мрежи, криминалистика, математическа химия (in silico методи във фармацевтиката), климатология, и много други.

В статистиката, комбинаторен геомегричен анализ, е анализ, при който подребата на обектите е важна.

Вижте също

Източници

  1. а б Estivill-Castro, Vladimir (20 June 2002). "Why so many clustering algorithms – A Position Paper". ACM SIGKDD Explorations Newsletter. 4 (1): 65 – 75. doi:10.1145/568574.568575]
  Тази страница частично или изцяло представлява превод на страницата Cluster analysis в Уикипедия на английски. Оригиналният текст, както и този превод, са защитени от Лиценза „Криейтив Комънс – Признание – Споделяне на споделеното“, а за съдържание, създадено преди юни 2009 година – от Лиценза за свободна документация на ГНУ. Прегледайте историята на редакциите на оригиналната страница, както и на преводната страница, за да видите списъка на съавторите. ​

ВАЖНО: Този шаблон се отнася единствено до авторските права върху съдържанието на статията. Добавянето му не отменя изискването да се посочват конкретни източници на твърденията, които да бъдат благонадеждни.​