Analiza dyskryminacyjna (ang. discriminant analysis) – zespół metod wielowymiarowej analizy danych. Zawiera metody, które czynią z tej techniki niezwykle efektywne narzędzie do zagadnień klasyfikacyjnych i eksploracji danych. Jej zadaniem jest rozstrzyganie, które zmienne niezależne (predyktory) w najlepszy sposób dzielą dany zbiór przypadków na występujące w naturalny sposób grupy, opisane jakościową zmienną zależną.
W metodzie tej możemy wyróżnić dwa główne etapy:
- etap uczenia / budowy modelu – w którym znajdujemy reguły klasyfikacyjne, wykorzystując tak zwany zbiór uczący (próbę statystyczną)
- etap klasyfikacji / wykorzystania modelu – w którym dokonujemy klasyfikacji zasadniczego zbioru obiektów, których przynależność jest nam nieznana, na podstawie znalezionych charakterystyk klas.
Sposób budowy modelu najczęściej polega na krokowym (postępująca lub wsteczna analiza krokowa) budowaniu funkcji klasyfikacyjnej, której wartość pozwala przypisać obserwację do danej klasy. Najczęściej wykorzystywane są funkcje liniowe (LDA). W tym podejściu opisowym obiekt przydzielany jest do tej klasy, dla której funkcja dyskryminacyjna osiąga największą wartość.
Zaletą klasycznej analizy dyskryminacyjnej jest prostota jak i wysoka skuteczność na homogenicznych danych, wadą natomiast nieprzenośność i brak skuteczności na niehomogenicznych danych.
Używane są również w podobnych celach m.in. drzewa klasyfikacyjne, klasyfikatory bayesowskie, metoda najbliższych sąsiadów, maszyny wektorów podpierających (SVM).
Przykład zastosowania
Bank chce wiedzieć, czy dany klient składający wniosek o kredyt rokuje nadzieje na to, że go spłaci, czy nie. Zmienna zależna ma charakter jakościowy (kredyt zostanie albo nie zostanie spłacony), zmiennymi niezależnymi mogą być: dochody rodziny, majątek rodziny, liczba lat przepracowanych u obecnego pracodawcy, itp..