Hoofdcomponentenanalyse, of principale-componentenanalyse (afkorting: PCA), is een multivariate analysemethode in de statistiek om een grote hoeveelheid gegevens te beschrijven met een kleiner aantal relevante grootheden, de hoofdcomponenten of principale componenten.
Hoofdcomponentenanalyse werd in 1901 uitgevonden door Karl Pearson.[1]
Men spreekt van datareductie, hoewel strikt genomen de gegevens niet gereduceerd zijn, maar alleen de beschrijving ervan. Als hoofdcomponenten berekent de methode de eigenvectoren van de covariantiematrix van de gegevens en kiest daaruit de belangrijkste. Deze eigenvectoren zijn de hoofdassen van de ellipsoïde die door de covariantiematrix wordt beschreven en die min of meer de "puntenwolk" van de data voorstelt.
Hoofdcomponentenanalyse is bruikbaar als eerste stap bij een factoranalyse om het maximale aantal en de aard van de factoren te bepalen.[2]
Verwante methoden zijn correspondentieanalyse (CA) of "reciprocal averaging" (RA) en de canonische vormen van hoofdcomponentenanalyse en correspondentieanalyse: redundantieanalyse (RDA) en canonische correspondentieanalyse (CCA).[3]
Berekeningen
Uitgangspunt van de hoofdcomponentenanalyse is de covariantiematrix C van de gegevens. Deze matrix heeft niet-negatieve eigenwaarden.
De hoofdcomponenten zijn de orthogonale eigenvectoren van deze matrix. De eigenwaarden en bijhorende eigenvectoren kunnen bepaald worden met behulp van standaardtechnieken uit de matrixrekening. De hoofdcomponenten worden gerangschikt naar belangrijkheid volgens de bijbehorende eigenwaarden.
Er is sprake van datareductie wanneer slechts een deel van de hoofdcomponenten nodig is om de variatie in de data voldoende te verklaren.
Voorbeeld
In een onderzoek zijn van een groot aantal proefpersonen de lengte en het gewicht bepaald. Het spreidingsdiagram, waarin het gewicht tegen de lengte is uitgezet, toont een ellipsvormige puntenwolk, waarin de samenhang (correlatie) van beide variabelen te zien is. Als we iemands lengte weten, kunnen we een redelijke schatting maken van z'n gewicht. Eigenlijk zijn niet beide variabelen nodig om de gegevens te beschrijven. We kunnen, zij het met wat verlies aan nauwkeurigheid, volstaan met alleen de lengte of alleen het gewicht. Een combinatie van beide is misschien nog beter. De - in bepaalde zin - beste combinatie is de gezochte hoofdcomponent. Deze wordt bepaald door de lange as van de puntenwolk. Echter, de vorm van de puntenwolk is erg afhankelijk van de gekozen eenheden. Daarom tekenen we een spreidingsdiagram van de gestandaardiseerde grootheden en bepalen daarin de hoofdcomponent. Dat houdt in dat we van lengte en gewicht elk hun gemiddelde aftrekken en de verschillen delen door hun standaardafwijking. De hoofdcomponent, die als vervanger van lengte en gewicht gebruikt kan worden om de data te beschrijven, kunnen we de "maat" van de proefpersoon noemen, vergelijkbaar met de kledingmaat in de confectie-industrie. Binnen de groep personen met een bepaalde maat is er natuurlijk nog variatie in lengte en gewicht, zij het dat lengte en gewicht in zo'n groep niet onafhankelijk van elkaar kunnen variëren. Deze variatie wordt beschreven door de andere hoofdcomponent, de korte as van de ellips.
Op biologische gronden mag echter een niet-rechtlijnig verband worden verwacht tussen lengte en gewicht. Daarbij is de te verwachten spreiding niet-normaal. Op grond hiervan kunnen andere methoden worden gekozen, zoals correspondentieanalyse (CA).
Als de effecten van andere verklarende variabelen dan de lengte op het gewicht buiten beschouwing gelaten moeten worden, staan partiële PCA en partiële CA ter beschikking.
Bronnen, noten en/of referenties