Hotellings T-kwadraat

Hotellings T2, kort voor de Hotellings -toets, is een statistische toets, genoemd naar Harold Hotelling, die men kan zien als een multivariate generalisatie van de t-toets. Met Hotellings wordt eigenlijk de toetsingsgrootheid bedoeld, gedefinieerd door:

gebaseerd op een (aselecte) steekproef uit een -dimensionale verdeling.

In de formule stelt op de gebruikelijke manier het steekproefgemiddelde voor en

de -steekproefcovariantiematrix.

Als de -dimensionale verdeling een normale verdeling is met vector van verwachtingswaarden , geldt dat:

een -verdeling heeft, dus een F-verdeling met vrijheidsgraden in de teller en in de noemer.


Hotellings wordt vaak gebruikt om uitbijters in multivariate data te detecteren. De Hotelling -toets is een multivariate t-toets die gebruikmaakt van de covariantiematrix van de data:

Daarin is

  • het totaal aantal stalen
  • het aantal stalen van de genomen subgroep i
  • het aantal gemeten variabelen per staal
  • de vector met het -de staal uit de -de groep
  • de vector met de gemiddelde meetwaarden over alle stalen en subgroepen

De waarden van Hotellings worden berekend afhankelijk van het feit of er subgroepen zijn en of het populatiegemiddelde bekend is. Men moet subgroepen definiëren, wanneer men merkt dat de meetgegevens in groepen voorkomen. Bijvoorbeeld, wanneer een industriële productie niet volcontinu, maar per ketel, per ton, per vrachtwagen binnengekomen grondstof, ... (men zegt dan ook per batch) gebeurt, dan vormt elke geproduceerde batch een afzonderlijke eenheid of subgroep in de meetgegevens. Van elke zo geproduceerde eenheid of subgroep neemt men dan 1 of meerdere stalen waarvan meetgegevens verzameld worden.

De waarden van Hotellings worden berekend volgens de vierde kolom van onderstaande tabel. Deze waarden volgen een F-verdeling, waarvan het aantal vrijheidsgraden wordt weergegeven tussen haakjes in de formules uit de vijfde kolom. De grenswaarde waarmee vergeleken wordt, is het -de percentiel (de waarde van de verdeling waarvoor p% van de stalen een hogere waarde heeft) van deze verdeling. In de Hotellings -verdeling wordt verondersteld dat de populaties komen uit multivariate normaal verdeelde populaties. Zijn de varianties van de subgroepen niet gelijk, dan gebruikt men een gewogen covariantiematrix :

,

met de covariantiematrix voor de groep .

Grootte subgroep () Populatie-gemiddelde Covariantie -statistiek kritieke waarde voor
1 Bekend
Onbekend
> 1 Bekend
Onbekend

Hierbij is:

het gemiddelde van de totale populatie
: het gemiddelde voor de groep stalen die men met de populatie vergelijkt

Verder hebben alle andere parameters in deze tabel dezelfde betekenis als vermeld bij de andere vergelijkingen.

Literatuur

  • Mason, R.L.; Chou, Y.-M.; Young, J.C. Journal of Quality Technology, 2001, 33, 466-478

Zie ook