Fordelingstest: Test, hvor man viser, om data kan siges at være fordelt med den forventede fordeling.
Uafhængighedstest: Test, hvor man viser, om to fordelinger er stokastisk uafhængige
Homogenitetstest: Test, hvor man viser, om to eller flere stikprøver kommer fra samme fordeling
Ophavsmand
Chi i anden-testen og den dertilhørende teststatistik blev første gang beskrevet af den britiske matematiker og statistikerKarl Pearson[1] (1857-1936).
Fordelingstests
For at finde ud af, om data følger en forventet fordeling, kan man anvende chi i anden-test. Dette gøres ved at finde sandsynligheden, for at afvigelsen q ligger i den kritiske mængde. I modsætning til binomialtest kan man arbejde med et større antal hændelser end 2.
Formel for Q
Mere præcist er sandsynligheden defineret som sandsynligheden for at den stokastiske variabel χ² er større end vores afvigelse q. (Hvilket kan skrives P(χ²- ≥ q))
Formlen for Q (og q) er:[2]
hvor h1, h2,...,hk er de observerede stikprøvehyppigheder for de k hændelser, x1, x2,...,xk er modelhyppighederne og p1, p2,...,pk er sandsynlighederne for de k hændelser.
Fremgangsmåde
Når man ved hjælp af en chi i anden test vil teste, om de teoretiske sandsynligheder for de k hændelser ved eksperimentet E kan accepteres, så starter man med at udføre E n antal gange. På grundlag heraf udregnes q vha. den ovenstående formel og man kan således bestemme P(Q≥q) = P(χ²≥q) med visse lommeregnere. (Blandt andre TI-89 og TI-Nspire CXCAS)
Hvis den fundne sandsynlighed er lille, kan man konkludere, at de teoretiske sandsynligheder ikke er rigtige; dermed må den opstillede hypotese[3] forkastes. Ofte vælger man en procentsats på 1 %, 5 % eller 10 %. Den valgte procentsats kaldes signifikansniveau.[4]
Regneark og lignende
Regneark[5] eller lignende[6] programmer[7] kan beregne chi i anden-test.
Regnearket Excel har den indbyggede kommando =chifordeling(teststørrelse;frihedsgrader) til at beregne p-værdien.[8]
χ²-fordelingen
χ²-fordelingen (som ses på illustrationen) er ligesom normalfordelingen en absolut kontinuerttæthedsfunktion, hvor arealet under grafen er lig 1, men i modsætning til normalfordelingen, ændrer χ²-fordelingen sig alt efter antallet af frihedsgrader. Når vi i χ²-testen finder P(χ² ≥ q) finder vi altså arealet under grafen til højre for q – hvilket netop er det kritiske område.
Frihedsgrader
Antal frihedsgrader[9] f er defineret som k – 1. Dette skyldes, at man i enhver fordeling har den sidste mulighed bestemt i kraft af de foregående.
Referencer
^Karl Pearson (1900). On the criterion that a given system of derivations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science. Vol. 5 (50 udgave). s. 157-175.