Simpsonin paradoksi on tilastotieteessä esiintyvä paradoksi. Kyseinen paradoksi syntyy, kun kahden muuttujan välinen korrelaatio muuttuu päinvastaiseksi otettaessa huomioon jokin kolmas muuttuja, joka korreloi molempien muuttujien kanssa. Esimerkiksi, jos peruskoululaisille tehtäisiin kaikille sama testi, voitaisiin huomata, että tupakoivat pärjäävät paremmin kuin sellaiset, jotka eivät tupakoi. Jos kuitenkin tarkasteluun lisätään testattavien ikä ja tutkitaan tupakoinnin vaikutusta ikäryhmien sisällä, tulos kääntyy päinvastaiseksi.
Edward H. Simpson esitteli tämän ilmiön artikkelissaan vuonna 1951.[1]
mutta Karl Pearson, et al. vuonna 1899[2]
ja Udny Yule vuonna 1903,[3]
ovat maininneet samankaltaisesta ilmiöstä aiemminkin. Nimen Simpsonin paradoksi esitteli Colin R.Blyth vuonna 1972.[4]
Esimerkki on Judea Pearlin artikkelista vuodelta 1999.[5]
Kyseessä on kokeellinen tutkimus, jossa koeasetelma on seuraava: Tutkitaan taudista paranemista lääkkeen avulla. Kokeessa on mukana 80 koehenkilöä; 40 naista ja 40 miestä. Lääkettä annetaan 10 naiselle ja 30 miehelle. Kontrolliryhmässä lumelääkettä saavat siis 30 naista ja 10 miestä. Paradoksi syntyy, kun lääke todetaan hyödylliseksi tutkittaessa kaikkia koehenkilöitä. Kuitenkin tutkittaessa erikseen miehiä ja erikseen naisia huomataan, että molemmissa sukupuoliryhmissä parantuneita onkin enemmän lumelääkettä saaneissa kuin varsinaista lääkettä saaneissa. Tämä saattaa vaikuttaa järjenvastaiselta, mutta tällainen tilanne voi todellakin syntyä. Alla olevissa taulukoissa on tilanteeseen sopiva esimerkkidata.
Molemmat sukupuolet
Parantuneita
Ei-parantuneita
Yhteensä
Parantumisaste
Lääke
20
20
40
50%
Kontrolli
16
24
40
40%
Miehet
Parantuneita
Ei-parantuneita
Yhteensä
Parantumisaste
Lääke
18
12
30
60%
Kontrolli
7
3
10
70%
Naiset
Parantuneita
Ei-parantuneita
Yhteensä
Parantumisaste
Lääke
2
8
10
20%
Kontrolli
9
21
30
30%
Berkeleyn sukupuolisyrjintä
Yksi tunnetuimmista Simpsonin paradoksiesimerkeistä on Berkeleyn yliopiston sukupuolisyrjintätapaus. Yliopisto haastettiin oikeuteen vuonna 1973 sukupuolisyrjinnästä. Väitettiin, että yliopistoon olisi miesten helpompi päästä kuin naisten.[6]
Hakijat
Hyväksytyt
Miehet
8442
44%
Naiset
4321
35%
Yllä olevasta taulukosta nähdään, että mieshakijoista on päässyt 9 prosenttiyksikköä enemmän sisälle kuin naisista. Mutta tarkasteltaessa erikseen eri tiedekuntia huomataan, että itse asiassa useammassa tiedekunnissa naisia on päässyt sisälle isompi osuus hakijoista. Aineisto kuudesta isoimmasta tiedekunnasta on listattu alla olevaan taulukkoon.
Tiedekunta
Miehet
Naiset
Hakijoita
Hyväksyttyjä
Hakijoita
Hyväksyttyjä
A
825
62%
108
82%
B
560
63%
25
68%
C
325
37%
593
34%
D
417
33%
375
35%
E
191
28%
393
24%
F
272
6%
341
7%
Bickel et al.[6] esitti artikkelissaan, että kyseinen ilmiö johtuu luultavasti siitä, että useat naiset hakevat tiedekuntiin, joissa on pieni sisäänottoprosentti (esim. englanninkieli). Miehet puolestaan useammin hakevat opiskelemaan sellaisia oppiaineita, joihin otetaan isompi prosentti hakijoista sisälle (esim. kemia ja tekniikka).
Ongelman ratkaisu
Vuonna 2000 Pearl esitteli kirjassaan[7]
do()-operaattorin. Sen ja kausaalilaskennan avulla Simpsonin paradoksin aiheuttamat ongelmat saadaan katoamaan.[5]
Lähteet
↑Simpson, Edward H.: The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society, Ser. B, 1951, 13. vsk, s. 238–241.
↑Pearson, Karl; Lee, A.; Bramley-Moore, L.: Genetic (reproductive) selection: Inheritance of fertility in man. Philosophical Translations of the Royal Statistical Society, Ser. A, 1899, 173. vsk, s. 534–539.
↑G. U. Yule: Notes on the Theory of Association of Attributes in Statistics. Biometrika, 1903, 2. vsk, nro 2, s. 121–134. doi:10.1093/biomet/2.2.121
↑Colin R. Blyth: On Simpson's Paradox and the Sure-Thing Principle. Journal of the American Statistical Association, 1972, 67. vsk, nro 338, s. 364–366. doi:10.2307/2284382JSTOR:2284382
↑ abPearl Judea: Simpson's Paradox: An Anatomy. Määritä julkaisu!1999.