Simpsonin paradoksi

Simpsonin paradoksi on tilastotieteessä esiintyvä paradoksi. Kyseinen paradoksi syntyy, kun kahden muuttujan välinen korrelaatio muuttuu päinvastaiseksi otettaessa huomioon jokin kolmas muuttuja, joka korreloi molempien muuttujien kanssa. Esimerkiksi, jos peruskoululaisille tehtäisiin kaikille sama testi, voitaisiin huomata, että tupakoivat pärjäävät paremmin kuin sellaiset, jotka eivät tupakoi. Jos kuitenkin tarkasteluun lisätään testattavien ikä ja tutkitaan tupakoinnin vaikutusta ikäryhmien sisällä, tulos kääntyy päinvastaiseksi.

Simpsonin paradoksin jatkuva versio. Tässä on positiivinen korrelaatio (trendi) sinisen ja punaisen ryhmän sisällä erikseen, mutta negatiivinen trendi niiden välillä (ryhmät yhdessä). Tämä on merkitty kuvaan mustalla katkoviivalla.

Edward H. Simpson esitteli tämän ilmiön artikkelissaan vuonna 1951.[1] mutta Karl Pearson, et al. vuonna 1899[2] ja Udny Yule vuonna 1903,[3] ovat maininneet samankaltaisesta ilmiöstä aiemminkin. Nimen Simpsonin paradoksi esitteli Colin R.Blyth vuonna 1972.[4]

Esimerkkejä

Taudista parantuminen

Esimerkki on Judea Pearlin artikkelista vuodelta 1999.[5] Kyseessä on kokeellinen tutkimus, jossa koeasetelma on seuraava: Tutkitaan taudista paranemista lääkkeen avulla. Kokeessa on mukana 80 koehenkilöä; 40 naista ja 40 miestä. Lääkettä annetaan 10 naiselle ja 30 miehelle. Kontrolliryhmässä lumelääkettä saavat siis 30 naista ja 10 miestä. Paradoksi syntyy, kun lääke todetaan hyödylliseksi tutkittaessa kaikkia koehenkilöitä. Kuitenkin tutkittaessa erikseen miehiä ja erikseen naisia huomataan, että molemmissa sukupuoliryhmissä parantuneita onkin enemmän lumelääkettä saaneissa kuin varsinaista lääkettä saaneissa. Tämä saattaa vaikuttaa järjenvastaiselta, mutta tällainen tilanne voi todellakin syntyä. Alla olevissa taulukoissa on tilanteeseen sopiva esimerkkidata.

Molemmat sukupuolet
Parantuneita Ei-parantuneita Yhteensä Parantumisaste
Lääke 20 20 40 50%
Kontrolli 16 24 40 40%
Miehet
Parantuneita Ei-parantuneita Yhteensä Parantumisaste
Lääke 18 12 30 60%
Kontrolli 7 3 10 70%
Naiset
Parantuneita Ei-parantuneita Yhteensä Parantumisaste
Lääke 2 8 10 20%
Kontrolli 9 21 30 30%

Berkeleyn sukupuolisyrjintä

Yksi tunnetuimmista Simpsonin paradoksiesimerkeistä on Berkeleyn yliopiston sukupuolisyrjintätapaus. Yliopisto haastettiin oikeuteen vuonna 1973 sukupuolisyrjinnästä. Väitettiin, että yliopistoon olisi miesten helpompi päästä kuin naisten.[6]

Hakijat Hyväksytyt
Miehet 8442 44%
Naiset 4321 35%

Yllä olevasta taulukosta nähdään, että mieshakijoista on päässyt 9 prosenttiyksikköä enemmän sisälle kuin naisista. Mutta tarkasteltaessa erikseen eri tiedekuntia huomataan, että itse asiassa useammassa tiedekunnissa naisia on päässyt sisälle isompi osuus hakijoista. Aineisto kuudesta isoimmasta tiedekunnasta on listattu alla olevaan taulukkoon.

Tiedekunta Miehet Naiset
Hakijoita Hyväksyttyjä Hakijoita Hyväksyttyjä
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 593 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

Bickel et al.[6] esitti artikkelissaan, että kyseinen ilmiö johtuu luultavasti siitä, että useat naiset hakevat tiedekuntiin, joissa on pieni sisäänottoprosentti (esim. englanninkieli). Miehet puolestaan useammin hakevat opiskelemaan sellaisia oppiaineita, joihin otetaan isompi prosentti hakijoista sisälle (esim. kemia ja tekniikka).

Ongelman ratkaisu

Vuonna 2000 Pearl esitteli kirjassaan[7] do()-operaattorin. Sen ja kausaalilaskennan avulla Simpsonin paradoksin aiheuttamat ongelmat saadaan katoamaan.[5]

Lähteet

  1. Simpson, Edward H.: The Interpretation of Interaction in Contingency Tables. Journal of the Royal Statistical Society, Ser. B, 1951, 13. vsk, s. 238–241.
  2. Pearson, Karl; Lee, A.; Bramley-Moore, L.: Genetic (reproductive) selection: Inheritance of fertility in man. Philosophical Translations of the Royal Statistical Society, Ser. A, 1899, 173. vsk, s. 534–539.
  3. G. U. Yule: Notes on the Theory of Association of Attributes in Statistics. Biometrika, 1903, 2. vsk, nro 2, s. 121–134. doi:10.1093/biomet/2.2.121
  4. Colin R. Blyth: On Simpson's Paradox and the Sure-Thing Principle. Journal of the American Statistical Association, 1972, 67. vsk, nro 338, s. 364–366. doi:10.2307/2284382 JSTOR:2284382
  5. a b Pearl Judea: Simpson's Paradox: An Anatomy. Määritä julkaisu!1999.
  6. a b P.J. Bickel, E.A. Hammel and J.W. O'Connell: Sex Bias in Graduate Admissions: Data From Berkeley. Science, 1975, 187. vsk, nro 4175, s. 398–404. PubMed:17835295 doi:10.1126/science.187.4175.398 Artikkelin verkkoversio..
  7. Judea Pearl. Causality: Models, Reasoning, and Inference, Cambridge University Press (2000, 2nd edition 2009). ISBN 0-521-77362-8.

Aiheesta muualla