Mintavételi hiba

Mintavételi hibának nevezzük a statisztikában azt a torzítást, amit a mintavétel módja okoz. A mintavételi hiba[1] abban az esetben jöhet létre, ha nem valószínűségi mintavételt alkalmazunk, ezért bizonyos egyedeknek vagy elemeknek nagyobb az esélye arra, hogy bekerüljenek a mintába.[2] Az ilyen adatok alapján nagyobb az esélye annak, hogy hibás következtetéseket vonunk le a populációra vonatkozóan. Többek között ezért is jelent problémát, hogy a pszichológiai kutatások jelentős hányada a könnyen hozzáférhető pszichológus hallgatók adatain alapul, hiszen az egyetemisták már eleve egy szűrt populációt reprezentálnak. Az említett esetben az alacsonyabb iskolázottsággal rendelkezők nem kerülhetnek be a mintánkba.

A mintavételi hiba típusai

  • Egy adott helyszínen történő felmérés okozhat torzítást. Tételezzük fel, hogy egy kérdőívvel a serdülők drog használatát szeretnénk felmérni, ezért középiskolákat keresünk fel . Ez a mintavétel azért lesz torzított, mert kimaradnak belőle a magántanulók és azok, akiket már eltanácsoltak.Pont azok a gyerekek, akik szélsőségesen sok vagy kevés figyelmet kapnak otthon, mely jellemző a fiatalkori droghasználat kialakulásában jelentős szerepet játszhat. Akkor is torzítani fogja a mintavételünket a helyszín, ha a populáció egyes tagjai viszonylag nagyobb számban jelennek meg ott másokhoz képest. Az “utca embere” például hamisan azt a képet közvetíti, hogy bárki ugyanakkora eséllyel kerülhet ebbe a kategóriába, pedig az egészséges, önálló mozgásra képes egyének gyakoribbak lesznek, mint azok, akik olyan krónikus betegségben szenvednek, ami ágyhoz köti őket. Ez a mintavételi hiba egyik szélsőséges esete hiszen így a populáció meghatározott tagjait teljes mértékben kizárjuk annak a lehetőségéből, hogy a mintánkba kerüljenek.
  • Minden esetben, amikor a személyek bármilyen kontrollal rendelkeznek arra vonatkozóan, hogy részt vesznek-e a kutatásban vagy sem, számolnunk kell az önkéntesség okozta torzításokkal. Ha a kutatás pont azokat a vonásokat vizsgálja, amelyek összefüggésben vannak azzal, hogy a személyek mennyire hajlandóak részt venni vizsgálatokban, akkor a mintánk nem lesz reprezentatív. Például azok az emberek, akiknek erős véleménnyel vagy megalapozott tudással rendelkeznek, azok gyakrabban töltenek ki kérdőíveket. Hasonló jelenség figyelhető meg az online/telefonos szavazáskor, ahol a résztvevők erősen motiváltak a válaszadásra és felvállalják határozott véleményüket, ezért a semleges vagy közönyös attitűddel rendelkezők alulreprezentáltak ilyenkor. Ez gyakran vezet a beérkezett válaszok egyoldalú sarkításához és a vélemények összegzésekor aránytalanul nagy súlyt kap egy nézőpont. Pontosan ezért a jelenség miatt az ilyen felmérések nem tekinthetőek tudományosan megalapozottnak.
  • Adott csoporthoz tartozó résztvevők toborzása érdekében alkalmazott reklám is torzíthatja a mintaválasztást. Például egy vizsgálat “igazolni” szeretné, hogy a dohányzásnak nincs hatása az állóképességre ezért felkeres helyi edzőtermeket, de a dohányzók számára csak a haladó aerobik edzéseken népszerűsíti a kutatást, míg a nem dohányzókat csak a testsúlycsökkentő órákon keresik meg.
  • Kizárhatunk akaratlanul egy meghatározott csoportot a mintánkból például úgy, hogy nem érjük el azok adatát a nyilvántartásban, akik újonnan költöztek az adott területre. Longitudinális kutatásokban számolni kell azzal, hogy lesznek olyanok, akik elköltöznek. Ha a kutatásunkban meghatározó jellemző az, hogy milyen lakókörnyezet veszi körül a résztvevőket (tanyasi, falusi, városi, fővárosi), abban az esetben mintavételi hibáról beszélhetünk. Akkor kell a jelenséget válasz elmaradási hibaként értelmeznünk ha a személyek azért esnek ki a kutatásból, ha költözés után nem követjük őket., A válaszelmaradási hiba a kutatás belső érvényességére van hatással.
  • Bizonyos csoportok vizsgálatánál figyelembe kell venni azt, hogy nagyobb számban lesznek jelen egészséges személyek a mintánkban, mint a populáció egészében (például akkor, ha a dolgozók személyeket vizsgáljuk).
  • Az epidemiológiában ismert jelenség, hogy vannak olyan köztes változók (tünetek), melyek egyenlőtlenül jellemzőek a populációra, mert gyakoribbak vagy ritkábbak betegségnek kitett csoportban (azok a személyek, akik megfertőződhetnek) és együttjárást mutatnak a betegséggel bár valódi oki kapcsolatban nem állnak vele. Csak az ismert és mérhető köztes változók esetében tudják a kutatók kontrollálni a vizsgálatokat. A köztes változóra példa lehet a következő: az ősz haj előre jelezheti a szívbetegség kialakulását, ha a fiatalok és öregek csoportját hasonlítjuk össze, habár oki kapcsolatban nem áll a betegség kialakulásával. A köztes változóból származó hibák csökkentése végett alkalmazhatunk illesztést, hogy az egyének és csoportok között egyenlő arányban forduljon elő a köztes változó. Mintavételi hiba lesz viszont ha köztes változóként értelmezünk egy olyan faktort, ami valóban oki kapcsolatban áll a betegségnek való kitettséggel. Túlzott illesztéskor a félreértelmezett változónk előfordulásának szempontjából kiegyenlítjük a vizsgált személyeket vagy csoportokat, pedig pont ebben a változóban oki eltérést találhatnánk közöttük.

A barlanglakó ősember hatás

A mintavételi hiba egyik szemléletes példáját a barlanglakó ősember hatásnak nevezik. Az őskori emberrel kapcsolatos tudásunk a barlangok falán fennmaradt, 40,000 évnél idősebb festményekből származik. Még ha akkoriban a festmények fákon, állatbőrön vagy domboldalakon is megtalálhatóak voltak, mára teljesen eltűntek, mivel nem voltak elég tartósak. Ugyanez mondható el a tűzrakó helyekkel kapcsolatban is, melyek közül a barlangban készítettek maradtak fenn a modern kor számára, mert ezek viszonylag védve voltak a környezet viszontagságaival szemben.. Az őskori embert azért a barlanggal azonosítjuk, mert a legtöbb abból az időből származó és máig fennmaradt adatunkat barlangokban találtuk , de ebből nem vonhatjuk le teljes biztonsággal azt a következtetést, hogy valóban ott töltötték az életük jelentős részét az őskori emberek – pusztán arra következtethetünk, hogy használták a barlangokat életük során.

A mintavételi hibából adódó problémák

A mintavételi hibából adódóan a torzított mintán végzett statisztikai számítások konzisztensen pontatlanok lesznek. Ilyenkor torzított paraméterekhez férünk hozzá míg a kutatás szempontjából jelentős paramétereket a minta alul vagy felül fogja reprezentálni a populációhoz képest.

A gyakorlatban ez a torzítás szinte elkerülhetetlen, mert kivitelezhetetlen a teljesen valószínűségen alapuló mintavétel, de ha kellően figyelünk a mintavételi hibára akkor elvégezhető valószínűségi mintavétel. Ha az adott paramétert hordozó egyének vagy elemek kevéssé alulreprezentáltak , akkor a minta kezelhető valószínűségi mintaként. Hasonlóképpen habár a mintánkban alulreprezentáltak bizonyos jellemzőkkel bíró egyének vagy csoportok, de a mintánk nem tér el a kutatás szempontjából jelentős változók szempontjából a populáció alapértékeihez képest , akkor a minta egésze kezelhető valószínűségi mintaként.

A torzítás kifejezés a köznyelvben erős negatív konnotációval rendelkezik és szándékos megtévesztést, tudományos csalás szándékát sugallja. Ezzel szemben a statisztikában a torzítás pusztán egy matematikai tulajdonság és nincs jelentősége annak, hogy létrejöttének oka mennyire vezethető vissza a kutató szándékos döntésére vagy a kutatás során alkalmazott eszközök hiányosságára. Bár néhány esetben valóban történik szándékos torzítás a minta meghatározásakor a félrevezetés érdekében, de általában a mintavételi hiba csak annak a valós jelenségnek a mutatója, hogy mennyire nehéz egy statisztikai szempontból reprezentatív minta megszerzése.

Fordítás

  • Ez a szócikk részben vagy egészben a Sampling bias című angol Wikipédia-szócikk fordításán alapul. Az eredeti cikk szerkesztőit annak laptörténete sorolja fel. Ez a jelzés csupán a megfogalmazás eredetét és a szerzői jogokat jelzi, nem szolgál a cikkben szereplő információk forrásmegjelöléseként.

Jegyzetek

  1. Medical Dictionary - 'Sampling Bias'. [2016. március 10-i dátummal az eredetiből archiválva]. (Hozzáférés: 2013. július 21.)
  2. TheFreeDictionary – biased sample