Teorie odpovědi na položku (Item Response Theory), zkráceně IRT, je v psychometrii paradigma pro vytváření, analýzu a skórování testů, dotazníků a podobných nástrojů pro měření schopností, postojů a dalších proměnných. Je založena na aplikaci souvisejících matematických modelů pro testování dat. Jde o jeden z paralelních přístupů vedle klasické testové teorie (CTT, Classical Test Theory) nebo Teorie zobecnitelnosti (Generalizability theory). Oproti CTT nabízí řadu výhod, ale má striktnější podmínky pro své využití.
Pojmenování teorie odpovědi na položku vychází z jejího zaměření na položku a její vlastnosti, zatímco klasická testová teorie se položkami zabývá v kontextu konkrétního testu, jehož je součástí. Termínu položka je použito, neboť mnoho testových otázek není otázkami v pravém slova smyslu, může se jednat o multiple choice s více špatnými a správnými odpověďmi, běžné jsou též výroky v dotaznících umožňující respondentovi vyjádřit míru souhlasu, nebo skórování symptomů pacienta jako přítomných či nepřítomných. IRT vychází z myšlenky, že pravděpodobnost správné/určité odpovědi je matematickou funkcí respondenta a parametrů položky. Parametr respondenta se nazývá latentní rys nebo schopnost. Může například představovat inteligenci respondenta či sílu jeho postoje. Parametry položky mohou zahrnovat obtížnost, rozlišovací schopnost (odchylku či korelaci) a uhádnutelnost.
Přehled
Jedny z prvních prací zabývajících se IRT se začaly postupně objevovat v 50. a 60. letech. Mezi tři nejvýznamnější průkopníky této teorie patří psycholog, odborník na psychometrii, Frederic M. Lord, dále dánský matematik Georg Rasch a rakouský sociolog Paul Felix Lazarsfeld, kteří nezávisle na sobě uskutečnili paralelní výzkumy. K rozšíření IRT však došlo až v letech 70. a 80., tedy v době, kdy byl vědcům usnadněn přístup k osobním počítačům a jejich možnostem nezbytným pro využití IRT.
Účelem IRT je, mimo jiné, poskytnout systém pro evaluaci hodnotících prací a individuálních položek těchto prací. Nejčastější uplatnění nachází IRT ve vzdělávání, kde je v rámci psychometrie využívána na vytváření a zdokonalování (zkouškových) testů, zachovávání již vytvořených testových položek a vyrovnávání obtížnosti testů vytvořených v rámci jedné série (umožňuje například srovnání mezi výsledky v průběhu určitého času).
IRT modely bývají často také označovány jako modely s latentními rysy (latent trait models). Termín latentní je používán jako zdůraznění, že nespojité odpovědi na položku jsou považovány za pozorovatelné manifestace hypotetizovaných rysů, konstruktů, či atributů ne přímo pozorovaných, ale takových, jež musí být vydedukovány z manifestovaných odpovědí. Modely s latentními rysy byly vytvořeny v sociologii[zdroj?!], ale ve skutečnosti jsou identické s IRT modely. Ostatně i v rámci CTT je úroveň této latentní proměnné označována jako true score.
Obecně je IRT považována za vylepšení[zdroj?!] klasické testové teorie (CTT). Pro úlohy, které mohou být uskutečněny pomocí CTT, poskytuje IRT větší flexibilitu a propracovanější informace. Některé aplikace, jako například počítačové adaptivní testování, jsou umožněny pouze pomocí IRT a nemohou být adekvátně využity s pomocí CTT. Další výhodou IRT oproti CTT je vyšší reliabilita hodnocení[zdroj?!].
IRT pracuje se třemi předpoklady:
- Lineární latentní rys označovaný jako θ.
- Nezávislost vlastnosti položek na vlastnostech celého testu; tedy jednodimenzionalita označovaná občas jako lokální nezávislost.
- Odpověď respondenta na položku může být modelována pomocí funkce odpovědi na položku (item response function - IRF).
Podrobněji o implicitních předpokladech pojednává např. výukový text SCIO. [1]
Tento latentní rys je považován za měřitelný na škále (tento předpoklad vychází již z pouhé existence samotného testu). Typicky se umisťuje na standardní škálu s průměrem 0 a směrodatnou odchylkou 1. Nezávislost položek znamená, že nejsou v žádném vzájemném vztahu, s výjimkou toho, že měří stejný rys, který odpovídá předpokladu lineárnosti, ale samostatně, neboť vícerozměrnosti mohou být způsobeny dalšími problémy. Téma rozměrnosti je často zkoumáno faktorovou analýzou, zatímco IRF je stavebním kamenem IRT a je tak centrem mnoha výzkumů a odborných publikací.
Funkce odpovědi na položku
IRF udává pravděpodobnost, s jakou respondent na určité znalostní úrovni odpoví správně. U osob na nižší znalostní úrovni je pravděpodobnost nižší, zatímco u osob na vyšší úrovni je pravděpodobnost správné odpovědi naopak vyšší. Například studenti s nadprůměrnými výsledky v matematice mají vysokou pravděpodobnost, že odpoví na položku z matematiky správně. Přesná hodnota pravděpodobnosti závisí, mimo jiné, na množině parametrů položek. V případě logistického modelu se třemi parametry (Three parameter logistic model -3PL), pravděpodobnost správné odpovědi na položku i je:
kde Φ je parametr respondenta (schopnosti) a , a jsou parametry položky.
Parametry položky determinují tvar IRF a v některých případech mají i přímé vysvětlení. Parametr představuje obtížnost. Je bodem na θ, kde IRF dosahuje maximální strmosti. Je nutno poznamenat, že tento model měří obtížnost položky a rysy respondenta v rámci jednoho kontinua.
Parametr představuje rozlišovací schopnost položky, tj. míru do jaké položka rozlišuje respondenty v různých oblastech latentního kontinua. Tento parametr charakterizuje zakřivení IRF v jejím maximu. Například pokud , znamená to průměrnou rozlišovací schopnost, respondenti na nižší úrovni schopností odpoví s menší pravděpodobností správně než respondenti na vyšší úrovni.
Pro položky typu multiple choice je využíváno parametru . Je využíván při pokusech analyzovat dopad tipování na pravděpodobnost správné odpovědi. Indikuje pravděpodobnost, že jedinci na nízké úrovni schopností dosáhnou správné odpovědi náhodně, matematicky vyjádřeno jako nízká asymptota. U čtyřpoložkového multiple choice existuje pravděpodobnost 1/4, že respondent s velmi nízkou úrovní schopností uhodne správnou odpověď, a tudíž bude přibližně 0,25. Tento přístup předpokládá, že všechny položky jsou stejně přesvědčivé, neboť pokud by jedna položka nedávala vůbec smysl, byl by i respondent na nízké úrovni schopen tuto položku předem vyloučit, a tak odhadovací metody založené na IRF parametru berou tuto možnost v úvahu a provádějí odhad na základě dat získaných pozorováním.
IRT modely
Obecně lze IRT modely roztřídit do dvou skupin: jednorozměrné (lineární) a vícerozměrné. Jednorozměrné modely vyžadují pouze jediný rys (schopnost), označovaný jako θ. Vícerozměrné IRT modely vytvářejí hypotézy odpovědí na základě několika různých rysů. Nicméně, vzhledem ke značně zvýšené složitosti, většina IRT výzkumů a aplikací využívá jednorozměrný model.
IRT modely mohou být též kategorizovány na základě počtu skórovaných odpovědí. Typické multiple choice položky jsou dichotomií. Přestože zde mohou být čtyři či pět možností, stále jsou skórovány jako správné/ nesprávné (dobře/ špatně). Další skupina modelů využívá polytomní výstupy, kde je každé odpovědi přiděleno skóre různé hodnoty. Nejčastější jsou položky Likertova typu, např. „Ohodnoťte na škále od 1 do 5.“
Počet IRT parametrů
Dichotomní IRT modely jsou označovány na základě počtu použitých parametrů. Model využívající tři parametry je pojmenován 3PL. Dvouparametrový model (2PL) předpokládá data s minimální uhádnutelností, ale s položkami lišícími se v obtížnosti () a rozlišovací schopnosti (). Jednoparametrový model (1PL) předpokládá minimální uhádnutelnost a stejnou rozlišovací schopnost položek, a tudíž jsou položky charakterizovány jediným parametrem (). Teoreticky lze hovořit ještě o čtyřparametrovém modelu s horní asymptotou. Ten se však vyskytuje pouze zřídka. Toto pojmenování může být poměrně matoucí, neboť uspořádání parametrů není v abecedním pořadí. Model 1PL využívá parametr (), model 2PL využívá () a (), model 3PL je rozšířen ještě o parametr ().
Model 2PL je shodný s modelem 3PL pokud =0 a je vhodný pro testování položek, kde je velmi nepravděpodobný pokus uhádnout odpověď, jako například u položek měřících postoje. Uhádnutelnost není relevantní například v případě položek jako „Mám ráda/a broadwayské muzikály“, kde je možnou odpovědí souhlas či nesouhlas.
Model 1PL považuje nejen uhádnutelnost za irelevantní, ale také předpokládá, že jsou si všechny položky rovny z hlediska
rozlišovací schopnosti. Každý jednotlivý rys je tak analogický k jednotlivých faktorům ve faktorové analýze.
Raschův model
Raschův model je velmi často považován za jednoparametrový IRT model, ale ve skutečnosti se jedná o naprosto odlišný přístup ke konceptualizaci vztahu mezi daty a teorií. IRT předpokládá, že model bude odpovídat datům získaným při výzkumu, kdežto Raschova perspektiva vyžaduje, aby data odpovídala modelu. Operačně, to znamená, že z perspektivy IRT by byl k použití vybrán jeden z IRT modelů založený na důležitém aspektu dat, zatímco přístup Rasche vyžaduje, aby latentní rys odpovídal Raschovu modelu, takže nevhodně užité reakce vyžadují diagnózu důvodu pro nevhodné užití, a mohou být vyloučeny z datového souboru. Je nutno podotknout, že tato Raschova perspektiva je v protikladu k výzkumnému přístupu vědeckých metod, které předpokládají, že teorie nebo model by měly být vyhodnocovány a inovovány na základě dat, ale odpovídá potvrzujícímu přístupu, kde je model hypotetizován již před sběrem dat a odpovídající model je taky využíván pro potvrzení hypotézy. Stejně jako v každé potvrzující analýze, je třeba dbát na to, aby se zabránilo zaujatosti.
Hlavní bod rozporu je ve využití parametru uhádnutelnosti. Dle IRT přístupu je uhádnutelnost přítomna v testech typu multiple choice, a tudíž je do výpočtu zařazen i parametr uhádnutelnosti. Naproti tomu Raschův přístup předpokládá, že hádání k datům přidává nahodilý šum.
Dvou- či tříparametrové modely jsou vhodné k analýze rozsáhlých dichotomiích souborů dat, kde hraje uhádnutelnost podstatnou roli, rozsáhlé pilotní testování za účelem identifikace nízké rozlišovací schopnosti není možné. Jediným požadavkem je odhad schopností respondenta. Mimo rozsáhlé měřítko standardizovaných testů Raschův model umožňuje analyzovat menší soubory dat než mnohem komplexnější IRT modely a zajištění invariantních nezávislých vzorků při měření má velké praktické a teoretické výhody.
Analýza vhodnosti modelu
U všech druhů modelů je důležité vyhodnotit, zdali je model vhodný pro konkrétní typ dat. Pokud položka nevyhovuje žádnému typu modelů z důvodu její nízké kvality, například z důvodu zavádějícího distraktoru v testu typu multiple choice, měly by být takové položky z testu odstraněny a přepsány. Pokud se setkáme s větším množstvím nevyhovujících položek, je třeba znovu zvážit validitu testu a případně upravit některé specifikace testu. Nevyhovující položky tak poskytují neocenitelný diagnostický nástroj pro tvůrce testů, který umožňuje vytvářet hypotézy, na nichž jsou založeny testové specifikace pro empirické testování dat.
Existuje několik metod pro posuzování vhodnosti, jako například chi-square statistika (Χ² rozdělení), nebo její standardizovaná verze. Dvou- a tříparametrové IRT modely upravují rozlišovací schopnost položek a zajišťují, že model odpovídá lépe datům. Tyto odpovídající statistiky postrádají potvrzující diagnostickou hodnotu, kterou nacházíme u jednoparametrových modelů, kde je idealizovaný model určen předem.
Data nemohou být odstraněna na základě nevhodnosti modelu, ale spíše na základě diagnostikování relevantního důvodu pro nevhodnost modelu, jako například pokud řešitel anglicky psaného vědeckého testu není rodilým mluvčím. O takovém kandidátovi lze argumentovat, že nepatří do stejné skupiny osob v závislosti na počtu rozměrů testu a ačkoli parametr IRT je argumentován jako nezávislý na vzorku, nejsou tyto osoby nezávislou populací, a tudíž tato nevhodnost je relevantní při výstavbě testu a neruší platnost testu nebo modelu. Takový přístup je základní pomůckou validace. Ve dvou- a tříparametrových modelech, kde je psychometrický model přizpůsoben datům, musí být budoucí administrace testu zkontrolována zdali odpovídá modelu využitému při počáteční validaci, aby byla potvrzena hypotéza, že skóre z každé další administrace lze generalizovat i na další administrace. Pokud je pro každou administraci určen jiný model, aby data co nejlépe modelu odpovídala, dochází poté k měření různých latentních rysů a testové skóre nelze v rámci administrací považovat za srovnatelné.
Jedním z největších přínosů teorie odpovědi na položku je rozšíření konceptu reliability. Tradičně reliabilita odkazuje k přesnosti měření (tj. k míře do jaké je měření bez chyb). A tradičně je měřena pomocí jediného indexu, definovaného různými způsoby, jako například poměr mezi skutečným a pozorovaným rozptylem skórů. Tento index je užitečný při charakterizování průměrné spolehlivosti testu, například za účelem porovnávání dvou testů. IRT však objasňuje, že přesnost není jednotná napříč spektrem testových skórů. Například skóry na okrajích testového rozsahu jsou častěji spojovány s chybami, než skóry blíže ke středu.
Teorie odpovědi na položku překračuje koncept položky a testové informace, aby nahradila reliabilitu. Informace je také funkcí parametrového modelu. Například, dle Fischerovy informační teorie, položka informace v modelu 1PL pro data s dichotomní odpovědí, je jednoduše pravděpodobností správné odpovědi násobená pravděpodobností nesprávné odpovědi, nebo
Standardní chyba měření je reciproční s testovou informací daného latentního rysu:
Z toho vyplývá, že čím více informací, tím menší chyba měření.
V dalších modelech, jako jsou dvou- a tříparametrové modely, hraje důležitou roli parametr rozlišovací schopnosti. Položka informační funkce pro dvouparametrový model je:
Obecně má informační křivka položky tvar zvonu. Vysoce rozlišující položky mají vysokou a úzkou informační křivku, která významně přispívá informačně, avšak pouze v úzkém rozsahu. Položky s nízkou rozlišovací hodnotou poskytují méně informací, ale v širším rozsahu.
Pole informací položek mohou být využita ke zjištění nakolik informace položky přispívá a jak velkou část skórovací škály tvoří. Z důvodu nezávislosti položek na vlastnostech testu, je informační funkce položky pouze doplňkovou. To znamená, že informační funkce testu je suma informačních funkcí položek v daném testu. Použití této vlastnosti s obsáhlou baterií položek může velmi dobře formovat informační funkci testu a umožnit tak velmi přesnou regulaci chyb měření.
Ústředním tématem psychometrických teorií a hlavním rozdílem mezi CTT a IRT je popis přesnosti testových skórů. Zjištění IRT ukazují, že CTT koncept spolehlivosti je pouhým zjednodušením. Na místo spolehlivosti, IRT nabízí informační funkci testu, která ukazuje míru přesnosti při různých hodnotách theta.
Tyto výsledky umožňují (potenciálně) pečlivě formovat úroveň spolehlivosti pro různé rozsahy schopností skrze pečlivý výběr položek. Například v případě certifikačního testu, kde jsou pouze dvě možnosti – test udělat či neudělat, a kde je tedy absolutní hodnota skóre nepodstatná, lze vytvořit velmi efektivní test pomocí výběru takových položek, jejichž vysoká informační hodnota se pohybuje v oblasti hraničního skóre pro složení zkoušky. Tyto položky většinou odpovídají těm položkám, jejichž obtížnost je zhruba stejná jako je hraniční skóre pro úspěšné vykonání testu.
Skórování
Osobní parametr θ reprezentuje úroveň latentního rysu jedince, kterým je lidská schopnost nebo vlastnost měřená v testu. Tou může být kognitivní schopnost, fyzická schopnost, dovednost, znalost, postoj, osobnostní charakteristika, atd.
Odhad osobního parametru, „skóre“ v IRT testu , je vypočítáváno a interpretováno velmi odlišným způsobem ve srovnání s tradičním skórováním, jako je například počet či procento správných odpovědí. Celkový součet počtu správných odpovědí jednotlivce není skutečným skórem, na základě IRF vede spíše k hodnocení skóre, pokud model obsahuje i položku rozlišovacího parametru. Toho je v podstatě dosaženo znásobením funkce odpovědi na položku pro každou položku zvlášť, čímž získáváme funkci pravděpodobnosti, jejímž maximem je maximum pravděpodobnosti odhadu θ. Toto maximum je nejčastěji odhadováno pomocí IRT softwaru používajícího Newton-Raphsonovu metodu. Přestože skórování je s IRT mnohem sofistikovanější, pro většinu zkoušek je (lineární) korelace mezi theta odhadem a tradičním skóre velmi vysoká; často 0,95 nebo i větší. Graf skóre IRT oproti tradičnímu skóre vykazuje tvar ogivy naznačující, že IRT odhaduje samostatné jednotlivce na hranicích škály více než v jejím středu.
Podstatným rozdílem mezi CTT a IRT je zacházení s chybou měření, označovanou jako standardní chyba měření. Všechny testy a dotazníky jsou nepřesné nástroje, nikdy nemůžeme zjistit respondentovo skutečné skóre (true score), spíše pouze odhadovat na základě pozorovaného skóre (observed score). Existuje určitá míra náhodné chyby, která může posunout pozorované skóre výše či níže oproti skutečnému skóru. CTT předpokládá, že množství chyb je stejné pro každého testovaného, podle IRT je toto množství proměnlivé.
IRT nevyvrací lidský vývoj a možnosti zdokonalování ani nepředpokládá, že úroveň latentních rysů je pevná. Člověk se může naučit dovednostem, znalostem či dokonce „schopnosti skládání testů“ (test-taking skills), která může vést k dosažení vyššího skutečného skóre. Ve skutečnosti se část IRT výzkumu zaměřuje na měření změn úrovni latentního rysu.
Porovnání Klasické testové teorie a Teorie odpovědi na položku
Klasická teorie testů (CTT) a IRT pracují do značné míry se stejnou problematikou, ale z hlediska teorie představují odlišné subjekty, a tudíž využívají různé metody. I když tato dvě paradigmata jsou obecně konzistentní a doplňují se, existuje mezi nimi několik rozdílu:
- IRT vytváří radikálnější předpoklady a v mnoha případech přináší stejně radikální zjištění, především v oblasti charakterizace chyb. Samozřejmě tyto výsledky platí pouze, když jsou předpoklady modelů IRT skutečně splněny.
- Přestože výsledky CTT přinesly mnoho důležitých zjištění pro praxi, modelová povaha IRT poskytuje mnoho výhod oproti obdobným CTT výsledkům.
- Skórování CTT testů je snadné na výpočet (a vysvětlení), zatímco IRT skórování obvykle vyžaduje poměrně složité postupy statistického odhadování.
- IRT poskytuje několik vylepšení ve škálování položek a osob. Specifika závisí na IRT modelu, ale většina modelů škáluje obtížnosti položek a schopnosti lidí na stejné měřicí soustavě. To umožňuje smysluplné porovnávání lidských schopností a obtížnosti položek.
- Další zlepšení vycházející z IRT je, že parametry IRT modelů jsou nezávislé jak na vzorku, tak na celém testu. Zatímco v CTT je skutečné skóre (true score) definováno v rámci konkrétního testu. IRT tak poskytuje podstatně větší flexibilitu v situacích, kdy se používají různé vzorky nebo typy testů. Tyto zjištění jsou v IRT základem pro počítačové adaptivní testování
Odkazy
Reference
V tomto článku byl použit překlad textu z článku Item Response Theory na anglické Wikipedii.
Česká terminologie čerpána z: URBÁNEK, Tomáš; ŠIMEČEK, Michal. Teorie odpovědi na položku. S. 428–440. Československá psychologie [online]. 2001. Roč. 45, čís. 5, s. 428–440. Dostupné v archivu pořízeném dne 2007-07-30.
Literatura
- Lord, F.M. (1980). Applications of item response theory to practical testing problems. Mahwah, NJ: Erlbaum.
- Embretson, S. and Reise, S. (2000). Item response theory for psychologists. Mahwah, NJ: Erlbaum.
- Baker, Frank (2001). The Basics of Item Response Theory. ERIC Clearinghouse on Assessment and Evaluation, University of Maryland, College Park, MD.
- Baker, F. B., & Kim, S.-H. (2004). Item response theory: Parameter estimation techniques (2nd ed.). New York: Marcel Dekker.
- Van der Linden, W.J. & Hambleton, R.K. (Eds.) (1997). Handbook of modern item response theory. New York: Springer.
- De Boeck, P., & Wilson, M. (Eds.) (2004). Explanatory Item Response Models. A Generalized Linear and Nonlinear Approach. New York: Springer.
- Jelínek, M., Květon, P., Vobořil, D. (2011). Testování v psychologii: Teorie odpovědi na položku a počítačové adaptivní testování. Brno: Grada.
Související články
Externí odkazy