Kvantitatív tudásmérés
Dr. Balázs Béla
LEXINFO Informatikai Nyelvvizsga-központ
Összefoglalás
Quantitative Methods in Testing
Knowledge Proficiency
Dr. Béla A. Balázs
Abstract
Bevezetés
Magyarországon
a klasszikus tesztelméleti módszerekkel történő elemzéseknek jelentős múltja
van, de az utóbbi évek nemzetközi vizsgálatainak elemzései rávilágítanak egy
alapjaiban más módszerekkel, más alapokon nyugvó tesztelmélet fontosságára.
Ez a más
módszer a tesztelméletek újabb generációját képező, valószínűségszámítási
alapozású tesztelmélet (Item Response Theory [IRT], magyarul látens vonás
elmélet), amely a vizsgaalanyok és a vizsgaanyagok fundamentális építőkövei
-- az itemek -- tulajdonságait valószínűségelméleti eszközökkel jellemzi. A látens vonás
elmélet azzal foglalkozik, hogy standardizált pszichometriai tesztek
eredményeiből hogyan következtethetünk különböző személyiségparaméterekre
(pl. az informatikai staktudásra). Az idevágó modellek közül itt a Georg
Rasch (1. ábra) dán matematikus által kidolgozott modell
vázlatos ismertetésére kerül sor. |
1. ábra |
Látens
vonás elmélet I.
A valószínűségszámításból tudjuk, hogy az esély
valamely esemény bekövetkezési valószínűségének és be nem következési
valószínűségének hányadosa.
Jelöljük
az m személy sikerének esélyét a standard itemen bm-el. Így
(1)
Jelöljük továbbá a standard
személy kudarcának esélyét az i itemen di-vel. Azaz
__________
*Az item olyan fundamentális
teszt-építőkő, amely egy vagy több kérdést ill. feleletet tartalmaz.
(2)
Definíciók:
Legyen
az m személy
„képessége”, (3)
az
i item
„nehézsége”,
és így a
Rasch-modellre: (4)
Azaz valamely személy sikerének logaritmikus esélye az i itemen egyenlő a
személy képességének és az item nehézségének különbségével.
Egyébként az IRT modellek
közül csak a Rasch-modellnél független két tesztszemély képességének eltérése
attól, hogy melyik itemeket használjuk, és egyedül itt teljesül, hogy az itemek
nehézség-különbsége nem függ a tesztelt személyek képességétől.
„vizsgapálya”, személy-item
térkép
Mindenegyes vizsgázó számos képességgel rendelkezik,
de ezek közül egyszerre egyet tesztelünk. Ezért az eredmény egyenes mentén –
ún. logit skálán – modellezhető. {Az L logit érték a siker esélyének
logaritmusa: L = logit(p) = log(p/[1-p]) = log(p) – log(1-p).}
Képzeljünk el egy
fokozatosan nehezedő itemekkel ellátott vizsgapályát, amelyen különböző
képességű vizsgázók versenyeznek. Az előbbiek szerint az egyes itemeken való
sikeres áthaladás logaritmikus esélye egyenlő a vizsgázó képességének és az
item nehézségének különbségével (2. ábra).
Gyenge képességű személy,
megfelelően könnyű item: 50% esély; Kiváló képességű személy,
megfelelően nehéz item: 50% esély; Gyenge képességű személy,
közepesen nehéz item ~10% esély; Kiváló képességű személy,
közepes nehézségű item: ~10% esély.
2. ábra
A várható vizsgázói képesség-eloszlásnak megfelelő
itemhalmaz esetén a teljesítmények a 0 nehézségi szint körül szórnak, míg túl
könnyű feladatok esetén az értékek szignifikánsan pozitív, túl nehéz tételeknél
pedig negatív középértéket mutatnak. Miután a vizsgaszintek előre rögzítettek,
és a felkészülésnek, valamint a vizsgatételeknek ezekhez kell alkalmazkodniuk,
a b. esetben az átlagosnál jobb, a c. esetben viszont gyengébb felkészültségű
vizsgázókkal van dolgunk (lásd a 3. ábrát).
jó könnyű nehéz
3. ábra.
Személy-item térkép.
itemnehézségi
görbék
A tudásszintmérő tesztek itemei leggyakrabban
logisztikusak. A logisztikus jelleggörbének
három szakasza van: a gyenge összpontszámok tartományában a görbe lassan
emelkedik, majd valahol hirtelen meredekké válik, végül a magasabb összpontszámoknál
ellaposodik. Általános alakja:
|
(5) |
Itt a, m, n és t valós
paraméterek.
A sokféle logisztikus görbe
meredekségében, illetve abban különbözik egymástól, hogy melyik képességtartományba
esik a meredek szakasz. Az itemjellegfüggvény logisztikus, monoton növekvő, de
csak 0 és 1 közötti értékeket vehet fel (mivel a függő változó valószínűség), értelmezési
tartománya viszont az egész számegyenes.
A legegyszerűbb olyan
függvény, amely 0-tól 1-ig nő, ha a független változó 0-tól végtelenig növekszik,
az f(x) = x/(1 + x) függvény.
Az itemjellegfüggvény is
logisztikus, monoton növekvő, de csak 0 és 1 közötti értékeket vehet fel (mivel
a függő változó valószínűség), értelmezési tartománya viszont az egész
számegyenes. A helyes válasz valószínűsége a Rasch-modellen belül:
P = f(q, d) = [1 +
exp(- (q - d))]-1 (6)
|
: könnyű item ‚:
közepes item : nehéz item
|
4. ábra
A Rasch-modell három tipikus logisztikus
itemnehézségi görbéje
Item és teszt információs
függvény
A klasszikus eljárásokkal
szemben a valószínűségszámítási alapozású tesztelmélet – és ezen belül a
Rasch-modell – módot talált arra, hogy a
mérési hiba nagyságát a jelöltek képességeinek függvényében határozza meg.
q két konzisztens
becslésének összevetésekor azt tekinthetjük jobbnak, amelyiknek szórása kisebb.
Minél kisebb a variancia (szórásnégyzet: s2),
annál kevesebb mintavételre van szükség egy bizonyos pontosságú becslés realizálásához.
Így kisebb becslés-variancia esetén a minta pontosabb „információt” ad, mint nagyobb
variancia esetén.
Ebben az értelemben a minta
„információtartalma” (melyet az un. információfüggvénnyel fejezünk ki) fordítva
arányos a becslés szórásnégyzetével. A Rasch modell esetén az egyes itemek
információfüggvénye az I(q) = P(1 - P) alakot ölti.* Tekintve,
hogy az item-információk additívak, az egyes itemek információfüggvényeinek összege
adja a teszt információfüggvényét: T(q) = åIi(q). Az információs
függvények leggyakoribb alkalmazását a vizsgák és általában tesztek szerkesztésénél
találjuk.
IIF TIF |
|
5. ábra
Három item információs függvény (IIF) és a teszt
információs függvény (TIF)
Itemszerkesztés,
itemillesztés
Az információfüggvényen
alapuló tesztszerkesztés menetét a következőkben összegezhetjük:
________________
* A látens vonás elméletben (és általában a
pszichometriában) nem a Shannon-féle információfogalmat használják, hanem a
Fisher-félét.
Irodalom
http://www.fernuni-hagen.de/se/PDFs/jahrbuchGFFNov2001.pdf
7. Vale, C. D.: Computerized Item
Banking. In: Downing, S. M., Haaladyna, T. M.: Handbook of Test Development, Routledge,
2006.