20 Reliabilitásvizsgálatok

Publikálva

2026. január 6.

Módosítva

2026. április 27.

20.1 Reliabilitás a klasszikus tesztelméletben

A reliabilitás (megbízhatóság) azt fejezi ki, hogy az adott mérőeszköz (pl. kérdőív egésze vagy része) mennyire konzisztensen és pontosan méri az adott konstruktumot adott mintán.

A klasszikus tesztelmélet alapfeltevése szerint minden megfigyelt pontszám (X) a valódi pontszámból (T) és a mérési hibából (E) áll: \(X=T+E\).

A reliabilitást matematikailag a valódi pontszám (T) varianciájának és a megfigyelt pontszám (X) teljes varianciájának arányaként számítjuk ki, és így értelemszerűen a hiba és teljes variancia arányaként is felírható. Ebből következően minél kisebb a hibaarány, annál magasabb a teszt, kérdőív megbízhatósága.

\[ \begin{aligned} \text{Rel}(X) &= \frac{\text{Var}(T)}{\text{Var}(X)} = \frac{\text{Var}(T)}{\text{Var}(T)+\text{Var}(E)} \\ &= 1 - \frac{\text{Var}(E)}{\text{Var}(X)} \end{aligned} \]

Fontos, hogy a reliabilitás nem magának a tesztnek a tulajdonsága, hanem az adott mintán felvett pontszámokat jellemezzük vele. Ezért kell minden mintán újra ellenőrizni, és összehasonlítani a korábbi standardizációkkal vagy adaptációkkal.

20.2 A reliabilitás fontosabb típusai

A teszt-reteszt reliabilitás az időbeli stabilitás jellemzője, az ismételt méréses megbízhatóság. Ugyanazon személyekkel kétszer vesszük fel a tesztet vagy kérdőívet (általában átlagosan 2 hét különbséggel), és a két mérés közötti korrelációt számítjuk ki Pearson-féle r értéket számítva vagy Intraclass Correlation Coefficient (ICC) módszerrel. Az eltéréseket magyarázhatja például az emlékezeti hatás (pl. intelligencia tesztnél már tudja a jó választ a kérdésre a válaszadó második alkalommal, eltűnik az újdonsághatás), vagy a ténylegesen mért jellemző változhat (pl. állapotszorongás esetén).

Az inter-rater reliabilitás, vagyis értékelői reliabilitás (inter-rater reliability) akkor kiemelten fontos, ha a mérés szubjektív ítéleten alapul (pl. nem egzakt pontozást alkalmaz a teszt, vagy lehetőség van részleges megfigyelésre/adatfelvételre, például Rorschach teszt esetén). Ehhez a Cohen-féle kappa, Fleiss-kappa, Krippendorff-alfa mutatókat számítjuk ki, vagy újabban - és főleg diagnosztikai folyamatokban - az intraklassz korrelációs (ICC) módszert alkalmazzuk.

Az alternatív forma reliabilitás (alternate form reliability) tesztelése során két, tartalmilag egyenértékű tesztváltozatot alkalmazunk, elkerülve az ismétlésből adódó torzítást. Például 100 kérdéses kérdésbankból két 50-50 kérdést tartalmazó tesztvariánst állítunk elő, ahol mindegyik kérdés ugyanazt a konstruktumot, tudást, képességet méri. Mindkét tesztvariánst felvesszük rövid intervallumon belül ugyanazon a csoporton.

A (teszt)felezéses megbízhatóság (split-half reliability) mérése során két félrészt hozunk létre a teljes tesztből. Ennek gyakori módszere a páros és páratlan számú tételek szerinti szétválogatás, másik a teszt felezése sorrendben az első és második félre. Statisztikai tesztelésekor korrelációs analízist alkalmazunk elsősorban: Spearman-Brown képletet alkalmazhatunk, ha feltételezzük, hogy a két tesztfél varianciája és átlaga nagyjából megegyezik, vagy Guttman-Rulon képletet robusztus próbaként, ha a két tesztfél között nem feltételezünk azonos átlagot és varianciát. KR20 mutatót számítunk tudásfelmérő dichotóm (helyes/helytelen) teszteknél. Modern vizsgálatokban inkább a Cronbach-alfa jellegű mutatókat választjuk (a KR20 speciális esete mellett), mert az összes lehetséges tesztfelezéses megbízhatósági mutató átlagaként tekinthetjük.

20.2.1 Belső konzisztencia

A belső konzisztencia azt mutatja, hogy a kérdőív itemei mennyire „mutatnak egy irányba”.

Klasszikus mérőszáma a Cronbach-alfa (α)¹. A Cronbach-alfa azonban azt feltételezi, hogy minden item (tétel) azonos faktorsúllyal tölt a látens faktorra (tau-ekvivalencia), hogy a skálaváltozók normál eloszlásúak, a hibák között nincs kovariancia, illetve egydimenziósak (egyfaktorosak) a mutató számításába bevont itemek. Ezek a feltételek a gyakorlatban ritkán teljesülnek. Például a tau-ekvivalencia sérülésével a Cronbach mutató alábecsüli a valódi megbízhatóságot. Emellett az alfa érzékeny a tételek számára is, így minél több item tartozik egy (al)skálához, annál magasabb Cronbach-alfa értéket kapunk anélkül, hogy a mérés pontossága ténylegesen javulna. Ráadásul a Likert-skála fokozatainak száma is szignifikánsan befolyásolja az alfa értékét, ami tovább bonyolítja az összehasonlíthatóságot (T. Kárász és mtsai., 2022), ezért a magyar kutatók például az itemek darabszáma, az itemek közötti elvárt korreláció mértéke és skála likert szintjei szerint más-más megfelelőségi szintet javasolnak szemben a klasszikusan alkalmazott 0,7-es küszöbértékkel.

\[ \alpha_{\text{nyers}} = \frac{k}{k-1} \left( 1 - \frac{\sum_{i=1}^{k} \sigma_i^2}{\sigma_Y^2} \right) \]

ahol k az itemek száma, σ²_i az i-dik item varianciája, σ²_Y a teljes variancia

\[ \alpha_{\text{standardizált}} = \frac{k \cdot \bar{r}}{1 + (k - 1) \cdot \bar{r}} \]

ahol az \(\bar{r}\) az itemek közötti átlagos korreláció.

A Cronbach-alfa érzékeny a fordítottan pontozandó tételekre, tehát ezeket vagy előzetesen egyenesre kell fordítani, vagy az elemzés során a JASP-ban a Reversed-Scaled Items rovatban jelölni.

A modern szakirodalom Zinbarg és mtsai. (2005) emellett egyöntetűen inkább a McDonald-ómega (ω) használatát javasolja inkább, mert ez nem feltételez tau-ekvivalenciát és normál eloszlást. Az ω_total a teljes skála megbízhatóságát mutatja, míg az ω_H azt, hogy a tételek varianciájának mekkora részét magyarázza egyetlen általános faktor. Ez utóbbi különösen többdimenziós skálák esetén használandó.

\[ \omega_\text{Total} = \frac{\left( \sum_{i=1}^{n} \lambda_i \right)^2}{\left( \sum_{i=1}^{n} \lambda_i \right)^2 + \sum_{i=1}^{n} \theta_{ii}} \]

ahol a számláló az itemek faktorsúlyának négyzetösszege, míg a nevező a teljes variancia (az itemek faktorsúlyának négyzetösszege + a hiba varianciája).

A reliabilitásvizsgálat elválaszthatatlan a faktorelemzéstől. Először egy faktorstruktúrát kell tisztáznunk (feltárnunk vagy megerősítenünk jó modellilleszkedési mutatókkal), majd alskálánként jelentenünk kell a megbízhatósági mutatókat. Ez is lehet iteratív folyamat. Például a túl alacsony töltésű vagy rossz MSA értékkel stb. rendelkező tételeket exkludáljuk EFA és CFA során, ugyanígy meg tudjuk vizsgálni, hogy hogyan alakulna a reliabilitás az adott item törlése esetén (… if item dropped funkció).

20.3 Példák reliabilitásvizsgálatra

Példa 20.1 A Mini Oldenburg Kérdőív (MOLBI) magyar változatának (Ádám és mtsai., 2020) validálását végezzük a saját mintánkon (N = 400). A kérdőív 10 tételből áll, 4 fokú Likert skálán kell értékelni az állításokat. Két skálával rendelkezik, és a megjelölt tételekből tevődik össze (F – fordított tétel):

kiábrándultság: 1, 3(F), 6(F), 7(F), 10
kimerülés: 2(F), 4(F), 5, 8, 9(F)

Magasabb érték nagyobb mértékű kiégésszintet indikál.

A magyar validálás alapján tudjuk, hogy a MOLBI skáláinak belső konzisztenciáját Cronbach-alfával számították ki az egészségügyi mintán: kiábrándultság skála Cronbach-α = 0,762, kimerülés skála Cronbach-α = 0,790.

Az adatfájl letölthető: miniold_mg.sav

Állítsuk be a vizsgálatokat JASP-ban skálánként!

Kiábrándultság skála:

Válasszuk ki mind a Cronbach α, mind a McDonald ω mutatókat, valamint a hozzájuk tartozó if item dropped funkciókat is! A többi, képen látható mutatót szükség esetén használjuk (split-half koefficiens, átlagos itemek közötti korreláció [pl. Cronbach alpha küszöbszintjének megítéléséhez], stb.)

A fordított tételeket állítsuk be!

Az Advanced Options szakaszban használjuk a listwise típusú adattörlést. Amennyiben a vizsgálandó itemek azonos szintű likert itemekből állnak, a kovariancia alapú nyers mutatókat számítsuk ki (Coefficients / Unstandardized); ha eltérőek, akkor standardizáljunk (Coefficients / Standardized). Nekünk most az előbbire van szükségünk.

Olvassuk le az eredményeket!

Láthatjuk, hogy a Cronbach-alfa mutatónk 0,704 [95% CI: 0,665-0,755], míg a McDonald-féle ómega 0,716. A mi mintánkon alacsonyabb lett a reliabilitás. A 0,7-es gyakorlati küszöbnek megfelel, de ideális esetben ennél magasabb kellene legyen. T. Kárász és mtsai. (2022) cikkének 4. táblázatából leolvashatjuk, hogy 0,622 kellene legyen a megfelelőségi határ (4 szintű érték, 0,323 átlagos itemek közti korreláció, 5 változó). Tehát ennek a javasolt feltételnek is megfelelünk. De láthatjuk, hogy a 10. tétel kihagyásával jelentősen javulna mindkét megbízhatósági mutató (alpha; = 0,741 és omega; = 0,742).

Kiégés skála:

Állítsuk be a JASP-ot ugyanúgy, ahogy az előbb tettük.

A fordított tételeket állítsuk be!

Olvassuk le az eredményeket!

Láthatjuk, hogy a Cronbach-alfa mutatónk 0,781 [95% CI: 0,751-0,811], míg a McDonald-féle ómega szintén 0,781. A mi mintánkon szinte megegyzeik a reliabilitás a cikkével. A 0,7-es gyakorlati küszöbnek megfelel. T. Kárász és mtsai. (2022) cikkének 4. táblázatából leolvashatjuk, hogy 0,714 kellene legyen a megfelelőségi határ (4 szintű érték, 0,4 körüli átlagos itemek közti korreláció, 5 változó). Tehát ennek a javasolt feltételnek is megfelelünk. Nincs olyan tétel, aminek a kihagyásával javulna a mutató.

Megoldás 20.1. A Mini Oldenburg Kérdőív (MOLBI) magyar változatának belső konzisztenciáját McDonald-féle ómega (ω) és Cronbach-féle alfa (α) koefficiensekkel vizsgáltuk (N = 400) 0,7-es elfogadhatósági határ mellett, valamint megvizsgáltuk a megbízhatósági mutatókat T. Kárász és mtsai. (2022) ajánlásai alapján is. A kiábrándultság skála belső konzisztenciája az elfogadhatósági határ környékén (> 0,7; > 0,622) mozog: ω = 0,716 [95% CI: 0,677-0,755], α = 0,704 [95% CI: 0,665-0,744]. Az egyéni item-statisztikák alapján a 10. tétel mutatja a leggyengébb illeszkedést a skálához (item-rest korreláció: r = 0,241), és elhagyásával a megbízhatóság jelentősen javulna: ω = 0,742, α = 0,741. A kimerülés skála megbízhatósága megfelelőnek bizonyult (> 0,7; > 714): ω = 0,781 [95% CI: 0,751-0,811], α = 0,781 [95% CI: 0,751-0,812]. Az átlagos itemek közötti korreláció 0,416. Ebben a dimenzióban nem volt olyan tétel, amelynek törlése javította volna a belső konzisztenciát.

A Cronbach-alfa valójában a megbízhatóság alsó határának mérőszáma↩︎