tom XXIII / numer 2Barbara Ciżkowicz, Omega McDonalda jako alternatywa dla alfa Cronbacha w szacowaniu rzetelności testu

powrót do archiwum

Wprowadzenie

Ważnym pojęciem w psychometrii i teorii testu jest rzetelność wyników testu. W Klasycznej Teorii Testu (KTT) rzetelność jest zdefiniowana jako stosunek wariancji wyników prawdziwych do wariancji wyników otrzymanych w teście (Brzeziński, 1996; Niemierko, 1999; Hornowska, 2001). Ponieważ wariancji wyniku prawdziwego nie można bezpośrednio obserwować, rzetelność musi być estymowana. Najczęściej test przeprowadzany jest jednokrotnie. W tym przypadku standardowym podejściem do szacowania rzetelności jest metoda wewnętrznej zgodności, a powszechnie stosowanym współczynnikiem w tej metodzie jest współczynnik alfa (α; Cronbach, 1951; Cortina, 1993; Osburn, 2000; Sijtsma, 2009). Został on zaproponowany przez Guttmana (1945) jako lambda (λ3), a później spopularyzowany przez Cronbacha (1951) jako α (Revelle, Zinbarg, 2009). Z uwagi na powszechność stosowania współczynnikowi α Cronbacha poświęcono liczne opracowania psychometryczne (Woodward, Bentler, 1979; Crocker, Algina, 1986; Zimmerman, Zumbo, Lalonde, 1993; Raykov, 1997b; Revelle, Zinbarg, 2009; Dunn, Baguley, Brunsden, 2014; Gignac, 2014; Bonett, Wright, 2015; Green, Yang, 2015). W wielu artykułach przedstawiane są analizy wskazujące kiedy współczynnik α powinien, a kiedy nie powinien być stosowany (Cortina, 1993; Schmitt, 1996; Osburn, 2000; Peters, 2014). Wynika z nich, że α Cronbacha jest użytecznym1 współczynnikiem, ale posiada pewne ograniczenia. Najczęściej α zarzuca się, że nie bada wewnętrznej spójności testu (Schmitt, 1996; Graham, 2006; Sijtsma, 2009a), w sposób punktowy szacuje wartość rzetelności bez podawania przedziałów ufności (Kelley, Pornprasertmanit, 2016) oraz powoduje znaczne niedoszacowanie rzetelności, gdy niespełnione są założenia niezbędne do jej stosowania (Graham, 2006; Sijtsma, 2009a). Dlatego też proponowane są inne współczynniki rzetelności, wśród których wymieniana jest omega McDonalda (ω; Sijtsma, 2009a, 2009b). Dotyczy to szczególnie testów wielowymiarowych (Schmitt, 1996; Osburn, 2000).

1  Liczba cytowań artykułu Cronbacha (1951) według Google Scholar w dniu 4.01.2017 r. sięgnęła 30 978.

Rzetelność w KTT – podstawowe założenia
W KTT przyjęto założenie, że wynik otrzymany testu (X) jest sumą wyniku prawdziwego (T) i błędu pomiaru (E): X = T + E. Ponadto w KTT zakłada się, że błędy pomiaru mają rozkład normalny, są losowe: (ME = 0) i nieskorelowane: (rEiEj = 0), nieskorelowane są również wyniki prawdziwe z błędami pomiaru: (rTiEi = 0) oraz wyniki pomiaru wyrażone są na skali co najmniej interwałowej. 

Rzetelność (ρxx), która informuje o stopniu w jakim wynik danego testu odzwierciedla poziom mierzonej cechy (Hornowska, 2001), w KTT została zdefiniowana jako stosunek wariancja wyniku prawdziwego (Var(T)) do wariancji wyniku otrzymanego (Var(X); Lord, Novick, 1968). Innymi słowy, jest to część całkowitej zmienności zawartej w odpowiedziach badanych, która jest przypisana do cechy mierzonej (Dunn, Baguley, Brunsden, 2014). Zasadniczo koncepcja rzetelności zakłada, że pozycje testu są jednowymiarowe, a naruszenie tego założenia powoduje znaczne niedoszacowanie rzetelności (McDonald, 1999).

Na gruncie KTT opracowano szereg metod empirycznego szacowania rzetelności takich, jak test-retest, form alternatywnych, zgodności wewnętrznej (współczynnik α i ω). Wszystkie one wymagają spełnienia założeń KTT. Współczynnik α jest szczególnym przypadkiem współczynnika ω. Jego stosowanie wymaga dodatkowo spełnienia założenia dotyczącego liniowego związku między wynikami prawdziwymi pozycji (Ti = Tj + aij) dla wszystkich par pozycji, gdzie aij jest stałą, dla konkretnej pary pozycji. Spełnienie tego założenia zapewnia równość wariancji wyników prawdziwych wszystkich pozycji testu.

Zamieszczone poniżej rozważania odnoszą się do szacowania rzetelności metodą zgodności wewnętrznej. Przedstawione w nich porównanie współczynników α i ω ma uzasadnić sens równoczesnego stosowania tych współczynników. W tym celu wskazano, wynikające z analiz teoretycznych oraz badań empirycznych, konsekwencje niespełniania założeń dla relacji między α, ω i ρxx oraz zwrócono uwagę na znaczenie struktury testu w szacowaniu rzetelności. Przedstawiono też sposób obliczania ω na podstawie wyników analizy czynnikowej.

Szacowanie rzetelności w obrębie analizy czynnikowej
W KTT szacowanie rzetelności metodą zgodności wewnętrznej może odbywać się z zastosowaniem analizy czynnikowej (Terry, Kelly, 2012). W takim przypadku identyfikacja modeli pomiarowych wymaga przyjęcia określonych założeń. Do szacowania rzetelności stosowane są modele pomiarowe, które różnią się restrykcyjnością założeń. Do najczęściej wykorzystywanych modeli można zaliczyć modele: równoległy, τ-równoważny, zasadniczo τ-równoważny i generyczny (Dunn, Baguley, Brunsden, 2014). Poniżej przedstawiono ich krótką charakterystykę.

Model równoległy (parallel) jest najbardziej restrykcyjnym modelem pomiarowym stosowanym w określaniu składowych wyniku prawdziwego. Zakłada on, że wszystkie pozycje testu są w badaniu dokładnie sobie równoważne, co oznacza, że muszą mierzyć tę samą zmienną (jednowymiarowość), na tej samej skali, z tą samą dokładnością i z taką samą wariancją błędu (Raykov, 1997a, 1997b). Model równoległy musi więc spełniać następujące warunki:

a) ładunki czynnikowe dla wszystkich pozycji testu są sobie równe λ1 = λ2 = …= λk
b) dodatkowo równe są wariancje błędów Var(e1) = Var(e2) = … = Var(ek)

W modelu τ-równoważnym (tau-equivalent) utrzymane są warunki dotyczące wyniku prawdziwego (równe ładunki czynnikowe), jednak wariancje błędów mogą być różne dla różnych pozycji. Jeszcze mniej wymagające założenia występują w modelu zasadniczo τ-równoważnym (essentially tau-equivalent). Oprócz różnych wariancji błędów dopuszcza się w nim wyniki prawdziwe różniące się o stałą addytywną (dodawaną), czyli jeżeli zapiszemy ładunek czynnikowy i-tej pozycji testu jako funkcję liniową j-tej pozycji (λi = bi + ciλj), to stałe addytywne w tym równaniu (bi) mogą mieć wartości różne od zera, a stałe multiplikatywne (mnożone; ci) muszą mieć wartość 1. Dopuszczenie różnic wyników prawdziwych tylko o stałą addytywną gwarantuje nadal stałość wariancji wyników prawdziwych dla różnych pozycji testu.

Założenia modelu generycznego (congeneric model) są najmniej restrykcyjne. Oprócz różnic w wariancjach błędów dopuszczalne są różne wartości ładunków czynnikowych pozycji testu zarówno co do stałej addytywnej (bi), jak i stałej multiplikatywnej (ci). Tak więc model generyczny jest najbardziej ogólnym modelem stosowanym w szacowaniu rzetelności. Wcześniej omówione modele są jego szczególnymi przypadkami powstającymi poprzez wprowadzanie dodatkowych ograniczeń (Graham, 2006; Dunn, Baguley, Brunsden, 2014).

Do szacowania rzetelności mogą być stosowane różne współczynniki w zależności od założeń spełnianych przez wyniki testu. Stąd w modelu równoległym można szacować rzetelność używając wzoru proroczego Spearmana-Brauna, w którym rzetelność testu jest rzetelnością pojedynczej pozycji (identyczną dla wszystkich pozycji testu), a krotność zmiany długości testu jest liczbą pozycji w teście (McDonald, 1999, s. 123-124). W modelu zasadniczo τ-równoważnym do szacowania rzetelności używany jest współczynnika α Cronbacha, a w modelu generycznym – współczynnik ω McDonalda (Graham, 2006; Green, Yang, 2015).

α Cronbacha w modelu analizy czynnikowej
Przyjęte w KTT założenie, że wynik otrzymany (xi) dla i-tej pozycji testu jest sumą dwóch nieobserwowalnych bezpośrednio składowych: wyniku prawdziwego (ti) i błędu pomiaru (ei), można zapisać (Lord, Novick, 1968): xi = ti + ei.

W modelu analizy czynnikowej, wynik otrzymany można przedstawić jako funkcję ładunków czynnikowych i reszt (Geen, 2015):

xi = ai + λif + ei, co oznacza, że ti = ai + λif

gdzie: ai – stała dla i-tej pozycji; f – wynik dla danego czynnika; λi – ładunek czynnikowy na danym czynniku dla i-tej pozycji; ei – reszta dla i-tej pozycji.

Jeśli model zasadniczo τ-równoważny jest poprawny, wówczas na podstawie ładunków czynnikowych można obliczyć α Cronbacha2 według poniższej zależności (McDonald, 1999; Green, Yang, 2015):

α = k2λ22(X)                                                                                             (1)

gdzie: k – liczba pozycji testu; λ – ładunek czynnikowy; σ2(X) – wariancja wyników
testu ω McDonalda.

2  McDonald (1999) przedstawia dokładne związki kowariancji i wariancji pozycji testu z ładunkami czynnikowymi i wariancją specyficzną w modelu czynnikowym (s. 108) oraz ich uproszczenia związane z przyjęciem założeń modelu zasadniczo τ-równoważnego (s. 115, 121-122).

Zaproponowany przez McDonalda (1978, 1999) współczynnik ω jest szacowaniem rzetelności na podstawie analizy czynnikowej w modelu generycznym. Dla testu jednoczynnikowego ω stanowi stosunek wariancji przypadającej na daną cechę mierzoną do wariancji wyników obserwowanych (McDonald, 1985; Graham, 2006; Brunner, Nagy, Wilhelm, 2012; Terry, Kelly, 2012).

gdzie: λi – standaryzowany ładunek czynnikowy i-tej pozycji; k – liczba pozycji testu;
(1-hi2) – standaryzowana wariancja błędów (Gignac, 2014).

Rycina 1. Modele hierarchiczne czynnika wyższego rzędu (modele 1a i 1b) i podwójnego czynnika (modele 2a i 2b); g – czynnik ogólny; PIQ i VIQ – podczynniki (Gignac, 2008)

Do obliczania ω w testach heterogenicznych używane są modele czynnika wyższego rzędu (higher-order models; rycina 1, model 1a i b) lub modele podwójnego czynnika (bifactor model; rycina 1, model 2a i b), które różnią się założeniami dotyczącymi powiązań między czynnikami (Rindskopf, Rose, 1988; Gignac, 2008; Grygier, 2016). W modelu czynnika wyższego rzędu związek czynnika ogólnego z obserwowalnymi wskaźnikami zachodzi tylko poprzez czynniki niższego rzędu. Model 1a (rycina 1) przedstawia pośrednie powiązanie czynnika drugiego rzędu ze wskaźnikami poprzez czynniki pierwszego rzędu. W modelu 1b zaznaczone zostały powiązania bezpośrednie, jednak ich ładunki czynnikowe ustalono na 0. Tak więc jest on równoważny modelowi 1a. W modelu podwójnego czynnika jest odwrotnie. Związek czynnika ogólnego ze wskaźnikami zachodzi tylko w relacji bezpośredniej bez udziału pośredniczącej roli czynników pierwszego rzędu (model 2a i b). Każda pozycja testu jest wskaźnikiem czynnika ogólnego oraz dodatkowo wiąże się (ładuje) ze specyficzną podskalą, do której dana pozycja należy (Gibbons, Hedeker, 1992).

Dla testów heterogenicznych współczynnik ω został rozszerzony o możliwość oceny rzetelności całego testu (ωt), nasycenia wyników testu czynnikiem ogólnym (ωh hierarchiczna) oraz rzetelności podczynników (ωs) przy kontroli czynnika ogólnego. W tym kontekście ω można zapisać (McDonald, 1999; Zinbarg i in., 2005; Gignac, 2014; Green, Yang, 2015):

Analogicznie do równania (3) i (4) można dokonać obliczeń dla podskal (Rodriguez, Reise, Haviland, 2016):

gdzie: λg – standaryzowane ładunki czynnika ogólnego; λs1, λs2,…, λsp – standaryzowane ładunki podczynników przy kontroli czynnika ogólnego; 1-hi2 – standaryzowana wariancja błędów; k – liczba pozycji testu; s1,…, sp – liczba pozycji w 1,…, p podczynniku (podskali).

Podstawową ideą ω jest oszacowanie odsetka całkowitej wariancji otrzymanych wyników testu przypisanej do czynnika ogólnego i wszystkich podczynników (ωt) oraz odsetka całkowitej wariancji wyników testu związanej tylko z czynnikiem ogólnym (ωh). Tak więc ωinformuje o nasyceniu wyników testu czynnikiem ogólnym. Ponadto równania (5) i (6) pozwalają obliczyć rzetelność każdej podskali (ωs) przy uwzględnieniu czynnika ogólnego. Należy zwrócić uwagę, że w tym przypadku wszystkie składniki w równaniach obejmują tylko pozycje należące do danej podskali.
Relacje między α Cronbacha a ω McDonalda – analiza teoretyczna
Analiza teoretyczna przeprowadzona przez Zinbarga i współpracowników (2005) pozwoliła określić relacje między rzetelnością prawdziwą (ρ) oraz współczynnikami α, ωt i ωh. Poddali oni analizie cztery przypadki różniące się spełnianiem warunku homogeniczności testu (homogeniczny vs heterogeniczny) oraz równością ładunków czynnika ogólnego (wymagana tylko dla α). Wyniki przedstawiono w tabeli 1. 

Tabela 1. Relacje między rzetelnością prawdziwą (ρ) a współczynnikami α, ωt i ωh względem spełniania założeń – analiza teoretyczna (Zinbarg i in., 2005, s. 128)

Testy jednowymiarowe w modelu zasadniczo τ-równoważnym oznaczają spełnienie założeń zarówno dla α, jak i ω (przypadek IV, tabela 1). W efekcie, bez względu na zastosowany współczynnik, ich wartości są sobie równe i stanowią dolną granicą oszacowania rzetelności (ρ). Naruszenie założeń α (przypadek III) lub α i ω (przypadek I i II) powoduje, w każdym przypadku, niższe oszacowanie rzetelności przez współczynnik α niż przez ωt. Podkreślane jest niedoszacowanie rzetelności przez α szczególnie w przypadku testów heterogenicznych (I i II), dla których ωt daje zawsze wyższą wartość rzetelności niż α. Jednak wnioskowanie o mierzonej zmiennej na podstawie wyników testu wymaga również zagwarantowania odpowiedniego poziomu ωh

Przyjmuje się, że ωt, tak jak α, powinno osiągać wartości między 0,70 a 0,95 (Moumni i in., 2016, s. 910). Niestety, nie ma jasnych wytycznych dla dopuszczalności (punktów odcięcia) ωh i ωs (Reise i in., 2013b). Podkreśla się, że jeśli głównym celem stosowania testu jest pomiar jednego, ogólnego konstruktu należy maksymalizować ωh. Jeśli zaś wyniki podskal są bardziej przydatne do celów badawczych, należy zadbać o wysoką wartość ωs (Green, Yang, 2015). Reise i współpracownicy (2013a, s. 137) proponują dla ωh i ωs próbnie przyjąć jako minimalną wartość 0,50 i uznać, że wartość bliższa 0,75 byłaby bardzo korzystna. Podkreślają jednak, że są to ich subiektywne wytyczne.
Konsekwencje niespełniania założeń dla współczynników α i ω – dane empiryczne
W literaturze przedmiotu prezentowane są analizy pozwalające ocenić wrażliwość wskaźników rzetelności na łamanie założeń. W większości przypadków analizy te przeprowadzane są na danych fikcyjnych, co często skutkuje testowaniem większych odchyleń od założeń niż te, z którymi mamy powszechnie do czynienia (Alessandri i in., 2015). Dlatego też dla każdego przykładu podano informacje o generowanych danych. Poniżej przedstawiono cztery przykłady analizy rzetelności wyników testu z zastosowaniem współczynników α i ω.
Przykład 1. Obciążenie α Cronbacha jako estymatora rzetelności badano na danych fikcyjnych dwóch testów (Osburn, 2000). Testy różniły się długością (4 i 8 pozycji) oraz interkorelacją pozycji (tabela 2). Współczynniki α dla obu testów są równe prawdziwej rzetelności, jeśli pozycje są τ-równoważne. Jeśli pozycje spełniają założenie modelu generycznego, α pozostaje nadal bardzo bliska prawdziwej rzetelności. Dla krótszego testu niedoszacowanie jest nieco większe, ale i tak stanowi zaledwie 1% prawdziwej rzetelności. Należy jednak podkreślić, że przyjęta na etapie generowania danych stała multiplikatywna ma niską wartość (ci = 1,5).

Tabela 2. α Cronbacha – obciążenie estymatora jako efekt niespełniania założeń (Osburn, 2000, s. 349)

Wpływ heterogeniczności testu na oszacowanie rzetelności sprawdzano dla testów dwuczynnikowych o trzech poziomach skorelowania czynników (tabela 2). Każdy czynnik ma po dwie lub po cztery pozycje odpowiednio dla krótszego i dłuższego testu. Im niższa wartość korelacji, tym czynniki są bardziej ortogonalne. Analizy pokazały, że w testach heterogenicznych niedoszacowanie rzetelności jest tym większe, im krótszy test i bardziej ortogonalne czynniki. Dla testu zbudowanego z czterech pozycji tworzących dwa silnie heterogeniczne czynniki współczynnik α daje wartość rzetelności o 22% niższą od prawdziwej. Niedoszacowania zmniejszają się, gdy maleje ortogonalność czynników. Na uwagę zasługuje też wyraźnie mniejsza czułość α na odstępstwa od założeń dla dłuższego testu. Dla testu 8-pozycyjnego posiadającego wyraźnie wyodrębnione dwa czynniki niedoszacowanie sięga już tylko 10% prawdziwej rzetelności.
Przykład 2. Wrażliwość α na odstępstwa od założeń modelu zasadniczo τ-równoważnego prezentuje Graham (2006) na przykładzie danych fikcyjnych testu składającego się z pięciu pozycji wygenerowanych dla 60 osób. Pierwsza analiza obejmuje pięć pozycji testu (x1-x5) różniących się tylko stałą addytywną, co oznacza spełnienie założeń modelu zasadniczo τ równoważnego (tabela 3). W dalszych analizach pozycję x5 zastępowano kolejno pozycją x6 i x7, które różniły się od pozycji x5 stałą multiplikatywną (ci) równą odpowiednio 5 i 10. Należy przypomnieć, że wartość ci ≠ 1 dopuszczalna jest tylko w modelu generycznym.
W tabeli 3 zamieszczono oszacowanie rzetelności przy użyciu modelu zasadniczo τ równoważnego (α Cronbacha) i generycznego (ω McDonalda). W przypadku danych spełniających założenia modelu zasadniczo τ-równoważnego (x1-x5) dopasowania obu modeli są tak samo dobre (p = 0,249), a oszacowane rzetelności są sobie równe. W przypadku zamiany w teście pozycji x5 kolejno na x6 i x7 (model generyczny) model zasadniczo τ równoważny jest źle dopasowany, a α jest obciążonym estymatorem rzetelności, przy czym obciążenie wzrasta wraz ze wzrostem odchyleń od założeń (większe, gdy większa wartość stałej multiplikatywnej). Należy podkreślić, że w praktyce α Cronbacha stosuje się dla testów składających się z pozycji o tych samych skalach odpowiedzi.

Tabela 3. Dopasowanie modeli i estymowana rzetelność (Graham, 2006, s. 939)

Przykład 3. Revelle i Zinbarg (2009) porównali wartości współczynników α Cronbacha i ω McDonalda dla sześciu różnych zbiorów danych, przy czym α obliczano tradycyjną metodą i metodą składowych głównych (αpc), a ω wyznaczano dla całego testu (ωt) oraz dla czynnika ogólnego (ωh). Do wyznaczania ω badacze zastosowali eksploracyjną analizę czynnikową.

Analizy obejmują sześć zbiorów zaczerpniętych od Sijtsma (2009). W kolumnie S-1 (tabela 4) współczynniki rzetelności obliczono dla testu składającego się z ośmiu pozycji ocenianych na skali od 0 do 3 i przeprowadzonego na próbie N = 828 (dane rzeczywiste). Analizie poddano też dwa czynniki (S-1a i S-1b) ujawnione w analizie składowych głównych (Principal Component Analysis). Każdy z tych czynników zawiera po cztery pozycje o ładunkach wyższych niż 0,50.

Analizy S-2a, S-2b i S-2c przeprowadzono na danych fikcyjnych. Test S-2a ma strukturę trójczynnikową (po 2 pozycje w czynniku), S-2b – dwuczynnikową (po 3 pozycje), a S-2c – jednoczynnikową. Testy składały się z 6 pozycji o wariancjach σj2 = 0,25 i kowariancjach:
(1) dodatnich i równych dla pozycji należących do jednego czynnika;
(2) zerowych pomiędzy pozycjami z różnych czynników;
(3) o stałej sumie w różnych macierzach, co implikuje równe wartości α.

Z wartości zamieszczonych w tabeli 4 wynika, że α Cronbacha obliczana metodą tradycyjną i metodą składowych głównych daje bardzo zbliżone wartości i to bez względu na rodzaj danych i stopień niespełniania założeń (αpc-α ≤ 0,02). Ponadto we wszystkich przykładach ωt zapewnia wyższe oszacowanie rzetelności niż α. Wybór właściwego współczynnika jest więc bardzo ważny i powinien być poprzedzony analizą struktury testu.

Tabela 4. Oszacowanie rzetelności – α i ω (Revelle, Zinbarg, 2009, s. 8)

Przykłady testów różniących się liczbą czynników (S-2a, S-2b i S-2c) dające te same wartości α potwierdzają słuszność zarzutów stawianych α, że nie informuje ona o wewnętrznej strukturze testu (Stijtsma, 2009; Reise, Bonifay, Haviland, 2013a). Inaczej jest w przypadku ω. Wartości ωt i ωh testów S-2a, S-2b i S-2c ulegają zmianie wraz ze zmianą struktury. Dla tych testów zarówno α, jak i ω wskazują na niedostateczną rzetelność testu do wnioskowania o ogólnym konstrukcie. Ponadto przykład ten jasno pokazuje, że dla testów heterogenicznych raportowanie ωt bez podania ωh jest informacją niepełną i może być mylącą.
Przykład 4. Analizy przedstawione przez Greena i Yang (2015) przeprowadzono na danych fikcyjnych dla N = 500 osób. Test składał się z 10 pozycji (skala Likerta 1-7). Dane wygenerowano tak, by w teście wystąpiły dwa czteropozycyjne czynniki (x1-x4 i x5-x8). Wyniki analizy modelu zasadniczo τ-równoważnego (rycina 2) i modelu podwójnego czynnika z dwoma podczynnikami (rycina 3) zamieszczono w tabelach 5 i 6.

Rycina 2. Model zasadniczo τ-równoważny – wszystkie ładunki czynnikowe równe

Rycina 3. Model podwójnego czynnika (bifactor) – g czynnik ogólny; gr1, gr2 – podgrupy

Tabela 5 zawiera wyniki CFA dla dwóch modeli. Rzetelność oszacowana na podstawie równania (1) w modelu zasadniczo τ-równoważnym (α = 0,797) tylko nieznacznie różni się od obliczonej metodą tradycyjną (α = 0,795). Jednak wartości CFI < 0,90 oraz RMSEA > 0,1 wskazują na złe dopasowanie modelu do danych (Konarski, 2009). W tej sytuacji nie należy interpretować ani szacowanych parametrów modelu, ani współczynników opartych na tych oszacowaniach (Green, Yang, 2015, s. 17). Dobrze dopasowany okazał się model podwójnego czynnika, a rzetelność estymowana współczynnikiem ωt (3) jest wyższa od α o 0,048.

Tabela 5. Rzetelność i wskaźniki dopasowania N = 500 (Green, Yang, 2015, s. 18)

Rozwinięcie ω dla testów heterogenicznych pozwala dodatkowo ocenić nasycenie wyników testu czynnikiem ogólnym związanym z mierzoną zmienną oraz z podczynnikami. Wyniki modelu podwójnego czynnika dla analizowanego przykładu (rycina 3) zamieszczono w tabeli 6.

Tabela 6. Wariancja i rzetelność w modelu podwójnego czynnika (Green, Yang, 2015,
s. 18)

Rzetelność całej skali (ωt = 0,843) wskazuje, że wariancja wyników prawdziwych stanowi 84,3% wariancji wyników otrzymanych. Współczynnik ωh, obliczony zgodnie z równaniem (4), dla czynnika ogólnego całego testu ma wartość 0,575, co oznacza, że czynnik ogólny wyjaśnia 57,5% wariancji otrzymanych wyników testu. Stosunek ωh (0,575) do ωt (0,843) wskazuje, że 68,2% rzetelnej wariancji wyników związanej jest z czynnikiem ogólnym. Pozostała część wariancji wyników (0,268) jest wariancją związaną z dwoma podczynnikami występującymi w skali. Stanowi ona 31,8% wariancji prawdziwej (100*0,268/0,843). Współczynnik ωsi (6) dostarcza dodatkowo informacji o jakości wyników podskal. Rzetelność całej podskali (x1-x4) jest zadowalająca (ωt = 0,779), przy czym około jedna czwarta wariancji wyników otrzymanych tej podskali jest związana z czynnikiem ogólnym (0,267), a 51,2% –
z podskalą.

Jak twierdzi Reise (2012), ωh jest przydatnym wskaźnikiem jednowymiarowość wyników testu, jednak tylko, gdy przyjęty model ma sens teoretyczny i pasuje do danych. Wartość ωh > 0,7 można uznać za dobry wskaźnik jednowymiarowości testu (Reise, Bonifay, Haviland, 2013a; Reise i in., 2013b). Porównanie rzetelności wielowymiarowego, złożonego wyniku całkowitego (ωt) z ωh wskazuje stopień, w jakim wynik całkowity odzwierciedla rzetelną wariancję mierzonego konstruktu. Brak jednak uzasadnionych wskazań minimalnych wartości ωh, które należy uznać za wystarczające, by wyniki całej skali traktować jako dobry wskaźnik badanego konstruktu.

Przykład obliczania ω w SPSS
Do obliczania ω można stosować zarówno eksploracyjną (EFA), jak i konfirmacyjną analizę czynnikową (CFA). EFA jest analizą preferowaną, gdy nie można określić modelu z powodu niewystarczającej wiedzy na temat modelu pomiarowego lub modele okazały się źle dopasowane w CFA (Green, Yang, 2015). 

Komercyjne pakiety statystyczne nie oferują gotowej procedury obliczania ω. Współczynnik ω można otrzymać na dwa sposoby. Jednym z nich jest wykorzystanie pakietu R (R psych package; Revelle, 2017), który dostarcza wartości ω, drugi to obliczanie ω na podstawie wyników analizy czynnikowej przeprowadzonej w komercyjnych pakietach statystycznych. W tym przypadku otrzymujemy wartości ładunków czynnikowych i błędów i konieczne jest wykonanie dodatkowych obliczeń z wykorzystaniem równań (3)-(6).

Poniżej przedstawiono wyniki analizy testu składającego się z 15 pozycji przeprowadzonego na próbie 660 osób (dane rzeczywiste). W CFA wykonanej w Amos 21 testowano model podwójnego czynnika z pięcioma podczynnikami, z których każdy zawierał po 3 pozycje. Model okazał się dobrze dopasowany do danych:
χ2 (40) = 106,12, p < 0,001; RMSEA = 0,051 [90%CI: 0,039-0,062]; CFI = 0,975.

W tabeli 7 zamieszczono standaryzowane ładunki czynnikowe dla czynnika ogólnego oraz pięciu podczynników. W ostatniej kolumnie znajdują się standaryzowane wariancje błędów dla każdej pozycji. Dane te pozwalają obliczyć współ- czynniki ω McDonalda zgodnie z równaniami (3)-(6).

Tabela 7. Wyniki testowania modelu podwójnego czynnika w CFA (N = 660)

W dwóch ostatnich wierszach tabeli 7 zamieszczono odpowiednio sumę standaryzowanych ładunków czynnikowych dla czynnika ogólnego i podczynników oraz kwadraty tych sum. Zsumowano również wariancję błędów. 

Zgodnie z równaniem

Należy zwrócić uwagę, że w obliczeniach dotyczących ω dla podczynników (równania (5) i (6)) uczestniczą tylko pozycje tego podczynnika i to zarówno przy uwzględnianiu czynnika ogólnego, jak i wariancji błędów.

Otrzymane wartości oznaczają, że wszystkie wspólne źródła wariancji wyjaśniają (ωt) 95% wariancji wyników otrzymanych, a (ωh) 86% całkowitej wariancji wyników testu można przypisać czynnikowi ogólnemu. Pierwiastek kwadratowy z ωh (0,93) jest korelacją między czynnikiem ogólnym a wynikiem obserwowanym. Ważne jest też porównanie ωh z ωt. Można zauważyć, że 91% (stosunek ωh do ωt) rzetelnej wariancji testu związanej jest z czynnikiem ogólnym. Tylko 9% (różnica między ωt i ωh) wariancji można przypisać wielowymiarowości testu spowodowanej podczynnikami (Rodriguez, Reise, Haviland, 2016). Na podstawie uzyskanych wyników można stwierdzić, że test jest wysoce rzetelny (ωt = 0,95). Wartość ωh wskazuje również na wysokie nasycenie wyników testu czynnikiem ogólnym, co upoważnia do wnioskowania o poziomie mierzonej cechy na podstawie wyników testu. 

Do podobnych konkluzji prowadzi α, która obliczona metodą tradycyjną dla tego testu ma wartość 0,92.
Podsumowanie
Współczynnik ω McDonalda jest jednym ze współczynników szacowania rzetelności metodą zgodności wewnętrznej. W literaturze wskazywane są jego zalety w porównaniu z powszechnie używaną α Cronbacha. Dlatego też zestawienie zalet i wad obu współczynników powinno ułatwić czytelnikowi decyzję w doborze właściwego.

W opracowaniu przedstawiono podstawowe założenia teoretyczne oraz równania niezbędne do obliczania wartości współczynników ω i α. Z przedstawionych porównań współczynników na poziomie teoretycznym wynika, że ω jest lepszym oszacowaniem rzetelności niż α. W dalszej części przytoczono przykłady pokazujące wpływ łamania założeń na stronniczość ω i α w szacowaniu rzetelności. Należy jednak podkreślić, że przykłady te dotyczą w znacznej części danych fikcyjnych, które istotnie odbiegają od typowych danych empirycznych. Nakazuje to ostrożność w formułowaniu na ich podstawie kategorycznych wniosków. Ponadto na przykładzie danych rzeczywistych dla heterogenicznego testu pokazano sposób obliczania wartości ω na podstawie wyników CFA i równań (3)-(6). Wszystko to pozwala na sformułowanie poniższych spostrzeżeń.

Współczynnik α ma wiele zalet. Procedura jego obliczania jest dostępna we wszystkich pakietach statystycznych, a notacja matematyczna prosta i intuicyjnie zrozumiała. Zapewnia on stosunkowo dokładne oszacowanie rzetelności jeśli spełnione są wymagane założenia lub jeśli odstępstwa od założeń są niewielkie (Green,Yang, 2015).

Współczynnik α posiada też pewne wady. Założenia przyjmowane dla α są bardziej restrykcyjne (model zasadniczo τ-równoważny) niż dla ω (Zinbarg i in., 2005). Szacowanie rzetelności powinno być poprzedzone analizą czynnikową, ponieważ α nie jest odpowiednim współczynnikiem do szacowania rzetelności pomiaru konstruktów o strukturze niejednorodnej (Brunner, Nagy, Wilhelm, 2012; Green, Yang, 2015). Relacja między α a ładunkami czynnikowymi (1) potwierdza, podkreślany w literaturze, brak w α informacji o strukturze testu (Schmitt, 1996; Osburn, 2000; Graham, 2006; Revelle, Zinbarg, 2009; Peters, 2014). Stąd niewłaściwe jest interpretowanie α jako wskaźnika wewnętrznej spójności i jednorodności testu (Stijtsma, 2009; Reise, Bonifay, Haviland, 2013a). Kolejnym zarzutem stawianym α jest punktowe oszacowanie rzetelności w standardowych procedurach SPSS i Statistica (Terry, Kelly, 2012; Kelley, Pornprasertmanit, 2016), chociaż wyznaczanie przedziałów ufności możliwe jest w pakiecie R (Dunn, Baguley, Brunsden, 2014; Bonett, Wright, 2015).

Ponadto naruszenie założeń modelu zasadniczo τ-równoważnego skutkuje niedoszacowaniem rzetelności przez współczynnik α (Graham, 2006; Sijtsma, 2009a). Współczynniki ω dostarczają szczególnie użytecznych informacji o strukturze testu (Revelle, 2017). Dla testów wielowymiarowych pozwalają one ocenić nie tylko rzetelność całego testu (ωt), ale i wpływ czynnika ogólnego (ωh) i podczynników (ωs) na rzetelność testu (Schmitt, 1996; Osburn, 2000). Ponadto jasno zdefiniowany związek między współczynnikami ω i modelem pomiarowym zmniejsza prawdopodobieństwo ich błędnej interpretacji. Założenia konieczne do stosowania ω są mniej restrykcyjne (model generyczny) niż w przypadku α (Zinbarg i in., 2005). Również mniejsza jest wrażliwość ω na odstępstwa od założeń, co w konsekwencji prowadzi do mniejszego niedoszacowania rzetelności (Revelle, Zinbarg, 2009; Green, Yang, 2015).

Jednak współczynnik ω, nie jest wolny od wad. Bazuje on na analizie czynnikowej, co jest przyczyną pewnych utrudnień. Po pierwsze stosowanie ω wymaga od użytkowników znajomości analizy czynnikowej (EFA i/lub CFA). Po drugie szacowanie parametrów w modelach pomiarowych wymaga dużych prób (N ≥ 200; Yang, Green, 2010). Po trzecie modele pomiarowe mogą okazać się źle dopasowane do danych, co w CFA nie uprawnia do ich interpretowania, a w EFA może powodować stronniczość ω (Green, Yang, 2015). Po czwarte dla ωh i ωs brakuje uzasadnionych wskazań jakie wartości tych współczynników można uznać za zadowalające (Reise, Bonifay, Haviland, 2013a). Ostatnim z wymienionych utrudnień jest brak gotowej procedury w SPSS i Statistica udostępniającej wartości ω. Jest ona dostępna w otwartym oprogramowaniu R (Revelle, 2017), jednak jej użytkowanie nie jest intuicyjne.

Omega jest wskazywana przez część badaczy jako lepszy wskaźnik zgodności wewnętrznej zarówno w porównaniu z α, jak i innymi współczynnikami (Raykov, 1997a, 1997b; Zinbarg i in., 2005; Graham, 2006; Revelle, Zinbarg, 2009). Na podstawie przedstawionych przykładów wydaje się najbardziej zasadne używanie zarówno α, jak i ω szczególnie na etapie opracowania testu. Jednak dopóki ω pozostanie niedostępna w pakietach takich, jak SPSS i Statistica wątpliwe jest, by stała się ona powszechnie stosowaną. Zwraca na to uwagą Sijtsma, pisząc: „oprogramowanie powinno być tak łatwe w stosowaniu, jak SPSS, przynajmniej w przypadku kiedy chcemy, żeby nasze narzędzia (psychometryczne) miały wpływ na istotne badania i nie «zgubiły się» w obszarze «niczyim» między teorią i praktyką” (2009b, s. 172).

Literatura cytowana

Alessandri, G., Vecchione, M., Eisenberg, N., Laguna, M. (2015). On the factor structure of the Rosenberg (1965) General Self-Esteem Scale. Psychological Assessment, 27 (2), 621-635, doi: 10.1037/pas0000073

Bonett, D., Wright, T. (2015). Cronbach’s alpha reliability: Interval estimation, hypothesis testing, and sample size planning. Journal of Organizational Behavior, 36, 3-15, doi: 10.1002/job.1960

Brunner, M., Nagy, G., Wilhelm, O. (2012). A tutorial on hierarchically structured constructs. Journal of Personality, 80 (4), 796-846, doi: 10.1111/j.1467-6494.2011. 00749.x

Brzeziński, J. (1996). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN. 

Cortina, J. (1993). What is coefficient alpha? An examination of theory and applications. Journal of Applied Psychology, 78, 98-104, doi: 10.1037/0021-9010.78.1.98

Cronbach, L.J. (1951). Coefficient alpha and the internal structure of a test. Psychometrika, 16, 297-334, doi: 10.1007/BF02310555

Dunn, T., Baguley, T., Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105, 399-412, doi: 10.1111/bjop.12046

Gibbons, R., Hedeker, D. (1992). Full-information item bi-factor analysis. Psychometrika, 57, 423-436, doi: 10.1007/BF02295430

Gignac, G. (2008). Higher-order models versus direct hierarchical models: g as superordinate or breadth factor? Psychology Science Quarterly, 50, 21-43.

Gignac, G. (2014). On the inappropriateness of using items to calculate total scale score reliability via coefficient alpha for multidimensional scale. European Journal of Psychological Assessment, 30 (2), 130-139, doi: 10.1027/1015-5759/a000181

Graham, J. (2006). Congeneric and (Essentially) Tau-Equivalent Estimates of score reliability What they are and how to use them. Educational and Psychological Measurement, 66 (6), 930-944, doi: 10.1177/0013164406288165 

Green, S., Yang, Y. (2015). Evaluation of dimensionality in the assessment of internal consistency reliability: Coefficient alpha and omega coefficients. Educational Measurement: Issues and Practice, 34 (4), 14-20, doi: 10.1111/emip.12100

Grygiel, P. (2016). Test podłużnej niezmienności modelu podwójnego czynnika na przykładzie Kwestionariusza poczucia integracji rówieśniczej. Edukacja, 2 (137), 79-99. 

Gu, F., Little, T., Kingston, N. (2013). Misestimation of reliability using coefficient alpha and structural equation modeling when assumptions of tau-equivalence and uncorrelated errors are violated. Methodology, 9 (1), 30-40, doi: 10.1027/1614-2241/a000052

Guttman, L. (1945). A basis for analyzing test-retest reliability. Psychometrika, 10, 255-282, doi: 10.1007/BF02288892

Hornowska, E. (2001). Testy psychologiczne. Teoria i praktyka. Warszawa: Wydawnictwo Naukowe Scholar.

Kelley, K., Pornprasertmanit, S. (2016). Confidence intervals for population reliability coefficients: Evaluation of methods, recommendations, and software for composite measures. Psychological Methods, 21 (1), 69-92, doi: 10.1037/a0040086

Konarski, R. (2009). Modele równań strukturalnych. Teoria i praktyka. Warszawa: Wydawnictwo Naukowe PWN.

Lord, F., Novick, M. (1968). Statistical theories of mental test scores. Reading, MA: Addison- Wesley.

McDonald, R. (1978). Generalizability in factorable domains: Domain validity and generalizability. Educational and Psychological Measurement, 38, 75-79, doi: 10.1177/001316447803800111

McDonald, R. (1985). Factor analysis and related methods. Hillsdale, NJ: Erlbaum.

McDonald, R. (1999). Test theory: A unified treatment. Mahwah, NJ: Erlbaum.

McDonald, R. (2010). Structural models and the art of approximation. Perspectives on Psychological Science, 5, 675-686, doi: 10.1177/1745691610388766

Mellenbergh, G. (1996). Measurement precision in test score and item response models. Psychological Methods, 1, 293-299, doi: 10.1037/1082-989X.1.3.293

Moumni, M., Van Eck, M., Wendt, K., Reininga, I., Mokkink, L. (2016). Structural validity of the dutch version of the Patient-Rated Wrist Evaluation (PRWE-NL) in patients with hand and wrist injuries. Physical Therapy, 96 (6), 908-916, doi: 10.2522/ptj.20140589

Muthén, L., Muthén, B. (2002). How to use a Monte Carlo study to decide on sample size and determine power. Structural Equation Modeling, 9, 599-620.

Niemierko, B. (1999). Pomiar wyników kształcenia. Warszawa: Wydawnictwa Szkolne i Pedagogiczne.

Novick, M., Lewis, C. (1967). Coefficient alpha and the reliability of composite measurements. Psychometrika, 32, 1-13, doi: 10.1007/BF02289400

Osburn, H. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological Methods, 5 (3), 343-335, doi: 10.1037/1082-989X.5.3.343

Peters, G. (2014). The alpha and the omega of scale reliability and validity. The European Health Psychologist, 16 (2), 56-69.

Raykov, T. (1997a). Estimation of composite reliability for congeneric measures. Applied Psychological Measurement, 21, 173-184, doi: 10.1177/01466216970212006

Raykov, T. (1997b). Scale reliability, Cronbach’s coefficient alpha, and violations of essential tau-equivalence with fixed congeneric components. Multivariate Behavioral Research, 32, 329.353.

Reise, S. (2012). The rediscovery of bifactor measurement models. Multivariate Behavioral Research, 47, 667-696, doi: 10.1080/00273171.2012.715555

Reise, S., Bonifay, W., Haviland, M. (2013a). Scoring and modeling psychological measures in the presence of multidimensionality. Journal of Personality Assessment, 95 (2), 129-140, doi: 10.1080/00223891.2012.725437 

Reise, S., Scheines, R., Widaman, K., Haviland, M. (2013b). Multidimensionality and structural coefficient bias in structural equation modeling: A bifactor perspective. Educational and Psychological Measurement, 73, 5-26, doi: 10.1177/0013164412 449831

Revelle, W. (2017). An overview of the psych package, https://cran.r-project.org/web/packages/psych/vignettes/overview.pdf

Revelle, W., Zinbarg, R. (2009). Coefficients alpha, beta, omega and the glb: Comments on Sijtsma. Psychometrika, 74, 145, doi: 10.1007/s11336-008-9102-z

Rijmen, F. (2010). Formal relations and an empirical comparison among the bi-factor, the testlet, and a second-order multidimensional IRT model. Journal of Educational Measurement, 47, 361-372.

Rindskopf, D., Rose, T. (1988). Some theory and applications of confirmatory second-order factor analysis. Multivariate Behavioral Research, 23, 51-67, doi: 10.1207/ s15327906mbr2301_3

Rodriguez, A., Reise, S., Haviland, M. (2016). Evaluating bifactor models: Calculating and interpreting statistical indices. Psychological Methods, 21 (2), 137-150, doi:10.1037/met0000045

Schmitt, N. (1996). Uses and abuses of coefficient Alpha. Psychological Assessment,8 (4), 350-353.

Sijtsma, K. (2009a). On the use, the misuse, and the very limited usefulness of Cronbach’s α. Psychometrika, 74 (1), 107-120, doi: 10.1007/s11336-008-9101-0

Sijtsma, K. (2009b). Reliability beyond theory and into practice. Psychometrika, 74 (1), 169-173, doi: 10.1007/S11336-008-9103-Y

Terry, L., Kelly, K. (2012). Sample size planning for composite reliability coefficients: Accuracy in parameter estimation via narrow confidence intervals. British Journal of Mathematical and Statistical Psychology, 65, 371-401, doi: 10.1111/j.2044-8317.2011.02030.x 

Woodward, J., Bentler, P. (1979). A statistical lower bound to population reliability. Psychological Bulletin, 6, 1323-1326, doi: 10.1037/0033-2909.85.6.1323 

Yang, Y., Green, S.B. (2010). A note on structural equation modeling estimates of reliability. Structural Equation Modeling, 17, 66-81, doi: 10.1080/10705510903438963

Zimmerman, D., Zumbo, B., Lalonde, C. (1993). Coefficient alpha as an estimate of test reliability under violation of two assumptions. Educational and Psychological Measurement, 53, 33-49, doi: 10.1177/0013164493053001003
Zinbarg, R., Revelle, W., Yovel, I., Li, W. (2005). Cronbach’s α, Revelle’s β, and McDonald’s ωh: Their relations with each other and two alternative conceptualizations of reliability. Psychometrika, 70 (1), 123-133, doi: 10.1007/s11336-003-0974-7

PDF Abstrakt

Rocznik: 2018

Tom: XXIII

Numer: 2

Tytuł: Omega McDonalda jako alternatywa dla alfa Cronbacha w szacowaniu rzetelności testu

Autorzy: Barbara Ciżkowicz

PFP: 311-329

DOI: 10.14656/PFP20180206