Univerzitet u Novom Sadu Univerzitetski centar za...

Univerzitet u Novom Sadu

Univerzitetski centar za primenjenu statistiku

MASTER RAD

Ponašanje indeksa fita prilikom estimacije modela konfirmativne faktorske

analize uz pomoć WLSMV estimatora na kategorijalnim podacima

Mentor: Kandidat:

Doc. dr Petar Čolović Marija Tatalović

Novi Sad, 2017.

Univerzitet u Novom Sadu

UCPS - Univerzitetski centar za primenjenu statistiku

Ključna dokumentacijska informacija

Redni broj:

RBR

Identifikacioni broj:

IBR

Tip dokumentacije:

TD

Monografska dokumentacija

Tip zapisa:

TZ

Tekstualni štampani materijal

Vrsta rada (dipl., mag., dokt.):

VR

Master rad

Ime i prezime autora:

AU

Marija Tatalović

Mentor (titula, ime, prezime, zvanje):

MN

dr Petar Čolović, docent

Naslov rada:

NR

Ponašanje indeksa fita prilikom estimacije

modela konfirmativne faktorske analize uz

pomoć WLSMV estimatora na

kategorijalnim podacima

Jezik publikacije:

JP

Srpski (latinica)

Jezik izvoda:

JI

srp. / eng.

Zemlja publikovanja:

ZP

Srbija

Uže geografsko područje:

UGP

Novi Sad, Vojvodina

Godina:

GO

2017.

Izdavač:

IZ

autorski reprint

Mesto i adresa:

MA

Dr Zorana Đinđića 1, Novi Sad

Fizički opis rada:

FO

(6 poglavlja / 45 stranica / 2 slike / 2

grafikona / 41 referenca / 1 prilog)

Naučna oblast:

NO

Statistika

Naučna disciplina:

ND

Statistika u društvenim naukama

Predmetna odrednica, ključne reči:

PO

Indeksi fita, granične vrednosti, kategorijalni

podaci, konfirmativna faktorska analiza,

WLSMV, Monte Karlo metoda

UDK

Čuva se:

ČU

Biblioteka

Važna napomena:

VN

Izvod:

IZ

Ovaj rad se bavi procenom fita modela

konfirmativne faktorske analize na osnovu

vrednosti indeksa fita. Testiran je efekat koji

primena robusne metode ponderisanih

najmanjih kvadrata (Mean and variance

adjusted weighted least square – WLSMV)

ima na vrednosti četiri najčešće korišćena

indeksa fita (RMSEA, CFI, TLI i SRMR)

prilikom modelovanja kategorijalnih

varijabli sa četiri uređene kategorije. Na

osnovu modela konfirmativne faktorske

analize umerene kompleksnosti simulirani su

podaci sa četiri uređene kategorije. Za

simulaciju podataka korišćena je Monte

Karlo metoda. Generisano je ukupno 18000

uzoraka, pri čemu su varirani sledeći faktori:

veličina uzorka (250, 500, 1000), izgled

distribucije (simetrična, umereno

asimetrična, izrazito asimetrična) i vrsta

specifikacije modela (dobro specifikovan i

pogrešno specifikovan). Utvrđeno je da se

granične vrednosti dobijene WLSMV

estimacijom na kategorijalnim podacima

razlikuju od graničnih vrednosti koje se u

literaturi najčešće koriste. Mogućnost

odbijanja porešno specifikovanog modela

značajno je otežana na uzorcima veličine

N=250, kao i na uzorcima veličine N=500

kada je distribucija podataka ekstremno

asimetrična. Vrsta specifikacije modela u

najvećoj meri utiče na varijablinost u

vrednostima RMSEA, CFI i TLI, dok su

vrednosti SRMR pod velikim uticajem ne

samo vrste specifikacije, već i veličine

uzorka.

Datum prihvatanja teme od strane NN veća:

DP

Datum odbrane:

DO

Članovi komisije:

(ime i prezime / titula / zvanje / naziv

organizacije / status)

KO

predsednik: dr Ljiljana Mihić, vanredni

profesor, Filozofski fakultet u Novom Sadu

član: dr Dejan Pajić, docent, Filozofski

fakultet u Novom Sadu

član: dr Petar Čolović, docent, Filozofski

fakultet u Novom Sadu, mentor

University of Novi Sad

University Center for Applied Statistics

Key word documentation

Accession number:

ANO

Identification number:

INO

Document type:

DT

Monograph documentation

Type of record:

TR

Textual printed material

Contents code:

CC

Master’s thesis

Author:

AU

Marija Tatalović

Mentor:

MN

dr Petar Čolović, assistant professor

Title:

TI

Behavior of fit indices in confirmatory factor

analysis model estimation with WLSMV

estimation method

Language of text:

LT

Serbian (Latin)

Language of abstract:

LA

eng. / srp.

Country of publication:

LP

Serbia

Locality of publication:

LP

Novi Sad, Vojvodina

Publication year:

PY

2017.

Publisher:

PU

Author’s publication

Publication place:

PP

Dr Zorana Đinđića 1, Novi Sad

Physical description:

PD

(6 chapters / 45 pages / 2 pictures / 2 graphs

/ 41 bibliographic citations / 1 appendix)

Scientific field:

SF

Applied statistics

Scientific discipline:

SD

Statistics in social sciences

Subject, Key words:

SKW

Fit indices, cutoff values, categorical data,

confirmatory factor analysis, WLSMV,

Monte Carlo method

UC

Holding data:

HD

Library

Note:

N

Abstract:

AB

In this study we were interested in the values

of fit indices when a confirmatory factor

analysis model is estimated with categorical

data. The effect that the Mean and variance

adjusted weighted least square (WLSMV)

estimation method has on the values of the

four commonly used fit indices (RMSEA,

CFI, TLI and SRMR) was considered. A

confirmatory factor analysis model of

moderate complexity was created for data

simulation. Monte Carlo method was used to

simulate variables with four ordered

categories. A total of 18,000 samples were

generated, and the following factors were

varied: sample size (250, 500, 1000),

appearance of the distribution (symmetric,

moderately asymmetrical, extremely

asymmetrical) and model specification (well

specified and misspecified). It was found that

the cutoff values obtained by WLSMV

estimation on categorical data differ from the

cutoff values that are most often used in the

literature. The possibility of rejecting a

misspecified model is significantly impeded

when the sample size is N = 250, as well as

when the sample size is N = 500 and

distribution of data is extremely

asymmetrical. The model specification

influences the variability in the values of

RMSEA, CFI and TLI the most, while the

values of SRMR are greatly influenced not

only by the model specification, but also by

the sample size.

Accepted on Scientific Board on:

AS

Defended:

DE

Thesis Defend Board:

DB

president: dr Ljiljana Mihić, associate

professor, Faculty of Philosophy Novi Sad

member: dr Dejan Pajić, assistant professor,

Faculty of Philosophy Novi Sad

member: dr Petar Čolović, assistant

professor, Faculty of Philosophy Novi Sad,

mentor

REZIME

Ovaj rad se bavi procenom fita modela konfirmativne faktorske analize na osnovu

vrednosti indeksa fita. Testiran je efekat koji primena robusne metode ponderisanih najmanjih

kvadrata (Mean and variance adjusted weighted least square – WLSMV) ima na vrednosti četiri

najčešće korišćena indeksa fita (RMSEA, CFI, TLI i SRMR) prilikom modelovanja

kategorijalnih varijabli sa četiri uređene kategorije. Na osnovu modela konfirmativne faktorske

analize umerene kompleksnosti simulirani su podaci sa četiri uređene kategorije. Za simulaciju

podataka korišćena je Monte Karlo metoda. Generisano je ukupno 18000 uzoraka, pri čemu su

varirani sledeći faktori: veličina uzorka (250, 500, 1000), izgled distribucije (simetrična,

umereno asimetrična, izrazito asimetrična) i vrsta specifikacije modela (dobro specifikovan i

pogrešno specifikovan). Utvrđeno je da se granične vrednosti dobijene WLSMV estimacijom

na kategorijalnim podacima razlikuju od graničnih vrednosti koje se u literaturi najčešće

koriste. Mogućnost odbijanja porešno specifikovanog modela značajno je otežana na uzorcima

veličine N=250, kao i na uzorcima veličine N=500 kada je distribucija podatka ekstremno

asimetrična. Vrsta specifikacije modela u najvećoj meri utiče na varijablinost u vrednostima

RMSEA, CFI i TLI, dok su vrednosti SRMR pod velikim uticajem ne samo vrste specifikacije,

već i veličine uzorka.

Ključne reči: Indeksi fita, granične vrednosti, kategorijalni podaci, konfirmativna faktorska

analiza, WLSMV, Monte Karlo metoda

ABSTRACT

In this study we were interested in the values of fit indices when a confirmatory factor

analysis model is estimated with categorical data. The effect that the Mean and variance

adjusted weighted least square (WLSMV) estimation method has on the values of the four

commonly used fit indices (RMSEA, CFI, TLI and SRMR) was considered. A confirmatory

factor analysis model of moderate complexity was created for data simulation. Monte Carlo

method was used to simulate variables with four ordered categories. A total of 18,000 samples

were generated, and the following factors were varied: sample size (250, 500, 1000),

appearance of the distribution (symmetric, moderately asymmetrical, extremely asymmetrical)

and model specification (well specified and misspecified). It was found that the cutoff values

obtained by WLSMV estimation on categorical data differ from the cutoff values that are most

often used in the literature. The possibility of rejecting a misspecified model is significantly

impeded when the sample size is N = 250, as well as when the sample size is N = 500 and

distribution of data is extremely asymmetrical. The model specification influences the

variability in the values of RMSEA, CFI and TLI the most, while the values of SRMR are

greatly influenced not only by the model specification, but also by the sample size.

Key words: Fit indices, cutoff values, categorical data, confirmatory factor analysis,

WLSMV, Monte Carlo method

SADRŽAJ

UVOD ........................................................................................................................................ 1

Kategorijalni podaci ............................................................................................................... 1

Konfirmativna faktorska analiza ............................................................................................ 3

Neki od metoda estimacije za kategorijalne podatke ............................................................. 4

Procena podobnosti modela ................................................................................................... 6

Hi-kvadrat (χ2) test .............................................................................................................. 6

Indesi fita ............................................................................................................................ 6

Pregled postojeće literature .................................................................................................. 10

Cilj i zadaci ovog istraživanja .............................................................................................. 13

METOD ................................................................................................................................... 16

Modeli i specifikacije modela .............................................................................................. 16

Dizajn istraživanja ................................................................................................................ 17

Generisanje uzoraka ............................................................................................................. 18

Analiza podataka .................................................................................................................. 19

REZULTATI............................................................................................................................ 20

Neispravno konvergirani rezultati ........................................................................................ 20

Aritmetičke sredine i standardne devijacije indeksa fita ...................................................... 20

Granične vrednosti indeksa fita i odstupanja od preporučenih graničnih vrednosti ............ 24

Moć odbijanja pogrešno specifikovanog modela i greška tipa I .......................................... 25

Analiza varijanse .................................................................................................................. 28

DISKUSIJA ............................................................................................................................. 30

LITERATURA ........................................................................................................................ 34

PRILOG ................................................................................................................................... 38

R sintaksa ............................................................................................................................. 38

1

UVOD

Kategorijalni podaci

U psihologiji, kao i u mnogim drugim društvenim naukama, prikupljanje podataka

pomoću mernih instrumenata je vrlo česta praksa. Bilo da se radi o podacima o psiho-fizičkim

merama, osobinama ličnosti ili ispitivanju stavova o određenoj temi, istraživači se u svom radu

susreću sa podacima kategorijalne prirode.

Psihološki konstrukti, kao što su na primer stavovi, često su mereni uz pomoć Likertove

skale (npr. Uopšte se ne slažem, Uglavnom se ne slažem, Uglavnom se slažem, Potpuno se

slažem) u kojoj su kategorije odgovora poređane uzlaznim redosledom, zbog čega tada

govorimo o postojanju ordinalnih podataka (Rhemulla, Brosseau-Liard, & Savalei, 2012).

Tipični primeri mernih instumenata koji se koriste u psihologiji jesu psihometrijski

testovi ili upitnici u okviru kojih se nalaze pitanja ili tvrdnje na koje ispitanik treba da odgovori

uz pomoć prethodno ustanovljene skale sa određenim brojem isključivih kategorija. Ovi

instrumenti su kreirani tako da mere jedan ili više teorijskih konstrukata, koji su najčešće

kontinuirani, dok su opaženi odgovori diskretne realizacije. U takvim slučajevima postoji

potencijalna neusaglašenost između pretpostavki koje se nalaze u osnovi statističkog modela i

empirijskih karakteristika podataka koje je potrebno analizirati (Flora & Curran, 2004).

Konvencionalan način za ispitivanje odnosa između opaženih varijabli i teorijskog

konstrukta jeste pomoću linearne funcije, u kojoj se predviđa uticaj teorijskog konstrukta na

vektor dobijen pomoću vrednosti opaženih varijabli. Međutim, kada su opažene varijable

kategorijalne, upotreba linearne funkcije nije prikladna, jer može doći do narušavanja

pretpostavki, loše predikcije i nemogućnosti razumevanja odnosa koji postoje u podacima

(Edwards et al., 2012). Zbog toga se, umesto korišćenja metoda baziranih na vrednostima

Pirsonovih produkt-moment korelacija, preporučuje korišćenje matrica tetrahoričnih korelacija

za binarne opažene varijable i matrica polihoričnih korelacija za opažene varijable sa više od

dve kategorije (Olsson, 1979).

2

Čak i kada su kategorijalni podaci naizgled približno normalno distribuirani, oni su po

svojoj prirodi diskretni, ili kako ih je Bolen okarakterisao ’grubi’ ili ’kruti’, te po definiciji ne

mogu biti normalno distribuirani (Bollen, 1989). Analogija sa pragovima pomaže nam da bliže

sagledamo kategorijalne podatke. Kada kategorijalni podaci imaju uređene kategorije, odnosno

kada se prilikom njihovog opisivanja koristi tačno utvrđen redosled, govorimo o postojanju

ordinalnih podataka. Smatra se da do pojave ordinalnih podataka dolazi kada kontinuiranu

latentnu varijablu (y*) podelimo na distinktivne kategorije. Tačke koje dele kontinuiranu

latentnu varijablu (y*) na određeni broj kategorija (C) nazivaju se pragovi (τ), dok je ukupan

broj pragova jednak broju kategorija minus jedan (C – 1). Stoga opažene ordinalne varijable

(y) nastaju na sledeći način (Bollen, 1989):

y=

{

1, 𝑎𝑘𝑜 𝑦∗ ≤ 𝜏1 2, 𝑎𝑘𝑜 𝜏1 < 𝑦

∗ ≤ 𝜏2 ⋮ ⋮ 𝐶 − 1, 𝑎𝑘𝑜 𝜏𝐶−2 < 𝑦∗ ≤ 𝜏𝐶−1𝐶, 𝑎𝑘𝑜 𝜏𝐶−1 ≤ 𝑦∗

U najvećem broju slučajeva broj kategorija kreće se između dve i sedam, a istraživanja

koja su se bavila pitanjem broja kategorija koje varijabla treba da ima kako bismo mogli da je

tretiramo kao kontinuiranu, došla su do zaključka prema kome varijable sa pet ili više

kategorija možemo smatrati kontinuiranim (Lei & Wu, 2012; Flora & Curran, 2004).

Zbog varijabli sa manje od pet kategorija, koje u psihološkim istraživanjima nisu

retkost, istraživači moraju poznavati metodologiju namenjenu obradi kategorijalnih podataka i

biti svesni grešaka koje nastaju u slučaju da prilikom obrade zanemare njihovu kategorijalnu

prirodu. Neki od upitnika pomoću kojih se u psihološkim istraživanjima prikupljaju podaci

podrazumevaju odgovore u dihotomnom formatu (npr. Minnesota Multiphasic Personality

Inventory – MMPI ili Marlowe-Crowne Social Desirability Scale – MCSD), ali i trostepene ili

četvorostepene skale odgovora (npr. Beck Depression Inventory – BDI).

3

Konfirmativna faktorska analiza

Konfirmativna faktorska analiza (Confirmatory factor analysis - CFA) spada u širu

familiju analiza poznatih kao Modelovanje strukturalnim jednačinama (Stractural Equation

modeling - SEM), a njen glavni cilj jeste sažimanje broja varijabli.

U osnovi konfirmativne faktorske analize nalazi se ideja o povezanosti manifestnih

varijabli (npr. odgovora na stavke u upitniku) sa latentnim faktorom (teorijskim konstruktom).

Model konfirmativne faktorske analize podrazumeva kauzalni odnos u kome latentni faktor

utiče na manifesne varijable, odnosno manipulacija latentnog faktora dovodi do promene u

vrednostima manifesnih varijabli. Tako postavljen model naziva se reflektivnim, dok u slučaju

kada jedna kompozitna varijabla obuhvata zajedničku varijansu više manifesnih varijabli i

promena u vrednostima manifesnih varijabli utiče na vrednost kompozitne varijable govorimo

o postojanju formativnog modela (Edwards & Bagozzi, 2000).

Regresioni koeficijenti, takođe poznati i kao faktoska opterećenja (λ), daju nam

informaciju o jačini veze između manifesnih varijabli i latentnog faktora. Kada za grupu

manifesnih varijabli kažemo da imaju opterećenja na nekom faktoru, to znači da nam

procenjene vrednosti koeficijenata mogu pomoći da razumemo latentni faktor koji one

modeluju (Edwards, Wirth, Houts, & Xi, 2012). Na osnovu vrednosti manifesnih varijabli

kreiramo matricu kovarijansi uzorka (S), a pomoću nje i matrice kovarijansi predviđene

modelom σ(𝛳) možemo da vršimo procenu parametara modela. Osnovni cilj nam je da

parametre procenimo tako da razlika između ove dve matrice kovarijansi bude minimalna

(Sugawara & MacCallum, 1993).

Najčešće korišćeni metodi procene u konfirmativnoj faktorskoj analizi jesu Metod

maksimalne verodostojnosti (Maximum likelihood – ML) i Metod generalizovanih najmanjih

kvadrata (Generalized least squares – GLS). Jedna od pretpostavki za upotrebu ovih metoda je

da manifesne varijable prate multivarijatnu normalnu raspodelu (Edwards et al., 2012), stoga

je njihova adekvatna primena moguća na normalno distribuiranim kontinuiranim podacima i

simetričnim kategorijalnim podacima sa pet ili više kategorija, gde ovi metodi daju

zadovoljavajuće vrednosti hi-kvadrat testa i indeksa fita, kao i nepristrasne procene parametara

(Lei & Wu, 2012; Rhemulla, Brosseau-Liard, & Savalei, 2012).

4

Tokom godina razvijani su metodi estimacije koji bi koristili istraživačima u

situacijama kada pretpostavka multivarijatne normalnosti nije zadovoljena. Jedan takav metod

jeste Braunov ADF (Asymptotically distribution free) prema kome nenormalnost distribucije

nema efekta na vrednost χ2 testa (Browne, 1984). Pored Braunovog ADF-a, razvijena je još

jedna strategija sa ciljem da se omogući uvođenje nenormalnih podataka u analizu. Ova

strategija postaje sve popularnija, a u pitanju je procedura Satora-Bentler skaliranja (Satorra-

Bentler, S-B). Logika ove procedure je takva da se vrednost χ2 i standardnih grešaka dobijenih

Metodom maksimalne verodostojnosti prilagođavaju uz pomoć distributivnih karakteristika

opaženih podataka (Finney & DiStefano, 2006). Iako u njenom opisu stoji da pored

nenormalnih kontinuiranih podataka može tretirati i kategorijalne podatke, nekoliko autora je

upozorilo da ova procedura nije pogodna za upotrebu na kategorijalnim podacima zbog same

činjenice da koristi matricu Pirsonovih produkt-moment korelacija (Wirth & Edwards, 2007).

Međutim, postoje i autori koji zagovaraju upotrebu ovog metoda na kategorijalnim podacima

uz pomoć matrica tetrahoričnih ili polihoričnih korelacija (Lei & Wu, 2012).

Neki od metoda estimacije za kategorijalne podatke

Kako bi upotreba Braunovog ADF-a mogla da bude proširena i na kategorijalne

podatke, kreiran je Metod ponderisanih najmanjih kvadrata (Weighted least squares – WLS)

čija funkcija podesnosti glasi:

𝐹𝑊𝐿𝑆 = (𝑟 − �̂�)′𝑊−1(𝑟 − �̂�),

gde r predstavlja vektor dobijen iz matrice tetrahoričnih ili polihoričnih korelacija na uzorku i

nosi informaciju o pragovima, �̂� je vektor dobijen iz matice korelacija predviđenjih modelom,

dok je 𝑊 ponderisana matrica kovarijanse (Muthén, 1984).

Iako je prvobitno delovalo da će uvođenje WLS metoda efikasno rešiti problem

estimacije kategorijalnih podataka, naučnici su vrlo brzo uočili njegove manjkavosti. One se

tiču teškoća sa invertovanjem ponderisane matrice (𝑊−1), s obzirom na to da ovaj postupak

zahteva dovoljno veliki uzorak (Wirth & Edwards, 2007). Nekoliko autora se složilo da je

5

neophodno da uzorak bude N=1000 ili veći kako bi WLS dao zadovoljavajuće rezultate

(Potthast, 1993; Flora & Curran, 2004).

Da bi se prevazišla ograničenja koja upotreba WLS estimatora sa sobom nosi, razvijene

su njegove robusne varijante. U pitanju su Metod ponderisanih najmanjih kvadrata koji

koriguje aritmetičku sredinu χ2 (Mean-adjusted weighted least square - WLSM) i Metod

ponderisanih najmanjih kvadrata koji koriguje aritmetičku sredinu i varijansu χ2 (Mean- and

variance-adjusted weighted least square - WLSMV) (Finney & DiStefano, 2006). Prednosti

ovih metoda estimacije su u tome što za izračunavanje koriste samo dijagonalne elemete

ponderisane matrice, čime se njeno inverovanje znatno olakšava, a ujedno nam omogućavaju i

upotrebu manjih uzoraka (Wirth & Edwards, 2007). Opšta formula za oba robusna WLS

estimatora izgleda na sledeći način:

𝐹𝑅𝑊𝐿𝑆 = (𝑟 − �̂�)′𝑊𝐷−1(𝑟 − �̂�),

gde su r i �̂� definisani isto kao i u prethodnoj formuli, dok 𝑊𝐷 sadrži samo dijagonalne elemente

ponderisane matrice (Wirth & Edwards, 2007).

Razlog za favorizovanje upotrebe WLSMV estimatora, nasuprot WLSM estimatoru,

dolazi iz činjenice da WLSMV ostvaruje niže vrednosti greške tipa I (Muthén, du Toit, &

Spisic, 1997).

U poslednje vreme često se spominje da je i robusna varijanta Metode neponderisanih

najmanjih kvadrata (Mean- and variance-adjusted unweighted least squares – ULSMV) vrlo

efikasna za estimaciju modela sa kategorijalnim podacima (Li, 2014; Xia, 2016), međutim u

ovom radu smo se fokusirali na upotrebu WLSMV estimatora, te podrobnije predstavljanje

ULSMV metoda prevazilazi njegove granice.

6

Procena podobnosti modela

Odluka o prihvatanju ili odbacivanju modela konfirmativne faktorske analize može biti

doneta na osnovu χ2 testa ili na osnovu indeksa fita (indeksa podesnosti) koji su nastali iz

potrebe da se prevaziđu neke od manjkavosti koje upotreba χ2 testa sa sobom nosi. U daljem

tekstu biće reči o prednostima i manama ova dva pristupa evaluciji modela.

Hi-kvadrat (χ2) test

Prvi pristup podrazumeva klasično testiranje hipoteza, gde se prema nultoj hipotezi

pretpostavlja da je predloženi model konzistentan sa opaženim podacima. Fit modela određuje

se u terminima dihotomne odluke, u kojoj se prihvatanje ili odbacivanje modela zasniva na

upoređivanju asimptotske χ2 distribucije sa kritičnim vrednostima χ2 distribucije za određeni

broj stepeni slobode i prethodno utvrđeni nivo α vrednosti (Tanaka, 1993).

χ2 test se smatra najdirektnijim i očiglednim testom u modelovanju strukturalnim

jednačinama (Barrett, 2007). Osnovna zamerka koja se upućuje na račun korišćenja χ2 testa

jeste njegova zavisnost od veličine uzorka, zbog koje je ovaj test na velikim uzorcima gotovo

uvek statistički značajan (Hutchinson & Olmos, 1998; Fan, Thompson, & Wang, 1999),

odnosno odbacivanje nulte hipoteze sa povećanjem uzorka postaje sve češće.

Indesi fita

Indeksi fita kreirani su iz potrebe da se izbegne dihotomno zaključivanje, koje se nalazi

u osnovi testiranja hipoteza, kao i da se umanji uticaj veličine uzorka. Da bi se izbegle

manjkavosti χ2 testa, istraživači su počeli da razvijaju indekse fita tako da u obzir uzimaju

veličinu uzorka, broj varijabli ili broj stepeni slobode, a njihove vrednosti mogu da se nađu u

određenom rasponu. U slučaju da je naš model odbijen, ovi indeksi nam daju informaciju o

meri u kojoj je naš model protivrečan podacima (Barrett, 2007).

Postoje različiti načini na koje možemo klasifikovati indekse fita, a u ovom radu ćemo

se fokusirati na podelu na apsolutne i relativne indekse. Za izračunavanje apsolutnih

7

(neinkrementalnih) indeksa fita nije nam potreban osnovni model na osnovu koga se vrši

upoređivanje, već nam njihova vrednost govori o tome koliko dobro naš model pristaje

podacima u poređenju sa nepostojanjem bilo kakvog modela. Dok relativni (inkrementalni,

komparativni) indeksi fita upoređuju vrednost χ2 sa osnovnim modelom, a nulta hipoteza je da

su sve varijable nekorelisane (Tanaka, 1993).

Nas će zanimati ponašanje dva relativna indeksa fita (CFI i TLI) i dva apsolutna indeksa

fita (RMSEA i SRMR) koji se najčešće koriste (Garrido, Abad, & Ponsoda, 2016), zbog čega

sledi njihovo podrobnije predstavljanje:

• Indeks fita modela (Goodness-of-fit index – CFI) je inkrementalni indeks fita

definisan kao (Bentler, 1990):

𝐶𝐹𝐼 = 1 −max (𝜆𝑀, 0)

max (𝜆𝑁, 𝜆𝑀, 0)

gde je 𝜆𝑁 necentralizovani parametar osnovnog modela, a 𝜆𝑀 necentralizovani parametar

specifikovanog modela. Osnovni model podrazumeva model u kome su sve varijable

nekorelirane i služi kao osnova za poređenje i procenu uspešnosti specifikovanog modela

(Hooper, Coughlan, & Mullen, 2008). Necentralizovani parametar 𝜆𝑀 računa se kao 𝜒𝑀2 −

𝑑𝑓𝑀, gde je 𝜒𝑀2 hi-kvadrat statistik koji testira jednakost matrice kovarijanse dobijene na uzorku

i matrice kovarijanse dobijene na osnovu specifikovanog modela. CFI je indeks fita koji

procenjuje stepen u kome je specifikovani model superioran u odnosu na osnovni model u

reprodukovanju matrice kovarijanse dobijene na osnovu uzorka (Garrido, Abad, & Ponsoda,

2016). CFI može da zauzme vrednosti od 0 do 1, a više vrednosti govore o boljem fitu u

poređenju sa osnovnim modelom (Hu & Bentler, 1999).

• Taker-Luisov indeks (Tucker-Lewis index – TLI) je inkrementalni indeks fita.

Bentler i Bonet su korigovali prvobitnu formulu, predloženu od strane Takera i

Luisa, i ona izgleda na sledeći način (Tucker & Lewis, 1973; Bentler & Bonett,

1980):

8

𝑇𝐿𝐼 = 1 −

𝜆𝑀𝑑𝑓𝑀𝜆𝑁𝑑𝑓𝑁

= 1 − (𝜆𝑀𝜆𝑁) (𝑑𝑓𝑁𝑑𝑓𝑀

)

gde je 𝜆𝑀 necentralizovani parametar specifikovanog modela, 𝑑𝑓𝑀 broj stepeni slobode

specifikovanog modela, 𝜆𝑁 necentralizovani parametar osnovnog modela, 𝑑𝑓𝑁 broj stepeni

slobodne osnovnog modela. Logika funkcionisanja TLI ista je kao i za CFI, s tim da TLI vrši

korekciju za broj stepeni slobode, čime nas obaveštava o relativnom smanjenju nepodobnosti

za broj stepeni slobode. To je dodatno prilagođavanje koje u obzir uzima parsimoničnost

modela (Mahler, 2011). Vrednosti TLI se obično nalaze u rasponu od 0 do 1, ali s obzirom na

to da nije normiran, ponekad može da primi vrednosti i van ovog raspona. Ujedno, vrednosti

TLI su uvek niže od vrednosti CFI zato što se razlomak 𝜆𝑀

𝜆𝑁 koji se oduzima od 1 u formuli

množi sa 𝑑𝑓𝑁

𝑑𝑓𝑀, koji je uvek veći od 1 (Kenny & McCoach, 2003). S druge strame, vrednosti CFI

i TLI teže da postanu slučnije kada se broj manifesnih varijabli povećava, zato što sa njihovim

povećanjem odnos 𝑑𝑓𝑁

𝑑𝑓𝑀 teži jedinici (Garrido, Abad, & Ponsoda, 2016).

• Kvadratni koren prosečne kvadrirane greške aproksimacije (Root-mean-square

error of approximation – RMSEA) je apsolutni indeks koji je definisan na sledeći

način (Steiger & Lind, 1980):

𝑅𝑀𝑆𝐸𝐴 = max(√𝜆𝑀

𝑑𝑓𝑀(𝑁 − 1), 0)

gde su 𝜆𝑀 i 𝑑𝑓𝑀 necentralizovani parametar i broj stepeni slobode za specifikovani model, a 𝑁

predstavlja veličinu uzorka. Donja granica za RMSEA je 0, a niže vrednosti govore o boljem

fitu, odnosno o manjoj grešci aproksimacije (Garrido, Abad, & Ponsoda, 2016).

• Standardizovani kvadratni koren prosečnog kvadrata reziduala (Standardized root

mean squared residual – SRMR) je apsolutni indeks fita čija formula glasi (Jöreskog

& Sörbom, 1981):

9

𝑆𝑅𝑀𝑅 =√∑ ∑ (

𝑠𝑖𝑗

√𝑠𝑖𝑖√𝑠𝑗𝑗−

�̂�𝑖𝑗

√�̂�𝑖𝑖√�̂�𝑗𝑗)

2

𝑖𝑗=1

𝑝𝑖=1

𝑝(𝑝 + 1)/2

gde 𝑠𝑖𝑗 predstavlja opaženu kovarijansu, �̂�𝑖𝑗 kovarijansu dobijenu na osnovu teorijskog modela,

𝑠𝑖𝑖 i 𝑠𝑗𝑗 su opažene standardne devijacije, �̂�𝑖𝑖 i �̂�𝑗𝑗 su standarne devijacije dobijene na osnovu

teorijskog modela, dok 𝑝 predstavlja broj opaženih varijabli. SRMR je indeks koji meri

apsolutni fit tako što računa standardizovanu razliku između opažene i modelom predviđene

matrice kovarijanse ili korelacije. Za ovaj indeks donja granica je 0, a niže vrednosti govore o

boljem fitu, odnosno manjoj rezidualnoj grešci. U slučaju kada su manifesne varijable

kategorijalne, kovarijanse u formuli bivaju zamenjene polihoričnim korelacijama, a standardne

devijacije – njihovim standardizovanim vrednostima (Garrido, Abad, & Ponsoda, 2016).

Kao što smo iz prethodnog mogli da vidimo, u osnovi izračunavanja CFI, TLI i RMSEA

nalazi se 𝜒2, dok za SRMR to nije slučaj. Najčešće korišćene granične vrednosti (cutoff values)

indeksa fita na osnovu kojih se donosi odluka o prihvatanju modela (u našem slučaju: CFI >

0.95, TLI > 0.95, RMSEA < 0.06 i SRMR < 0.08) potiču iz članka u kome su Hu i Bentler

sproveli ekstenzivnu analizu baziranu na Metodu maksimalne verodostojnosti. Do

ustanovljenih graničnih vrednosti došli su tako što su vrednosti indeksa varirali u određenom

rasponu, a registrovan je procenat odbijanja modela, čime je omogućeno izračunavanje

verovatnoće da se počine greška tipa I i greška tipa II (Hu & Bentler, 1999). Ovaj članak, kao

i nekoliko drugih, uveli su ideju graničnih vrednosti koje bi trebalo da ukažu na prihvatljiv fit

modela prilikom korišćenja indeksa fita.

Međutim, postoje i autori koji smatraju da uvođenje indeksa fita nije dovelo do

poboljšanja u zaključivanju. Oni tvrde da njihova upotreba dozvoljava praktičarima da loše

specifikovane modele ipak proglase zadovoljavajućim. Glavna tema koja se javlja u člancima

ovog tipa je da postojanje jedne fiksne granične vrednosti koja govori o podobnosti modela

jednostavno nije verodostojna (Barrett, 2007). Još jedan od problema može biti osetljivost

indeksa fita na različite tipove modela, zbog čega je teško uspostaviti granične vrednosti

indeksa tako da budu osetljive na lošu specifikaciju, ali ne i na različite tipove modela (Fan &

Sivo, 2007). Dok, Marš i saradnici podstiču istraživače, recezente i urednike časopisa da budu

10

pažljivi prilikom generalizovanja rezultata do kojih su došli Hu i Bentler (Hu & Bentler, 1999),

s obzirom na to da su zaključci doneti na vrlo ograničenom uzorku loše specifikovanih modela

(Marsh, Hau, & Wen, 2004). Ne postoje jasne smernice o tome koji je najbolji način za ocenu

fita modela pomoću indeksa fita, ali bi prikazivanje vrednosti različitih indeksa bilo

neophodno, zato što se različiti indeksi fokusiraju na različite aspekte modela (Hooper,

Coughlan, & Mullen, 2008), čime se povećava šansa da neadekvatan fit bude primećen.

S obzirom na to da se poslednjih godina o podesnosti modela najčešće zaključuje na

osnovu graničnih vrednosti nekoliko indeksa fita, mislimo da je za poboljšanje procesa

modelovanja neophodno ispitati njihovo ponašanje pod različitim uslovima.

Pregled postojeće literature

Najvažnija stvar u modelovanju strukturalnim jednačinama jeste izbor metode

estimacije koja se koristi za dobijanje vrednosti parametara, standardnih grešaka i indeksa fita

(Finney & DiStefano, 2006). Kao i kod drugih statističkih procena, dva kriterijuma se mogu

primeniti prilikom procene relativnog učinka estimatora: nepristrasnost i varijacija. Između dva

estimatora, onaj koji je manje pristrasan je najčešće poželjan, a između dva estimatora koji su

podjednako nepristrasni, onaj koji ima manje slučajne varijacije je najčešće poželjan (Fan et

al., 1999).

Autori koji su se bavili pregledom radova sa idejom da provere normalnost varijabli

korišćenih u njima, došli su do poražavajućeg zaključka da većina istraživača ne ispituje

distribuciju svojih podataka, već jednostavno pretpostavlja normalnost (Finney & DiStefano,

2006). Nenormalnost podataka dovodi do povišenih vrednosti hi-kvadrata, a samim tim i do

prekomernog odbacivanja ispravno specifikovanih modela (Hutchinson & Olmos, 1998).

Pronađeno je da ML estimator produkuje relativno tačne procene parametara pod uslovom

nenormalnosti, međutim hi-kvadrat statistik i standardne greške procenjenih parametara imaju

tendenciju da pokažu pristrasnost sa povećavanjem nenormalnosti (Flora & Curran, 2004;

Finney & DiStefano, 2006).

Funkcionisanje ML estimatora na kategorijalnim podacima se pogoršava sa

smanjenjem broja kategorija, povećanjem nenormalnosti i smanjenjem veličine uzorka (Lei &

11

Wu, 2012). Prethodna istraživanja su pokazala da upotreba estimatora zasnovanih na normalnoj

teoriji na kategorijalnim podacima stvara pristrasne procene parametara i netačne standardne

greške, pogotovo kada je broj ordinalnih kategorija manji od četiri (Xia, 2016).

Uprkos velikom broju istraživanja koja se bave indeksima fita, gotovo da su sva

fokusirana na upotrebu ML ili GLS estimatora na kontinuiranim podacima (npr. Sugawara &

MacCallum, 1993; Ding, Velicer, & Harlow, 1995; Hu & Bentler, 1998). Malo je onih koja

govore o tome u kojoj meri se smernice razvijene na osnovu kontinuiranih podataka mogu

upotrebiti za evaluaciju modela kada su podaci kategorijalni (Edwards et al., 2012).

Kada je uzorak veoma mali, deluje da hi-kvadrat test dobijen WLSMV estimacijom

prečesto odbacuje pretpostavljeni model, kao što je viđeno na uzorku veličine N=200 (Li,

2014). Pored toga, i nenormalnost latentnih varijabli ima uticaja na inflaciju hi-kvadrata, pa se

tako sa primenom robusnog WLS povećava javljanje greške tipa I, što dovodi do toga da

istraživači odbacuju korektno specifikovane modele mnogo češće nego što bi to bilo očekivano

(Flora & Curran, 2004). Kada je model pogrešno specifikovan, vrednost hi-kvadrata se

značajno povećava sa porastom veličine uzorka (Koziol, 2010), što nam ujedno govori i o tome

da se moć odbacivanja loše specifikovanog modela povećava sa povećanjem veličine uzorka

(Yu, 2002).

Dobar indeks fita bi trebalo da što manje sistematski varira (naviše ili naniže) koliko

god je to moguće, a idealan indeks fita bi trebalo da ima i što manju slučajnu varijaciju (Fan,

Thompson, & Wang, 1999). Pojam sistematske varijacije odnosi se na promenu u vrednostima

rezultata u funkciji bilo koje varijable koja se posmatra u okviru nacrta, dok je slučajna

varijacija nepredvidiva i ne možemo da je pripišemo bilo kom izvoru (Newsom, 2015).

Indeksi fita bi trebalo da budu neosetljivi na veličinu uzorka, odnosno da budu

nezavisni od njegove veličine. To znači da varijacija indeksa koja je nastala kao posledica

promene veličine uzorka treba da bude najmanja moguća. Pored toga, oni su osmišljeni tako

da obezbeđuju informaciju o stepenu u kome je model dobro ili loše opisuje date podatke, iz

čega sledi da bi stepen misspecifikacije modela trebalo da daje najveći doprinos varijaciji

indeksa fita (Fan et al., 1999).

12

Očekuje se da će uslovi koji doprinose inflaciji vrednosti hi-kvadrata takođe doprineti

i pristrastnosti u drugim indeksima fita zasnovanim na njegovim vrednostima, i tako dovesti

do toga da i oni predlože lošiji fit. Ako govorimo o CFI i RMSEA, znamo da su ova dva indeksa

fita u okviru svoje funkcije fita delom bazirana na veličini uzorka, te će i oni verovatno biti

pristrasni do neke granice (Flora & Curran, 2004). RMSEA ima tendenciju da se približava 0

sa porastom veličine uzorka, bez obzira na broj opaženih kategorija i pragova korišćenih u

kategorizaciji (Li, 2014; Xia, 2016). Kada je model ispravno specifikovan, vrednosti CFI i TLI

bazirane na WLSMV sa porastom veličine uzorka u beskonačnost konvergiraju ka 1 i

asimptotske vrednosti ovih indeksa ne zavise od vrednosti pragova (Xia, 2016).

Ju je sproveo simulacionu studiju kako bi istražio adekvatnost predloženih graničnih

vrednosti za nekoliko indeksa fita prilikom primene WLSMV metode na binarnim varijablama

u CFA modelu, pri čemu je varirao veličinu uzorka i tipove misspecifikacije modela. Pronašao

je da je aritmetička sredina vrednosti RMSEA bazirana na WLSMV niža od aritmetičke sredine

vrednosti RMSEA bazirane na ML za kontinuirane podatke, a da su aritmetičke sredine za

vrednosti TLI i CFI više od onih baziranih na ML za kontinuirane podatke (Yu, 2002).

Prethodna istraživanja, koja su vršila kategorizaciju opaženih kontinuiranih varijabli sa

različitim nivoima skjunesa i kurtozisa, zaključila su da se sa odvajanjem skjunesa i kurtozisa

opaženih varijabli od nule, estimacija poznate faktorske strukture pogoršava, bez obzira na to

što statistička teorija u osnovi CFA analize sa polihoričnim korelacijama ne pravi eksplicitne

pretpostavke o skjunesu i kurtozisu opaženih varijabli (Flora & Curran, 2004).

Kada govorimo o kategorijalnim opaženim varijablama, zavisnost indeksa fita od

pragova za kategorizaciju nije poželjna osobina, zato što promena u vrednostima indeksa fita

koja dolazi od vrednosti pragova za kategorizaciju može maskirati prisustvo pogrešne

specifikacije u modelu (Xia, 2016). Indeksi fita dobijeni pomoću WLSMV zavisni su od

vrednosti postavljenih pragova, naročito kada su podaci binarni i modeli izrazito pogrešno

specifikovani (Xia, 2016). To znači da čak i kada teorijski model i predloženi model ostaju

nepromenjeni, različiti pragovi dovode do različitog stepena fita predloženog modela

podacima.

13

Prilikom estimacije modela sa binarnim varijablama uz pomoć WLSMV estimatora,

predložene granične vrednosti TLI, CFI, RMSEA i SRMR (Hu & Bentler, 1999), retko su

odbacivale trivijalno pogrešno specifikovane modele, naročito na velikim uzorcima (Yu,

2002). Kada su modeli pogrešno specifikovani, obrasci ponašanja RMSEA, CFI i TLI nisu

jasni, zato što sa povećanjem veličine uzorka u beskonačnost oni ne konvergiraju ka svojim

teorijskim vrednostima (Xia, 2016). Razlog tome može biti činjenica da su vrednosti ovih

indeksa konfundirane vrednostima pragova za kategorizaciju kada je model pogrešno

specifikovan (Xia, 2016). Greška tipa I i snaga za CFI i RMSEA bili su jednaki ili jako bliski

0, dok su se stope odbijanja modela smanjivale sa povećanjem veličine uzorka i jačine

faktorskih opterećenja (Koziol, 2010).

Ako uporedimo indekse fita dobijene na kategorijalnim podacima primenom WLSMV

metode, oni koji su bazirani na vrednostima hi-kvadrata su bili poželjniji od onih koji nisu, dok

je RMSEA poželjniji od CFI (Koziol, 2010). Autor navodi da bi rezultati ove studije trebalo da

se koriste kao informacija za donošenje odluke pri modelovanju, međutim nalgašava da ni

jedno poređenje analiza nije preporučljivo u svim situacijama, zbog čega je neophodno da

istraživači uzmu u obzir kontekst i svrhu svoje analize.

Cilj i zadaci ovog istraživanja

U ovom radu bavićemo se ponašanjem indeksa fita prilikom estimacije modela

konfirmativne faktorske analize na ordinalnim podacima sa 4 kategorije, kada se kao estimator

koristi WLSMV. Sprovešćemo Monte Karlo simulaciju podataka u kojoj ćemo varirati veličinu

uzorka i pozicije pragova, za koje su prethodna istraživanja utvrdila da imaju uticaj na vrednosti

indeksa fita, pri modelovanju podataka kategorijalne prirode. Ujedno, izvršićemo i trivijalnu

pogrešnu specifikaciju modela, kako bismo utvrdili da li se kriterijumi za odbacivanje modela

na ovnovu vrednosti indeksa fita dobijenih na kontinuiranim podacima (Hu & Bentler, 1999)

mogu primeniti i na kategorijalne. Na samom kraju, daćemo i preporuke za buduća empirijska

istraživanja koja se bave evaluacijom modela konfirmativne faktorske analize sprovedene na

kategorijalnim podacima.

Evaluiraćemo četiri najčešće korišćena indeksa fita na istom modelu konfimativne

faktorske analize, od kojih su dva inkrementalna (CFI i TLI), a dva apsolutna (RMSEA i

14

SRMR) indeksa. Zanimaće nas i njihova razlika u ponašanju u zavisnosti od toga da li se

prilikom njihovog izračunavanja u obzir uzima vrednost hi-kvadrata za (CFI, TLI i RMSEA),

ili ne (SRMR).

Iako je akcenat stavljen na bavljenje indeksima fita, u pojedinim analizama ćemo

zaključke dobijene na osnovu njihovih vrednosti upoređivati sa zaključcima dobijenim na

osnovu hi-kvadrat testa, kako bismo bliže razumeli da li se i na koji način njihov odnos menja

sa promenom uslova modelovanja na kategorijalnim podacima.

Prva pretpostavka odnosi se na veličinu uzorka. Očekujemo da će vredosti CFI i TLI

rasti sa povećanjem veličine uzorka (Xia, 2016), dok će se vrednost RMSEA sa povećanjem

veličine uzorka smanjivati (Li, 2014; Xia, 2016). Što se SRMR indeksa tiče, zbog nedostatka

informacija o njegovom ponašanju pri promeni veličine uzorka, ne možemo da damo

specifičnu pretpostavu.

Druga pretpostavka je da će predložene granične vrednosti indeksa (Hu & Bentler,

1999) fita retko odbacivati pogrešno specifikovan model (Yu, 2002), kao i da će se moć

odbacivanja pogrešno specifikovanog modela na osnovu ovih vrednosti smanjivati sa

povećanjem veličine uzorka (Koziol, 2010).

Treća pretpostavka tiče se uticaja asimetričnosti distribucije na vrednosti indeksa fita.

Očekujemo da će asimetričnosti distribucije imati uticaj na vrednosti indeksa fita (Xia, 2016),

a s obzirom na to da se njihovo ponašanje po prvi put ispituje na osnovu nivoa asimetričnosti

korišćenim u ovom istraživanju, zanimaće nas da uočimo obrasce njihovog ponašanja.

Četvrta pretpostavka odnosi se na međusobno upoređivanje ova četiri indeksa.

Očekujemo da će ponašanje indeksa fita baziranih na vrednostima hi-kvadrata (CFI, TLI i

RMSEA) imati vrednosti približnije predloženim graničnim vrednostima (Hu & Bentler, 1999)

u poređenju sa indeksom koji je nezavisan od vrednosti hi-kvadrata (SRMR) (Koziol, 2010).

Pored toga očekujemo da će vrednosti RMSEA biti približnije predloženim vrednostima u

poređenju sa CFI (Koziol, 2010). Nemamo informaciju o tome kako bi se TLI indeks

pozicionirao u poređenju sa RMSEA i CFI, te stoga pretpostavku vezanu za njegovo ponašanje

15

zadržaćemo samo na tome da će njegove vrednosti biti približnije predloženim vrednostima u

poređenju sa SRMR.

Prema znanju autora, zasnovanom na ekstenzivnom pregledu dosadašnjih istraživanja,

ovo je prva analiza koja se bavila pomenutim indeksima fita na podacima sa 4 kategorije, koja

zaključke o njihovom ponašanju izvodi na osnovu istog modela i njegove misspecifikovanje

varijante, pri čemu su varirani veličina uzorka i pragovi za kategorizaciju. U uvodnom delu je

već spomenuta važnost ove vrste podataka za psihološka istraživanja, kao i istraživanja u

društvenim naukama uopšte.

16

METOD

Modeli i specifikacije modela

Kreirali smo dva modela konfirmativne faktorske analize: dobro (adekvatno)

specifikovan model i pogrešno specifikovan (misspecifikovan) model. Oba navedena modela

su umerene kompleksnosti i za njih su zadovoljeni uslovi identifikacije. Uvođenje suštinski

smislenih modela u Monte Karlo simulaciju ima za cilj povećanje eksterne validnosti rezultata

simulacije. Dobro specifikovan model je po strukturi u potpunosti odgovarao pretpostavljenim

modelu, dok se pogrešno specifikovan model razlikovao od pretpostavljenog modela.

Estimacija oba modela izvršena je pomoću WLSMV estimatora.

Dobro specifikovan model sastojao se iz tri latentna faktora i devet indikatora (Slika 1).

Indikatori y1, y2 i y3 merili su prvi faktor, indikatori y4, y5 i y6 drugi faktor, a indikatori y7,

y8 i y9 treći faktor. Faktorska opterećenja za svih devet indikatora na pripadajuće latentne

faktore iznosila su 0.7, dok su njihove greške merenja bile jednake 0.51. Korelacije između sva

tri para latentnih faktora iznosile su 0.5, dok je varijansa svakog latentnog faktora bila fiksirana

na 1.

Slika 1. Izgled dobro specifikovanog modela konfirmativne faktorske analize

17

Pogrešno specifikovan model je, u poređenju sa pretpostavljenim modelom, dodatno

sadržao i dva višestruka zasićenja (Slika 2). Indikator y1 je pored opterećenja od 0.7 na prvom

faktoru imao i opterećenje u vrednosti od 0.3 na drugom faktoru, dok je indikator y4 pored

opterećenja od 0.7 na drugom faktoru imao i opterećenje u vrednosti od 0.3 na trećem faktoru.

Ovaj metod pogrešne specifikacije modela poznat je kao metod fiksne misspecifikacije, a s

obzirom na to da su vrednosti kros-korelacija iznosile 0.3, radi se o vrsti trivijalne

misspecifikacije (Pornprasertmanit, Wu, & Little, 2012).

Slika 2. Izgled pogrešno specifikovanog modela konfirmativne faktorske analize

Dizajn istraživanja

Korišćen je trofaktorski balansirani eksperimentalni nacrt u kome su varirani sledeći

faktori:

1. Specifikacija modela: dobro specifikovan ili pogrešno specifikovan

2. Veličina uzorka: 250, 500, 1000 (Hu & Bentler, 1998; Hu & Bentler, 1999)

3. Distribucija podataka: Simetrična (pragovi: -1.25, 0.00, 1.25), Umereno asimetrična

(pragovi: -0.31, 0.79, 1.66) i Ekstremno asimetrična (pragovi: 0.28, 0.71, 1.23)

(Rhetmulla, Brosseau-Liard, & Savalei, 2012). Pragovi su postavljeni tako da nam

18

omoguće kreiranje tri različite distribucije ordinalnih podataka sa četiri kategorije,

odnosno distribucije u kojima se u svakoj od pojedinačnih kategorija nalazi određen

procenat podataka (Slika 3). Vrednosti koeficijenata zakošenosti (skewness) koji bi

opisivali ove tri distribucije nalaze se u sledećim rasponima: od -0.15 do 0.18 za

simetričnu distribuciju, od 0.54 do 0.82 za umereno asimetričnu distribuciju i od 0.86

do 1.30 za ekstremno asimetričnu distribuciju, dok se vrednosti koeficijenata

spljoštenosti (kurtosis) kreću: od -0.67 do -0.40 za simetričnu distribuciju, od -0.43 do

-0.03 za umereno asimetričnu distribuciju i od -0.72 do 0.08 za ekstremno asimetričnu

distribuciju. Kao što možemo da primetimo, upotreba upravo pomenutih koeficijenata

na ordinalnim podacima ne daje ispravnu sliku. Oslanjanje na njihove vrednosti dovelo

bi nas do pogrešnog zaključka da su sve tri posmatrane distribucije normalne, što očito

nije slučaj. Za ordinalne podatke ne bi trebalo računati vrednosti ova dva koeficijenta.

Slika 3. Procenat podataka u svakoj od četiri kategorije kada su pragovi: simatrični, umereno

asimetrični i ekstremno asimetrični

Generisano je ukupno 18000 (2 x 3 x 3 x 1000) uzoraka, odnosno po 1000 replikacija

za svaku od 18 mogućih kombinacija faktora. Registrovali smo vrednosti četiri indeksa fita

(RMSEA, CFI, TLI, SRMR), a ovakav dizajn nam je omogućio sistematsku procenu uticaja

pomenutnih faktora.

Generisanje uzoraka

Da bismo došli do potrebnih podataka koristili smo Monte Karlo simulaciju sprovedenu

pomoću simsem paketa (Pornprasertmanit, Miller, & Schoemann, 2016). Tom prilikom

pridržavali smo se sledečih koraka:

19

1. Simulacija velikog broja setova podataka na osnovu dobro specifikovanog i pogrešno

specifikovanog modela

2. Fitovanje pretpostavljenog modela na svaki od simuliranih setova podataka

3. Registrovanje pojedinačnih vrednosti indeksa fita

4. Formiranje empirijskih uzoračkih distribucija indeksa fita

Analiza podataka

Sve analize sprovedene su u R 3.3.1 softveru (R Core Team, 2016), a sintaksa je

dostupna u prilogu.

U analizama smo koristili aritmetičke sredine, standardne devijacije i vrednosti

jednostranih 95%-ih intervala poverenja empirijskih uzoračkih distribucija. Na osnovu dobro

specifikovanog modela utvrdili smo granične vrednosti indeksa fita za sve predložene

kombinacije veličine uzorka i izgleda distribucije. Granične vrednosti za RMSEA i SRMR

nalaze se na devedeset i petom percentilu njihovih distribucija, a granične vrednosti za CFI i

TLI na petom percentilu njihovih distribucija.

Pored toga, registrovali smo broj neispravno konvergiranih rezultata, zatim smo

odredili raspon vrednosti indeksa i odstupanja graničnih vrednosti dobijenih na osnovu

simulacija od preporučenih graničnih vrednosti. Vrednosti Kendalovog W koeficijenta

konkordance govore nam o sličnosti u ponašanju ispitivanih indeksa fita. Izračunali smo moć

odbijanja loše specifikovanog modela na osnovu preporučenih graničnih vrednosti i graničnih

vrednosti dobijenih na osnovu simulacija, kao i visinu greške tipa I na osnovu graničnih

vrednosti dobijenih na osnovu simulacija. Na samom kraju, sproveli smo i trostruku analizu

varijanse kako bismo utvrdili doprinos svakog pojedinačnog faktora i interakcija faktora na

varijansu u empirijskim uzoračnim distribucijama za svaki od ispitivanih indeksa fita.

20

REZULTATI

Neispravno konvergirani rezultati

Predstavljanje rezultata započinjemo uvidom u broj neispravno konvergiranih rezultata

za svaku od mogućih kombinacija faktora. Do problema neispravno konvergiranih rezultata

dolazi kada se prilikom estimacije dobiju statistični nemoguće vrednosti (npr. negativne

vrednosti jedne ili više rezidualnih varijansi). Prilikom estimacije dobro specifikovanog

modela sva rešenja su uspešno konvergirana, međutim kada je u pitanju loše specifikovan

model, problemi sa konvergencijom javili su se na malim uzorcima i povećavali su se sa

porastom asimetričnosti distribucije (Tabela 1). S obzirom na to da se procenat neispravno

konvergiranih rezultata kreće između 0.1% i 1.4% smatramo da je neuspešnost konvergencije

za modele koje smo simulirali u ovom istraživanju minimalna. Nesipravno konvergirani

rezultati izbačeni su iz svih daljih analiza, osim prilikom sprovođenja trostruke analize

varijanse.

Tabela 1

Broj neispravno konvergiranih rezultata za 1000 replikacija u svim uslovima

Specifikacija

modela

Simetrična distribucija Umereno asimetrična

distribucija

Ekstremno asimetrična

distribucija

250 500 1000 250 500 1000 250 500 1000

Dobra 0 0 0 0 0 0 0 0 0

Pogrešna 2 0 0 9 1 0 14 0 0

Aritmetičke sredine i standardne devijacije indeksa fita

Pregled aritmetičkih sredina i standardnih devijacija za dobro specifikovan i pogrešno

specifikovan model dostupan je u Tabeli 2. Uviđamo da prilikom estimacije dobro

specifikovanog modela postoje jasni obrasci njihovog ponašanja. Aritmetičke sredine za

RMSEA i SRMR opadaju sa povećanjem veličine uzorka, dok porast veličine uzorka na CFI i

TLI deluje tako što njihove aritmetičke sredine rastu. Povećanje asimetričnosti distribucije

dovodi do suprotnog efekta. Sa porastom asimetričnosti distribucije aritmetičke sredine

RMSEA i SRMR rastu, a efekat na CFI i TLI je takav da one sa povećanjem asimetričnosti

distribucije opadaju. Kada su u pitanju standardne devijacije, one opadaju sa povećanjem

21

veličine uzorka, dok sa povećanjem asimetričnosti distribucije rastu za sve posmatrane indekse

fita.

Kada je model pogrešno specifikovan, situacija nije tako jasna. Aritmetičke sredine i

standardne devijacije za CFI i TLI se prilikom variranja veličine uzorka i asimetričnosti

distribucije ponašaju isto kao u dobro specifikovanom modelu. Isto važi i za uticaj veličine

uzorka na aritmetičke sredine i standardne greške SRMR i RMSEA. Međutim, uticaj

asimetričnosti distribucije na vrednosti RMSEA i SRMR u pogrešno specifikovanom modelu

dovodi do toga da one variraju na nepredvidljiv način.

Tabela 2

Aritmetičke sredine, standardne devijacije indeksa fita za dobro specifikovan i pogrešno

specifikovan model

Model Distribucija Uzorak RMSEA CFI TLI SRMR

AS SD AS SD AS SD AS SD

Do

bro

sp

ecif

iko

van

Simetrična

250 0.015 0.018 0.993 0.011 0.998 0.024 0.031 0.005

500 0.009 0.012 0.997 0.005 1.000 0.012 0.022 0.003

1000 0.006 0.008 0.999 0.002 1.000 0.006 0.015 0.002

Umereno

asimetrična

250 0.018 0.019 0.991 0.013 0.993 0.027 0.032 0.005

500 0.012 0.013 0.996 0.006 0.997 0.013 0.023 0.004

1000 0.009 0.009 0.998 0.003 0.998 0.007 0.016 0.003

Ekstremno

asimetrična

250 0.025 0.020 0.983 0.018 0.980 0.034 0.035 0.006

500 0.018 0.014 0.992 0.009 0.990 0.017 0.025 0.004

1000 0.012 0.010 0.996 0.005 0.995 0.008 0.018 0.003


AS SD AS SD AS SD AS SD

Po

gre

šno

sp

ecif

ikov

an

Simetrična

250 0.048 0.020 0.974 0.016 0.962 0.025 0.039 0.006

500 0.049 0.012 0.976 0.010 0.964 0.016 0.032 0.004

1000 0.050 0.007 0.976 0.007 0.964 0.010 0.029 0.003

Umereno

asimetrična

250 0.051 0.019 0.971 0.018 0.957 0.027 0.039 0.006

500 0.051 0.012 0.974 0.011 0.961 0.016 0.033 0.004

1000 0.050 0.008 0.975 0.008 0.963 0.011 0.029 0.004

Ekstremno

asimetrična

250 0.051 0.020 0.967 0.021 0.951 0.032 0.041 0.006

500 0.048 0.013 0.972 0.014 0.958 0.020 0.033 0.005

1000 0.047 0.008 0.975 0.009 0.962 0.013 0.028 0.004

Informacija o rasponu vrednosti indeksa fita dobijenih na osnovu simulacija pomoći će

nam da bolje razumemo njihovu varijaciju (Tabela 3). Kao što možemo da vidimo na osnovu

dobro specifikovanog modela, raspon vrednosti indeksa fita razlikuje se pod različitim

eksperimentalnim uslovima i najveći je kada su uzorci mali. Sa povećanjem veličine uzorka

rasponi vrednosti se nedvosmisleno smanjuju. Kada je u pitanju distribucija podataka, razlike

u rasponima vrednosti nisu toliko izražene.

22

Zanimljivo je skrenuti pažnju i na konkretne vrednosti indeksa koje su obuhvaćene

ovim rasponima, pa tako primećujemo da TLI varira više od CFI, kao i da zbog činjenice da je

normiran CFI kao najvišu zauzima vrednost 1, dok TLI nije normiran, zbog čega postiže i

vrednosti veće od 1. Vrednosti RMSEA u svim eksperimentalnim uslovima imaju bar jedan

uzorak na osnovu koga je proglašen idealan fit, dok vrednosti SRMR iako jako bliske nuli, ni

u jednom od uzoraka nisu dosegle ovu vrednost.

Tabela 3

Minimum, maksimum i raspon vrednosti indeksa fita dobijenih simulacijom


Do

bro

sp

ecif

iko

van

Simetrična

250 0.000-0.074

(0.074)

0.927-1.000

(0.073)

0.891-1.058

(0.167)

0.018-0.047

(0.029)

500 0.000-0.047

(0.047)

0.972-1.000

(0.028)

0.958-1.029

(0.071)

0.012-0.034

(0.022)

1000 0.000-0.031

(0.031)

0.987-1.000

(0.013)

0.981-1.014

(0.033)

0.008-0.024

(0.016)

Umereno

asimetrična

250 0.000-0.077

(0.077)

0.922-1.000

(0.078)

0.883-1.071

(0.188)

0.017-0.052

(0.035)

500 0.000-0.052

(0.052)

0.959-1.000

(0.041)

0.939-1.032

(0.093)

0.012-0.035

(0.023)

1000 0.000-0.044

(0.044)

0.976-1.000

(0.024)

0.964-1.014

(0.050)

0.008-0.026

(0.018)

Ekstremno

asimetrična

250 0.000-0.082

(0.082)

0.894-1.000

(0.106)

0.842-1.062

(0.220)

0.022-0.058

(0.036)

500 0.000-0.060

(0.060)

0.945-1.000

(0.055)

0.918-1.031

(0.113)

0.013-0.041

(0.028)

1000 0.000-0.042

(0.042)

0.973-1.000

(0.027)

0.960-1.016

(0.056)

0.010-0.027

(0.017)


Po

gre

šno

sp

ecif

ikov

an

Simetrična

250 0.000-0.103

(0.103)

0.915-1.000

(0.085)

0.873-1.021

(0.148)

0.021-0.059

(0.038)

500 0.000-0.083

(0.083)

0.937-1.000

(0.063)

0.905-1.011

(0.106)

0.017-0.047

(0.030)

1000 0.024-0.070

(0.046)

0.950-0.994

(0.044)

0.925-0.991

(0.066)

0.019-0.040

(0.021)

Umereno

asimetrična

250 0.000-0.098

(0.098)

0.902-1.000

(0.098)

0.852-1.034

(0.182)

0.022-0.064

(0.042)

500 0.000-0.080

(0.080)

0.939-1.000

(0.061)

0.909-1.009

(0.100)

0.017-0.047

(0.030)

1000 0.015-0.075

(0.060)

0.941-0.998

(0.057)

0.912-0.996

(0.054)

0.017-0.040

(0.023)

Ekstremno

asimetrična

250 0.000-0.103

(0.103)

0.879-1.000

(0.121)

0.819-1.026

(0.207)

0.021-0.063

(0.042)

500 0.000-0.081

(0.081)

0.918-1.000

(0.082)

0.877-1.007

(0.130)

0.018-0.049

(0.031)

1000 0.021-0.072

(0.051)

0.942-0.995

(0.053)

0.913-0.993

(0.080)

0.018-0.041

(0.023)

23

Rasponi vrednosti indeksa u okviru pogrešno specifikovanog modela veće su od onih

za dobro specifikovan model u svim slučajevima osim kada govorimo o upotrebi TLI indeksa

na malim uzorcima. Trebalo bi naglasiti i da se rasponi vrednosti indeksa fita za dobro i

trivijalno pogrešno specifikovan model u velikoj meri prepokrivaju.

Sličnosti u ponašanju indeksa fita u dobro i pogrešno specifikovanom modelu ispitali

smo pomoću Kendalovog W koeficijenta (Tabela 4). S obzirom na to da smo se bavili sa dva

indeksa čije vrednosti bliske 0 govore o dobrom fitu (RMSEA i SRMR) i dva indeksa čije

vrednosti bliske 1 govore o dobrom fitu (CFI i TLI), ne treba da nas čudi da visoke vrednosti

W koeficijenta javljaju upravo kod ovih parova indeksa. U dobro specifikovanom modelu,

najveća sličnost primećena je između CFI i TLI, dok je sličnost u ponašanju RMSEA i SRMR

manje izražena, ali se i dalje može smatrati značajnom. U pogrešno specifikovanom modelu se

CFI i TLI ponašaju na potpuno identičan način, a i povezanost između RMSEA i SRMR je

naglašenija u poređenju sa dobro specifikovanim modelom. Razlog tome može biti promena u

obliku distribucije vrednosti indeksa fita do koje dolazi kada je model pogrešno specifikovan.

Tabela 4

Vrednosti Kendalovog W koeficijenta konkordance u dobro specifikovanom modelu i

pogrešnom specifikovanom modelu

Dobro spefifikovan model

Pogrešno specifikovan model

RMSEA CFI TLI SRMR

RMSEA CFI TLI SRMR

RMSEA 1.000 0.001 0.020 0.783 RMSEA 1.000 0.015 0.015 0.849

CFI 0.001 1.000 0.980 0.217 CFI 0.015 1.000 1.000 0.145

TLI 0.020 0.980 1.000 0.252 TLI 0.015 1.000 1.000 0.145

SRMR 0.783 0.217 0.252 1.000 SRMR 0.849 0.145 0.145 1.000

Zanimljivo je skrenuti pažnju na promenu u obliku empirijske uzoračke distribucije

koja se javlja prilikom pogrešne specifikacije modela (Slika 4). Primetno je da u svim

slučajevima dolazi do povećanja spljoštenosti distribucije. To nam ujedno govori i da je

varijabilitet vrednosti indeksa fita prilikom pogrešne specifikacije veći. Pored toga, kada

govorimo o empirijskim uzoračnim distribucijama za RMSEA i CFI, vidljiva je promena u

njihovoj zakošenosti. Izrazito pozitivno zakošena distribucija RMSEA i izrazitno negativno

zakošena distribucija CFI prilikom estimacije pogrešno specifikovanog modela dobijaju

relativno simetričan oblik.

24

Slika 4. Izgled uzoračkih distribucija indeksa fita prilikom dobre specifikacije i pogrešne

specifikacije.

Granične vrednosti indeksa fita i odstupanja od preporučenih graničnih vrednosti

Granične vrednosti indeksa fita dobijene na osnovu simulacije ordinalnih podataka sa

četiri kategorije putem WLSMV estimatora (Tabela 5) razlikuju se od preporučenih (CFI >

0.95, TLI > 0.95, RMSEA < 0.06 i SRMR < 0.08). Primećujemo i da je raspon u kome granične

vrednosti mogu da se nađu veliki, kao i da deluje da je doprinos koji veličina uzorka i jačina

asimetrije imaju na varijaciju u graničnim vrednostima različit za različite indekse. Kako bismo

bolje razumeli njihov doprinos, sprovedena je i analiza varijanse, o kojoj će kasnije u radu biti

više reči.

25

Tabela 5

Granične vrednosti indeksa fita dobijene simulacijom i njihovo odstupanje od preporučenih

graničnih vrednosti

Distribucija Uzorak RMSEA CFI TLI SRMR

0.95 0.05 0.05 0.95

Simetrična

250 0.050 (-0.010) 0.969 (+0.019) 0.953 (+0.003) 0.040 (-0.040)

500 0.033 (-0.027) 0.986 (+0.036) 0.979 (+0.029) 0.028 (-0.052)

1000 0.023 (-0.037) 0.993 (+0.043) 0.990 (+0.040) 0.019 (-0.061)

Umereno

asimetrična

250 0.051 (-0.009) 0.965 (+0.015) 0.947 (-0.003) 0.041 (-0.039)

500 0.035 (-0.025) 0.983 (+0.033) 0.975 (+0.025) 0.029 (-0.051)

1000 0.025 (-0.035) 0.991 (+0.041) 0.987 (+0.037) 0.021 (-0.059)

Ekstremno

asimetrična

250 0.056 (-0.004) 0.948 (-0.002) 0.922 (-0.028) 0.045 (-0.035)

500 0.040 (-0.020) 0.974 (+0.024) 0.961 (+0.011) 0.031 (-0.049)

1000 0.029 (-0.031) 0.986 (+0.036) 0.980 (+0.030) 0.022 (-0.058) Uputstvo. 0.05 = vrednost petog percentila distribucije, 0.95 = vrednost devedeset petog percentila distribucije. Vrednosti navedene u

zagradama pokazuju količinu i smer odstupanja od preporučenih graničnih vrednosti.

RMSEA i SRMR zabeležili su niže vrednosti od preporučenih za sve kombinacije

veličine uzorka i izgleda distribucije. Granične vrednosti za CFI su više od preporučenih u svim

slučajevima, osim kada je uzorak mali (N=250) i distribucija podataka ekstremno asimetrična,

dok su granične vrednosti za TLI više od preporučenih u svim slučajevima, osim kada je uzorak

mali, a distribucija umereno ili ekstremno asimetrična. Sveukupno gledano, vrednosti SRMR

su najudaljenije od preporučenih vrednosti u poređenju sa vrednostima drugih indeksa čije smo

ponašanje posmatrali. Vrednosti RMSEA i TLI su približnije preporučenim vrednostima u

poređenju sa CFI, osim kada je uzorak mali i asimetričnost distribucije ekstremno izražena.

Dok TLI i RMSEA u većini slučajeva pokazuju vrlo sličan obrazac odstupanja.

Moć odbijanja pogrešno specifikovanog modela i greška tipa I

Zanimalo nas je da utvrdimo u kojoj meri preporučene granične vrednosti indeksa fita

imaju moć da odbiju pogrešno specifikovan model kada se estimacija vrši pomoću WLSMV

estimatora na ordinalnim podacima sa četiri kategorije. Poređenja radi, izračunali smo i moć

odbijanja pogrešno specifikovanog modela na osnovu hi-kvadrat testa, putem formule:

𝑃𝑜𝑤𝑒𝑟 = 1 − 𝜒𝑘,𝜆′2

gde je 𝜒𝑘,𝜆′2 leva strana necentralizovane hi-kvadrat distribucije sa k stepeni slobode i

necentralizovanim parametrom λ, pri čemu je korišćena vrednost α=0.5.

26

Rezultati pokazuju da se moć odbijanja pogrešno specifikovanog modela na osnovu

preporučenih graničnih vrednosti smanjuje sa povećanjem veličine uzorka, kao i da

preporučene granične vrednosti u jako maloj meri uspevaju da odbace pogrešno specifikovan

model. Za sve posmatrane indekse fita, preporučene granične vrednosti uspevaju da dovedu do

odbacivanja pogrešno specifikovanog modela u rasponu od 0% do 45% simuliranih slučajeva.

Moć se prilikom korišćenja hi-kvadrat testa povećava sa povećanjem veličine uzorka i njene

vrednosti su nezadovoljavajuće samo kada su uzorci mali (Tabela 6). Takvo ponašanje hi-

kvadrat testa je već poznato, zbog čega se odluka o fitu modela zasnovana na hi-kvadrat testu

koji se sprovodi na malim uzorcima uzima sa rezervom.

Tabela 6

Moć odbijanja pogrešno specifikovanog modela na osnovu vrednosti hi-kvadrat testa i

preporučenih vrednosti indeksa fita (Hu & Bentler, 1999)

Distribucija Uzorak χ2 RMSEA CFI TLI SRMR

Simetrična

250 0.609 0.287 0.085 0.307 0.002

500 0.924 0.170 0.014 0.170 0.000

1000 1.000 0.087 0.000 0.095 0.000

Umereno

asimetrična

250 0.645 0.340 0.118 0.375 0.009

500 0.940 0.204 0.018 0.234 0.001

1000 0.998 0.094 0.002 0.136 0.000

Ekstremno

asimetrična

250 0.635 0.340 0.204 0.450 0.014

500 0.888 0.174 0.065 0.315 0.000

1000 0.998 0.059 0.010 0.171 0.000

Ako se prilikom odluke o odbacivanju pogrešno specifikovanog modela držimo

graničnih vrednosti dobijenih na osnovu simulacija, primetićemo da moć raste sa porastom

veličine uzorka (Tabela 7), kao i da RMSEA ima najveću moć u poređenju sa preostalim

indeksima. Odbacivanje pogrešno specifikovanog modela otežano je na malim uzorcima pod

svim distributivnim uslovima, kao i na uzorcima srednje veličine kada je distribucija izrazito

asimetrična.

27

Tabela 7

Moć odbijanja pogrešno specifikovanog modela na osnovu vrednosti hi-kvadrat testa i

graničnih vrednosti indeksa fita dobijenih simulacijom


Simetrična

250 0.609 0.519 0.349 0.341 0.392

500 0.924 0.918 0.829 0.829 0.816

1000 1.000 1.000 0.998 0.999 0.998

Umereno

asimetrična

250 0.645 0.534 0.330 0.325 0.385

500 0.940 0.909 0.806 0.816 0.827

1000 0.998 0.998 0.994 0.994 0.993

Ekstremno

asimetrična

250 0.635 0.430 0.181 0.181 0.252

500 0.888 0.748 0.525 0.525 0.651

1000 0.998 0.981 0.913 0.928 0.969

Kada su u pitanju vrednosti greške tipa I, korišćenje graničnih vrednosti dobijenih na

osnovu simulacija ovogućava nam njeno držanje pod kontrolom. Međutim, uvid u vrednosti

greške tipa I do kojih dolazi primenom hi-kvadrat testa pokazuje da on ima tendenciju nešto

većeg odbacivanja dobro specifikovanog modela, koja je najizraženija na malim uzorcima i

raste sa porastom asimetričnosti distribucije (Tabela 8). Na osnovu vrednosti hi-kvadrat testa,

procenat dobro specifikovanih modela koji su odbačeni kreće se u rasponu od 5.2% do 18.7%

slučajeva.

Tabela 8

Greška tipa I – proporcija odbacivanja dobro specifikovanog modela na osnovu vrednosti hi-

kvadrat testa i indeksa fita dobijenih simulacijom


Simetrična

250 0.076 0.049 0.051 0.051 0.040

500 0.052 0.049 0.055 0.055 0.040

1000 0.052 0.050 0.050 0.057 0.064

Umereno

asimetrična

250 0.094 0.053 0.052 0.051 0.052

500 0.080 0.053 0.045 0.053 0.048

1000 0.088 0.055 0.048 0.052 0.038

Ekstremno

asimetrična

250 0.187 0.051 0.048 0.048 0.047

500 0.180 0.052 0.050 0.050 0.063

1000 0.166 0.047 0.046 0.054 0.067

28

Analiza varijanse

Kako bismo utvrdili u kojoj meri veličina uzorka, asimetričnost distribucije i pogrešna

specifikacija modela utiču na indekse fita, sproveli smo četiri trostruke analize varijanse i

izračunali vrednosti kvadrirane ete (η2), koja nam govori o proporciji ukupne varijanse zavisne

varijable koja je objašnjena svakim pojedinačnim izvorom varijacije u istraživačkom dizajnu

(Tabela 9).

Tabela 9

Sirove vrednosti kvadrirane ete (η2) dobijene na osnovu trostruke analize varijanse

Indeksi

fita Uzorak Distribucija Specifikacija

Uzorak x

Distribucija

Uzorak x

Specifikacija

Distribucija

x

Specifikacija

Distribucija

x Pragovi x

Specifikacija

RMSEA 0.01 0.00 0.59 0.00 0.01 0.01 0.00

CFI 0.02 0.02 0.41 0.00 0.00 0.00 0.00

TLI 0.01 0.02 0.42 0.00 0.00 0.00 0.00

SRMR 0.37 0.01 0.29 0.00 0.02 0.00 0.00

Najveći doprinos u varijacijama vrednosti CFI, TLI i RMSEA pripisuje se specifikaciji

modela. Što je vrednost kvadrirane ete za ovaj faktor veća od vrednosti kvadrirane ete za

preostale faktore, veća je verovatnoća da ćemo biti u mogućnosti da napravimo distinkciju

između dobro i loše specifikovanih modela. Procenat varijanse koji je objašnjen specifikacijom

iznosi 29% za SRMR, 41% za CFI, 42% za TLI i 59% za RMSEA.

Veličina uzorka objašnjava čak 37% od ukupne varijanse SRMR, što dovodi do

zaključka da upravo ovaj faktor ima najvažniji efekat na varijaciju u vrednostima SRMR.

Veličina uzorka ima uticaj i na varijaciju CFI, TLI i RMSEA, s tim da on za ove indekse mali.

Jedini indeks kod koga nije primećen glavni efekat oblika distribucije jeste RMSEA,

dok za ostale indekse različiti nivoi asimetričnosti distribucije dovode do malog efekta od svega

1% ili 2% koji ona ima na varijaciju u njihovim vrednostima.

Neophodno je napomenuti i da za SRMR i RMSEA postoje efekti interakcije faktora

koje smo ispitivali. Tako da je za SRMR prisutan mali efekat interakcije veličine uzorka i vrste

29

specifikacije. Vrednosti SRMR indeksa prilikom pogrešne specifikacije više su u poređenju sa

vrednostima ovog indeksa kada je model dobro specifikovan, ali postoji manji uticaj veličine

uzorka na njegove vrednosti kada je model pogrešno specifikovan u poređenju sa dobro

specifikovanim modelom. Za RMSEA pored malog efekta interakcije veličine uzorka i vrste

specifikacije modela prisutan i mali efekat interakcije između oblika distribucije i vrste

specifikacije modela.

Primetno je i da se vrednosti kvadrirane ete za CFI i TLI ponašaju na gotovo isti način,

kao i da je suptilna razlika do koje dolazi kada je u pitanju efekat veličine uzorka, verovatno

posledica činjenice da TLI vrši korekciju za broj stepeni slobode, dok CFI to ne čini.

30

DISKUSIJA

U ovom radu pokušali smo da skrenemo pažnju na najčešće greške koje istraživači

prave kada modeluju kategorijalne podatke u okviru konfirmativne faktorske analize, kao i da

utvrdimo šta se sa ovim procesom događa ako se on sprovodi na neadekvatan način.

Trebalo bi imati u vidu činjenicu da istraživači jako često propuštaju da provere izgled

distribucija podataka koje koriste i da jednostavno pretpostavljaju njihovu normalnost

(Micceri, 1989). S obzirom na to da su prethodna istraživanja utvrdila da nenormalnost

podataka utiče na proces modelovanja i njegove rezultate (Finney & DiStefano, 2006), provera

distribucije opaženih varijabli pre spovođenja same analize dovela bi do toga da istraživači

budu u stanju da donesu informisanu odluku koja se tiče ispravnog odabira metoda estimacije.

Pored toga, čest problem jeste i upotreba ML estimatora, za koji je utvrđeno da dovodi do

pristrasnih ocena parametara i standardnih grešaka procenjenih parametara kada se primenjuje

na kategorijalnim podacima (Lei & Wu, 2012). Jedan od metoda estimacije koji se preporučije

za upotrebu na kategorijalnim podacima jeste robusni metod ponderisanih najmanjih kvadrata

(WLSMV). Nas je zanimalo da utvrdimo kako se indeksi fita ponašaju prilikom primene ovog

metoda.

Iako je osnovna zamerka koja se upućuje hi-kvadrat testu dobijenom na osnovu ML

estimatora da prečesto odbacuje ispravno specifikovane modele sa povećavanjem veličine

uzorka, to prilikom primene WLSMV estimatora nije slučaj. Greška tipa I za hi-kvadrat test

najveća je na malim uzorcima, a moć odbacivanja pogrešno specifikovanog modela se

povećava sa povećanjem veličine uzorka. Uočili smo i da porast asimetričnost distribucije

dovodi do povišenih vrednosti hi-kvadrata, što povećava grešku tipa I i dovodi do prečestog

odbacivanja dobro specifikovanog modela.

Što se samih indeksa fita tiče, upotreba jedne fiksne granične vrednosti koja govori o

podobnosti modela u slučaju WLSMV estimatora nije primenjiva, zato što su granične

vrednosti indeksa zavisne od veličine uzorka i pragova za kategorizaciju. Granične vrednosti

koje su predložene za upotrebu na kontinuiranim podacima modelovanim pomoću ML

estimatora retko odbacuju trivijalno pogrešno specifikovan model, naročito na velikim

uzorcima. Moć odbacivanja trivijalno pogešno specifikovanog modela korišćenjem

preporučenih graničnih vrednosti u kombinaciji sa WLSMV estimacijom u velikoj većini

31

ispitivanih slučajeva nalazi se blizu 0, a stope odbacivanja smanjivale su se sa povećanjem

veličine uzorka, što ne treba da čudi s obzirom na to da smo uvideli da se sa povećanjem

veličine uzorka granične vrednosti indeksa dobijenih WLSMV estimatorom sve više udaljuju

od preporučenih graničnih vrednosti. Korišćenje konvencionalnih graničnih vrednosti prilikom

WLSMV estimacije dovelo bi do akumulacije velikog broja pogrešno specifikovanih modela

u publikacijama, naročito kada su uzorci veliki i podaci asimetrično distribuirani.

Uočeno je da granične vrednosti CFI i TLI sa povećanjem veličine uzorka rastu, dok

vrednosti RMSEA i SRMR opadaju. U većini ispitativanih slučajeva granične vrednosti CFI i

TLI više su od preporučenih graničnih vrednosti, a u svim ispitivanim slučajevima granične

vrednosti RMSEA i SRMR niže su od preporučenih. Nivo asimetrije distribucije takođe igra

značajnu ulogu u varijaciji graničnih vrednosti. Sa povećanjem asimetričnosti distribucije

opaženih varijabli dolazi do snižavanja graničnih vrednosti CFI i TLI i do povećavanja

graničnih vrednosti RMSEA i SRMR.

U dobro specifikovanom modelu, najveća sličnost primećena je između CFI i TLI, dok

je sličnost u ponašanju RMSEA i SRMR manje izražena, ali se i dalje može smatrati

značajnom. U pogrešno specifikovanom modelu se CFI i TLI ponašaju na potpuno identičan

način, a i povezanost između RMSEA i SRMR je naglašenija u poređenju sa dobro

specifikovanim modelom. Razlog tome može biti promena u obliku distribucije vrednosti

indeksa fita do koje dolazi kada je model pogrešno specifikovan. Utvrđeno je da najveću

sličnost u ponašanju pokazuju CFI i TLI kada je model pogrešno specifikovan, dok je najveća

razlika u vrednostima primećena između CFI i RMSEA kada je model dobro specifikovan.

Što se udaljenosti graničnih vrednosti dobijenih na osnovu simulacija od preporučenih

graničnih vrednosti tiče, indeksi koji u osnovi svog računanja koriste vrednosti χ2 (CFI, TLI i

RMSEA) pokazali su manja odstupanja u poređenju sa indeksom koji nije baziran na χ2

(SRMR). Odstupanja RMSEA manja su od odstupanja CFI u svim slučajevima osim kada je

uzorak mali, a distribucija podataka ekstremno asimetrična. Što se TLI indeksa tiče, njegova

odstupanja su manja od odstupanja CFI, a veća od odstupanja RMSEA kada su podaci

simetrični ili umereno asimetrični i uzorci veći od N=250. U slučaju kada su uzorci mali, a

distribucije simetrično ili umereno asimetriče TLI pokazuje manja odstupanja u poređenju sa

32

CFI i RMSEA, dok u slučaju ekstermne asimetrije najmanja odstupanja pokazuje samo kada

je uzorak veličine N=250.

Uvideli smo i da većina varijacije u graničnim vrednostima RMSEA, CFI i TLI dolazi

od vrste specifikacije modela, što govori u prilog tome da su oni u stanju da registruju pogrešnu

specifikaciju čak i kada je ona trivijalna, odnosno da ćemo na osnovu njihovih vrednosti

najverovatnije uspeti da napravimo distrinkciju između dobro i loše specifikovanih modela.

Samo je SRMR pokazao vrlo veliku zavisnost od veličine uzorka i jedini je indeks čija je

zavisnost od veličine uzorka veća od zavisnosti od vrste specifikacije. Razlog tome može biti

činjenica da ovaj indeks ne vrši korekciju za veličinu uzorka, što je slučaj sa preostalim

indeksima koji su ovde ispitani. Veličina uzorka ima mali ali značajan uticaj na varijaciju u

vrednostima RMSEA, CFI i TLI. Isto važi i za uticaj oblika distribucije za CFI i TLI, dok

RMSEA jedini nije pokazao zavisnost od oblika distribucije, ali za njega postoje značajni efekti

interacije oblika distribucije i vrste specifikacije modela, kao i veličine uzorka i vrste

specifikacije modela. Efekat interakcije veličine uzorka i vrste specifikacije primećen je i na

varijaciju u vrednostima SRMR indeksa.

Ovaj rad deli ograničenja svih studija koje koriste Monte Karlo simulacije, a ona se tiču

toga da zaključci ne mogu da se generalizuju izvan specifičnih uslova pod kojima se vršilo

ispitivanje. Međutim, model konfirmativne faktorske analize koji smo odabrali da koristimo

po izgledu i kompleksnosti može da služi kao polazna tačka na osnovu koje istraživači mogu

da procenjuju sopstvene modele, a sintaksa koja je dostupna u prilogu može biti prilagođena

konkretnim potrebama istraživača tako što uz pomoć manjih izmena mogu da dođu do

graničnih vrednosti indeksa za svoje pretpostavljene modele.

Kada je u pitanju ograničenje koje se tiče veličine uzorka, na osnovu rezultata deluje

da su uzorci veličine N≤250 premali za ispravo zaključivanje na osnovu WLSMV estimatora.

Što se asimetričnosti distribucije tiče, indeksi fita dobijeni iz WLSMV asimptotski su zavisni

od pragova za kategorizaciju, te bi njihove granične vrednosti trebale da budu specifične za

konkretne vrednosti pragova. Zanimljivo bi bilo proveriti i šta se događa sa indeksima fita u

WLSMV estimaciji kada se ispituju podaci sa dve ili tri kategorije, ali i ispitati uticaje drugih

faktora kao što su: kompleksnost modela (testirati modele različite kompleksnosti), različit broj

faktora i različit broj ajtema po faktorima.

33

Zaključci ovog istraživanja trebalo bi da upozore istraživače da budu oprezni kada

prilikom estimacije kategorijalnih podataka sa WLSMV estimatorom koriste konvencionalne

granične vrednosti. Rezultati potvrđuju agrumente da se konvencionalne granične vrednosti

indeksa fita ne smeju univerzalno primenjivati. U idealnom slučaju, istraživačima se savetuje

da prilikom upotrebe WLSMV estimatora na empirijskim kategorijalnim podacima prvo

sprovedu simulaciju na modelu koji planiraju da koriste i tako sa najvećom tačnošću odrede

granične vrednosti indeksa fita koje su za njih relevante.

34

LITERATURA

Barrett, P. (2007). Structural equation modelling: Adjudging model fit. Personality and

Individual Differences, 42, 815-824.

Bentler, P. M. (1990). Comparative fit indexes in structural models. Psychological Bulletin,

107, 238-246.

Bentler, P. M., & Bonett, D. G. (1980). Significance tests and goodness of fit in the analysis of

covariance structures. Psychological Bulletin, 88, 588-606.

Bollen, K. A. (1989). Structural equation modeling with latent variables. New York, NY:

Wiley.

Browne, M. W. (1984). Asymptotically distribution-free methods for the analysis of covariance

structures. British Journal of Mathematical and Statistical Psychology, 37(1), 62-83.

Ding, L., Velicer, W. F., & Harlow, L. L. (1995). Effects of estimation methods, number of

indicators per factor, and improper solutions on structural equation modeling fit indices.

Structural equation modeling, 2(2), 119-144.

Edwards, J. R., & Bagozzi, R. P. (2000). On the nature and direction of relationships between

constructs and measures. Psychological Measurement, 3(2), 155-174.

Edwards, M. C., Wirth, R. J., Houts, C. R., & Xi, N. (2012). Categorical data in the structural

equation modeling framework. In R. Hoyle (Ed.), Handbook of structural equation

modeling (pp. 195-208). New York, NY: Guilford Press.

Fan, X., & Sivo, S. A. (2007). Sensitivity of fit indices to model misspecification and model

types. Multivariate Behavioral Research, 42(3), 509-529.

Fan, X., Thompson, B., & Wang, L. (1999). Effects of sample size, estimation methods, and

model specification on structural equation modeling fit indexes. Structural equation

modeling, 6(1), 56-83.

Finney, S. J., & DiStefano, C. (2006). Non-normal and Categorical data in structural equation

modeling. In G. R. Hancock & R. O. Mueller (Eds.). Structural equation modeling: a

second course (pp. 269–314). Greenwich, Connecticut: Information Age Publishing

Flora, D. B., & Curran, P. J. (2004). An empirical evaluation of estimation for confirmatory

factor analysis with ordinal data. Psychological Methods, 9(4), 466-491.

Garrido, L. E., Abad, F. J., & Ponsoda, V. (2015). Are Fit Indexes Really Fit to Estimate the

Number of Factors With Categorical Variables? Some Cautionary Findings via Monte

Carlo Simulation. Psychological Methods, 21(1), 93-111.

35

Hu, L., & Bentler, P. M. (1998). Fit indices in covariance structure modeling: Sensitivity to

underparameterized model misspecification. Psychological Methods, 3(4), 424–453.

Hu, L., & Bentler, P. M. (1999). Cutoff criteria for fit indexes in covariance structure analysis:

Conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1-

55.

Hooper, D., Coughlan, J., & Mullen, M.R. (2008). Structural equation modelling: Guidelines

for determining model fit. Journal of Business Research Methods, 6, 53–60.

Hutchinson, S. R., & Olmos, A. (1998). Behavior of descriptive fit indexes in confirmatory

factor analysis using ordered categorical data. Structural Equation Modeling, 5(4), 344-

364.

Jöreskog, K. G., & Sörbom, D. (1981). LISREL V: Analysis of lenear structural relationships

by the method of maximum likelihood. Chicago: National Educational Resources.

Kenny, D. A., & McCoach, D. B. (2003). Effect of the number of variables on measures of fit

in structural equation modeling. Structural Equation Modeling, 10, 333-351.

Koziol, N. A. (2010). Evaluating measurement invariance with censored ordinal data: A Monte

Carlo comparison of alternative model estimators and scales of measurement

(Unpublished master’s thesis). University of Nebraska, Nebraska.

Lei, P.-W., & Wu, Q. (2012). Estimation in structural equation modeling. In R. Hoyle (Ed.),

Handbook of structural equation modeling (pp. 164-179). New York, NY: Guilford

Press.

Li, C. H. (2014). The performance of MLR, USLMV, and WLSMV estimation in structurale

regression models with ordinal variables (Doctoral dissertation). Retrieved from

https://etd.lib.msu.edu/islandora/object/etd%3A3268/datastream/OBJ/download/THE

_PERFORMANCE_OF_MLR__USLMV__AND_WLSMV_ESTIMATION_IN_ST

RUCTURAL_REGRESSION_MODELS_WITH_ORDINAL_VARIABLES.pdf

Mahler, C. (2011). The effects of misspecification type and nuisance variables on the

behaviours of population fit indices used in structural equation modeling (Unpublished

doctoral disertation). University of British Columbia, Vancouver, Canada.

Marsh, H. W., Hau, K. T., & Wen, Z. (2004). In search of golden rules: Comment on

hypothesis-testing approaches to setting cutoff values for fit indexes and dangers in

overgeneralizing Hu and Bentler's (1999) findings. Structural equation modeling,

11(3), 320-341.

https://etd.lib.msu.edu/islandora/object/etd%3A3268/datastream/OBJ/download/THE_PERFORMANCE_OF_MLR__USLMV__AND_WLSMV_ESTIMATION_IN_STRUCTURAL_REGRESSION_MODELS_WITH_ORDINAL_VARIABLES.pdf



36

Micceri, T. (1989). The unicorn, the normal curve and the other improbable creatures.

Psychological Bulletin, 105, 156-166.

Muthén, B. O. (1984). A general structural equation model with dichotomous, ordered

categorical, and continuous latent variable indicators. Psychometrika, 49, 115-132.

Muthén, B., du Toit, S. H. C., & Spisic, D. (1997). Robust inference using weighted least

squares and quadratic estimating equations in latent variable modeling with categorical

and continuous outcomes (Unpublished technical report).

Newsom, J. T. (2005). Longitudinal Structural Equation Modeling: A Comprehensive

Introduction. New York: Routledge.

Olsson, U. (1979). Maximum likelihood estimation of the polychoric correlation coefficient.

Psychometrika, 44, 443-460.

Pornprasertmanit, S., Miller, P., & Schoemann, A. (2016). simsem: SIMulated Structural Equ

ation Modeling. R package version 0.5-13. https://CRAN.R-project.org/package=sims

em

Pornprasertmanit, S., Wu, W., & Little, T. D. (May, 2012). Monte Carlo Approach to Model

Fit Evaluation in Structural Equation Modeling: How to Specify Trivial Misspecificati

on. Presentation given at the American Psychological Society Annual Convention, Ch

icago, IL.

Potthast, M. J. (1993). Confirmatory factor analysis of ordered categorical variables with large

models. British Journal of Mathematical and Statistical Psychology, 46, 273-286.

R Core Team (2016). R: A language and environment for statistical computing. R Foundation

for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

Rhemtulla, M., Brosseau-Liard, P. É., & Savalei, V. (2012). When can categorical variables be

treated as continuous? A comparison of robust continuous and categorical SEM

estimation methods under suboptimal conditions. Psychological methods, 17(3), 354-

373.

Steiger, J. H., & Lind, J. C. (1980). Statistically based tests for the number of common factors.

Paper presented at the annual meeting of the Psychometric Society, Iowa City, IA.

Sugawara, H. M., & MacCallum, R. C. (1993). Effect of estimation method on incremental fit

indexes for covariance structure models. Applied Psychological Measurement, 17(4),

365-377.

https://cran.r-project.org/package=simsem

https://cran.r-project.org/package=simsem

https://www.r-project.org/

37

Tanaka, J.S. (1993). Multifaceted conceptions of fit in structural equation models. In K.A.

Bollen, & J.S. Long (eds.), Testing structural equation models. Newbury Park, CA:

Sage.

Tucker, L. R., & Lewis, C. (1973). A reliability coefficient for maximum likelihood factor

analysis. Psychometrica, 38, 1-10.

Wirth, R. J., & Edwards, M. C. (2007). Item factor analysis: current approaches and future

directions. Psychological methods, 12(1), 58-79.

Xia, Y. (2016). Investigating the chi-square-based model-fit indexes for WLSMV and ULSMV

estimators (Doctoral dissertation). Retrieved from

http://diginole.lib.fsu.edu/islandora/object/fsu:366138/datastream/PDF/download/citation.pdf

Yu, C. Y. (2002). Evaluating cutoff criteria of model-fit indexes for latent variable models with

binary and continuous outcomes (Doctoral dissertation). University of California Los

Angeles. Retrieved from https://www.statmodel.com/download/Yudissertation.pdf



https://www.statmodel.com/download/Yudissertation.pdf

38

PRILOG

R sintaksa

library(psych) library(lavaan) library(simsem) library(synchrony) library(lsr) set.seed(12345) analyzeModel <- " f1 =~ y1 + y2 + y3 f2 =~ y4 + y5 + y6 f3 =~ y7 + y8 + y9 " popModel11 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9 f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | -1.25*t1 + 0.0*t2 + 1.25*t3 y2 | -1.25*t1 + 0.0*t2 + 1.25*t3 y3 | -1.25*t1 + 0.0*t2 + 1.25*t3 y4 | -1.25*t1 + 0.0*t2 + 1.25*t3 y5 | -1.25*t1 + 0.0*t2 + 1.25*t3 y6 | -1.25*t1 + 0.0*t2 + 1.25*t3 y7 | -1.25*t1 + 0.0*t2 + 1.25*t3 y8 | -1.25*t1 + 0.0*t2 + 1.25*t3 y9 | -1.25*t1 + 0.0*t2 + 1.25*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9 " sim11.250 <- simulateData(popModel11, sample.nobs = 250) sim11.500 <- simulateData(popModel11, sample.nobs = 500) sim11.1000 <- simulateData(popModel11, sample.nobs = 1000) list11.250 <- list(model = popModel11, sample.nobs = 250) list11.500 <- list(model = popModel11, sample.nobs = 500) list11.1000 <- list(model = popModel11, sample.nobs = 1000) popModel12 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9

39

f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | -0.31*t1 + 0.79*t2 + 1.66*t3 y2 | -0.31*t1 + 0.79*t2 + 1.66*t3 y3 | -0.31*t1 + 0.79*t2 + 1.66*t3 y4 | -0.31*t1 + 0.79*t2 + 1.66*t3 y5 | -0.31*t1 + 0.79*t2 + 1.66*t3 y6 | -0.31*t1 + 0.79*t2 + 1.66*t3 y7 | -0.31*t1 + 0.79*t2 + 1.66*t3 y8 | -0.31*t1 + 0.79*t2 + 1.66*t3 y9 | -0.31*t1 + 0.79*t2 + 1.66*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9 " sim12.250 <- simulateData(popModel12, sample.nobs = 250) sim12.500 <- simulateData(popModel12, sample.nobs = 500) sim12.1000 <- simulateData(popModel12, sample.nobs = 1000) list12.250 <- list(model = popModel12, sample.nobs = 250) list12.500 <- list(model = popModel12, sample.nobs = 500) list12.1000 <- list(model = popModel12, sample.nobs = 1000) popModel13 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9 f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | 0.28*t1 + 0.71*t2 + 1.23*t3 y2 | 0.28*t1 + 0.71*t2 + 1.23*t3 y3 | 0.28*t1 + 0.71*t2 + 1.23*t3 y4 | 0.28*t1 + 0.71*t2 + 1.23*t3 y5 | 0.28*t1 + 0.71*t2 + 1.23*t3 y6 | 0.28*t1 + 0.71*t2 + 1.23*t3 y7 | 0.28*t1 + 0.71*t2 + 1.23*t3 y8 | 0.28*t1 + 0.71*t2 + 1.23*t3 y9 | 0.28*t1 + 0.71*t2 + 1.23*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9

40

" sim13.250 <- simulateData(popModel13, sample.nobs = 250) sim13.500 <- simulateData(popModel13, sample.nobs = 500) sim13.1000 <- simulateData(popModel13, sample.nobs = 1000) list13.250 <- list(model = popModel13, sample.nobs = 250) list13.500 <- list(model = popModel13, sample.nobs = 500) list13.1000 <- list(model = popModel13, sample.nobs = 1000) dat11.250 <- cfa(analyzeModel, data = sim11.250, std.lv = TRUE, estimator = "WLSMV") dat11.500 <- cfa(analyzeModel, data = sim11.500, std.lv = TRUE, estimator = "WLSMV") dat11.1000 <- cfa(analyzeModel, data = sim11.1000, std.lv = TRUE, estimator = "WLSMV") dat12.250 <- cfa(analyzeModel, data = sim12.250, std.lv = TRUE, estimator = "WLSMV") dat12.500 <- cfa(analyzeModel, data = sim12.500, std.lv = TRUE, estimator = "WLSMV") dat12.1000 <- cfa(analyzeModel, data = sim12.1000, std.lv = TRUE, estimator = "WLSMV") dat13.250 <- cfa(analyzeModel, data = sim13.250, std.lv = TRUE, estimator = "WLSMV") dat13.500 <- cfa(analyzeModel, data = sim13.500, std.lv = TRUE, estimator = "WLSMV") dat13.1000 <- cfa(analyzeModel, data = sim13.1000, std.lv = TRUE, estimator = "WLSMV") Output11.250 <- sim(1000, dat11.250, n=250, generate=list11.250, lavaanfun = "cfa", std.lv=TRUE) Output11.500 <- sim(1000, dat11.500, n=500, generate=list11.500, lavaanfun = "cfa", std.lv=TRUE) Output11.1000 <- sim(1000, dat11.1000, n=1000, generate=list11.1000, lavaanfun = "cfa", std.lv=TRUE) Output12.250 <- sim(1000, dat12.250, n=250, generate=list12.250, lavaanfun = "cfa", std.lv=TRUE) Output12.500 <- sim(1000, dat12.500, n=500, generate=list12.500, lavaanfun = "cfa", std.lv=TRUE) Output12.1000 <- sim(1000, dat12.1000, n=1000, generate=list12.1000, lavaanfun = "cfa", std.lv=TRUE) Output13.250 <- sim(1000, dat13.250, n=250, generate=list13.250, lavaanfun = "cfa", std.lv=TRUE) Output13.500 <- sim(1000, dat13.500, n=500, generate=list13.500, lavaanfun = "cfa", std.lv=TRUE) Output13.1000 <- sim(1000, dat13.1000, n=1000, generate=list13.1000, lavaanfun = "cfa", std.lv=TRUE) summary(Output11.250) summary(Output11.500) summary(Output11.1000) summary(Output12.250) summary(Output12.500) summary(Output12.1000) summary(Output13.250) summary(Output13.500) summary(Output13.1000) popModel21 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 + 0.3*y1 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9 + 0.3*y4

41

f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | -1.25*t1 + 0.0*t2 + 1.25*t3 y2 | -1.25*t1 + 0.0*t2 + 1.25*t3 y3 | -1.25*t1 + 0.0*t2 + 1.25*t3 y4 | -1.25*t1 + 0.0*t2 + 1.25*t3 y5 | -1.25*t1 + 0.0*t2 + 1.25*t3 y6 | -1.25*t1 + 0.0*t2 + 1.25*t3 y7 | -1.25*t1 + 0.0*t2 + 1.25*t3 y8 | -1.25*t1 + 0.0*t2 + 1.25*t3 y9 | -1.25*t1 + 0.0*t2 + 1.25*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9 " sim21.250 <- simulateData(popModel21, sample.nobs = 250) sim21.500 <- simulateData(popModel21, sample.nobs = 500) sim21.1000 <- simulateData(popModel21, sample.nobs = 1000) list21.250 <- list(model = popModel21, sample.nobs = 250) list21.500 <- list(model = popModel21, sample.nobs = 500) list21.1000 <- list(model = popModel21, sample.nobs = 1000) popModel22 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 + 0.3*y1 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9 + 0.3*y4 f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | -0.31*t1 + 0.79*t2 + 1.66*t3 y2 | -0.31*t1 + 0.79*t2 + 1.66*t3 y3 | -0.31*t1 + 0.79*t2 + 1.66*t3 y4 | -0.31*t1 + 0.79*t2 + 1.66*t3 y5 | -0.31*t1 + 0.79*t2 + 1.66*t3 y6 | -0.31*t1 + 0.79*t2 + 1.66*t3 y7 | -0.31*t1 + 0.79*t2 + 1.66*t3 y8 | -0.31*t1 + 0.79*t2 + 1.66*t3 y9 | -0.31*t1 + 0.79*t2 + 1.66*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9

42

" sim22.250 <- simulateData(popModel22, sample.nobs = 250) sim22.500 <- simulateData(popModel22, sample.nobs = 500) sim22.1000 <- simulateData(popModel22, sample.nobs = 1000) list22.250 <- list(model = popModel22, sample.nobs = 250) list22.500 <- list(model = popModel22, sample.nobs = 500) list22.1000 <- list(model = popModel22, sample.nobs = 1000) popModel23 <- " f1 =~ 0.7*y1 + 0.7*y2 + 0.7*y3 f2 =~ 0.7*y4 + 0.7*y5 + 0.7*y6 + 0.3*y1 f3 =~ 0.7*y7 + 0.7*y8 + 0.7*y9 + 0.3*y4 f1 ~~ 1*f1 f2 ~~ 1*f2 f3 ~~ 1*f3 f1 ~~ 0.5*f2 f1 ~~ 0.5*f3 f2 ~~ 0.5*f3 y1 | 0.28*t1 + 0.71*t2 + 1.23*t3 y2 | 0.28*t1 + 0.71*t2 + 1.23*t3 y3 | 0.28*t1 + 0.71*t2 + 1.23*t3 y4 | 0.28*t1 + 0.71*t2 + 1.23*t3 y5 | 0.28*t1 + 0.71*t2 + 1.23*t3 y6 | 0.28*t1 + 0.71*t2 + 1.23*t3 y7 | 0.28*t1 + 0.71*t2 + 1.23*t3 y8 | 0.28*t1 + 0.71*t2 + 1.23*t3 y9 | 0.28*t1 + 0.71*t2 + 1.23*t3 y1 ~~ 0.51*y1 y2 ~~ 0.51*y2 y3 ~~ 0.51*y3 y4 ~~ 0.51*y4 y5 ~~ 0.51*y5 y6 ~~ 0.51*y6 y7 ~~ 0.51*y7 y8 ~~ 0.51*y8 y9 ~~ 0.51*y9 " sim23.250 <- simulateData(popModel23, sample.nobs = 250) sim23.500 <- simulateData(popModel23, sample.nobs = 500) sim23.1000 <- simulateData(popModel23, sample.nobs = 1000) list23.250 <- list(model = popModel23, sample.nobs = 250) list23.500 <- list(model = popModel23, sample.nobs = 500) list23.1000 <- list(model = popModel23, sample.nobs = 1000) dat21.250 <- cfa(analyzeModel, data = sim21.250, std.lv = TRUE, estimator = "WLSMV") dat21.500 <- cfa(analyzeModel, data = sim21.500, std.lv = TRUE, estimator = "WLSMV") dat21.1000 <- cfa(analyzeModel, data = sim21.1000, std.lv = TRUE, estimator = "WLSMV") dat22.250 <- cfa(analyzeModel, data = sim22.250, std.lv = TRUE, estimator = "WLSMV") dat22.500 <- cfa(analyzeModel, data = sim22.500, std.lv = TRUE, estimator = "WLSMV") dat22.1000 <- cfa(analyzeModel, data = sim22.1000, std.lv = TRUE, estimator = "WLSMV") dat23.250 <- cfa(analyzeModel, data = sim23.250, std.lv = TRUE, estimator = "WLSMV")

43

dat23.500 <- cfa(analyzeModel, data = sim23.500, std.lv = TRUE, estimator = "WLSMV") dat23.1000 <- cfa(analyzeModel, data = sim23.1000, std.lv = TRUE, estimator = "WLSMV") Output21.250 <- sim(1000, dat21.250, n=250, generate=list21.250, lavaanfun = "cfa", std.lv=TRUE) Output21.500 <- sim(1000, dat21.500, n=500, generate=list21.500, lavaanfun = "cfa", std.lv=TRUE) Output21.1000 <- sim(1000, dat21.1000, n=1000, generate=list21.1000, lavaanfun = "cfa", std.lv=TRUE) Output22.250 <- sim(1000, dat22.250, n=250, generate=list22.250, lavaanfun = "cfa", std.lv=TRUE) Output22.500 <- sim(1000, dat22.500, n=500, generate=list22.500, lavaanfun = "cfa", std.lv=TRUE) Output22.1000 <- sim(1000, dat22.1000, n=1000, generate=list22.1000, lavaanfun = "cfa", std.lv=TRUE) Output23.250 <- sim(1000, dat23.250, n=250, generate=list23.250, lavaanfun = "cfa", std.lv=TRUE) Output23.500 <- sim(1000, dat23.500, n=500, generate=list23.500, lavaanfun = "cfa", std.lv=TRUE) Output23.1000 <- sim(1000, dat23.1000, n=1000, generate=list23.1000, lavaanfun = "cfa", std.lv=TRUE) summary(Output21.250) summary(Output21.500) summary(Output21.1000) summary(Output22.250) summary(Output22.500) summary(Output22.1000) summary(Output23.250) summary(Output23.500) summary(Output23.1000) inspect21.250 <- inspect(Output21.250, "fit") inspect21.500 <- inspect(Output21.500, "fit") inspect21.1000 <- inspect(Output21.1000, "fit") inspect22.250 <- inspect(Output22.250, "fit") inspect22.500 <- inspect(Output22.500, "fit") inspect22.1000 <- inspect(Output22.1000, "fit") inspect23.250 <- inspect(Output23.250, "fit") inspect23.500 <- inspect(Output23.500, "fit") inspect23.1000 <- inspect(Output23.1000, "fit") inspect21.250 <- inspect(Output21.250, "fit", improper=TRUE) inspect22.250 <- inspect(Output22.250, "fit", improper=TRUE) inspect22.500 <- inspect(Output22.500, "fit", improper=TRUE) inspect23.250 <- inspect(Output23.250, "fit", improper=TRUE) sample<-c(rep("250", 6000), rep("500", 6000), rep("1000", 6000)) distr<-c(rep("symm",2000), rep("modasymm",2000), rep("extasymm",2000),rep("symm",2000), rep("modasymm",2000), rep("extasymm",2000),rep("symm",2000), rep("modasymm",2000), rep("extasymm",2000)) specif<-c(rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000), rep("good", 1000), rep("misspec",1000))

44

rmsea<-c(inspect11.250$rmsea, inspect21.250$rmsea, inspect12.250$rmsea, inspect22.250$rmsea, inspect13.250$rmsea, inspect23.250$rmsea, inspect11.500$rmsea, inspect21.500$rmsea, inspect12.500$rmsea, inspect22.500$rmsea, inspect13.500$rmsea, inspect23.500$rmsea, inspect11.1000$rmsea, inspect21.1000$rmsea, inspect12.1000$rmsea, inspect22.1000$rmsea, inspect13.1000$rmsea, inspect23.1000$rmsea) cfi<-c(inspect11.250$cfi, inspect21.250$cfi, inspect12.250$cfi, inspect22.250$cfi, inspect13.250$cfi, inspect23.250$cfi, inspect11.500$cfi, inspect21.500$cfi, inspect12.500$cfi, inspect22.500$cfi, inspect13.500$cfi, inspect23.500$cfi, inspect11.1000$cfi, inspect21.1000$cfi, inspect12.1000$cfi, inspect22.1000$cfi, inspect13.1000$cfi, inspect23.1000$cfi) tli<-c(inspect11.250$tli, inspect21.250$tli, inspect12.250$tli, inspect22.250$tli, inspect13.250$tli, inspect23.250$tli, inspect11.500$tli, inspect21.500$tli, inspect12.500$tli, inspect22.500$tli, inspect13.500$tli, inspect23.500$tli, inspect11.1000$tli, inspect21.1000$tli, inspect12.1000$tli, inspect22.1000$tli, inspect13.1000$tli, inspect23.1000$tli) srmr<-c(inspect11.250$srmr, inspect21.250$srmr, inspect12.250$srmr, inspect22.250$srmr, inspect13.250$srmr, inspect23.250$srmr, inspect11.500$srmr, inspect21.500$srmr, inspect12.500$srmr, inspect22.500$srmr, inspect13.500$srmr, inspect23.500$srmr, inspect11.1000$srmr, inspect21.1000$srmr, inspect12.1000$srmr, inspect22.1000$srmr, inspect13.1000$srmr, inspect23.1000$srmr) indices<-data.frame(sample, distr, specif, rmsea, cfi, tli, srmr) indices$sample<-factor(indices$sample, levels = c("250", "500", "1000")) indices$distr<-factor(indices$distr, levels = c("symm", "modasymm", "extasymm")) indices$specif<-factor(indices$specif, levels = c("good", "misspec")) mydataGOOD<-indices[indices$specif=="good",] mydataMISSPEC<-indices[indices$specif=="misspec",] rmseacfiG<-mydataGOOD[,4:5] rmseacfiM<-mydataMISSPEC[,4:5] rmseatliG<-mydataGOOD[,c(4,6)] rmseatliM<-mydataMISSPEC[,c(4,6)] rmseasrmrG<-mydataGOOD[,c(4,7)] rmseasrmrM<-mydataMISSPEC[,c(4,7)] cfitliG<-mydataGOOD[,5:6] cfitliM<-mydataMISSPEC[,5:6] cfisrmrG<-mydataGOOD[,c(5,7)] cfisrmrM<-mydataMISSPEC[,c(5,7)] tlisrmrG<-mydataGOOD[,6:7] tlisrmrM<-mydataMISSPEC[,6:7] kendall.w(rmseacfiG) kendall.w(rmseacfiM) kendall.w(rmseatliG) kendall.w(rmseatliM) kendall.w(rmseasrmrG) kendall.w(rmseasrmrM) kendall.w(cfitliG) kendall.w(cfitliM) kendall.w(cfisrmG) kendall.w(cfisrmrM) kendall.w(tlisrmrG) kendall.w(tlisrmrM)

45

modelRMSEA<-aov(rmsea~sample*distr*specif, data = indices) modelCFI<-aov(cfi~sample*distr*specif, data = indices) modelTLI<-aov(tli~sample*distr*specif, data = indices) modelSRMR<-aov(srmr~sample*distr*specif, data = indices) etaSquared(modelRMSEA, type = 2, anova = FALSE) etaSquared(modelCFI, type = 2, anova = FALSE) etaSquared(modelTLI, type = 2, anova = FALSE) etaSquared(modelSRMR, type = 2, anova = FALSE)

Univerzitet u Novom Sadu Univerzitetski centar za...

Documents

Transcript of Univerzitet u Novom Sadu Univerzitetski centar za...