Metode MVA - osnove (interna skripta)
Transcript of Metode MVA - osnove (interna skripta)
SVEUČILIŠTE U ZAGREBU AGRONOMSKI FAKULTET
METODE MULTIVARIJATNE ANALIZE O S N O V E
Prof. dr. sc. Marija Pecina
Zagreb, 2006.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 2
Sadržaj:
1. UVOD ..........................................................................................................................................3
2. METODE MVA...........................................................................................................................4
2.1. ANALIZA GLAVNIH KOMPONENATA ..................................................................................7
2.2. FAKTORSKA ANALIZA .....................................................................................................12
2.3. MAHALANOBISOVA UOPĆENA UDALJENOST....................................................................17
2.4. DISKRIMINANTNA ANALIZA ............................................................................................21
2.5. MULTIPLA REGRESIJA .....................................................................................................24
2.6. KANONIČKA KORELACIJA................................................................................................29
2.7. KLASTER ANALIZA..........................................................................................................31
2.8. MULTIDIMENZIONALNO SKALIRANJE ..............................................................................33
2.9. MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE .......................35
3. UMJESTO ZAKLJUČKA .........................................................................................................38
4. LITERATURA ..........................................................................................................................39
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 3
1. UVOD
Neprekidni razvoj bioloških znanosti dovodi do potrebe proučavanja, praćenja i
kontroliranja sve većeg broja svojstava - morfoloških, fizioloških, kemijskih, fizičkih ... Takvo
progresivno gomilanje svojstava i podataka koja su, u pravilu, u vrlo kompleksnim odnosima
neminovno je u trajnoj potrazi za statističkim modelima i postupcima koji pružaju cjelovitu sliku
povezanosti mnogobrojnih interesa u istraživanjima. Uvriježene metode univarijatne analize kojima
se varijable analiziraju pojedinačno, ne pružaju dovoljno pouzdanih mogućnosti za objedinjavanje
višestrukih opažaja, a u konačnici niti za pravilno znanstveno zaključivanje.
Multivarijatna analiza grana je statistike koja se bavi analizom višestrukih izmjera većeg
broja varijabli na jednom ili više uzoraka jedinki (COOLEY i LOHNES, 1971). Zanimanje
multivarijatnog analitičara za zajedništvo njegovih p mjerenja na N subjekata opisao je KENDALL,
1957. (prema COOLEY i LOHNES, 1971):
“Varijable su međusobno toliko ovisne da jedna ili više njih ne može biti izdvojena od
ostalih i razmatrana za sebe. Varijable se moraju razmatrati zajedno.”
Tehnički, multivarijatni analitičar radi na istraživanju u kojem je toliko pozornosti
posvećeno na p(p-1)/2 različitih kovarijanci (cov) između varijabli koliko i na p prosjeka ( x ) i na p
varijanci (s2 ), ako ne i više. To nije slučajno, jer su upravo spomenuti x , s2 i cov parametri
multivarijatne normalne distribucije, koja predstavlja matematički model na kojemu se temelje
multivarijatne statističke procedure.
Metode multivarijatne statističke analize razvijale su se postupno i do sada su mnoge našle
primjenu u važnoj domeni agronomije - biljnoj genetici i oplemenjivanju bilja. Različite modele
klasifikacija, redukcija, predviđanja, upotrebe diskriminantne i faktorske analize, analize glavnih
komponenata, multiplikativne modele, analize varijabilnosti, povezanosti i distribucija primijenili
su mnogi autori s različitim ciljevima i na različitim biljnim vrstama: BARTUAL et al., 1985. (soja);
WALTON, 1972, LEE i KALTSIKES, 1973, BHATT, 1976. (pšenica); EAVES i BRUMPTON, 1972.
(duhan); GALE i EAVES, 1972. (mak); GHADERI et al., 1979. (grah), 1980. (pšenica); HUSSAINNI, et
al., 1977. (proso); OTTAVIANO et al., 1975. (kukuruz); POLIGNANO et al, 1985. i 1989. (bob); REZAI,
et al., 1990. (divlja zob); WELTZIEN, 1989. (divlji ječam); VAN EEUWIJK et al., 1995. (kukuruz);
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 4
KRALJ et al. 1986, 1988, 1990, 1991, 1994a, 1994b (hmelj); ZEWDIE i ZEVEN, 1997. (paprika); itd.
(prema PECINA, 1998).
Brojna biološka svojstva, važna i u oplemenjivačkom i u gospodarskom smislu, te način
njihove zavisnosti i povezanosti predstavljaju i problem i izazov. Otkrivanje i poznavanje načina i
stupnja tih veza i zavisnosti, od neprocjenjive je koristi u mnogim disciplinama, pa tako i kod
cjelovitog vrednovanja genotipa (prinos/prirod i komponente, kvaliteta predstavljena velikim
brojem svojstava,...)
Pouzdano vrednovanje novih genotipova u trajnom je iskušenju. Primjerice, u radu naše
sortne komisije, za gotovo sva svojstva koja su od proizvodnog značaja (prinos i komponente
prinosa) procjenjuju se osnovni statistički parametri i provodi dvosmjerna analiza varijance, te
laboratorijske analize za svojstva kvalitete. Međutim, rezultati kemijskih i fizičkih analiza (koje se
provode za određene biljne vrste) koje zahtijevaju specijaliziranu i skupocjenu opremu, uređaje,
kemikalije, stručno osoblje ... ostaju na razini izmjerenih vrijednosti za propisana svojstva po
prijavljenom genotipu. Ti rezultati se, doduše, koriste pri ocjeni vrijednosti genotipa, ali isključivo
vizualnom usporedbom koja je, dakako, nedovoljno pouzdana.
Multivarijatne metode omogućavaju proučavanje relacija, upotrebljivosti, značajnosti
brojnih - međusobno jače ili slabije, ali u pravilu kompleksno vezanih - zavisnih ili nezavisnih,
mjernih ili kategorijskih varijabli objedinjenom analizom - multivarijatnom analizom (MVA).
2. METODE MVA
GIFI je 1990. analizirao rad većine vodećih multivarijatnih statističara, kao i njihovo
poimanje multivarijatnih analiza. Čini se da veliko bogatstvo odgovora koje pružaju, nudi i
bogatstvo definicija.
Tako ANDERSON, 1958, kaže da je to “… statistička analiza podataka koja se sastoji od seta
izmjera na nekom broju jedinki ili objekata…, a matematički model na kojemu se temelji analiza,
multivarijatno je normalan ili kombinacija multivarijatno normalnih distribucija.”
Za MORISSONOVU, definiciju iz 1967, GIFI kaže da je uobičajena: “… bavi se podacima iste
jedinke prikupljenim u nekoliko dimenzija.”
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 5
COOLEY i LOHNES, 1971, kao i KENDALL, 1957, razlikuju analize zavisnosti varijabli kojoj
je tipični predstavnik multipla regresija, i analize međuzavisnosti varijabli sa tipičnim
predstavnikom u analizi glavnih komponenata.
KSHIRSAGAR, 1978. smatra da je regresijska analiza najvažnija statistička tehnika, što je
karakteristični primjer multivarijatno normalnog gledišta.
Iako se GIFI i kritički osvrnuo na rad spomenutih autora, neke činjenice o multivarijatnim
metodama statističke analize nepobitne su, i one će biti ovdje iznesene.
Teoretičari su sistematizirali i klasificirali multivarijatne metode na različite načine.
Klasifikacije analitičkih metoda po Kendalovoj ideji podržava i SHARMA, 1996. što je prikazano u
Tablicama 2.a i 2.b.
Tablica 2.a Statističke metode temeljene na zavisnosti:
ZAVISNA(e) VARIJABLE Jedna Više NEZAVISNA(e) mjerna kategorijska mjernih kategorijskih Jedna: mjerna
• Regresija
• Diskriminantna analiza • Logistička regresija
• Kanonička korelacija
• Multiple-group diskriminantna analiza (MDA)
kategorijska
• t – test • Diskretna diskriminantna analiza
• MANOVA • Diskretna MDA
Više: mjernih
• Multipla regresija
• Diskriminantna analiza • Logistička regresija
• Kanonička korelacija
• MDA
kategorijskih
• ANOVA • Diskretna diskriminantna analiza
• Conjoint analiza
• MANOVA • Diskretna MDA
Tablica 2.b Statističke metode temeljene na međuzavisnosti:
VARIJABLE T i p B r o j mjerne kategorijske
2 • Jednostavna korelacija • Dvosmjerna tablica kontingencije • Loglinearni modeli
više od 2 • Analiza glavnih komponenata (PCA) • Faktorska analiza (FA)
• Višesmjerna tablica kontingencije • Loglinearni modeli • Analiza korespondencije
TABACHNICK i FIDELL, u pregledu 1989. godine, daju svoju podjelu multivarijatnih metoda
koja se temelji na zadanim ciljevima (Tablica 2.c).
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 6
Tablica 2.c Metode multivarijatne analize (prema TABACHNICK i FIDELL,1989.) i autori koji su dali najveći doprinos u njihovoj razradi i primjeni
(prema COOLEY i LOHNES, 1971.) C I L J M E T O D E Stupanj povezanosti
• Multipla korelacija i regresija (PEARSON, 1901, FISHER, 1928, CATTELL, 1949.)
• Kanonička korelacija (HOTELLING, 1936.) • Multipla analiza frekvencija (diskretne var.)
Značajnost razlika između grupa
• Faktorijalna ANOVA (FISHER, 1923.) • Faktorijalna ANCOVA (COCHRAN, 1957.) • Faktorijalna MANOVA (WILKS, 1932.) • Faktorijalna MANCOVA • Jednosmjerna MANOVA ili Hotelling’s T2 (HOTELLING,
1936.) • Profile analysis - PA (CRONBACH, 1953.)
Predikcija pripadnosti grupa
• Jednosmjerna diskriminantna analiza – DA (FISHER, 1936.) • Faktorijalna diskriminantna funkcijska analiza - DFA
Struktura veze: - empirijska - teoretska
• Analiza glavnih komponenata – PCA (HOTELLING, 1933.) (Principal components analysis)
• Faktorska analiza – FA (HARMAN, 1960, CATTELL 1965.)
U nastavku u prikazu svake od metoda MVA primijenjena su jednaka pravila:
• Opis i tijek analize
• Pretpostavke i specifičnosti
• Hipoteze, pouzdanost i testiranje
• Primjena i interpretacija
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 7
2.1. ANALIZA GLAVNIH KOMPONENATA
Mogućnosti analize glavnih komponenata prvi je opisao KARL PEARSON (1901.), ali
praktične računske metode razradio je HOTELLING puno kasnije (1933.). Šira primjena ove tehnike,
zbog kompleksnog računa, pričekala je dostupnost elektronskih računala (prema MANLY, 1986.).
Analiza glavnih komponenata, Principal Component Analysis (PCA) tehnika je
formiranja novih, sintetskih varijabli koje su linearne složenice - kombinacije izvornih varijabli.
Maksimalni broj novih varijabli koji se može formirati jednak je broju izvornih, a nove varijable
nisu međusobno korelirane (SHARMA, 1996.).
Često se uz analizu glavnih komponenata veže faktorska analiza (FA), bliska, ali
koncepcijski različita tehnika. Mnogi autori drže da je PCA specifičan oblik FA koji nastaje u
trenutku odluke o metodi analize: iz ukupne varijance tj. sume varijanci svih varijabli, kao što je to
u PCA, ili samo iz onog dijela ukupne varijance koja je zajednička svim varijablama, kao u FA
(HAIR, et al., 1995.). Razlog više toj tezi je i činjenica da se PCA u nekim statističkim paketima
(npr. SPSS, STATISTICA) pronalazi kao opcija FA. O usporedbama i razlikama između metoda
PCA i FA bit će više riječi nakon razrade faktorske analize (Pog. 2.2).
Glavni aspekti analize glavnih komponenata su sažimanje i analiza linearne povezanosti
većeg broja multivarijatno distribuiranih, kvantitativnih, međusobno koreliranih varijabli u smislu
njihove kondenzacije u manji broj komponenti, novih varijabli, međusobno nekoreliranih, sa
minimalnim gubitkom informacija.
Ulazni podaci za analizu glavnih komponenata čine p varijabli i n opažaja (individua) i
imaju oblik matrice p x n. (Tablica 2.1.a)
Tablica 2.1.a Prikaz ulaznih podataka za analizu glavnih komponenata
Varijable
Opažaj X1 X2 X3 ... Xp,
1 x11 x12 x13 ... x1p
2 x21 x22 x23 ... x2p
: : : : ... :
n xn1 xn2 xn3 ... xnp
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 8
Cilj analize je kreiranje p linearnih kombinacija izvornih varijabli koje se nazivaju glavne
komponente (principal components) (SHARMA, 1996.):
ξ1 = w11 X1 + w12 X2 + … + w1p Xp
ξ2 = w21 X1 + w22 X2 + … + w2p Xp
: : : : : :
ξp = wp1 X1 + wp2 X2 + … + wpp Xp [2.1.a]
gdje su ξ1, ξ2 ... ξp , p glavnih komponenata i wij su koeficijenti (weights) tj. konstante koje čine
koeficijente j-te varijable za i-tu glavnu komponentu.
Konstante wij procijenjene su tako da je:
1. prva glavna komponenta, ξ1, objašnjava maksimum varijance iz podataka, druga glavna
komponenta, ξ2, objašnjava maksimum varijance koja je ostala neobjašnjena prvom i tako dalje.
2. w2i1 + w2
i2 + … + w2ip = 1 i = 1 … p [2.1.b]
3. wi1 wj1+ wi2 wj2 + … + wip wjp = 0 za sve i ≠ j [2.1.c]
Uvjet da zbroj kvadrata konstanti iznosi 1, iz jednadžbe [2.1.b], zadan je zbog neophodnosti
fiksiranja skale novih varijabli. U protivnom, moguće bi bilo povećati varijancu linearne
kombinacije jednostavnom promjenom skale.
Uvjet iz jednadžbe [2.1.c] osigurava međusobnu nekoreliranost novih varijabli (nove osi
međusobno su ortogonalne).
Konstante wip nazivaju se svojstveni vektori ili latentni vektori (eigenvectors) i geometrijski
su, u dvodimenzionalnoj strukturi, u stvari, sinusi i cosinusi kuteva novih osi tj. glavnih
komponenata. Transformirane vrijednosti izvornih varijabli putem [2.1.a] predstavljaju skorove
glavnih komponenata (principal component scores).
Suma varijanci svih izvornih varijabli je ukupna varijanca. Dio te ukupne varijance
objašnjen jednom glavnom komponentom naziva se svojstvena vrijednost ili latentni korijen
(eigenvalue). Svojstvena vrijednost je, kako je već objašnjeno u načinu procjene svojstvenih
vektora, wij, najveća u prvoj glavnoj komponenti i u svakoj sljedećoj njena je vrijednost sve manja.
Suma svih svojstvenih vrijednosti jednaka je ukupnoj varijanci. Cilj je, iteracijskim postupkom,
izdvojiti čim veći dio ukupne varijance u tek nekoliko prvih glavnih komponenata, što se
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 9
uobičajeno izražava u kumulativnim postocima ukupne varijance, i time reducirati broj izvornih
varijabli. Svojstvena vrijednost je zapravo varijanca izračunata iz seta skorova glavne komponente
što se može prikazati setom jednadžbi:
w11 x1 + w12 x2 + ... + w1p xp = λ x1
w21 x1 + w22 x2 + ... + w2p xp = λ x2
:
wp1 x1 + wp2 x2 + ... + wpp xp = λ xp [2.1.d]
ili u obliku matrice:
Wx = λ x ili (W - λ I )x = 0 , [2.1.e]
gdje je I jedinična matrica p x p sa vrijednosti jedan u dijagonali, 0 je p x 1 nul-vektor, a
vrijednosti skalara λ svojstvene su vrijednosti matrice W. Ako se za i-tu svojstvenu vrijednost λi,
postavi x1 = 1, tada se rezultirajući vektor sa x vrijednosti:
xi =
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
ni
i
i
x
xx
M3
2
1
[2.1.f]
zove i -ti svojstveni vektor matrice A.
Vidljivo je dakle, da je proces dobivanja svojstvenih vektora i vrijednosti ključni
matematički problem, a rješava se pomoću rastavljanja svojstvenih vrijednosti (Singular Value
Decomposition), SVD. SVD izražava bilo koju matricu tipa n x p (gdje je n ≥ p) kao trostruki
produkt tri matrice P, D i Q tako da
X = PDQ´ , [2.1.g]
gdje je X matrica tipa n x p ranga kolone r, P je n x r matrica, D je dijagonalna matrica r x r , a Q´
je matrica r x p. Matrice P i Q su ortogonalne pa je
P´P = I [2.1.g]
i
Q´Q = I . [2.1.h]
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 10
Kolona p matrice Q´ sadrži svojstvene vektore matrice X´X, a dijagonala matrice D sadrži
korijenske vrijednosti korespondirajućih svojstvenih vrijednosti matrice X´X. Isto tako, svojstvene
vrijednosti matrica X´X i XX´ su iste.
Ovisno o problemu, tipu varijabli i skali njihovog mjerenja, ulazna matrica može biti ili
matrica kovarijanci ili matrica korelacija.
Matrica kovarijanci C je simetrična:
C =
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
pp2p1p
p22221
p11211
covcovcov
covcovcovcovcovcov
L
MOMM
L
L
[2.1.i]
a kovarijance covii su varijance s2i.
Matrica korelacija R (kao i C) mora biti simetrična:
R =
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
pp2p1p
p22221
p11211
rrr
rrrrrr
L
MOMM
L
L
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
1
11
21
221
112
L
MOMM
L
L
pp
p
p
rr
rrrr
[2.1.j]
U radu sa PCA očekuje se da će većina novih varijabli činiti šum – noise, i imati tako malu
varijancu da se ona može zanemariti, tj. da će većinu informacija ponijeti prvih nekoliko ξ varijabli
- glavnih komponenti, čije su varijance značajne veličine. Dakle, iz velikog broja izvornih varijabli
kreirano je tek nekoliko glavnih komponenti koje nose većinu informacija i čine glavni oblik -
pattern.
No, nije uvijek tako. Ako su izvorne varijable nekorelirane analiza ne daje povoljne
rezultate. Najbolji rezultati mogu se postići kad su izvorne varijable visoko pozitivno ili negativno
korelirane. Tada se može očekivati da će npr. 20-30 varijabli biti obuhvaćeno sa 2 ili 3 glavne
komponente.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 11
Pretpostavke za primjenu analize glavnih komponenata više su konceptualne, nego
statističke. PCA nije osjetljiva na probleme normalnosti, linearnosti i homogenosti varijanci. Kako
je izneseno, određena doza multikolinearnosti čak je i poželjna.
Osnovni koraci u analizi glavnih komponenata su sljedeći:
1. Obzirom da je većina biometričkih setova podataka konstruirana iz varijabli različitih skala i
jedinica mjerenja potrebno je standardizirati varijable tako da im je prosjek 0, a varijanca 1 (Pog.
2.3) kako bi sve bile na jednakoj razini u analizi.
2. Izračunati matrice korelacija između svih izvornih standardiziranih varijabli.
3. Pronaći svojstvene vrijednosti glavnih komponenata.
4. Odbaciti one komponente koje su nositelji proporcionalno malog udjela varijance (obično prvih
nekoliko nose 80% - 90% ukupne varijance što će se bolje uočiti nakon razrade faktorske analize
- Pog. 2.2.).
Osnovu za interpretaciju glavnih komponenata čine svojstveni vektori. Njihove vrijednosti
su u prvoj glavnoj komponenti, najčešće, relativno ravnomjerno raspoređene po svim izvornim
varijablama. U drugoj glavnoj komponenti dolazi do njihove veće disproporcije, što omogućava
izdvajanje izvorne varijable (ili tek nekoliko njih) sa jačim učešćem i pomaže u objašnjavanju i
sažimanju ukupne varijabilnosti.
Skorovi glavnih komponenata mogu poslužiti još i:
1. za daljnju interpretaciju rezultata grafičkim predstavljanjem. Tako se njihov relativni međusobni
položaj može i vizualno ispitati.
2. kao ulazne varijable u drugim multivarijatnim metodama kao npr. klaster, regresijska i
diskriminantna analiza. Prednost korištenja skorova je u tome što nove varijable nisu međusobno
korelirane čime je riješen problem multikolinearnosti. No, probleme druge vrste tada može
izazvati nemogućnost smislene interpretacije glavnih komponenata.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 12
2.2. FAKTORSKA ANALIZA
Rani razvoj faktorske analize pripisuje se Charlesu Spearmanu koji je 1904. (prema MANLY,
1986.) publicirao povijesni rad na podacima o studentskim ocjenama na testovima iz različitih
predmeta. Pretpostavio je, naime, da ocjene moraju biti međusobno korelirane i da te interkorelacije
mogu objasniti opću inteligenciju studenta. Faktorska analiza, Factor Analysis, (FA), statistički je
pristup za analizu strukture međusobnih odnosa većeg broja varijabli definiranjem seta zajedničkih
skrivenih dimenzija tj. faktora.
U faktorskoj analizi, kao i u analizi glavnih komponenata, osnovna je ideja još uvijek da set
od p varijabli (i n individua) može biti definiran manjim brojem faktora, pa tako može poslužiti kao
redukcijska metoda. No, primarni je cilj identifikacija faktora i određivanje stupnja do kojeg su
izvorne varijable objašnjene svakom dimenzijom - faktorom. Za razliku od PCA koja nije bazirana
ni na kakvom statističkom modelu, FA određena je specifičnim statističkim modelom.
Zajednički (common) faktor nevidljiva je, hipotetska varijabla koja pridonosi varijanci iz
barem dvije izvorne varijable. Izraz faktor najčešće se odnosi na zajednički faktor. Jedinstveni ili
specifični (unique) faktor, također je nevidljiva, hipotetska varijabla koja pridonosi varijanci u
samo jednoj izvornoj varijabli.
Opći model zajedničkih faktora je (SAS/STAT User’s Guide, 1989):
yij = xi1 b1j + xi2 b2j + ... + xiq bqj + eij , [2.2.a]
gdje je: yij vrijednost i-tog opažaja u j-toj varijabli
xij vrijednost i-tog opažaja u k-tom zajedničkom faktoru
bkj regresijski koeficijent k-tog zajedničkog faktora
za predikciju j-te varijable
eij vrijednost i-tog opažaja u j-tom jedinstvenom, specifičnom
(unique) faktoru
q broj zajedničkih faktora
uz pretpostavku da sve varijable imaju prosječnu vrijednost 0.
U matričnom obliku ove jednadžbe mogu se reducirati na:
Y = XB + E [2.2.b]
gdje je X matrica faktorskih opterećenja, B´ je matrica zajedničkih faktora.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 13
Faktorska opterećenja (factor loadings) jednostavne su korelacije između bilo koje
izvorne varijable i faktora, i ključ su za razumijevanje prirode samog faktora.
Kvadrat faktorskih opterećenja je komunaliteta (communality), i predstavlja udio varijance
određene izvorne varijable u ukupnoj varijanci (sumi varijanci svih varijabli u analizi) koji je
objašnjen uvrštenim faktorom. Ostatak koji nije objašnjen uvrštenim faktorom ili faktorima, dakle
razlika ukupne varijance i komunalitete je dio varijance specifičan, jedinstven za svaku pojedinačnu
varijablu.
Dakle: (faktorsko opterećenje)2 = komunaliteta
ukupna varijanca - komunaliteta = specifična varijanca
ili u standardiziranom obliku:
1 - komunaliteta = specifična varijanca
Zadatak faktorske analize je procijeniti komunalitete za svaku varijablu.
Dvije su osnovne pretpostavke:
- jedinstveni faktori su nekorelirani između sebe
- jedinstveni faktori su nekorelirani sa zajedničkim faktorima.
Prigodom izdvajanja predpostavlja se da su zajednički faktori međusobno nekorelirani sa
varijancom jedan. U tom slučaju model zajedničkih faktora podrazumijeva da je kovarijanca covij
između j-te i k-te, uz j ≠ k, varijable dana izrazom:
covjk = b1j b1k + b2j b2k + ... + bqj bqk [2.2.c]
ili C = B´B + U2 [2.2.d]
gdje je C matrica kovarijanci opaženih, izvornih varijabli, a U2 je dijagonalna matrica kovarijanci
jedinstvenih faktora.
Ako su izvorne varijable standardizirane tada će gornji izraz [2.2.d] dati koeficijente
korelacije umjesto kovarijanci, i u tom smislu zajednički faktori objašnjavaju korelacije između
izvornih varijabli. Razlike između korelacija dobivenih predikcijom putem modela zajedničkih
faktora i stvarnih korelacija izvornih varijabli su rezidualne korelacije, koje mogu poslužiti i za
procjenu pouzdanosti modela zajedničkih faktora. Naime, model zajedničkih faktora podrazumijeva
da parcijalne korelacije između varijabli, pri uklanjanju učinaka zajedničkih faktora, iznose 0.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 14
Nakon uklanjanja zajedničkih faktora ostaju samo jedinstveni, specifični faktori koji su po
definiciji, kako je izneseno, nekorelirani.
Dok se pretpostavke za primjenu faktorske analize mogu poistovjetiti sa onima iz analize
glavnih komponenata (Pog. 2.1), pretpostavka same analize zajedničkih faktora podrazumijeva da
zajednički faktori nisu linearne kombinacije izvornih varijabli. Čak i u slučaju analize cjelokupnih
podataka neke populacije, faktorske skorove (factor scores) nije moguće izračunati direktno (kako
je to bilo moguće u PCA), ali se oni mogu procijeniti na nekoliko načina. Taj problem doveo je do
formiranja metoda kojima se mogu proizvesti komponente, aproksimacije zajedničkih faktora (npr.
Harisovom komponentnom analizom ili image komponentnom analizom), koje ipak ne daju
potpuno rješenje faktora.
Interpretacija faktora je pridruživanje imena svakom faktoru tako da ono odražava važnost
faktora u predikciji svake izvorne varijable. Taj proces je subjektivan, i baziran je na objašnjavanju
vrijednosti opterećenja i komunaliteta. Ipak, nekoliko je vrlo uopćenih, kriterija za otkrivanje
značajnosti komunaliteta opterećenja (SHARMA, 1996.):
1. što je veći uzorak, to manju komunalitetu treba smatrati značajnom,
2. što je veći broj varijabli u analizi, to manju komunalitetu treba smatrati značajnom,
3. što je veći broj faktora, to veću komunalitetu na faktorima koji slijede treba smatrati značajnom
za interpretaciju.
Ukoliko rezultate faktorske analize nije moguće interpretirati, moguće ih je pojasniti i učiniti
manje subjektivnim metodama faktorske rotacije. Rotacija faktora se provodi primjenom
nesingularne linearne transformacije. Takvu rotiranu matricu, u kojoj svi koeficijenti, iznose 0 ili ±
1, lakše je interpretirati nego matricu punu intermedijarnih elemenata. Najviše metoda rotacije
nastoje optimizirati funkcije matrice opterećenja koja mjeri koliko su bliski elementi 0 ili ±1.
Rotacije mogu biti ortogonalne (orthogonal) ili kose (oblique).
Poslije početnog izdvajanja faktora, zajednički faktori su međusobno nekorelirani. Ako se
faktori rotiraju ortogonalnom transformacijom, (npr. varimax, quartimax, equamax, orthomax,
parsimax) oni ostaju i dalje nekorelirani, a ako su rotirani kosom rotacijom (promax, procrustes)
faktori postaju korelirani. Kose rotacije češće daju korisna rješenja nego ortogonalne. Međutim,
posljedica je koreliranih faktora da ne daju jedinstveno i nedvosmisleno mjerilo važnosti faktora za
objašnjenje varijable i tako oni ne daju sve neophodne informacije za interpretaciju faktora: moraju
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 15
se ispitati i faktorska struktura i referentna struktura prema (HARMAN, 1976, prema SAS/STAT
User’s Guide, 1989.).
Rotiranje seta faktora ne mijenja statističku eksplanatornu moć faktora. Sa statističkog
stanovišta, ne može se reći da je neka rotacija bolja od druge. Tako se izbor metode rotacije mora
bazirati na nestatističkom principu. Za većinu problema, najbolja je ona rotacija koju je najlakše
interpretirati. Ako dvije rotacije rezultiraju različitim interpretacijama ne znači da su one u
konfliktu. One su dva različita načina gledanja na istu stvar, dva različita vidika u prostoru
zajedničkih faktora. Zaključak koji ovisi o samo jednoj korektnoj rotaciji može biti neispravan.
PCA vs. FA Iako se i PCA i FA svrstavaju u redukcijske metode, razlike su bitne.
A:
• cilj PCA je reducirati broj varijabli na nekoliko novih komponenti tako da svaka komponenta
tvori novu varijablu, koje tada objašnjavaju maksimalni iznos ukupne varijance u podacima,
• cilj FA je identificirati faktore koji mogu objasniti interkorelacije originalnih varijabli i time
odrediti strukturu varijabilnosti.
B: Usporedbom jednadžbe modela analize glavnih komponenata (Pog. 2.1)
ξp = ap1 X1 + ap2 X2 + … + app Xp [2.1.a]
i statističkog modela zajedničkih faktora ([2.2.a] u simbolima [2.1.a])
Xp = λp1 ξ1 + λp2 ξ2 + … + λpm ξm + εp [2.2.e]
jasno je izdiferencirana razlika između PCA i FA. Dok je glavna komponenta linearna kombinacija
izvornih varijabli, faktor to nije.
C: Slika 2.2.a Tipovi varijanci korištenih u PCA i FA (prema SHARMA, 1996.): Analiza Vrijednosti
u dijagonali Varijanca*
PCA 1 ukupna FA komunaliteta zajednička specifična (i error)
* objašnjena varijanca * izgubljena varijanca
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 16
U većini slučajeva ove analize rezultiraju vrlo slično. Ipak PCA se više koristi kao metoda
za redukciju podataka, dok FA više kad je cilj u detektiranju strukture varijabilnosti.
Kriteriji za izbor komponenti i faktora:
Nekoliko je zajedničkih metoda poznato za izbor broja faktora u FA i komponenata u PCA.
U nastavku o izboru kriterija, izraz “faktor” ovdje ću poistovjetiti sa izrazom “komponenta”.
Primjerice:
• Kaiserov kriterij metoda je zadržavanja samo onih faktora koji imaju svojstvene vrijednosti
veće od 1. U osnovi, to je izbor samo onih faktora koji izdvajaju najmanje onoliko varijance
koliko je i ekvivalent jedne izvorne standardizirane varijable. Poteškoću čini zadržavanje
previše faktora.
• Iznos kumulativnog % ukupne varijance objašnjene faktorom na kojem želimo prekinuti
iteracije. Iako je, za statistička testiranja, najčešće primjenjivana granica 95%, mnogi se
istraživači zadrže na puno manjem % (60 - 70%).
• Scree test subjektivna je, grafička metoda koju je prvi predložio CATTELL (1966.). Ako
svojstvene vrijednosti po faktorima predstavimo grafički jednostavnim linijskim grafom, tada
ostatak faktora, nakon maksimalne zakrivljenosti, predstavlja faktorski "otpad" pa se može
zanemariti. Poteškoću čini zadržavanje premalo faktora ili preblaga krivulja.
• A Priori kriterij jednostavno je unaprijed određeni broj faktora od strane samog analitičara.
Više je od interesa za teoretska istraživanja ili za testiranja hipoteza neophodnom broju faktora.
Za ovaj problem ne postoji klasični statistički test, iako SHARMA, 1996, navodi nekoliko
prijedloga: varijacija Bartletovog testa korelacija; Horn, 1965. - paralelna scree analiza; Allen i
Hubbard, 1986. - regresijska metoda. U praksi treba ispitati nekoliko mogućnosti sa više ili manje
faktora i izabrati onu koja ima najviše smisla. Naime, izbor i previše i premalo faktora može imati
negativne posljedice. Ostavljanjem premalo faktora ne postiže se željena struktura i postoji
mogućnost zapostavljanja bitnih dimenzija, dok previše ostavljenih faktora može otežati
interpretaciju.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 17
2.3. MAHALANOBISOVA UOPĆENA UDALJENOST
Koncept sličnosti i udaljenosti fundamentalan je za mnoge multivarijatne tehnike (klaster
analizu, diskriminantnu analizu, multidimenzionalno skaliranje ...)
Poznato je da se povezanost dviju varijabli (iz podataka o n opažaja) izražava korelacijskim
koeficijentom, i sa većim brojem varijabli rezultira simetričnom matricom korelacija, koja u
dijagonali ima sve vrijednosti jedan. Analogno tome, podudaranje objekata (iz podataka o p
varijabli) u procesu grupiranja, mjerilo je njihove sličnosti. Osnovno je prvo specificirati varijable,
koje se zatim objedinjavaju u zajedničko mjerilo multivarijatne udaljenosti za svaki par objekata, i
konačno rezultiraju simetričnom matricom koja u dijagonali ima sve vrijednosti nula.
Osnovno mjerilo udaljenosti između individualnih opažaja je euklidska distanca.
Jednostavna euklidska distanca (simple euclidean distance) DE, geometrijski, je duljina
hipotenuze pravokutnog trokuta (koja spaja objekte 1 i 2) u kojemu su katete vrijednosti dviju
varijabli (X i Y), iako se u mnogim analizama (klaster - metoda centroida i Wardova, Pog. 2.7)
koristi kvadrat euklidske distance (squared euclidean distance) DE2, što ubrzava računanje:
DE2
12 = ( ) ( )2122
12 yyxx −+− [2.3.a]
Što su dva objekta (1 i 2) temeljem dviju varijabli (X i Y) sličnija, to je DE2 manji.
Iako više od tri varijable fizički nije moguće predstaviti u koordinatnom sustavu,
matematički je moguće generalizirati kvadrat euklidske distance za p varijabli:
DE2
ij = ( )2
1∑=
−p
kjkik xx [2.3.b]
gdje je DE2
ij kvadrat euklidske udaljenosti između objekata i i j , xik je vrijednost k-te varijable za i-
ti objekt, xjk je vrijednost k-te varijable za j-ti objekt, a p je broj varijabli.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 18
Najveći nedostatak euklidske distance je u nemogućnosti statističkog testiranja izračunatog
DE. Statistički gledano, ako dvije udaljenosti imaju jednaki DE, njihova pripadnost standardnoj
normalnoj distribuciji (sa μ = 0 i σ = 1) može imati različite vjerojatnosti. Euklidsku distancu je
zato potrebno prilagoditi.
Mjerila udaljenosti su vrlo osjetljiva na različite skale i magnitude mjerenja varijabli što ima
vrlo velik utjecaj na konačno rješenje. Stoga je, kadgod je to koncepcijski moguće, potrebno
standardizirati izmjere tj. izraziti ih kao odstupanja od prosjeka, (x - μ), u jedinicama standardne
devijacije, σ , putem z vrijednosti tako da:
z = (x - μ) / σ [2.3.c]
Isti se učinak postiže i sa statističkom distancom (SHARMA, 1996.). Disperzija svih p
varijabli uključena putem standardnih devijacija, s, u kvadrat euklidske udaljenosti, DE2, [2.3.b],
njena je standardizacija ili kvadrat statističke distance, DS2:
( )[ ]D x x sS ij ik jk kk
p2 2
1
= −=∑ / [2.3.d]
Dakle, statistička distanca između dva objekta ista je kao i euklidska distanca između dva
objekta čije su vrijednosti standardizirane.
Statističku udaljenost je iskoristio i PEARSON, 1926. (prema WEATHERUP, 1980.) u svom
koeficijentu srodnosti između genotipova (Coefficient of Racial Likeness - CRL). Razlike između
prosjeka različitih grupa genotipova standardizirao je standardnim pogreškama prosječnih
vrijednosti prije njihovog uvođenja u euklidski odnos. Definirao ga je (za grupe genotipova i i j )
kako slijedi:
CRL2 = 2
1 21 ∑
=⎟⎟⎠
⎞⎜⎜⎝
⎛ −p
k k
jkik
SExx
p [2.3.e]
gdje je p broj svojstava, SEk je standardna pogreška prosječne vrijednosti k-te varijable, ikx je
prosjek k-te varijable za sve genotipove grupe i, jkx je prosjek k-te varijable za sve genotipove
grupe j. CRL je, dakle, standardizirana udaljenost, i trebala bi imati vrijednost približno 2 za par
genotipova koji se razlikuju na razini p ≤ 0.05 za sve varijable.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 19
Ako su svojstva jače korelirana DS i CRL mogu dati krivu impresiju o razlikama i
udaljenostima između dva genotipa. Zato se u statističku distancu moraju uključiti kovarijance ili
korelacije između varijabli.
Mahalanobisova uopćena udaljenost (Mahalanobis Generalized Distance), DM,
(MAHALANOBIS, 1936. i 1948. prema WEATHERUP, 1980.) definira se kao statistička udaljenost
između dvije točke koja uključuje kovarijance ili korelacije između varijabli. To je, ujedno, i jedno
od najpouzdanijih mjerila udaljenosti između dvije multivarijatne populacije i rješava oba
problema: i koreliranih svojstava i ovisnost o skali mjerenja.
Formula za izračunavanje kvadrata Mahalanobisove uopćene udaljenosti, DM2, između
objekata i i j sa dvije varijable, 1 i 2, je:
Dr
x x
s
x x
s
r x x x xs sM ij
i j j i j i j22
1 12
12
12 22
22
1 1 2 2
1 2
11
2=
−
−+
−−
− + −⎡
⎣⎢⎢
⎤
⎦⎥⎥
( ) ( ) ( ) ( ) [2.3.f]
gdje su s12 i s2
2 varijance za varijable 1 i 2, a r je njihov korelacijski koeficijent.
Mahalanobisova udaljenost između dva genotipa na p varijabli definirana je izrazom:
DM2 = d´ C -1 d , [2.3.g]
gdje je d vektor razlika između prosjeka dva genotipa, koje su standardizirane svojim standardnim
devijacijama za p varijabli, d´ je njegov transpon. Dakle, ako su prosjeci p varijabli za jedan genotip
( 11x , 12x , … px1 ), a prosjeci istih p varijabli za drugi genotip ( 21x , 22x , … px2 ) onda je:
d =
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢⎢⎢
⎣
⎡
−
−
−
p
p
pp d
dd
sxx
sxx
sxx
MM
2
1
21
2
2212
1
2111
, [2.3.h]
a C matrica p x p kovarijanci. Iz [2.3.f] može se zaključiti da su i statistička i euklidska distanca, u
stvari, posebni slučajevi Mahalanobisove distance jer:
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 20
1. ako varijable 1 i 2 nisu korelirane (tj. r12 = 0) tada se Mahalanobisova distanca, DM,, svodi na
statističku distancu, DS. Matrica C iz [2.3.g] bila bi tada dijagonalna matrica sa varijancama u
dijagonali;
2. ako varijance varijabli 1 i 2 imaju vrijednost 1, dakle standardizirane su, a uz to varijable nisu
korelirane, tada se Mahalanobisova distanca, DM svodi na euklidsku distancu, DE. Matrica C iz
[4.2.3.g] bila bi tada jedinična matrica.
Hotelling (1931.) je (prema WEATHERUP, 1980.) izveo multivarijatni test signifikantnosti za
testiranje razlike između dvije grupe prosječnih vrijednosti, tzv. Hotelling’s T2, analogan t testu.
Marriott (1974.) je dao generalizaciju ovoga testa za slučaj kada je varijanca unutar grupa dobivena
iz većeg broja grupa. Ovaj oblik testa navodi da je kritična multivarijatna udaljenost, DM2
crit:
DM2
crit = )(2)1(
nnmppnmm−−− DM
2 [2.3.i]
distribuirana poput F sa (p) i (nm-n-p-1) stupnjeva slobode gdje je m broj repeticija, n broj grupa
(genotipova) i p je broj varijabli (svojstava).
Kritična multivarijatna udaljenost, analogna kritičnoj univarijatnoj razlici, koristi se za
testiranje neophodnih uvjeta za ostvarivanje prava oplemenjivača bilja (Plant Breeders Rights)
prema legislaturi UPOV-a (International Union for the Protection of New Varieties of Plants) u
DUS (Distinctness, Uniformity, Stability) testiranjima (WATSON et al., 1997.). Za procjenu
udaljenosti (Distinctness), prema prijedlogu UPOVa, neophodno je testiranje genotipa - kandidata
kroz tri godine sa potpunim setom već priznatih genotipova.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 21
2.4. DISKRIMINANTNA ANALIZA
Autorom diskriminantne analize smatra se Sir Ronald Aylmer Fisher, 1936. godine (prema
RAO, 1972.).
Diskriminantna analiza može se opisati kao:
Y1 = X1 + X2 + X3 + ... + Xn [2.4.a] (kategorijska) (mjerne i kategorijske)
Diskriminantna analiza, Discriminant Analysis, (DA) ima široku primjenu u situacijama
gdje je primarni cilj identifikacija grupe kojoj neki objekt (npr. genotip, status, program) pripada.
Ova metoda uključuje i predikciju uspješnosti (ili podbačaja) klasifikacije objekata u grupe
(subpopulacije), kao i pronalaženje one varijable (ili više njih) koja najviše pridonosi klasifikaciji -
dakle dobrog klasifikatora.
Diskriminantna analiza je određena diskriminantnom funkcijom, pod pretpostavkom da je
distribucija unutar grupa multivarijatno normalna, a varijabilnost i struktura kovarijanci grupa
jednaka. Diskriminantna funkcija, poznata i kao klasifikacijski kriterij, određena je mjerom
uopćene kvadratne udaljenosti, generalized squared distance (Rao, 1973. prema SHARMA, 1996.).
Linearni model diskriminantne funkcije je:
Z = W1 X1 + W2 X2 + W3 X3 + ... + Wn Xn [2.4.b]
gdje je Z diskriminantni skor (score), Wi je diskriminantni koeficijent (ili opterećenje) varijable i, a
Xi je nezavisna varijabla i (HAIR et al., 1995.). Diskriminantna analiza pogodna je za testiranje
hipoteze o jednakosti dviju ili više grupa temeljem njihovih sredina iz seta nezavisnih varijabli.
Diskriminantna funkcija [2.4.b] linearna je kombinacija diskriminirajućih varijabli koja
maksimizira udaljenost sredina grupa, tj separira grupe. Grupe su to bolje diskriminirane što se
manje njihovi individui preklapaju. Sredina grupe je centroid, i predstavlja prosjek diskriminantnih
skorova, Z, za sve individue unutar određene grupe. Broj grupa određen je brojem kategorija u
kategorijskoj ili klasifikacijskoj varijabli. Metoda određivanja udaljenosti ovisna je o tipu problema,
varijabli i skali mjerenja, itd. Većina situacija može biti riješena određivanjem Mahalanobisove
udaljenosti (Pog. 2.3).
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 22
Maksimalni broj diskriminantnih funkcija koje se mogu izvesti je: ili jedna manje od broja
grupa ili jedna manje od broja diskriminirajućih varijabli - koji god je od ovih brojeva manji.
Pouzdanost diskriminantne analize može se testirati multivarijatnim testovima: Wilks’ λ,
Pillai’s Trace, Hotelling-Lawley Trace, Roy’s Maximum Root (SAS/STAT User’s Guide, 1989.).
Primjena i interpretacija diskriminantne analize vrlo je slična multiploj regresiji (Pog. 2.5).
Ključna je razlika u vrsti zavisne varijable: ona je u multiploj regresiji mjerna (kvantitativna), dok je
u diskriminantnoj analizi kategorijska (kvalitativna).
KANONIČKA DISKRIMINANTNA ANALIZA kombinacija je tehnika analize glavnih
komponenata (Pog. 2.1) i kanoničke korelacije (Pog. 2.6).
Ova tehnika razvija kanoničke varijable sažimanjem varijabilnosti između grupa na isti
način kako to čini analiza glavnih komponenata sa ukupnom varijabilnošću. Kanoničke varijable
ili kanoničke komponente su linearne kombinacije kvantitativnih varijabli iz seta podataka koji
ima s jedne strane jednu zavisnu varijablu i to kategorijsku (klasifikacijsku, grupnu) u dvije ili više
razina, a sa druge nekoliko nezavisnih kvantitativnih varijabli.
Linearna kombinacija kvantitativnih varijabli, nastala u kanoničkoj diskriminantnoj analizi,
takva je da ima najveću moguću multiplu korelaciju sa grupama. Ta maksimalna multipla korelacija
se naziva prva kanonička korelacija. Koeficijenti u linearnoj kombinaciji izvornih varijabli su
kanonički koeficijenti.
Nova varijabla, definirana linearnom kombinacijom, prva je kanonička varijabla. Druga
kanonička korelacija dobiva se pronalaženjem linearne kombinacije, nekorelirane sa prvom
kanoničkom varijablom, koja ima najveću multiplu korelaciju sa grupama. Proces izdvajanja
kanoničkih varijabli može se ponavljati dok se njihov broj ne izjednači sa brojem izvornih varijabli
ili sa brojem grupa minus 1, kojigod od njih je manji.
Prva kanonička korelacija najmanje je toliko velika koliko iznosi multipla korelacija između
grupa i bilo koje izvorne varijable. Prva kanonička korelacija može biti velika i u slučaju da su sve
multiple korelacije male, ako izvorne varijable imaju jaku korelaciju između grupa. Drugim
riječima, prva kanonička varijabla može pokazati znatne razlike između grupa čak i onda kad to ne
pokazuje niti jedna od izvornih varijabli (SAS/STAT User’s Guide, 1989).
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 23
Za svaku kanoničku korelaciju testira se hipoteza da ona i sve kanoničke korelacije manje
od nje, u populaciji iznose 0. Test se provodi putem odnosa vjerodostojnosti, likelihood ratio, koji
je za sve kanoničke korelacije jednak Wilksovoj λ).
Diskriminantna analiza je osjetljiva na multikolinearnost nezavisnih varijabli, čijim se
porastom smanjuje mogućnost definiranja učinaka samih varijabli. Osim toga, osjetljiva je i na
odnos veličine uzorka i broja nezavisnih varijabli. Mnoge studije sugeriraju odnos od 20 opažaja po
nezavisnoj varijabli (HAIR et al., 1995), no važno je spoznati da smanjivanjem veličine uzorka i
njenim približavanjem broju nezavisnih varijabli rezultati analize gube na stabilnosti. Analiza je
ovisna i o veličini samih grupa: veličina najmanje grupe mora premašiti broj nezavisnih varijabli.
Čak i onda kada su svi ovi uvjeti ispunjeni velika odstupanja u veličinama grupa mogu utjecati na
klasifikaciju objekata: veće grupe tada imaju disproporcionalno veću šansu u klasifikaciji. Takvu
situaciju je potrebno korigirati prije same analize.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 24
2.5. MULTIPLA REGRESIJA
Multipla regresija Multiple Regression, statistička je metoda za analizu povezanosti
kvantitativnih varijabli i to: između jedne zavisne i više nezavisnih varijabli. Može se opisati
modelom:
Y1 = X1 + X2 + X3 + ... + Xn [2.5.a]
(mjerna) (mjerne i kategorijske)
Cilj analize multiple regresije je predikcija promjene zavisne varijable (tzv. kriterij) kao
reakcije na promjene u nekoliko nezavisnih varijabli (tzv. prediktori). Ovaj cilj se najčešće postiže
principom najmanjih kvadrata (least squares), koji proizvodi najbolje moguće, linearne,
nepristrane procjene tzv. Best Linear Unbiased Estimator - BLUE uz klasične statističke
pretpostavke (Gauss, 1809; Markov 1900; prema SAS/STAT User’s Guide, 1989). Nulta hipoteza je,
pritom, da su prediktori nezavisni od kriterija.
Multipla regresija je tehnika pronalaženja adekvatnog modela tj. linearne kombinacije, koja
se sastoji od skupa ili podskupa q nezavisnih varijabli Xi, i = 1, ... , q, koje procjenjuju nepoznatu
regresijsku funkciju zavisne varijable Y. Linearni model multiple regresije ima oblik:
Y = β0 + β1 X1 + β2 X2 + … + βq Xq + ε [2.5.b]
Izraz linearan odnosi se na činjenicu da je prosjek linearna funkcija nepoznatih parametara
β0 , β1 , ..., βq tj. regresijskih koeficijenata. Sa j nezavisnih opažaja varijable Y i pridruženih
vrijednosti varijabli Xi, potpuni oblik postaje:
Y1 = β0 + β1 X11 + β2 X12 + … + βq X1q + ε1
Y2 = β0 + β1 X21 + β2 X22 + … + βq X2q + ε2
: :
Yj = β0 + β1 Xj1 + β2 Xj2 + … + βq Xjq + εj [2.5.c]
pri čemu za slučajne pogreške εj, u predikcijama j opažaja varijable Y, vrijede pretpostavke
(JOHNSON i WICHERN, 1988.):
1. E (εj ) = 0;
2. Var (εj ) = σ2 (konst.) i
3. Cov (εj , εk ) = 0 gdje je j ≠ k.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 25
Matrično prikazan klasični linearni regresijski model [2.5.c] je:
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
jqjqjj
q
q
j XXX
XXXXXX
y
YY
ε
εε
β
ββ
MM
L
MOMMM
L
L
M2
1
1
0
21
22221
11211
2
1
1
11
ili
y = X = β + ε [2.5.d]
(j * 1) (j * (q+1)) ((q+1 ) * 1) (j * 1) ,
a pretpostavke iz [4.2.5.c] postaju:
1. E (ε ) = 0 , i
2. Cov (ε ) = E (ε ε´ ) = σ2 I .
Svrha je linearne regresije razviti jednadžbu kojom je moguće predskazati kriterij varijablu
za dane vrijednosti prediktora. To znači da je neophodno ugoditi (fit) model [2.5.d] i uz opažene
vrijednosti Yj i korespondirajuće poznate vrijednosti 1, Xj1, Xj2 . . . Xjq , procijeniti regresijske
koeficijente β uz uvjet da je pogreška ε minimalna. Metodom najmanjih kvadrata dobivaju se
BLUE procjene parametra β tako da minimiziraju sumu kvadrata razlika (JOHNSON i WICHERN,
1988.):
BLUE procjene parametra β = b = (X´X) -1 X´y [2.5.e]
procjena kriterija = y = X (X´X) -1 X´y
procjena reziduala = e = y - y = (I - X (X´X) -1 X´) y
Analiza multiple regresije, poznata također i kao uopćeno linearno modeliranje,
Generalized Linear Modelling - GLM, ne smije započeti prije detaljne provjere podataka. Ova
metoda je izuzetno osjetljiva na fundamentalne pretpostavke klasične statistike (HAIR et al,. 1995).
Normalnost je osnovna pretpostavka multivarijatne analize koja se odnosi na oblik
distribucije individualne kvantitativne varijable i njene podudarnosti s normalnom distribucijom.
Ako su ta odstupanja znatna, rezultati nisu pouzdani, jer F i t test zahtijevaju normalnost.
Univarijatne statističke metode temelje se na pretpostavkama univarijatne normalnosti. Analogno
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 26
tome, multivarijatne metode temelje se na multivarijatnoj normalnosti. Sve varijable uključene u
multivarijatnu distribuciju su univarijatno normalne, što ne vrijedi obrnuto: dvije ili više
univarijatno normalnih varijabli ne daju nužno i multivarijatnu normalnost. Grafička analiza
normalnosti jednostavna je i učinkovita metoda testiranja. Dok je testiranje univarijatne normalnosti
uobičajeno (parametrima kao npr. spljoštenost - kurtosis i asimetričnost - skewness), testiranje
multivarijatne normalnosti puno je teže (rijetko koji računalni program ima kao opciju navedene
parametre). No, JOHNSON i WICHERN, 1988, su dokazali da se vrijednosti Mahalanobisove DM2
udaljenosti, poredane po veličini, distribuiraju kao χ2 slučajna varijabla ukoliko je populacija iz
koje je DM2 izvedena, multivarijatno normalna i dovoljno velika.
Homogenost varijanci (Homoscedasticity) pretpostavka je koja se odnosi na zavisnost
između kriterija i prediktora. Ona nalaže da zavisna varijabla ima jednaku razinu varijabilnosti kao i
nezavisne varijable. Isto vrijedi i za nezavisne varijable međusobno. Naime, izjednačenost varijanci
kroz varijable osigurava nepristranost u analizi.
Linearnost je bezuvjetna pretpostavka svih multivarijatnih tehnika koje se baziraju na
korelacijskim mjerilima povezanosti, pa tako i multiple regresije i faktorske analize (Pog. 2.2).
Obzirom da korelacijski koeficijent, r, podrazumijeva linearnu povezanost varijabli, prisutnost
nelinearnih efekata može smanjiti vrijednost r. Postojanje nelinearnosti može se učinkovito
detektirati grafički, a korigirati transformacijama.
Prisutnost neobičnih vrijednosti tzv. outliers, može ozbiljno ugroziti analizu. Na ove
vrijednosti, istaknuto različite od ostalih, osobito su osjetljivi intervali pouzdanosti i procjene
parametara, te testovi valjanosti modela i parametara, F i t. Neobične vrijednosti moraju se
detektirati u stadiju ispitivanja podataka - prije analize. Poznato je nekoliko metoda detekcije
outliersa, no grafička je najčešća i dovoljno učinkovita. Ovisno o porijeklu nastanka ovih
vrijednosti analitičar ih može ili isključiti iz analize (i tretirati ih kao nepostojeće vrijednosti,
missing value) ili ostaviti uz neki oblik korekcije. Svakako, analitičar mora biti svjestan osobitosti
svojih podataka prije analize.
Nedostatak parzimonije (parsimony = štedljivost) u odabiru varijabli, u multivarijatnim
tehnikama potencijalno može izazvati štetne efekte. Ako je neka nezavisna varijabla bliska zavisnoj,
npr. njena izvedenica, onda su one korelirane. Prediktor varijabla tada ne može služiti
predskazivanju kriterija, jer je s njim u kolinearnom odnosu. Iako prisutnost irelevantnih varijabli
može naoko povećati pouzdanost modela, (prema [2.5.g] R2 se povećava dodavanjem svake
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 27
varijable) ona može maskirati stvarne efekte neke varijable. Multikolinearnost predstavlja stupanj
do kojeg može efekt neke varijable biti predskazan ili objašnjen drugim varijablama u analizi. Kako
multikolinearnost raste, tako opada mogućnost otkrivanja efekata te varijable.
Pošto predikcije praktično nikad nisu savršene (one su samo najbolje procjene zavisne
varijable tj. prosječne predikcije zadanih vrijednosti nezavisnih varijabli), stanovita odstupanja
uvijek su prisutna. Nekoreliranost pogrešaka još je jedna pretpostavka u analizi regresije, koja
treba osigurati nezavisnost očekivane vrijednosti o bilo kojoj drugoj predikciji. Mjerilo pogreške u
predikciji je rezidual tj. razlika između opaženih i očekivanih vrijednosti zavisne varijable, ili
geometrijski: okomita udaljenost od točke (tj. podatka) do regresijskog pravca. Osnovna metoda za
otkrivanje povreda svih pretpostavki je grafički prikaz vrijednosti reziduala vs. predikcija zavisne
varijable (HAIR et al., 1995.).
Sve ove pretpostavke je neophodno provjeriti kako bi se pouzdano moglo tvrditi da su
pogreške u predikciji nastale kao stvarni nedostatak povezanosti varijabli, a ne zbog neke osobitosti
podataka koja se ne uklapa u regresijski model.
Dakle, pogreške u predikciji, mogu se izmjeriti rezidualima i izraziti sumom kvadrata
pogrešaka, SSE. Analogno tome moguće je izmjeriti i uspješnost u predikciji i izraziti ju sumom
kvadrata regresije, SSR. Zbroj ovih dviju mjera čini ukupnu sumu kvadrata, TSS, a općeniti
odnos ovih suma je:
Σ (yi - y )2 = Σ (yi - iy )2 + Σ ( iy - y )2
ili
TSS = SSE + SSR [2.5.f]
gdje je y prosjek svih opažaja, yi je vrijednost individualnog opažaja, a iy predskazana vrijednost
opažaja.
Ovaj se odnos može iskoristiti za procjenu valjanosti modela u objašnjavanju kriterij
varijable temeljem više prediktora. Koeficijent determinacije, R2, mjera je proporcije varijance
zavisne varijable tj. kriterija (ili više njih), koja je objašnjiva nezavisnim varijablama, prediktorima.
R2 = TSSSSR =
TSSSSE
−1 [2.5.g]
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 28
Drugim riječima, 0 < R2 < 1 , iznos je varijance objašnjene modelom. Na taj način, ukoliko
je regresijski model pravilno modeliran i procijenjen, može poslužiti i kao indikator pouzdanosti
modela. R2 parametar je koji determinira ili određuje neku povezanost.
Na koeficijent determinacije utječe broj varijabli prediktora u relativnom odnosu sa
veličinom uzorka. Prema nekim istraživanjima (HAIR et al., 1995) već kod situacije sa 10 - 15
opažaja po prediktor varijabli (prema drugim autorima 4 opažaja) trebalo bi izvršiti prilagodbu R2.
Prilagođeni R2 , Adj R2 (adjusted R2 ) uzima u obzir broj prediktora, jer je:
Adj R2 = total
error
MSMS
−1 [2.5.h]
gdje je MSerror varijanca pogreške i MStotal ukupna varijanca. Adj R2, sastavni je dio svih regresijskih
računalnih programa, a interpretacija mu je ista kao i R2. Njegove se vrijednosti smanjuju kako broj
opažaja po prediktor varijabli opada.
Regresijski koeficijenti b, uključujući početni b0, testiraju se putem t vrijednosti gdje je H0 :
b0 , b1 , ..., bq = 0.
Multipla regresija pruža objektivnu metodu za procjenu predikcijske snage seta nezavisnih
varijabli. Prema regresijskom modelu izvedene su mnoge druge multivarijatne metode - praktično
sve koje rade na principu linearnih kombinacija varijabli (diskriminantne, faktorske, kanoničke ... ).
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 29
2.6. KANONIČKA KORELACIJA
Kanonička korelacija, Canonical Correlation, je mjerilo jačine povezanosti između dva
seta varijabli. Razvio ju je i publicirao HOTELLING u svojim radovima još 1935. i 1936, ali
primjenjenim statističarima bila je nepoznata sve do pojave složenijih računalnih programa.
Analiza kanoničke korelacije može se opisati kao:
Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn [2.6.a] (mjerne i kategorijske) (mjerne i kategorijske)
Početni korak u analizi je formiranje kanoničkih jednadžbi za dobivanje para novih,
kanoničkih varijabli (HAIR et al., 1995):
W1 = a11X1 + a12X2 + ... + a1pXp [2.6.b]
V1 = b11Y1 + b12Y2 + ... + b1qYq [2.6.c]
U kanoničku korelaciju ulaze dva seta varijabli, Y i X [2.6.a]. Analiza pronalazi novu
varijablu, V1, [2.6.c] kao linearnu kombinaciju iz seta Y varijabli, s jedne strane i novu varijablu, W1,
[2.6.b] kao linearnu kombinaciju iz seta X varijabli, s druge strane. Ako uzmemo da je R1, korelacija
između kanoničkih varijabli V1 i W1, tada je cilj kanoničke korelacije procijeniti kanoničke
koeficijente ili opterećenja, a11, a12, ... a1p i b11, b12, ... b1p, tako da korelacija između prvog
para kanoničkih varijabli R1, bude maksimalna. Ova korelacija između dviju kanoničkih varijabli je
prva kanonička korelacija.
Sljedeći korak je formiranje drugog para kanoničkih varijabli V2 i W2, nekoreliranog sa
prvim parom koji daje drugi najveći korelacijski koeficijent. Proces konstruiranja kanoničkih
varijabli nastavlja se dok se ne izjednači broj parova kanoničkih varijabli i broja varijabli u manjem
setu (Xp ili Yq). Kanoničke koeficijente je uobičajeno standardizirati tako da svaka kanonička
varijabla ima varijancu 1.
Dakle, svaka kanonička varijabla je nekorelirana sa bilo kojom drugom kanoničkom
varijablom ili varijablom iz ulaznih setova, osim sa jednom korespondirajućom kanoničkom
varijablom iz suprotnog seta. Kanonički koeficijenti općenito nisu ortogonalni, tako da kanoničke
varijable ne predstavljaju zajednički okomiti pravac kroz prostor izvornih varijabli.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 30
Prva kanonička varijabla najmanje je toliko velika koliko i multipla korelacija bilo koje
varijable u suprotnom setu varijabli. Moguće je da je prva kanonička korelacija vrlo velika, dok su
sve multiple korelacije za predikciju jedne od izvornih varijabli iz suprotnog seta male. Analiza
kanoničke redundancije ispituje valjanost i pouzdanost predikcije izvornih varijabli putem
kanoničkih varijabli.
Opće pretpostavke parametrijskih metoda odnose se i na kanoničku korelaciju. Korelacijski
koeficijent koji podrazumijeva linearnu povezanost između varijabli, odnosi se i na kanoničke
korelacije između linearnih kombinacija izvornih varijabli. Poželjna je normalnost svake izvorne
varijable zbog potrebe standardizacije i homogenost varijanci, a multikolinearnost može izazvati
nemogućnost izolacije utjecaja specifične varijable što čini interpretaciju manje pouzdanom.
Tri su kriterija za izbor značajnih kanoničkih funkcija:
1. razina značajnosti kanoničke korelacije - opće prihvaćeno 0.05;
2. jačina kanoničke povezanosti - može se koristiti metodologija primjenjena u faktorskoj analizi za
signifikantnost faktorskih opterećenja (Pog. 2.2);
3. index redundancije, redundancy index, R2, kao prosjek kvadrata multiplog korelacijskog
koeficijenta jednog seta i svake pojedine varijable iz drugog seta. Njegova interpretacija je tada
analogna R2 u multiploj regresiji (Pog. 2.5). Obzirom da ne postoji jedinstveni kriterij, preporuka
mnogih autora je upotrijebiti sva tri kriterija usporedno (HAIR et al., 1995).
Osnovni parametri u interpretaciji kanoničke analize su matrice kanoničkih struktura ili
kanoničkih opterećenja, canonical loadings i matrice unakrsnih kanoničkih opterećenja,
canonical cross-loadings, kao mjerila jednostavne linearne korelacije između izvornih varijabli i
novostvorenih u analizi. Rezultat čine četiri matrice korelacija u kombinacijama X vs.W, Y vs. V, X
vs.V i Y vs. W varijabli [2.6.a], [2.6.b] i [2.6.c] (SAS/STAT User’s Guide, 1989). Kanonička
opterećenja odražavaju dio varijance koju izvorna varijabla dijeli sa novom kanoničkom
varijablom, a mogu se interpretirati kao faktorska opterećenja u smislu relativnog učešća svake
varijable u svakoj kanoničkoj funkciji (Pog. 2.2).
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 31
2.7. KLASTER ANALIZA
Klaster analiza, Cluster Analysis, je grupa multivarijatnih tehnika čiji je primarni cilj
klasificiranje ili klasteriranje opažaja u skupine, grupe ili klastere tako da je (SHARMA, 1996):
1. svaka grupa ili klaster homogena (kompaktna) obzirom na određene varijable (svojstva), tj. da su
svi opažaji u jednoj grupi slični jedni drugima,
2. svaka grupa različita od druge obzirom na te iste varijable (svojstva), tj. da se opažaji u jednoj
grupi moraju razlikovati od opažaja u drugoj grupi.
Geometrijski je koncept klaster analize, u dvodimenzionalnom prostoru, vrlo jednostavan:
svaki opažaj moguće je prikazati kao točku. Uopćeno, svaki je opažaj moguće prikazati kao točku i
u p dimenzionalnom prostoru, gdje je p broj varijabli (ili svojstava) koje opisuju opažaj.
Isto tako je moguće klasificirati tj. klasterirati varijable. Tada su varijable u grupi
(klasteru) slične obzirom na određene opažaje. Geometrijski, analogno klasteriranju opažaja, sada
se u n dimenzionalnom prostoru opažaja prikazuju varijable. Ciljevi ovog tipa klaster analize
nalikuju onima u faktorskoj analizi (Pog. 2.2): identifikacija klastera koji sadrže varijable koje
imaju nešto zajedničko.
Prvi korak u analizi je izbor mjerila sličnosti. Mjerilo sličnosti, u dvodimenzionalnom
prostoru, je udaljenost između dvije točke (Pog. 2.3). Sljedeći korak je izbor između dvije osnovne
metode klaster analize.
Hijerarhijska klaster analiza, kako i samo ime kaže, radi na principu algoritma koji
formira klastere po hijerarhiji tako da je u svakoj sljedećoj razini broj klastera manji za jedan. Ova
metoda analize se najčešće prikazuje grafički, dendrogramom. Dva su osnovna tipa ove metode: a)
aglomerativna ili rastuća, u kojoj svaki objekt započinje kao zasebni klaster, čiji se broj u
sljedećim koracima reducira dok se svi na kraju ne grupiraju u jedan veliki klaster. Osobitost klaster
analize je da su rezultati iz prethodne razine uvijek ugnježđeni u onu kasniju; b) divizivna, ukoliko
proces klasteriranja ima drugi smjer tj. opadajući, koja započinje jednim velikim klasterom koji
sadrži sve opažaje, a u slijedećim koracima se dijeli. Obje metode rezultiraju isto, ali u obratnom
smislu.
Nekoliko je metoda poznato za razvoj klastera:
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 32
1. metoda centroida - svaku grupu predstavlja prosječni subjekt tj. centroid, a udaljenost između
klastera je euklidska distanca ili kvadrat euklidske distance (Pog. 2.3) između njihovih centroida.
2. pojedinačna vezanost ili metoda najbližeg susjeda (Single Linkage or the Nearest Neighbor
Method) - minimalna udaljenost između svih mogućih parova opažaja u dva klastera.
3. potpuna vezanost ili metoda najdaljeg susjeda (Complete Linkage or Farthest Neighbor
Method) - maksimalna udaljenost između svih mogućih parova opažaja u dva klastera.
4. prosječna vezanost (Average Linkage) - prosječna udaljenost između svih mogućih parova
opažaja u dva klastera.
5. Wardova metoda - jedina ne računa udaljenost između klastera, nego maksimizira homogenost
unutar klastera. Mjerilo te homogenosti je suma kvadrata unutar klastera (error sum of squares -
ESS). U početku je svaki opažaj predstavljen jednim klasterom i stoga u svim klasterima ESS
iznosi nula. U sljedećem koraku se dva opažaja, iz svih mogućih kombinacija, stapaju u jedan
klaster, sa najmanjom ESS, pa je broj klastera za jedan manji od broja opažaja.
Za razliku od hijerarhijske, u nehijerarhijskoj klaster analizi broj klastera (k) i njihovi
centroidi moraju biti poznati a priori. Početni klasteri formiraju se uklapanjem svih preostalih n - k
opažaja najbliskijem centroidu. Poznato je nekoliko je algoritama za pridavanje opažaja klasterima:
npr. postupni prag kojim se odredi jedan početni klaster sa prethodno specificiranom udaljenosti, i
paralelni prag kojim se odredi nekoliko početnih klastera, te optimizacija kojom je moguće
preurediti sadržaje klastera nastale tijekom analize (SHARMA, 1996; HAIR et al., 1995). Dakle,
rješenje ovoga tipa analize daleko je više ovisno o sposobnosti analitičara pri izboru centroida u
početnoj fazi.
Klaster analiza nije tehnika statističkog zaključivanja u smislu pretpostavki odnosa uzorak -
populacija, nego objektivna metodologija za klasificiranje, na jakoj matematičkoj podlozi. Stoga
ona nije opterećena pretpostavkama o normalnosti, linearnosti i homogenosti varijanci. No, klaster
analiza je osjetljiva na izbor varijabli relevantnih za objekt istraživanja i na opažaje koji se razlikuju
od ostalih (outliers). Dakle, od velike su važnosti reprezentativnost uzorka i multikolinearnost.
Osim toga, zbog velikog broja podmetoda, klaster analiza je, možda više nego ijedna druga
multivarijatna analiza, pod utjecajem izbora samog analitičara.
Interpretirati klastere znači znati objasniti njegov sadržaj, tj. biti u mogućnosti klaster opisati
riječima ili mu dati ime.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 33
2.8. MULTIDIMENZIONALNO SKALIRANJE
Multidimenzionalno skaliranje, Multidimensional Scaling, (MDS) grupa je metoda za
procjenu koordinata seta objekata iz podataka o udaljenosti između parova objekata (MANLY,
1986). Vrlo često za ovu metodu autori koriste naziv analiza glavnih koordinata - Principal
Coordinate Analysis (DIGBY i KEMPTON, 1987). Različite su metode računanja udaljenosti (već
opisane u Pog. 2.3), kao i funkcija koje određuju odnos između tih udaljenosti i stvarnih podataka.
Ulazni podaci mogu dakle, biti različite matrice udaljenosti, a rezultat je “mapa” odnosa između
njih. “Mapa” može biti u jednoj dimenziji (ako objekti padaju u jednu crtu), u dvije dimenzije (ako
objekti leže na plohi), u tri dimenzije (ako su objekti točke u prostoru) ili u većem broju dimenzija
(u kojem slučaju više nije moguć neposredan grafički prikaz).
Multidimenzionalno skaliranje je metoda poznata kao perceptualno mapiranje, tj. metoda
koja pomaže analitičaru u određivanju relativnog odnosa između objekata nekog seta u prostoru.
Ova se metoda može usporediti sa drugim metodama koje se bave međusobnom zavisnošću u cilju
definiranja njene strukture (npr. faktorska ili klaster metoda).
Faktorska analiza (Pog. 2.2) grupira varijable u faktore koji objašnjavaju skrivene dimenzije
izvornih varijabli. Ulazna matrica je korelacijska ili neka srodna, a varijable koje su jače korelirane
grupiraju se zajedno.
Klaster analiza (Pog. 2.7) grupira opažaje u klastere temeljem neke matrice sličnosti ili
udaljenosti tj. prema njihovom profilu u setu varijabli. Međusobno bliskiji opažaji grupiraju se
zajedno.
Multidimenzionalno skaliranje ima strukturu perceptualnih dimenzija komparacije
individua. Od spomenutih, ali i ostalih multivarijatnih metoda razlikuje se u dva ključna aspekta: a)
svakom objektu od interesa osigurano je vrednovanje u pravcu svih promatranih objekata; b) ne
upotrebljava se nova, sintetska varijabla iz seta izvornih, nego se dimenzije izvode temeljem općeg
mjerila udaljenosti između svih objekata (HAIR et al., 1995).
Multidimenzionalno skaliranje nije uvriježena kao egzaktna metoda i više se upotrebljava
kao oblik pregrupiranja objekata na način koji može najbolje aproksimirati opažene udaljenosti.
Predložak za mapu čini prostorna konfiguracija definirana vrijednostima i brojem dimenzija koje se
dobiju iterativnim postupcima. Formiranje vrijednosti dimenzija rezultat je algoritma minimizacije
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 34
funkcije, koji testira različite modele sa ciljem maksimizacije goodness-of-fit (ili minimizacije lack-
of-fit tj. badness-of-fit). Kruskalov stress (prema HAIR et al., 1995) mjerilo je valjanosti
podudaranja, goodness-of-fit, kojim se vrednuje koliko dobro određeni model predstavlja (ili koliko
se dobro uklapa) opaženu matricu distanci. Definiran je jednadžbom:
stress = ( ) ( )22
ijijijij dd/dd −− [2.8.a]
gdje je d ij prosječna udaljenost (∑dij/n) na “mapi”. Vrijednost stressa se smanjuje približavanjem
procijenjenog d ij pravoj dij. Stress je najmanji kada se objekti smjeste u konfiguraciju tako da se
udaljenosti između objekata na “mapi” najbolje poklapaju sa izvornim udaljenostima.
Problem kod stress metode analogan je problemu R2 u multiploj regresiji (Pog. 2.5). Naime,
stress se uvijek poboljšava, tj smanjuje povećanjem broja dimenzija (isto kao što se R2 povećava
dodavanjem varijabli). Radi smanjenja opsega analize potrebno je pronaći pouzdani broj dimenzija
potreban za prostornu konfiguraciju, a da se pritom ne gubi informacija. Scree plot metoda koja se
koristi i za ekstrakciju faktora u faktorskoj analizi (Pog. 2.2) može poslužiti i ovom slučaju. No,
sada se traži odnos između broja dimenzija (x) i stressa (y). Opće prihvaćeno je mišljenje da dvije
do tri dimenzije nude najjasniju interpretaciju.
Indeks uklapanja (index of fit) je kvadrat korelacijskog koeficijenta, poznat kao koeficijent
determinacije, R2 i predstavlja mjerilo koje testira koliko se dobro multidimenzionalo skaliranje
uklapa u izvorne podatke. Interpretacija je analogna R2 u multiploj regresiji (Pog. 2.5)
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 35
2.9. MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE (AMMI model)
Multivarijatna analiza odnosa između okolina i genotipova
Multivarijatne tehnike mogu biti korisne za dodatno objašnjenje odnosa između okolina i
genotipova. Mogućnosti i reakcije genotipova mogu se opisati u multidimenzionalnom prostoru, u
kojemu svaka dimenzija predstavlja jednu od ispitivanih okolina čije su koordinate prinos ili neko
drugo svojstvo. I obrnuto, okoline je moguće bolje proučiti postavljanjem u multidimenzionalni
prostor u kojemu svaka dimenzija predstavlja jedan genotip.
U oplemenjivačkim programima, za svaku kulturu u svakom ciklusu, generira se
dvosmjerna tablica genotip x okolina, (GxE), sa podacima o prinosu i drugim svojstvima. Dok
ANOVA rješava problem dvosmjernih tablica aditivnim modelom, parametri u analizi glavnih
komponenata (PCA) se multipliciraju. Ova koncepcijska razlika, logično, uvjetuje i znatne razlike u
računskim operacijama (GAUCH, 1992): iterativni račun u PCA puno je zahtjevniji od računa
ANOVA; dok ANOVA rezultira samo jednim setom genotipskih i jednim setom okolinskih
odstupanja, potpuni PCA model nudi onoliko setova parametara (osi PCA) koliko je genotipova i
okolina. Praktične su razlike između ova dva modela vidljive u njihovoj pristupačnosti agronomima
i oplemenjivačima. PCA je puno manje razumljiva od već uvriježene ANOVA. Naime, rezultat
PCA su tablice i grafovi čija je interpretacija praktičarima apstraktna.
Multivarijatni model analize za pokuse u prostoru i vremenu stavlja prinos genotipa od
interesa u odnos sa svim ostalim prinosima. Stoga za preciznu procjenu prosječnog prinosa nekog
genotipa g u okolini e nisu dovoljni podaci samo o genotipu g u okolini e. Relevantani su podaci iz
cijelog pokusa: podaci o genotipu g u ostalim okolinama, podaci o ostalim genotipovima u okolini
e. Linearni model koji obuhvaća sve podatke o genotipovima i okolinama proizvodi reziduale (bitne
i nebitne) koji su, kako FREEMAN, 1973. naglašava, fundamentalni problem poljskih pokusa: “data
= pattern+noise”. Cilj ove analize je razlučiti bitno od nebitnog (pattern vs. noise) i podatke iz
ovakve tablice sažeti, najčešće u oblik biplota. Biplot je grafički prikaz lijevih i desnih vektora.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 36
MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE
Model aditivnih glavnih efekata i multiplikativne interakcije (Additive Main effects and
Multiplicative Interaction - AMMI model) analitičko je sredstvo za interpretaciju interakcije
genotipa i okoline (GAUCH i ZOBEL, 1988; CROSSA et al., 1991; VAN EEUWIJK, 1995a, 1995b, 1996;
FOX et al., 1997). AMMI je, dakle, kombinacija ANOVA (aditivnost) i PCA (multiplikativnost) u
jedinstvenoj analizi i ordinacijska je metoda. Zbog originalnosti AMMI modela razvijena je
posebna terminologija i način interpretacije.
Potpuni model AMMI je:
Yij = μ + gi + ej + Σ λk αik γjk + εij [2.9.a]
gdje je Yij prosjek i-tog genotipa u j-toj okolini, μ je ukupni prosjek, gi i ej su glavni efekti
pripadajućih genotipova i okolina, a εij je pogreška pokusa. Reziduali ij-tog podatka Zij = Yij - Yi. -
Y.j + Y, formiraju matricu Z. Procjene najmanjih kvadrata parametara AMMI modela λk , αik , γjk ,
svojstvene su vrijednosti, te lijevi i desni svojstveni vektori matrice Z. Dakle, prvi dio modela je
aditivni i podrazumijeva ANOVU u koja uključuje samo glavne efekte, bez interakcije. Drugi dio
modela je multiplikativni, i bavi se dekompozicijom matrice interakcije na svojstvene vrijednosti i
vektore (singular value decomposition - [2.1.7]) i tvore 1 do n osi. Ove osi nazivaju se interakcijske
PCA osi ili IPCA.
AMMI generira skup modela:
1. Prvi model, AMMI0, u stvari je ANOVA,
Yij = μ + gi + ej + εij , [2.9.b]
i za opis matrice podataka koristi aditivni genotipski i okolinski prosjek, i tako rangira
genotipove podjednako u svakoj okolini, ignorirajući pritom GxE interakciju. U ovom modelu
nema IPCA.
2. Drugi model, AMMI1,
Yij = μ + gi + ej + λ1 αi1 γj1 + εij , [2.9.c]
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 37
predstavljen je glavnim efektima i osi prve glavne komponente (IPCA1) za interpretaciju matrice
reziduala.
3. Model AMMI2,
Yij = μ + gi + ej + λ1 αi1 γj1 + λ2 αi2 γj2 +εij , [2.9.d]
uključuje glavne efekte, a neaditivnu varijabilnost, dakle interakciju, objašnjava u dvije glavne
komponente (IPCA1 i IPCA2).
U slijedećim AMMI modelima uključuju se dodatne glavne komponente. To uključivanje
može biti do potpunog modela AMMI tj. AMMIF (full AMMI model). Dakle, AMMI0 i AMMIF
su ekstremi i kao takvi praktično nisu nikad pogodni. AMMI0 je najčešće nedovoljan i podcjenjuje
učinak interakcija u modelu (data underfitting), dok je AMMIF pretjeran i precjenjuje učinak
interakcija (data overfitting).
U praksi se multiplikativne komponente višeg reda, tj. komponente interakcije, koje F
testom nisu signifikantne mogu zanemariti, i time nastaje tzv. reducirani model. Modeli AMMI1 i
AMMI2 su najčešće dovoljni za interpretaciju interakcije i smatraju se najboljima u skupu AMMI
modela.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 38
3. UMJESTO ZAKLJUČKA
RAO, je 1964. prozvao Sir Ronald Aylmer Fishera arhitektom multivarijatne analize.
Pronalazak i razvitak kompjutorske tehnologije izazvao je revoluciju u znanstvenom istraživanju
(RAO, 1970), posebice u multivarijatnoj statističkoj analizi čije su novije tehnike isključivo vezane
uz primjenu kompjutora.
“Biolozi trebaju biti zainteresirani za statistiku ne zbog njene istinske elegancije, nego zbog
toga što im ona pruža alate koje mogu upotrijebiti za vrednovanje teorija i zaključaka od biološke
važnosti.” (WALTON, 1972).
Genotipovi ŠEĆERNE REPE (1995. - 1997.)
KWS255 H6852 ST1516 HY5073 HY2853
OSNADA H4671 M9505 M9503 COBRA
M9515 ANTONIA ROXANE
= NISU PRIZNATI= STANDARD= PRIZNATI
ICON PLOT - 2D Chernoff Faces (STATISTICA - statistical software)
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 39
4. LITERATURA
1. ANDERSON, TW., 1958. An Introduction to Multivariate Statistical Analysis. John Wiley & Sons Inc.
2. BARTLETT, M.S., 1947. Multivariate analysis. Journal of Royal Statistical Society B, 9 (176-197).
3. CALINSKI, T., CORSTEN, L.C.A., 1985. Clustering means in ANOVA by simultaneous testing. Biometrics 41 (39-48).
4. CATTEL, R.B., 1965. Factor analysis: an introduction to essentials. II. The role of factor analysis in research. Biometrics 21 (405-435).
5. CATTELL, R.B., 1949. rb and other coefficients of pattern similarity. Psychometrika 14 (279-298).
6. CATTELL, R.B., 1965. Factor analysis: an introduction to essentials. I. The purpose and underlying models. Biometrics 21 (190-215).
7. COCHRAN, W.G., 1957. Analysis of covariance: its nature and uses. Biometrics 13 (261-281).
8. COOLEY W.W., LOHNES P.R., 1971. Multivariate Data Analysis. John Wiley & Sons Inc.
9. CROSSA, J., GAUCH, H.G.JR., ZOBEL, R.W. 1990. Additive Main Effects and Multiplicative Interaction analysis of two international maize cultivar trials. Crop Sci. 30 (493-500).
10. DIGBY, P.G.N., KEMPTON, R.A., 1987. Multivariate Analysis of Ecological Communities. Chapman & Hall Ltd.
11. FISHER, R.A., 1928. The general sampling distribution of the multiple correlation coefficient. Proceedings of the Royal Society, A121 (654-673).
12. FISHER, R.A., 1936. The use of multiple measurements in taxonomic problems. Annals of Eugenics 7 (179-188).
13. FOX, P.N., CROSSA, J., ROMAGOSA, I., 1997. Multi-environment testing and genotype x environment interaction. In: Statistical Methods for Plant Variety Evaluation. Ed. by R.A. KEMPTON AND P.N. FOX, Chapter 8 (117-138), Chapman & Hall Ltd.
14. FREEMAN, G.H., CRISP, P., 1979. The use of related variables in explaining genotype-environment interactions. Heredity 42/1 (1-11).
15. FULGOSI, A., 1988. Faktorska analiza. Školska knjiga, Zagreb.
16. GAUCH, H.G.JR., 1992. Statistical Analysis of Regional Trials: AMMI Analysis of Factorial Designs. Elsevier Sci. Publ. B.V., Amsterdam, The Netherlands.
17. GAUCH, H.G.JR., ZOBEL, R.W., 1988. Predictive and postdictive success of statistical analyses of yield trials. Theor. Appl. Genet. 76 (1-10).
18. GIFI, A., 1990. Nonlinear Multivariate Analysis. John Wiley & Sons, Inc.
19. HAIR, J.F.JR., ANDERSON, R.E., TATHAM, R.L. BLACK, W.C., 1995. Multivariate Data Analysis (with Readings). Fourth Ed., Prentice-Hall International, Inc., USA.
20. HARMAN, H.H., 1960. Modern Factor Analysis. Chicago: University of Chicago Press.
21. HOTELLING, H., 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology 24 (417-441; 498-520).
22. HOTELLING, H.,1936. Relations between two sets of variates. Biometrika 28 (321-377).
23. JOHNSON R.A., WICHERN D.W., 1988. Applied Multivariate Statistical Analysis. Second Ed., Prentice-Hall International, Inc. USA.
24. KACHIGAN, S.K., 1991. Multivariate Statistical Analysis. Radius Press, New York.
25. KANG, M.S., GAUCH, H.G.JR., 1996. Genotype by Environment Interaction. CRC Press, Inc.
26. KENDALL, M.G., 1957. A Course in Multivariate Analiysis. Charles Griffin & Co., London.
27. KEMPTON, R.A., 1984. The use of biplots in interpreting variety by environment interactions. J. Agric. Sci. Camb. 103 (123-135).
28. KEMPTON, R.A., FOX, P.N. 1997. Statistical Methods for Plant Variety Evaluation. Chapman & Hall Ltd.
29. KSHIRSAGAR, A.N., 1978. Multivariate Analysis. Marcel Dekker Inc., New York.
Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 40
30. LEFKOVITCH, L.P., 1985. Multi-criteria clustering in genotype-environment interaction problems. Theor. Appl. Genet. 70/6 (585-589).
31. MAHALANOBIS, P.C., 1936. On the generalized distance in statistics. Proceedings of the National Institute of Science of India 2, (49-55).
32. MANLY, B.F.J., 1986. Multivariate Statistical Methods - A Primer. Chapman and Hall Ltd. London, New York.
33. MORRISON, D.F., 1976. Multivariate Statistical Methods. McGraw-Hill, New York.
34. PEARSON, K., 1901. On lines and planes of closest fit to system of points in space. Phylosophy Magazine 6th series 2 (559-572).
35. PEARSON, K., 1926. On the coefficient of racial likeness. Biometrika 18 (105-117).
36. PECINA, M., 1998. Multivarijatna analiza i primjena u oplemenjivanju bilja. Doktorska disertacija, Sveučilište u Zagrebu Agronomski fakultet.
37. RAO, C.R., 1964. Sir Ronald Aylmer Fisher - the architect of multivariate analysis. Biometrics 20 (286-300).
38. RAO, C.R., 1970. Computers: a great revolution in scientific research. Proc. Indian National Scientific Academy 36 (123-139).
39. RAO, C.R., 1972. Recent trends of research world in multivariate analysis. Biometrics 22 (3-22).
40. ROBINSON, D.L., 1987. Estimation and use of variance components. Statistician 36 (3-14).
41. ROBINSON, G.K., 1991. That BLUP is a good thing: the estimation of random effects. Stat. Sci. 6/1 (15-51).
42. SAS Institute, Inc., 1989. SAS/STAT® User's Guide, Version 6, Fourth Edition, Volume 1(943 pp) & 2 (846 pp), Cary, N.C: SAS Institute Inc.
43. SEAL, H., 1964. Multivariate Statistical Analysis for Biologists. Methuen, London.
44. SHARMA, S., 1996. Applied Multivariate Techniques. John Wiley & Sons, Inc.
45. TABACHNICK, B.G., FIDELL, L.S., 1989. Using Multivariate Statistics. Second Ed. Harper & Row Publishers, New York, USA.
46. VAN EEUWIJK, F.A., 1995. Linear and bilinear models for analysis of multi-environment trials: I. An inventory of models. Euphytica 84 (1-7).
47. VAN EEUWIJK, F.A., KEIZER, L.C.P. BAKKER, J.J., 1995. Linear and bilinear models for analysis of multi-environment trials: II. An application to data from Dutch maize Variety Trials. Euphytica 84 (9-22).
48. VAN EEUWIJK, F.A., 1996. Between and beyond additivity and non-additivity: The statistical modelling of genotype by environment interaction in plant breeding. Thesis, Wageningen Agricultural University, The Netherlands.
49. WARD, J.H., 1963. Hierarchical grouping to optimize an objective function. Journal of American Statistical Association, 59 (236-244).
50. WEATHERUP, S.T.C., 1980. Statistical procedures for distinctness, uniformity and stability variety trials. J. agric. Sci., Camb. 94 (31-46).
51. WEATHERUP, S.T.C., 1994. Use of Mahalanobis distance to measure varietal distinctness. Plant Varieties and Seeds 7(107-119).
52. WILKS, S.S., 1932. Certain generalization in the analysis of variance. Biometrika 24 (471-474).