Metode MVA - osnove (interna skripta)

SVEUČILIŠTE U ZAGREBU AGRONOMSKI FAKULTET

METODE MULTIVARIJATNE ANALIZE O S N O V E

Prof. dr. sc. Marija Pecina

Zagreb, 2006.

Prof. dr. sc. Marija Pecina: Metode MVA - osnove (interna skripta) 2

Sadržaj:

1. UVOD ..........................................................................................................................................3

2. METODE MVA...........................................................................................................................4

2.1. ANALIZA GLAVNIH KOMPONENATA ..................................................................................7

2.2. FAKTORSKA ANALIZA .....................................................................................................12

2.3. MAHALANOBISOVA UOPĆENA UDALJENOST....................................................................17

2.4. DISKRIMINANTNA ANALIZA ............................................................................................21

2.5. MULTIPLA REGRESIJA .....................................................................................................24

2.6. KANONIČKA KORELACIJA................................................................................................29

2.7. KLASTER ANALIZA..........................................................................................................31

2.8. MULTIDIMENZIONALNO SKALIRANJE ..............................................................................33

2.9. MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE .......................35

3. UMJESTO ZAKLJUČKA .........................................................................................................38

4. LITERATURA ..........................................................................................................................39


1. UVOD

Neprekidni razvoj bioloških znanosti dovodi do potrebe proučavanja, praćenja i

kontroliranja sve većeg broja svojstava - morfoloških, fizioloških, kemijskih, fizičkih ... Takvo

progresivno gomilanje svojstava i podataka koja su, u pravilu, u vrlo kompleksnim odnosima

neminovno je u trajnoj potrazi za statističkim modelima i postupcima koji pružaju cjelovitu sliku

povezanosti mnogobrojnih interesa u istraživanjima. Uvriježene metode univarijatne analize kojima

se varijable analiziraju pojedinačno, ne pružaju dovoljno pouzdanih mogućnosti za objedinjavanje

višestrukih opažaja, a u konačnici niti za pravilno znanstveno zaključivanje.

Multivarijatna analiza grana je statistike koja se bavi analizom višestrukih izmjera većeg

broja varijabli na jednom ili više uzoraka jedinki (COOLEY i LOHNES, 1971). Zanimanje

multivarijatnog analitičara za zajedništvo njegovih p mjerenja na N subjekata opisao je KENDALL,

1957. (prema COOLEY i LOHNES, 1971):

“Varijable su međusobno toliko ovisne da jedna ili više njih ne može biti izdvojena od

ostalih i razmatrana za sebe. Varijable se moraju razmatrati zajedno.”

Tehnički, multivarijatni analitičar radi na istraživanju u kojem je toliko pozornosti

posvećeno na p(p-1)/2 različitih kovarijanci (cov) između varijabli koliko i na p prosjeka ( x ) i na p

varijanci (s2 ), ako ne i više. To nije slučajno, jer su upravo spomenuti x , s2 i cov parametri

multivarijatne normalne distribucije, koja predstavlja matematički model na kojemu se temelje

multivarijatne statističke procedure.

Metode multivarijatne statističke analize razvijale su se postupno i do sada su mnoge našle

primjenu u važnoj domeni agronomije - biljnoj genetici i oplemenjivanju bilja. Različite modele

klasifikacija, redukcija, predviđanja, upotrebe diskriminantne i faktorske analize, analize glavnih

komponenata, multiplikativne modele, analize varijabilnosti, povezanosti i distribucija primijenili

su mnogi autori s različitim ciljevima i na različitim biljnim vrstama: BARTUAL et al., 1985. (soja);

WALTON, 1972, LEE i KALTSIKES, 1973, BHATT, 1976. (pšenica); EAVES i BRUMPTON, 1972.

(duhan); GALE i EAVES, 1972. (mak); GHADERI et al., 1979. (grah), 1980. (pšenica); HUSSAINNI, et

al., 1977. (proso); OTTAVIANO et al., 1975. (kukuruz); POLIGNANO et al, 1985. i 1989. (bob); REZAI,

et al., 1990. (divlja zob); WELTZIEN, 1989. (divlji ječam); VAN EEUWIJK et al., 1995. (kukuruz);


KRALJ et al. 1986, 1988, 1990, 1991, 1994a, 1994b (hmelj); ZEWDIE i ZEVEN, 1997. (paprika); itd.

(prema PECINA, 1998).

Brojna biološka svojstva, važna i u oplemenjivačkom i u gospodarskom smislu, te način

njihove zavisnosti i povezanosti predstavljaju i problem i izazov. Otkrivanje i poznavanje načina i

stupnja tih veza i zavisnosti, od neprocjenjive je koristi u mnogim disciplinama, pa tako i kod

cjelovitog vrednovanja genotipa (prinos/prirod i komponente, kvaliteta predstavljena velikim

brojem svojstava,...)

Pouzdano vrednovanje novih genotipova u trajnom je iskušenju. Primjerice, u radu naše

sortne komisije, za gotovo sva svojstva koja su od proizvodnog značaja (prinos i komponente

prinosa) procjenjuju se osnovni statistički parametri i provodi dvosmjerna analiza varijance, te

laboratorijske analize za svojstva kvalitete. Međutim, rezultati kemijskih i fizičkih analiza (koje se

provode za određene biljne vrste) koje zahtijevaju specijaliziranu i skupocjenu opremu, uređaje,

kemikalije, stručno osoblje ... ostaju na razini izmjerenih vrijednosti za propisana svojstva po

prijavljenom genotipu. Ti rezultati se, doduše, koriste pri ocjeni vrijednosti genotipa, ali isključivo

vizualnom usporedbom koja je, dakako, nedovoljno pouzdana.

Multivarijatne metode omogućavaju proučavanje relacija, upotrebljivosti, značajnosti

brojnih - međusobno jače ili slabije, ali u pravilu kompleksno vezanih - zavisnih ili nezavisnih,

mjernih ili kategorijskih varijabli objedinjenom analizom - multivarijatnom analizom (MVA).

2. METODE MVA

GIFI je 1990. analizirao rad većine vodećih multivarijatnih statističara, kao i njihovo

poimanje multivarijatnih analiza. Čini se da veliko bogatstvo odgovora koje pružaju, nudi i

bogatstvo definicija.

Tako ANDERSON, 1958, kaže da je to “… statistička analiza podataka koja se sastoji od seta

izmjera na nekom broju jedinki ili objekata…, a matematički model na kojemu se temelji analiza,

multivarijatno je normalan ili kombinacija multivarijatno normalnih distribucija.”

Za MORISSONOVU, definiciju iz 1967, GIFI kaže da je uobičajena: “… bavi se podacima iste

jedinke prikupljenim u nekoliko dimenzija.”


COOLEY i LOHNES, 1971, kao i KENDALL, 1957, razlikuju analize zavisnosti varijabli kojoj

je tipični predstavnik multipla regresija, i analize međuzavisnosti varijabli sa tipičnim

predstavnikom u analizi glavnih komponenata.

KSHIRSAGAR, 1978. smatra da je regresijska analiza najvažnija statistička tehnika, što je

karakteristični primjer multivarijatno normalnog gledišta.

Iako se GIFI i kritički osvrnuo na rad spomenutih autora, neke činjenice o multivarijatnim

metodama statističke analize nepobitne su, i one će biti ovdje iznesene.

Teoretičari su sistematizirali i klasificirali multivarijatne metode na različite načine.

Klasifikacije analitičkih metoda po Kendalovoj ideji podržava i SHARMA, 1996. što je prikazano u

Tablicama 2.a i 2.b.

Tablica 2.a Statističke metode temeljene na zavisnosti:

ZAVISNA(e) VARIJABLE Jedna Više NEZAVISNA(e) mjerna kategorijska mjernih kategorijskih Jedna: mjerna

• Regresija

• Diskriminantna analiza • Logistička regresija

• Kanonička korelacija

• Multiple-group diskriminantna analiza (MDA)

kategorijska

• t – test • Diskretna diskriminantna analiza

• MANOVA • Diskretna MDA

Više: mjernih

• Multipla regresija

• Diskriminantna analiza • Logistička regresija

• Kanonička korelacija

• MDA

kategorijskih

• ANOVA • Diskretna diskriminantna analiza

• Conjoint analiza

• MANOVA • Diskretna MDA

Tablica 2.b Statističke metode temeljene na međuzavisnosti:

VARIJABLE T i p B r o j mjerne kategorijske

2 • Jednostavna korelacija • Dvosmjerna tablica kontingencije • Loglinearni modeli

više od 2 • Analiza glavnih komponenata (PCA) • Faktorska analiza (FA)

• Višesmjerna tablica kontingencije • Loglinearni modeli • Analiza korespondencije

TABACHNICK i FIDELL, u pregledu 1989. godine, daju svoju podjelu multivarijatnih metoda

koja se temelji na zadanim ciljevima (Tablica 2.c).


Tablica 2.c Metode multivarijatne analize (prema TABACHNICK i FIDELL,1989.) i autori koji su dali najveći doprinos u njihovoj razradi i primjeni

(prema COOLEY i LOHNES, 1971.) C I L J M E T O D E Stupanj povezanosti

• Multipla korelacija i regresija (PEARSON, 1901, FISHER, 1928, CATTELL, 1949.)

• Kanonička korelacija (HOTELLING, 1936.) • Multipla analiza frekvencija (diskretne var.)

Značajnost razlika između grupa

• Faktorijalna ANOVA (FISHER, 1923.) • Faktorijalna ANCOVA (COCHRAN, 1957.) • Faktorijalna MANOVA (WILKS, 1932.) • Faktorijalna MANCOVA • Jednosmjerna MANOVA ili Hotelling’s T2 (HOTELLING,

1936.) • Profile analysis - PA (CRONBACH, 1953.)

Predikcija pripadnosti grupa

• Jednosmjerna diskriminantna analiza – DA (FISHER, 1936.) • Faktorijalna diskriminantna funkcijska analiza - DFA

Struktura veze: - empirijska - teoretska

• Analiza glavnih komponenata – PCA (HOTELLING, 1933.) (Principal components analysis)

• Faktorska analiza – FA (HARMAN, 1960, CATTELL 1965.)

U nastavku u prikazu svake od metoda MVA primijenjena su jednaka pravila:

• Opis i tijek analize

• Pretpostavke i specifičnosti

• Hipoteze, pouzdanost i testiranje

• Primjena i interpretacija


2.1. ANALIZA GLAVNIH KOMPONENATA

Mogućnosti analize glavnih komponenata prvi je opisao KARL PEARSON (1901.), ali

praktične računske metode razradio je HOTELLING puno kasnije (1933.). Šira primjena ove tehnike,

zbog kompleksnog računa, pričekala je dostupnost elektronskih računala (prema MANLY, 1986.).

Analiza glavnih komponenata, Principal Component Analysis (PCA) tehnika je

formiranja novih, sintetskih varijabli koje su linearne složenice - kombinacije izvornih varijabli.

Maksimalni broj novih varijabli koji se može formirati jednak je broju izvornih, a nove varijable

nisu međusobno korelirane (SHARMA, 1996.).

Često se uz analizu glavnih komponenata veže faktorska analiza (FA), bliska, ali

koncepcijski različita tehnika. Mnogi autori drže da je PCA specifičan oblik FA koji nastaje u

trenutku odluke o metodi analize: iz ukupne varijance tj. sume varijanci svih varijabli, kao što je to

u PCA, ili samo iz onog dijela ukupne varijance koja je zajednička svim varijablama, kao u FA

(HAIR, et al., 1995.). Razlog više toj tezi je i činjenica da se PCA u nekim statističkim paketima

(npr. SPSS, STATISTICA) pronalazi kao opcija FA. O usporedbama i razlikama između metoda

PCA i FA bit će više riječi nakon razrade faktorske analize (Pog. 2.2).

Glavni aspekti analize glavnih komponenata su sažimanje i analiza linearne povezanosti

većeg broja multivarijatno distribuiranih, kvantitativnih, međusobno koreliranih varijabli u smislu

njihove kondenzacije u manji broj komponenti, novih varijabli, međusobno nekoreliranih, sa

minimalnim gubitkom informacija.

Ulazni podaci za analizu glavnih komponenata čine p varijabli i n opažaja (individua) i

imaju oblik matrice p x n. (Tablica 2.1.a)

Tablica 2.1.a Prikaz ulaznih podataka za analizu glavnih komponenata

Varijable

Opažaj X1 X2 X3 ... Xp,

1 x11 x12 x13 ... x1p

2 x21 x22 x23 ... x2p

: : : : ... :

n xn1 xn2 xn3 ... xnp


Cilj analize je kreiranje p linearnih kombinacija izvornih varijabli koje se nazivaju glavne

komponente (principal components) (SHARMA, 1996.):

ξ1 = w11 X1 + w12 X2 + … + w1p Xp

ξ2 = w21 X1 + w22 X2 + … + w2p Xp

: : : : : :

ξp = wp1 X1 + wp2 X2 + … + wpp Xp [2.1.a]

gdje su ξ1, ξ2 ... ξp , p glavnih komponenata i wij su koeficijenti (weights) tj. konstante koje čine

koeficijente j-te varijable za i-tu glavnu komponentu.

Konstante wij procijenjene su tako da je:

1. prva glavna komponenta, ξ1, objašnjava maksimum varijance iz podataka, druga glavna

komponenta, ξ2, objašnjava maksimum varijance koja je ostala neobjašnjena prvom i tako dalje.

2. w2i1 + w2

i2 + … + w2ip = 1 i = 1 … p [2.1.b]

3. wi1 wj1+ wi2 wj2 + … + wip wjp = 0 za sve i ≠ j [2.1.c]

Uvjet da zbroj kvadrata konstanti iznosi 1, iz jednadžbe [2.1.b], zadan je zbog neophodnosti

fiksiranja skale novih varijabli. U protivnom, moguće bi bilo povećati varijancu linearne

kombinacije jednostavnom promjenom skale.

Uvjet iz jednadžbe [2.1.c] osigurava međusobnu nekoreliranost novih varijabli (nove osi

međusobno su ortogonalne).

Konstante wip nazivaju se svojstveni vektori ili latentni vektori (eigenvectors) i geometrijski

su, u dvodimenzionalnoj strukturi, u stvari, sinusi i cosinusi kuteva novih osi tj. glavnih

komponenata. Transformirane vrijednosti izvornih varijabli putem [2.1.a] predstavljaju skorove

glavnih komponenata (principal component scores).

Suma varijanci svih izvornih varijabli je ukupna varijanca. Dio te ukupne varijance

objašnjen jednom glavnom komponentom naziva se svojstvena vrijednost ili latentni korijen

(eigenvalue). Svojstvena vrijednost je, kako je već objašnjeno u načinu procjene svojstvenih

vektora, wij, najveća u prvoj glavnoj komponenti i u svakoj sljedećoj njena je vrijednost sve manja.

Suma svih svojstvenih vrijednosti jednaka je ukupnoj varijanci. Cilj je, iteracijskim postupkom,

izdvojiti čim veći dio ukupne varijance u tek nekoliko prvih glavnih komponenata, što se


uobičajeno izražava u kumulativnim postocima ukupne varijance, i time reducirati broj izvornih

varijabli. Svojstvena vrijednost je zapravo varijanca izračunata iz seta skorova glavne komponente

što se može prikazati setom jednadžbi:

w11 x1 + w12 x2 + ... + w1p xp = λ x1

w21 x1 + w22 x2 + ... + w2p xp = λ x2

:

wp1 x1 + wp2 x2 + ... + wpp xp = λ xp [2.1.d]

ili u obliku matrice:

Wx = λ x ili (W - λ I )x = 0 , [2.1.e]

gdje je I jedinična matrica p x p sa vrijednosti jedan u dijagonali, 0 je p x 1 nul-vektor, a

vrijednosti skalara λ svojstvene su vrijednosti matrice W. Ako se za i-tu svojstvenu vrijednost λi,

postavi x1 = 1, tada se rezultirajući vektor sa x vrijednosti:

xi =

⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢

⎣

⎡

ni

i

i

x

xx

M3

2

1

[2.1.f]

zove i -ti svojstveni vektor matrice A.

Vidljivo je dakle, da je proces dobivanja svojstvenih vektora i vrijednosti ključni

matematički problem, a rješava se pomoću rastavljanja svojstvenih vrijednosti (Singular Value

Decomposition), SVD. SVD izražava bilo koju matricu tipa n x p (gdje je n ≥ p) kao trostruki

produkt tri matrice P, D i Q tako da

X = PDQ´ , [2.1.g]

gdje je X matrica tipa n x p ranga kolone r, P je n x r matrica, D je dijagonalna matrica r x r , a Q´

je matrica r x p. Matrice P i Q su ortogonalne pa je

P´P = I [2.1.g]

i

Q´Q = I . [2.1.h]


Kolona p matrice Q´ sadrži svojstvene vektore matrice X´X, a dijagonala matrice D sadrži

korijenske vrijednosti korespondirajućih svojstvenih vrijednosti matrice X´X. Isto tako, svojstvene

vrijednosti matrica X´X i XX´ su iste.

Ovisno o problemu, tipu varijabli i skali njihovog mjerenja, ulazna matrica može biti ili

matrica kovarijanci ili matrica korelacija.

Matrica kovarijanci C je simetrična:

C =

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

pp2p1p

p22221

p11211

covcovcov

covcovcovcovcovcov

L

MOMM

L

L

[2.1.i]

a kovarijance covii su varijance s2i.

Matrica korelacija R (kao i C) mora biti simetrična:

R =

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

pp2p1p

p22221

p11211

rrr

rrrrrr

L

MOMM

L

L

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

1

11

21

221

112

L

MOMM

L

L

pp

p

p

rr

rrrr

[2.1.j]

U radu sa PCA očekuje se da će većina novih varijabli činiti šum – noise, i imati tako malu

varijancu da se ona može zanemariti, tj. da će većinu informacija ponijeti prvih nekoliko ξ varijabli

- glavnih komponenti, čije su varijance značajne veličine. Dakle, iz velikog broja izvornih varijabli

kreirano je tek nekoliko glavnih komponenti koje nose većinu informacija i čine glavni oblik -

pattern.

No, nije uvijek tako. Ako su izvorne varijable nekorelirane analiza ne daje povoljne

rezultate. Najbolji rezultati mogu se postići kad su izvorne varijable visoko pozitivno ili negativno

korelirane. Tada se može očekivati da će npr. 20-30 varijabli biti obuhvaćeno sa 2 ili 3 glavne

komponente.


Pretpostavke za primjenu analize glavnih komponenata više su konceptualne, nego

statističke. PCA nije osjetljiva na probleme normalnosti, linearnosti i homogenosti varijanci. Kako

je izneseno, određena doza multikolinearnosti čak je i poželjna.

Osnovni koraci u analizi glavnih komponenata su sljedeći:

1. Obzirom da je većina biometričkih setova podataka konstruirana iz varijabli različitih skala i

jedinica mjerenja potrebno je standardizirati varijable tako da im je prosjek 0, a varijanca 1 (Pog.

2.3) kako bi sve bile na jednakoj razini u analizi.

2. Izračunati matrice korelacija između svih izvornih standardiziranih varijabli.

3. Pronaći svojstvene vrijednosti glavnih komponenata.

4. Odbaciti one komponente koje su nositelji proporcionalno malog udjela varijance (obično prvih

nekoliko nose 80% - 90% ukupne varijance što će se bolje uočiti nakon razrade faktorske analize

- Pog. 2.2.).

Osnovu za interpretaciju glavnih komponenata čine svojstveni vektori. Njihove vrijednosti

su u prvoj glavnoj komponenti, najčešće, relativno ravnomjerno raspoređene po svim izvornim

varijablama. U drugoj glavnoj komponenti dolazi do njihove veće disproporcije, što omogućava

izdvajanje izvorne varijable (ili tek nekoliko njih) sa jačim učešćem i pomaže u objašnjavanju i

sažimanju ukupne varijabilnosti.

Skorovi glavnih komponenata mogu poslužiti još i:

1. za daljnju interpretaciju rezultata grafičkim predstavljanjem. Tako se njihov relativni međusobni

položaj može i vizualno ispitati.

2. kao ulazne varijable u drugim multivarijatnim metodama kao npr. klaster, regresijska i

diskriminantna analiza. Prednost korištenja skorova je u tome što nove varijable nisu međusobno

korelirane čime je riješen problem multikolinearnosti. No, probleme druge vrste tada može

izazvati nemogućnost smislene interpretacije glavnih komponenata.


2.2. FAKTORSKA ANALIZA

Rani razvoj faktorske analize pripisuje se Charlesu Spearmanu koji je 1904. (prema MANLY,

1986.) publicirao povijesni rad na podacima o studentskim ocjenama na testovima iz različitih

predmeta. Pretpostavio je, naime, da ocjene moraju biti međusobno korelirane i da te interkorelacije

mogu objasniti opću inteligenciju studenta. Faktorska analiza, Factor Analysis, (FA), statistički je

pristup za analizu strukture međusobnih odnosa većeg broja varijabli definiranjem seta zajedničkih

skrivenih dimenzija tj. faktora.

U faktorskoj analizi, kao i u analizi glavnih komponenata, osnovna je ideja još uvijek da set

od p varijabli (i n individua) može biti definiran manjim brojem faktora, pa tako može poslužiti kao

redukcijska metoda. No, primarni je cilj identifikacija faktora i određivanje stupnja do kojeg su

izvorne varijable objašnjene svakom dimenzijom - faktorom. Za razliku od PCA koja nije bazirana

ni na kakvom statističkom modelu, FA određena je specifičnim statističkim modelom.

Zajednički (common) faktor nevidljiva je, hipotetska varijabla koja pridonosi varijanci iz

barem dvije izvorne varijable. Izraz faktor najčešće se odnosi na zajednički faktor. Jedinstveni ili

specifični (unique) faktor, također je nevidljiva, hipotetska varijabla koja pridonosi varijanci u

samo jednoj izvornoj varijabli.

Opći model zajedničkih faktora je (SAS/STAT User’s Guide, 1989):

yij = xi1 b1j + xi2 b2j + ... + xiq bqj + eij , [2.2.a]

gdje je: yij vrijednost i-tog opažaja u j-toj varijabli

xij vrijednost i-tog opažaja u k-tom zajedničkom faktoru

bkj regresijski koeficijent k-tog zajedničkog faktora

za predikciju j-te varijable

eij vrijednost i-tog opažaja u j-tom jedinstvenom, specifičnom

(unique) faktoru

q broj zajedničkih faktora

uz pretpostavku da sve varijable imaju prosječnu vrijednost 0.

U matričnom obliku ove jednadžbe mogu se reducirati na:

Y = XB + E [2.2.b]

gdje je X matrica faktorskih opterećenja, B´ je matrica zajedničkih faktora.


Faktorska opterećenja (factor loadings) jednostavne su korelacije između bilo koje

izvorne varijable i faktora, i ključ su za razumijevanje prirode samog faktora.

Kvadrat faktorskih opterećenja je komunaliteta (communality), i predstavlja udio varijance

određene izvorne varijable u ukupnoj varijanci (sumi varijanci svih varijabli u analizi) koji je

objašnjen uvrštenim faktorom. Ostatak koji nije objašnjen uvrštenim faktorom ili faktorima, dakle

razlika ukupne varijance i komunalitete je dio varijance specifičan, jedinstven za svaku pojedinačnu

varijablu.

Dakle: (faktorsko opterećenje)2 = komunaliteta

ukupna varijanca - komunaliteta = specifična varijanca

ili u standardiziranom obliku:

1 - komunaliteta = specifična varijanca

Zadatak faktorske analize je procijeniti komunalitete za svaku varijablu.

Dvije su osnovne pretpostavke:

- jedinstveni faktori su nekorelirani između sebe

- jedinstveni faktori su nekorelirani sa zajedničkim faktorima.

Prigodom izdvajanja predpostavlja se da su zajednički faktori međusobno nekorelirani sa

varijancom jedan. U tom slučaju model zajedničkih faktora podrazumijeva da je kovarijanca covij

između j-te i k-te, uz j ≠ k, varijable dana izrazom:

covjk = b1j b1k + b2j b2k + ... + bqj bqk [2.2.c]

ili C = B´B + U2 [2.2.d]

gdje je C matrica kovarijanci opaženih, izvornih varijabli, a U2 je dijagonalna matrica kovarijanci

jedinstvenih faktora.

Ako su izvorne varijable standardizirane tada će gornji izraz [2.2.d] dati koeficijente

korelacije umjesto kovarijanci, i u tom smislu zajednički faktori objašnjavaju korelacije između

izvornih varijabli. Razlike između korelacija dobivenih predikcijom putem modela zajedničkih

faktora i stvarnih korelacija izvornih varijabli su rezidualne korelacije, koje mogu poslužiti i za

procjenu pouzdanosti modela zajedničkih faktora. Naime, model zajedničkih faktora podrazumijeva

da parcijalne korelacije između varijabli, pri uklanjanju učinaka zajedničkih faktora, iznose 0.


Nakon uklanjanja zajedničkih faktora ostaju samo jedinstveni, specifični faktori koji su po

definiciji, kako je izneseno, nekorelirani.

Dok se pretpostavke za primjenu faktorske analize mogu poistovjetiti sa onima iz analize

glavnih komponenata (Pog. 2.1), pretpostavka same analize zajedničkih faktora podrazumijeva da

zajednički faktori nisu linearne kombinacije izvornih varijabli. Čak i u slučaju analize cjelokupnih

podataka neke populacije, faktorske skorove (factor scores) nije moguće izračunati direktno (kako

je to bilo moguće u PCA), ali se oni mogu procijeniti na nekoliko načina. Taj problem doveo je do

formiranja metoda kojima se mogu proizvesti komponente, aproksimacije zajedničkih faktora (npr.

Harisovom komponentnom analizom ili image komponentnom analizom), koje ipak ne daju

potpuno rješenje faktora.

Interpretacija faktora je pridruživanje imena svakom faktoru tako da ono odražava važnost

faktora u predikciji svake izvorne varijable. Taj proces je subjektivan, i baziran je na objašnjavanju

vrijednosti opterećenja i komunaliteta. Ipak, nekoliko je vrlo uopćenih, kriterija za otkrivanje

značajnosti komunaliteta opterećenja (SHARMA, 1996.):

1. što je veći uzorak, to manju komunalitetu treba smatrati značajnom,

2. što je veći broj varijabli u analizi, to manju komunalitetu treba smatrati značajnom,

3. što je veći broj faktora, to veću komunalitetu na faktorima koji slijede treba smatrati značajnom

za interpretaciju.

Ukoliko rezultate faktorske analize nije moguće interpretirati, moguće ih je pojasniti i učiniti

manje subjektivnim metodama faktorske rotacije. Rotacija faktora se provodi primjenom

nesingularne linearne transformacije. Takvu rotiranu matricu, u kojoj svi koeficijenti, iznose 0 ili ±

1, lakše je interpretirati nego matricu punu intermedijarnih elemenata. Najviše metoda rotacije

nastoje optimizirati funkcije matrice opterećenja koja mjeri koliko su bliski elementi 0 ili ±1.

Rotacije mogu biti ortogonalne (orthogonal) ili kose (oblique).

Poslije početnog izdvajanja faktora, zajednički faktori su međusobno nekorelirani. Ako se

faktori rotiraju ortogonalnom transformacijom, (npr. varimax, quartimax, equamax, orthomax,

parsimax) oni ostaju i dalje nekorelirani, a ako su rotirani kosom rotacijom (promax, procrustes)

faktori postaju korelirani. Kose rotacije češće daju korisna rješenja nego ortogonalne. Međutim,

posljedica je koreliranih faktora da ne daju jedinstveno i nedvosmisleno mjerilo važnosti faktora za

objašnjenje varijable i tako oni ne daju sve neophodne informacije za interpretaciju faktora: moraju


se ispitati i faktorska struktura i referentna struktura prema (HARMAN, 1976, prema SAS/STAT

User’s Guide, 1989.).

Rotiranje seta faktora ne mijenja statističku eksplanatornu moć faktora. Sa statističkog

stanovišta, ne može se reći da je neka rotacija bolja od druge. Tako se izbor metode rotacije mora

bazirati na nestatističkom principu. Za većinu problema, najbolja je ona rotacija koju je najlakše

interpretirati. Ako dvije rotacije rezultiraju različitim interpretacijama ne znači da su one u

konfliktu. One su dva različita načina gledanja na istu stvar, dva različita vidika u prostoru

zajedničkih faktora. Zaključak koji ovisi o samo jednoj korektnoj rotaciji može biti neispravan.

PCA vs. FA Iako se i PCA i FA svrstavaju u redukcijske metode, razlike su bitne.

A:

• cilj PCA je reducirati broj varijabli na nekoliko novih komponenti tako da svaka komponenta

tvori novu varijablu, koje tada objašnjavaju maksimalni iznos ukupne varijance u podacima,

• cilj FA je identificirati faktore koji mogu objasniti interkorelacije originalnih varijabli i time

odrediti strukturu varijabilnosti.

B: Usporedbom jednadžbe modela analize glavnih komponenata (Pog. 2.1)

ξp = ap1 X1 + ap2 X2 + … + app Xp [2.1.a]

i statističkog modela zajedničkih faktora ([2.2.a] u simbolima [2.1.a])

Xp = λp1 ξ1 + λp2 ξ2 + … + λpm ξm + εp [2.2.e]

jasno je izdiferencirana razlika između PCA i FA. Dok je glavna komponenta linearna kombinacija

izvornih varijabli, faktor to nije.

C: Slika 2.2.a Tipovi varijanci korištenih u PCA i FA (prema SHARMA, 1996.): Analiza Vrijednosti

u dijagonali Varijanca*

PCA 1 ukupna FA komunaliteta zajednička specifična (i error)

* objašnjena varijanca * izgubljena varijanca


U većini slučajeva ove analize rezultiraju vrlo slično. Ipak PCA se više koristi kao metoda

za redukciju podataka, dok FA više kad je cilj u detektiranju strukture varijabilnosti.

Kriteriji za izbor komponenti i faktora:

Nekoliko je zajedničkih metoda poznato za izbor broja faktora u FA i komponenata u PCA.

U nastavku o izboru kriterija, izraz “faktor” ovdje ću poistovjetiti sa izrazom “komponenta”.

Primjerice:

• Kaiserov kriterij metoda je zadržavanja samo onih faktora koji imaju svojstvene vrijednosti

veće od 1. U osnovi, to je izbor samo onih faktora koji izdvajaju najmanje onoliko varijance

koliko je i ekvivalent jedne izvorne standardizirane varijable. Poteškoću čini zadržavanje

previše faktora.

• Iznos kumulativnog % ukupne varijance objašnjene faktorom na kojem želimo prekinuti

iteracije. Iako je, za statistička testiranja, najčešće primjenjivana granica 95%, mnogi se

istraživači zadrže na puno manjem % (60 - 70%).

• Scree test subjektivna je, grafička metoda koju je prvi predložio CATTELL (1966.). Ako

svojstvene vrijednosti po faktorima predstavimo grafički jednostavnim linijskim grafom, tada

ostatak faktora, nakon maksimalne zakrivljenosti, predstavlja faktorski "otpad" pa se može

zanemariti. Poteškoću čini zadržavanje premalo faktora ili preblaga krivulja.

• A Priori kriterij jednostavno je unaprijed određeni broj faktora od strane samog analitičara.

Više je od interesa za teoretska istraživanja ili za testiranja hipoteza neophodnom broju faktora.

Za ovaj problem ne postoji klasični statistički test, iako SHARMA, 1996, navodi nekoliko

prijedloga: varijacija Bartletovog testa korelacija; Horn, 1965. - paralelna scree analiza; Allen i

Hubbard, 1986. - regresijska metoda. U praksi treba ispitati nekoliko mogućnosti sa više ili manje

faktora i izabrati onu koja ima najviše smisla. Naime, izbor i previše i premalo faktora može imati

negativne posljedice. Ostavljanjem premalo faktora ne postiže se željena struktura i postoji

mogućnost zapostavljanja bitnih dimenzija, dok previše ostavljenih faktora može otežati

interpretaciju.


2.3. MAHALANOBISOVA UOPĆENA UDALJENOST

Koncept sličnosti i udaljenosti fundamentalan je za mnoge multivarijatne tehnike (klaster

analizu, diskriminantnu analizu, multidimenzionalno skaliranje ...)

Poznato je da se povezanost dviju varijabli (iz podataka o n opažaja) izražava korelacijskim

koeficijentom, i sa većim brojem varijabli rezultira simetričnom matricom korelacija, koja u

dijagonali ima sve vrijednosti jedan. Analogno tome, podudaranje objekata (iz podataka o p

varijabli) u procesu grupiranja, mjerilo je njihove sličnosti. Osnovno je prvo specificirati varijable,

koje se zatim objedinjavaju u zajedničko mjerilo multivarijatne udaljenosti za svaki par objekata, i

konačno rezultiraju simetričnom matricom koja u dijagonali ima sve vrijednosti nula.

Osnovno mjerilo udaljenosti između individualnih opažaja je euklidska distanca.

Jednostavna euklidska distanca (simple euclidean distance) DE, geometrijski, je duljina

hipotenuze pravokutnog trokuta (koja spaja objekte 1 i 2) u kojemu su katete vrijednosti dviju

varijabli (X i Y), iako se u mnogim analizama (klaster - metoda centroida i Wardova, Pog. 2.7)

koristi kvadrat euklidske distance (squared euclidean distance) DE2, što ubrzava računanje:

DE2

12 = ( ) ( )2122

12 yyxx −+− [2.3.a]

Što su dva objekta (1 i 2) temeljem dviju varijabli (X i Y) sličnija, to je DE2 manji.

Iako više od tri varijable fizički nije moguće predstaviti u koordinatnom sustavu,

matematički je moguće generalizirati kvadrat euklidske distance za p varijabli:

DE2

ij = ( )2

1∑=

−p

kjkik xx [2.3.b]

gdje je DE2

ij kvadrat euklidske udaljenosti između objekata i i j , xik je vrijednost k-te varijable za i-

ti objekt, xjk je vrijednost k-te varijable za j-ti objekt, a p je broj varijabli.


Najveći nedostatak euklidske distance je u nemogućnosti statističkog testiranja izračunatog

DE. Statistički gledano, ako dvije udaljenosti imaju jednaki DE, njihova pripadnost standardnoj

normalnoj distribuciji (sa μ = 0 i σ = 1) može imati različite vjerojatnosti. Euklidsku distancu je

zato potrebno prilagoditi.

Mjerila udaljenosti su vrlo osjetljiva na različite skale i magnitude mjerenja varijabli što ima

vrlo velik utjecaj na konačno rješenje. Stoga je, kadgod je to koncepcijski moguće, potrebno

standardizirati izmjere tj. izraziti ih kao odstupanja od prosjeka, (x - μ), u jedinicama standardne

devijacije, σ , putem z vrijednosti tako da:

z = (x - μ) / σ [2.3.c]

Isti se učinak postiže i sa statističkom distancom (SHARMA, 1996.). Disperzija svih p

varijabli uključena putem standardnih devijacija, s, u kvadrat euklidske udaljenosti, DE2, [2.3.b],

njena je standardizacija ili kvadrat statističke distance, DS2:

( )[ ]D x x sS ij ik jk kk

p2 2

1

= −=∑ / [2.3.d]

Dakle, statistička distanca između dva objekta ista je kao i euklidska distanca između dva

objekta čije su vrijednosti standardizirane.

Statističku udaljenost je iskoristio i PEARSON, 1926. (prema WEATHERUP, 1980.) u svom

koeficijentu srodnosti između genotipova (Coefficient of Racial Likeness - CRL). Razlike između

prosjeka različitih grupa genotipova standardizirao je standardnim pogreškama prosječnih

vrijednosti prije njihovog uvođenja u euklidski odnos. Definirao ga je (za grupe genotipova i i j )

kako slijedi:

CRL2 = 2

1 21 ∑

=⎟⎟⎠

⎞⎜⎜⎝

⎛ −p

k k

jkik

SExx

p [2.3.e]

gdje je p broj svojstava, SEk je standardna pogreška prosječne vrijednosti k-te varijable, ikx je

prosjek k-te varijable za sve genotipove grupe i, jkx je prosjek k-te varijable za sve genotipove

grupe j. CRL je, dakle, standardizirana udaljenost, i trebala bi imati vrijednost približno 2 za par

genotipova koji se razlikuju na razini p ≤ 0.05 za sve varijable.


Ako su svojstva jače korelirana DS i CRL mogu dati krivu impresiju o razlikama i

udaljenostima između dva genotipa. Zato se u statističku distancu moraju uključiti kovarijance ili

korelacije između varijabli.

Mahalanobisova uopćena udaljenost (Mahalanobis Generalized Distance), DM,

(MAHALANOBIS, 1936. i 1948. prema WEATHERUP, 1980.) definira se kao statistička udaljenost

između dvije točke koja uključuje kovarijance ili korelacije između varijabli. To je, ujedno, i jedno

od najpouzdanijih mjerila udaljenosti između dvije multivarijatne populacije i rješava oba

problema: i koreliranih svojstava i ovisnost o skali mjerenja.

Formula za izračunavanje kvadrata Mahalanobisove uopćene udaljenosti, DM2, između

objekata i i j sa dvije varijable, 1 i 2, je:

Dr

x x

s

x x

s

r x x x xs sM ij

i j j i j i j22

1 12

12

12 22

22

1 1 2 2

1 2

11

2=

−

−+

−−

− + −⎡

⎣⎢⎢

⎤

⎦⎥⎥

( ) ( ) ( ) ( ) [2.3.f]

gdje su s12 i s2

2 varijance za varijable 1 i 2, a r je njihov korelacijski koeficijent.

Mahalanobisova udaljenost između dva genotipa na p varijabli definirana je izrazom:

DM2 = d´ C -1 d , [2.3.g]

gdje je d vektor razlika između prosjeka dva genotipa, koje su standardizirane svojim standardnim

devijacijama za p varijabli, d´ je njegov transpon. Dakle, ako su prosjeci p varijabli za jedan genotip

( 11x , 12x , … px1 ), a prosjeci istih p varijabli za drugi genotip ( 21x , 22x , … px2 ) onda je:

d =

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢⎢⎢⎢

⎣

⎡

−

−

−

p

p

pp d

dd

sxx

sxx

sxx

MM

2

1

21

2

2212

1

2111

, [2.3.h]

a C matrica p x p kovarijanci. Iz [2.3.f] može se zaključiti da su i statistička i euklidska distanca, u

stvari, posebni slučajevi Mahalanobisove distance jer:


1. ako varijable 1 i 2 nisu korelirane (tj. r12 = 0) tada se Mahalanobisova distanca, DM,, svodi na

statističku distancu, DS. Matrica C iz [2.3.g] bila bi tada dijagonalna matrica sa varijancama u

dijagonali;

2. ako varijance varijabli 1 i 2 imaju vrijednost 1, dakle standardizirane su, a uz to varijable nisu

korelirane, tada se Mahalanobisova distanca, DM svodi na euklidsku distancu, DE. Matrica C iz

[4.2.3.g] bila bi tada jedinična matrica.

Hotelling (1931.) je (prema WEATHERUP, 1980.) izveo multivarijatni test signifikantnosti za

testiranje razlike između dvije grupe prosječnih vrijednosti, tzv. Hotelling’s T2, analogan t testu.

Marriott (1974.) je dao generalizaciju ovoga testa za slučaj kada je varijanca unutar grupa dobivena

iz većeg broja grupa. Ovaj oblik testa navodi da je kritična multivarijatna udaljenost, DM2

crit:

DM2

crit = )(2)1(

nnmppnmm−−− DM

2 [2.3.i]

distribuirana poput F sa (p) i (nm-n-p-1) stupnjeva slobode gdje je m broj repeticija, n broj grupa

(genotipova) i p je broj varijabli (svojstava).

Kritična multivarijatna udaljenost, analogna kritičnoj univarijatnoj razlici, koristi se za

testiranje neophodnih uvjeta za ostvarivanje prava oplemenjivača bilja (Plant Breeders Rights)

prema legislaturi UPOV-a (International Union for the Protection of New Varieties of Plants) u

DUS (Distinctness, Uniformity, Stability) testiranjima (WATSON et al., 1997.). Za procjenu

udaljenosti (Distinctness), prema prijedlogu UPOVa, neophodno je testiranje genotipa - kandidata

kroz tri godine sa potpunim setom već priznatih genotipova.


2.4. DISKRIMINANTNA ANALIZA

Autorom diskriminantne analize smatra se Sir Ronald Aylmer Fisher, 1936. godine (prema

RAO, 1972.).

Diskriminantna analiza može se opisati kao:

Y1 = X1 + X2 + X3 + ... + Xn [2.4.a] (kategorijska) (mjerne i kategorijske)

Diskriminantna analiza, Discriminant Analysis, (DA) ima široku primjenu u situacijama

gdje je primarni cilj identifikacija grupe kojoj neki objekt (npr. genotip, status, program) pripada.

Ova metoda uključuje i predikciju uspješnosti (ili podbačaja) klasifikacije objekata u grupe

(subpopulacije), kao i pronalaženje one varijable (ili više njih) koja najviše pridonosi klasifikaciji -

dakle dobrog klasifikatora.

Diskriminantna analiza je određena diskriminantnom funkcijom, pod pretpostavkom da je

distribucija unutar grupa multivarijatno normalna, a varijabilnost i struktura kovarijanci grupa

jednaka. Diskriminantna funkcija, poznata i kao klasifikacijski kriterij, određena je mjerom

uopćene kvadratne udaljenosti, generalized squared distance (Rao, 1973. prema SHARMA, 1996.).

Linearni model diskriminantne funkcije je:

Z = W1 X1 + W2 X2 + W3 X3 + ... + Wn Xn [2.4.b]

gdje je Z diskriminantni skor (score), Wi je diskriminantni koeficijent (ili opterećenje) varijable i, a

Xi je nezavisna varijabla i (HAIR et al., 1995.). Diskriminantna analiza pogodna je za testiranje

hipoteze o jednakosti dviju ili više grupa temeljem njihovih sredina iz seta nezavisnih varijabli.

Diskriminantna funkcija [2.4.b] linearna je kombinacija diskriminirajućih varijabli koja

maksimizira udaljenost sredina grupa, tj separira grupe. Grupe su to bolje diskriminirane što se

manje njihovi individui preklapaju. Sredina grupe je centroid, i predstavlja prosjek diskriminantnih

skorova, Z, za sve individue unutar određene grupe. Broj grupa određen je brojem kategorija u

kategorijskoj ili klasifikacijskoj varijabli. Metoda određivanja udaljenosti ovisna je o tipu problema,

varijabli i skali mjerenja, itd. Većina situacija može biti riješena određivanjem Mahalanobisove

udaljenosti (Pog. 2.3).


Maksimalni broj diskriminantnih funkcija koje se mogu izvesti je: ili jedna manje od broja

grupa ili jedna manje od broja diskriminirajućih varijabli - koji god je od ovih brojeva manji.

Pouzdanost diskriminantne analize može se testirati multivarijatnim testovima: Wilks’ λ,

Pillai’s Trace, Hotelling-Lawley Trace, Roy’s Maximum Root (SAS/STAT User’s Guide, 1989.).

Primjena i interpretacija diskriminantne analize vrlo je slična multiploj regresiji (Pog. 2.5).

Ključna je razlika u vrsti zavisne varijable: ona je u multiploj regresiji mjerna (kvantitativna), dok je

u diskriminantnoj analizi kategorijska (kvalitativna).

KANONIČKA DISKRIMINANTNA ANALIZA kombinacija je tehnika analize glavnih

komponenata (Pog. 2.1) i kanoničke korelacije (Pog. 2.6).

Ova tehnika razvija kanoničke varijable sažimanjem varijabilnosti između grupa na isti

način kako to čini analiza glavnih komponenata sa ukupnom varijabilnošću. Kanoničke varijable

ili kanoničke komponente su linearne kombinacije kvantitativnih varijabli iz seta podataka koji

ima s jedne strane jednu zavisnu varijablu i to kategorijsku (klasifikacijsku, grupnu) u dvije ili više

razina, a sa druge nekoliko nezavisnih kvantitativnih varijabli.

Linearna kombinacija kvantitativnih varijabli, nastala u kanoničkoj diskriminantnoj analizi,

takva je da ima najveću moguću multiplu korelaciju sa grupama. Ta maksimalna multipla korelacija

se naziva prva kanonička korelacija. Koeficijenti u linearnoj kombinaciji izvornih varijabli su

kanonički koeficijenti.

Nova varijabla, definirana linearnom kombinacijom, prva je kanonička varijabla. Druga

kanonička korelacija dobiva se pronalaženjem linearne kombinacije, nekorelirane sa prvom

kanoničkom varijablom, koja ima najveću multiplu korelaciju sa grupama. Proces izdvajanja

kanoničkih varijabli može se ponavljati dok se njihov broj ne izjednači sa brojem izvornih varijabli

ili sa brojem grupa minus 1, kojigod od njih je manji.

Prva kanonička korelacija najmanje je toliko velika koliko iznosi multipla korelacija između

grupa i bilo koje izvorne varijable. Prva kanonička korelacija može biti velika i u slučaju da su sve

multiple korelacije male, ako izvorne varijable imaju jaku korelaciju između grupa. Drugim

riječima, prva kanonička varijabla može pokazati znatne razlike između grupa čak i onda kad to ne

pokazuje niti jedna od izvornih varijabli (SAS/STAT User’s Guide, 1989).


Za svaku kanoničku korelaciju testira se hipoteza da ona i sve kanoničke korelacije manje

od nje, u populaciji iznose 0. Test se provodi putem odnosa vjerodostojnosti, likelihood ratio, koji

je za sve kanoničke korelacije jednak Wilksovoj λ).

Diskriminantna analiza je osjetljiva na multikolinearnost nezavisnih varijabli, čijim se

porastom smanjuje mogućnost definiranja učinaka samih varijabli. Osim toga, osjetljiva je i na

odnos veličine uzorka i broja nezavisnih varijabli. Mnoge studije sugeriraju odnos od 20 opažaja po

nezavisnoj varijabli (HAIR et al., 1995), no važno je spoznati da smanjivanjem veličine uzorka i

njenim približavanjem broju nezavisnih varijabli rezultati analize gube na stabilnosti. Analiza je

ovisna i o veličini samih grupa: veličina najmanje grupe mora premašiti broj nezavisnih varijabli.

Čak i onda kada su svi ovi uvjeti ispunjeni velika odstupanja u veličinama grupa mogu utjecati na

klasifikaciju objekata: veće grupe tada imaju disproporcionalno veću šansu u klasifikaciji. Takvu

situaciju je potrebno korigirati prije same analize.


2.5. MULTIPLA REGRESIJA

Multipla regresija Multiple Regression, statistička je metoda za analizu povezanosti

kvantitativnih varijabli i to: između jedne zavisne i više nezavisnih varijabli. Može se opisati

modelom:

Y1 = X1 + X2 + X3 + ... + Xn [2.5.a]

(mjerna) (mjerne i kategorijske)

Cilj analize multiple regresije je predikcija promjene zavisne varijable (tzv. kriterij) kao

reakcije na promjene u nekoliko nezavisnih varijabli (tzv. prediktori). Ovaj cilj se najčešće postiže

principom najmanjih kvadrata (least squares), koji proizvodi najbolje moguće, linearne,

nepristrane procjene tzv. Best Linear Unbiased Estimator - BLUE uz klasične statističke

pretpostavke (Gauss, 1809; Markov 1900; prema SAS/STAT User’s Guide, 1989). Nulta hipoteza je,

pritom, da su prediktori nezavisni od kriterija.

Multipla regresija je tehnika pronalaženja adekvatnog modela tj. linearne kombinacije, koja

se sastoji od skupa ili podskupa q nezavisnih varijabli Xi, i = 1, ... , q, koje procjenjuju nepoznatu

regresijsku funkciju zavisne varijable Y. Linearni model multiple regresije ima oblik:

Y = β0 + β1 X1 + β2 X2 + … + βq Xq + ε [2.5.b]

Izraz linearan odnosi se na činjenicu da je prosjek linearna funkcija nepoznatih parametara

β0 , β1 , ..., βq tj. regresijskih koeficijenata. Sa j nezavisnih opažaja varijable Y i pridruženih

vrijednosti varijabli Xi, potpuni oblik postaje:

Y1 = β0 + β1 X11 + β2 X12 + … + βq X1q + ε1

Y2 = β0 + β1 X21 + β2 X22 + … + βq X2q + ε2

: :

Yj = β0 + β1 Xj1 + β2 Xj2 + … + βq Xjq + εj [2.5.c]

pri čemu za slučajne pogreške εj, u predikcijama j opažaja varijable Y, vrijede pretpostavke

(JOHNSON i WICHERN, 1988.):

1. E (εj ) = 0;

2. Var (εj ) = σ2 (konst.) i

3. Cov (εj , εk ) = 0 gdje je j ≠ k.


Matrično prikazan klasični linearni regresijski model [2.5.c] je:

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

+

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

=

⎥⎥⎥⎥⎥

⎦

⎤

⎢⎢⎢⎢⎢

⎣

⎡

jqjqjj

q

q

j XXX

XXXXXX

y

YY

ε

εε

β

ββ

MM

L

MOMMM

L

L

M2

1

1

0

21

22221

11211

2

1

1

11

ili

y = X = β + ε [2.5.d]

(j * 1) (j * (q+1)) ((q+1 ) * 1) (j * 1) ,

a pretpostavke iz [4.2.5.c] postaju:

1. E (ε ) = 0 , i

2. Cov (ε ) = E (ε ε´ ) = σ2 I .

Svrha je linearne regresije razviti jednadžbu kojom je moguće predskazati kriterij varijablu

za dane vrijednosti prediktora. To znači da je neophodno ugoditi (fit) model [2.5.d] i uz opažene

vrijednosti Yj i korespondirajuće poznate vrijednosti 1, Xj1, Xj2 . . . Xjq , procijeniti regresijske

koeficijente β uz uvjet da je pogreška ε minimalna. Metodom najmanjih kvadrata dobivaju se

BLUE procjene parametra β tako da minimiziraju sumu kvadrata razlika (JOHNSON i WICHERN,

1988.):

BLUE procjene parametra β = b = (X´X) -1 X´y [2.5.e]

procjena kriterija = y = X (X´X) -1 X´y

procjena reziduala = e = y - y = (I - X (X´X) -1 X´) y

Analiza multiple regresije, poznata također i kao uopćeno linearno modeliranje,

Generalized Linear Modelling - GLM, ne smije započeti prije detaljne provjere podataka. Ova

metoda je izuzetno osjetljiva na fundamentalne pretpostavke klasične statistike (HAIR et al,. 1995).

Normalnost je osnovna pretpostavka multivarijatne analize koja se odnosi na oblik

distribucije individualne kvantitativne varijable i njene podudarnosti s normalnom distribucijom.

Ako su ta odstupanja znatna, rezultati nisu pouzdani, jer F i t test zahtijevaju normalnost.

Univarijatne statističke metode temelje se na pretpostavkama univarijatne normalnosti. Analogno


tome, multivarijatne metode temelje se na multivarijatnoj normalnosti. Sve varijable uključene u

multivarijatnu distribuciju su univarijatno normalne, što ne vrijedi obrnuto: dvije ili više

univarijatno normalnih varijabli ne daju nužno i multivarijatnu normalnost. Grafička analiza

normalnosti jednostavna je i učinkovita metoda testiranja. Dok je testiranje univarijatne normalnosti

uobičajeno (parametrima kao npr. spljoštenost - kurtosis i asimetričnost - skewness), testiranje

multivarijatne normalnosti puno je teže (rijetko koji računalni program ima kao opciju navedene

parametre). No, JOHNSON i WICHERN, 1988, su dokazali da se vrijednosti Mahalanobisove DM2

udaljenosti, poredane po veličini, distribuiraju kao χ2 slučajna varijabla ukoliko je populacija iz

koje je DM2 izvedena, multivarijatno normalna i dovoljno velika.

Homogenost varijanci (Homoscedasticity) pretpostavka je koja se odnosi na zavisnost

između kriterija i prediktora. Ona nalaže da zavisna varijabla ima jednaku razinu varijabilnosti kao i

nezavisne varijable. Isto vrijedi i za nezavisne varijable međusobno. Naime, izjednačenost varijanci

kroz varijable osigurava nepristranost u analizi.

Linearnost je bezuvjetna pretpostavka svih multivarijatnih tehnika koje se baziraju na

korelacijskim mjerilima povezanosti, pa tako i multiple regresije i faktorske analize (Pog. 2.2).

Obzirom da korelacijski koeficijent, r, podrazumijeva linearnu povezanost varijabli, prisutnost

nelinearnih efekata može smanjiti vrijednost r. Postojanje nelinearnosti može se učinkovito

detektirati grafički, a korigirati transformacijama.

Prisutnost neobičnih vrijednosti tzv. outliers, može ozbiljno ugroziti analizu. Na ove

vrijednosti, istaknuto različite od ostalih, osobito su osjetljivi intervali pouzdanosti i procjene

parametara, te testovi valjanosti modela i parametara, F i t. Neobične vrijednosti moraju se

detektirati u stadiju ispitivanja podataka - prije analize. Poznato je nekoliko metoda detekcije

outliersa, no grafička je najčešća i dovoljno učinkovita. Ovisno o porijeklu nastanka ovih

vrijednosti analitičar ih može ili isključiti iz analize (i tretirati ih kao nepostojeće vrijednosti,

missing value) ili ostaviti uz neki oblik korekcije. Svakako, analitičar mora biti svjestan osobitosti

svojih podataka prije analize.

Nedostatak parzimonije (parsimony = štedljivost) u odabiru varijabli, u multivarijatnim

tehnikama potencijalno može izazvati štetne efekte. Ako je neka nezavisna varijabla bliska zavisnoj,

npr. njena izvedenica, onda su one korelirane. Prediktor varijabla tada ne može služiti

predskazivanju kriterija, jer je s njim u kolinearnom odnosu. Iako prisutnost irelevantnih varijabli

može naoko povećati pouzdanost modela, (prema [2.5.g] R2 se povećava dodavanjem svake


varijable) ona može maskirati stvarne efekte neke varijable. Multikolinearnost predstavlja stupanj

do kojeg može efekt neke varijable biti predskazan ili objašnjen drugim varijablama u analizi. Kako

multikolinearnost raste, tako opada mogućnost otkrivanja efekata te varijable.

Pošto predikcije praktično nikad nisu savršene (one su samo najbolje procjene zavisne

varijable tj. prosječne predikcije zadanih vrijednosti nezavisnih varijabli), stanovita odstupanja

uvijek su prisutna. Nekoreliranost pogrešaka još je jedna pretpostavka u analizi regresije, koja

treba osigurati nezavisnost očekivane vrijednosti o bilo kojoj drugoj predikciji. Mjerilo pogreške u

predikciji je rezidual tj. razlika između opaženih i očekivanih vrijednosti zavisne varijable, ili

geometrijski: okomita udaljenost od točke (tj. podatka) do regresijskog pravca. Osnovna metoda za

otkrivanje povreda svih pretpostavki je grafički prikaz vrijednosti reziduala vs. predikcija zavisne

varijable (HAIR et al., 1995.).

Sve ove pretpostavke je neophodno provjeriti kako bi se pouzdano moglo tvrditi da su

pogreške u predikciji nastale kao stvarni nedostatak povezanosti varijabli, a ne zbog neke osobitosti

podataka koja se ne uklapa u regresijski model.

Dakle, pogreške u predikciji, mogu se izmjeriti rezidualima i izraziti sumom kvadrata

pogrešaka, SSE. Analogno tome moguće je izmjeriti i uspješnost u predikciji i izraziti ju sumom

kvadrata regresije, SSR. Zbroj ovih dviju mjera čini ukupnu sumu kvadrata, TSS, a općeniti

odnos ovih suma je:

Σ (yi - y )2 = Σ (yi - iy )2 + Σ ( iy - y )2

ili

TSS = SSE + SSR [2.5.f]

gdje je y prosjek svih opažaja, yi je vrijednost individualnog opažaja, a iy predskazana vrijednost

opažaja.

Ovaj se odnos može iskoristiti za procjenu valjanosti modela u objašnjavanju kriterij

varijable temeljem više prediktora. Koeficijent determinacije, R2, mjera je proporcije varijance

zavisne varijable tj. kriterija (ili više njih), koja je objašnjiva nezavisnim varijablama, prediktorima.

R2 = TSSSSR =

TSSSSE

−1 [2.5.g]


Drugim riječima, 0 < R2 < 1 , iznos je varijance objašnjene modelom. Na taj način, ukoliko

je regresijski model pravilno modeliran i procijenjen, može poslužiti i kao indikator pouzdanosti

modela. R2 parametar je koji determinira ili određuje neku povezanost.

Na koeficijent determinacije utječe broj varijabli prediktora u relativnom odnosu sa

veličinom uzorka. Prema nekim istraživanjima (HAIR et al., 1995) već kod situacije sa 10 - 15

opažaja po prediktor varijabli (prema drugim autorima 4 opažaja) trebalo bi izvršiti prilagodbu R2.

Prilagođeni R2 , Adj R2 (adjusted R2 ) uzima u obzir broj prediktora, jer je:

Adj R2 = total

error

MSMS

−1 [2.5.h]

gdje je MSerror varijanca pogreške i MStotal ukupna varijanca. Adj R2, sastavni je dio svih regresijskih

računalnih programa, a interpretacija mu je ista kao i R2. Njegove se vrijednosti smanjuju kako broj

opažaja po prediktor varijabli opada.

Regresijski koeficijenti b, uključujući početni b0, testiraju se putem t vrijednosti gdje je H0 :

b0 , b1 , ..., bq = 0.

Multipla regresija pruža objektivnu metodu za procjenu predikcijske snage seta nezavisnih

varijabli. Prema regresijskom modelu izvedene su mnoge druge multivarijatne metode - praktično

sve koje rade na principu linearnih kombinacija varijabli (diskriminantne, faktorske, kanoničke ... ).


2.6. KANONIČKA KORELACIJA

Kanonička korelacija, Canonical Correlation, je mjerilo jačine povezanosti između dva

seta varijabli. Razvio ju je i publicirao HOTELLING u svojim radovima još 1935. i 1936, ali

primjenjenim statističarima bila je nepoznata sve do pojave složenijih računalnih programa.

Analiza kanoničke korelacije može se opisati kao:

Y1 + Y2 + Y3 + ... + Yn = X1 + X2 + X3 + ... + Xn [2.6.a] (mjerne i kategorijske) (mjerne i kategorijske)

Početni korak u analizi je formiranje kanoničkih jednadžbi za dobivanje para novih,

kanoničkih varijabli (HAIR et al., 1995):

W1 = a11X1 + a12X2 + ... + a1pXp [2.6.b]

V1 = b11Y1 + b12Y2 + ... + b1qYq [2.6.c]

U kanoničku korelaciju ulaze dva seta varijabli, Y i X [2.6.a]. Analiza pronalazi novu

varijablu, V1, [2.6.c] kao linearnu kombinaciju iz seta Y varijabli, s jedne strane i novu varijablu, W1,

[2.6.b] kao linearnu kombinaciju iz seta X varijabli, s druge strane. Ako uzmemo da je R1, korelacija

između kanoničkih varijabli V1 i W1, tada je cilj kanoničke korelacije procijeniti kanoničke

koeficijente ili opterećenja, a11, a12, ... a1p i b11, b12, ... b1p, tako da korelacija između prvog

para kanoničkih varijabli R1, bude maksimalna. Ova korelacija između dviju kanoničkih varijabli je

prva kanonička korelacija.

Sljedeći korak je formiranje drugog para kanoničkih varijabli V2 i W2, nekoreliranog sa

prvim parom koji daje drugi najveći korelacijski koeficijent. Proces konstruiranja kanoničkih

varijabli nastavlja se dok se ne izjednači broj parova kanoničkih varijabli i broja varijabli u manjem

setu (Xp ili Yq). Kanoničke koeficijente je uobičajeno standardizirati tako da svaka kanonička

varijabla ima varijancu 1.

Dakle, svaka kanonička varijabla je nekorelirana sa bilo kojom drugom kanoničkom

varijablom ili varijablom iz ulaznih setova, osim sa jednom korespondirajućom kanoničkom

varijablom iz suprotnog seta. Kanonički koeficijenti općenito nisu ortogonalni, tako da kanoničke

varijable ne predstavljaju zajednički okomiti pravac kroz prostor izvornih varijabli.


Prva kanonička varijabla najmanje je toliko velika koliko i multipla korelacija bilo koje

varijable u suprotnom setu varijabli. Moguće je da je prva kanonička korelacija vrlo velika, dok su

sve multiple korelacije za predikciju jedne od izvornih varijabli iz suprotnog seta male. Analiza

kanoničke redundancije ispituje valjanost i pouzdanost predikcije izvornih varijabli putem

kanoničkih varijabli.

Opće pretpostavke parametrijskih metoda odnose se i na kanoničku korelaciju. Korelacijski

koeficijent koji podrazumijeva linearnu povezanost između varijabli, odnosi se i na kanoničke

korelacije između linearnih kombinacija izvornih varijabli. Poželjna je normalnost svake izvorne

varijable zbog potrebe standardizacije i homogenost varijanci, a multikolinearnost može izazvati

nemogućnost izolacije utjecaja specifične varijable što čini interpretaciju manje pouzdanom.

Tri su kriterija za izbor značajnih kanoničkih funkcija:

1. razina značajnosti kanoničke korelacije - opće prihvaćeno 0.05;

2. jačina kanoničke povezanosti - može se koristiti metodologija primjenjena u faktorskoj analizi za

signifikantnost faktorskih opterećenja (Pog. 2.2);

3. index redundancije, redundancy index, R2, kao prosjek kvadrata multiplog korelacijskog

koeficijenta jednog seta i svake pojedine varijable iz drugog seta. Njegova interpretacija je tada

analogna R2 u multiploj regresiji (Pog. 2.5). Obzirom da ne postoji jedinstveni kriterij, preporuka

mnogih autora je upotrijebiti sva tri kriterija usporedno (HAIR et al., 1995).

Osnovni parametri u interpretaciji kanoničke analize su matrice kanoničkih struktura ili

kanoničkih opterećenja, canonical loadings i matrice unakrsnih kanoničkih opterećenja,

canonical cross-loadings, kao mjerila jednostavne linearne korelacije između izvornih varijabli i

novostvorenih u analizi. Rezultat čine četiri matrice korelacija u kombinacijama X vs.W, Y vs. V, X

vs.V i Y vs. W varijabli [2.6.a], [2.6.b] i [2.6.c] (SAS/STAT User’s Guide, 1989). Kanonička

opterećenja odražavaju dio varijance koju izvorna varijabla dijeli sa novom kanoničkom

varijablom, a mogu se interpretirati kao faktorska opterećenja u smislu relativnog učešća svake

varijable u svakoj kanoničkoj funkciji (Pog. 2.2).


2.7. KLASTER ANALIZA

Klaster analiza, Cluster Analysis, je grupa multivarijatnih tehnika čiji je primarni cilj

klasificiranje ili klasteriranje opažaja u skupine, grupe ili klastere tako da je (SHARMA, 1996):

1. svaka grupa ili klaster homogena (kompaktna) obzirom na određene varijable (svojstva), tj. da su

svi opažaji u jednoj grupi slični jedni drugima,

2. svaka grupa različita od druge obzirom na te iste varijable (svojstva), tj. da se opažaji u jednoj

grupi moraju razlikovati od opažaja u drugoj grupi.

Geometrijski je koncept klaster analize, u dvodimenzionalnom prostoru, vrlo jednostavan:

svaki opažaj moguće je prikazati kao točku. Uopćeno, svaki je opažaj moguće prikazati kao točku i

u p dimenzionalnom prostoru, gdje je p broj varijabli (ili svojstava) koje opisuju opažaj.

Isto tako je moguće klasificirati tj. klasterirati varijable. Tada su varijable u grupi

(klasteru) slične obzirom na određene opažaje. Geometrijski, analogno klasteriranju opažaja, sada

se u n dimenzionalnom prostoru opažaja prikazuju varijable. Ciljevi ovog tipa klaster analize

nalikuju onima u faktorskoj analizi (Pog. 2.2): identifikacija klastera koji sadrže varijable koje

imaju nešto zajedničko.

Prvi korak u analizi je izbor mjerila sličnosti. Mjerilo sličnosti, u dvodimenzionalnom

prostoru, je udaljenost između dvije točke (Pog. 2.3). Sljedeći korak je izbor između dvije osnovne

metode klaster analize.

Hijerarhijska klaster analiza, kako i samo ime kaže, radi na principu algoritma koji

formira klastere po hijerarhiji tako da je u svakoj sljedećoj razini broj klastera manji za jedan. Ova

metoda analize se najčešće prikazuje grafički, dendrogramom. Dva su osnovna tipa ove metode: a)

aglomerativna ili rastuća, u kojoj svaki objekt započinje kao zasebni klaster, čiji se broj u

sljedećim koracima reducira dok se svi na kraju ne grupiraju u jedan veliki klaster. Osobitost klaster

analize je da su rezultati iz prethodne razine uvijek ugnježđeni u onu kasniju; b) divizivna, ukoliko

proces klasteriranja ima drugi smjer tj. opadajući, koja započinje jednim velikim klasterom koji

sadrži sve opažaje, a u slijedećim koracima se dijeli. Obje metode rezultiraju isto, ali u obratnom

smislu.

Nekoliko je metoda poznato za razvoj klastera:


1. metoda centroida - svaku grupu predstavlja prosječni subjekt tj. centroid, a udaljenost između

klastera je euklidska distanca ili kvadrat euklidske distance (Pog. 2.3) između njihovih centroida.

2. pojedinačna vezanost ili metoda najbližeg susjeda (Single Linkage or the Nearest Neighbor

Method) - minimalna udaljenost između svih mogućih parova opažaja u dva klastera.

3. potpuna vezanost ili metoda najdaljeg susjeda (Complete Linkage or Farthest Neighbor

Method) - maksimalna udaljenost između svih mogućih parova opažaja u dva klastera.

4. prosječna vezanost (Average Linkage) - prosječna udaljenost između svih mogućih parova

opažaja u dva klastera.

5. Wardova metoda - jedina ne računa udaljenost između klastera, nego maksimizira homogenost

unutar klastera. Mjerilo te homogenosti je suma kvadrata unutar klastera (error sum of squares -

ESS). U početku je svaki opažaj predstavljen jednim klasterom i stoga u svim klasterima ESS

iznosi nula. U sljedećem koraku se dva opažaja, iz svih mogućih kombinacija, stapaju u jedan

klaster, sa najmanjom ESS, pa je broj klastera za jedan manji od broja opažaja.

Za razliku od hijerarhijske, u nehijerarhijskoj klaster analizi broj klastera (k) i njihovi

centroidi moraju biti poznati a priori. Početni klasteri formiraju se uklapanjem svih preostalih n - k

opažaja najbliskijem centroidu. Poznato je nekoliko je algoritama za pridavanje opažaja klasterima:

npr. postupni prag kojim se odredi jedan početni klaster sa prethodno specificiranom udaljenosti, i

paralelni prag kojim se odredi nekoliko početnih klastera, te optimizacija kojom je moguće

preurediti sadržaje klastera nastale tijekom analize (SHARMA, 1996; HAIR et al., 1995). Dakle,

rješenje ovoga tipa analize daleko je više ovisno o sposobnosti analitičara pri izboru centroida u

početnoj fazi.

Klaster analiza nije tehnika statističkog zaključivanja u smislu pretpostavki odnosa uzorak -

populacija, nego objektivna metodologija za klasificiranje, na jakoj matematičkoj podlozi. Stoga

ona nije opterećena pretpostavkama o normalnosti, linearnosti i homogenosti varijanci. No, klaster

analiza je osjetljiva na izbor varijabli relevantnih za objekt istraživanja i na opažaje koji se razlikuju

od ostalih (outliers). Dakle, od velike su važnosti reprezentativnost uzorka i multikolinearnost.

Osim toga, zbog velikog broja podmetoda, klaster analiza je, možda više nego ijedna druga

multivarijatna analiza, pod utjecajem izbora samog analitičara.

Interpretirati klastere znači znati objasniti njegov sadržaj, tj. biti u mogućnosti klaster opisati

riječima ili mu dati ime.


2.8. MULTIDIMENZIONALNO SKALIRANJE

Multidimenzionalno skaliranje, Multidimensional Scaling, (MDS) grupa je metoda za

procjenu koordinata seta objekata iz podataka o udaljenosti između parova objekata (MANLY,

1986). Vrlo često za ovu metodu autori koriste naziv analiza glavnih koordinata - Principal

Coordinate Analysis (DIGBY i KEMPTON, 1987). Različite su metode računanja udaljenosti (već

opisane u Pog. 2.3), kao i funkcija koje određuju odnos između tih udaljenosti i stvarnih podataka.

Ulazni podaci mogu dakle, biti različite matrice udaljenosti, a rezultat je “mapa” odnosa između

njih. “Mapa” može biti u jednoj dimenziji (ako objekti padaju u jednu crtu), u dvije dimenzije (ako

objekti leže na plohi), u tri dimenzije (ako su objekti točke u prostoru) ili u većem broju dimenzija

(u kojem slučaju više nije moguć neposredan grafički prikaz).

Multidimenzionalno skaliranje je metoda poznata kao perceptualno mapiranje, tj. metoda

koja pomaže analitičaru u određivanju relativnog odnosa između objekata nekog seta u prostoru.

Ova se metoda može usporediti sa drugim metodama koje se bave međusobnom zavisnošću u cilju

definiranja njene strukture (npr. faktorska ili klaster metoda).

Faktorska analiza (Pog. 2.2) grupira varijable u faktore koji objašnjavaju skrivene dimenzije

izvornih varijabli. Ulazna matrica je korelacijska ili neka srodna, a varijable koje su jače korelirane

grupiraju se zajedno.

Klaster analiza (Pog. 2.7) grupira opažaje u klastere temeljem neke matrice sličnosti ili

udaljenosti tj. prema njihovom profilu u setu varijabli. Međusobno bliskiji opažaji grupiraju se

zajedno.

Multidimenzionalno skaliranje ima strukturu perceptualnih dimenzija komparacije

individua. Od spomenutih, ali i ostalih multivarijatnih metoda razlikuje se u dva ključna aspekta: a)

svakom objektu od interesa osigurano je vrednovanje u pravcu svih promatranih objekata; b) ne

upotrebljava se nova, sintetska varijabla iz seta izvornih, nego se dimenzije izvode temeljem općeg

mjerila udaljenosti između svih objekata (HAIR et al., 1995).

Multidimenzionalno skaliranje nije uvriježena kao egzaktna metoda i više se upotrebljava

kao oblik pregrupiranja objekata na način koji može najbolje aproksimirati opažene udaljenosti.

Predložak za mapu čini prostorna konfiguracija definirana vrijednostima i brojem dimenzija koje se

dobiju iterativnim postupcima. Formiranje vrijednosti dimenzija rezultat je algoritma minimizacije


funkcije, koji testira različite modele sa ciljem maksimizacije goodness-of-fit (ili minimizacije lack-

of-fit tj. badness-of-fit). Kruskalov stress (prema HAIR et al., 1995) mjerilo je valjanosti

podudaranja, goodness-of-fit, kojim se vrednuje koliko dobro određeni model predstavlja (ili koliko

se dobro uklapa) opaženu matricu distanci. Definiran je jednadžbom:

stress = ( ) ( )22

ijijijij dd/dd −− [2.8.a]

gdje je d ij prosječna udaljenost (∑dij/n) na “mapi”. Vrijednost stressa se smanjuje približavanjem

procijenjenog d ij pravoj dij. Stress je najmanji kada se objekti smjeste u konfiguraciju tako da se

udaljenosti između objekata na “mapi” najbolje poklapaju sa izvornim udaljenostima.

Problem kod stress metode analogan je problemu R2 u multiploj regresiji (Pog. 2.5). Naime,

stress se uvijek poboljšava, tj smanjuje povećanjem broja dimenzija (isto kao što se R2 povećava

dodavanjem varijabli). Radi smanjenja opsega analize potrebno je pronaći pouzdani broj dimenzija

potreban za prostornu konfiguraciju, a da se pritom ne gubi informacija. Scree plot metoda koja se

koristi i za ekstrakciju faktora u faktorskoj analizi (Pog. 2.2) može poslužiti i ovom slučaju. No,

sada se traži odnos između broja dimenzija (x) i stressa (y). Opće prihvaćeno je mišljenje da dvije

do tri dimenzije nude najjasniju interpretaciju.

Indeks uklapanja (index of fit) je kvadrat korelacijskog koeficijenta, poznat kao koeficijent

determinacije, R2 i predstavlja mjerilo koje testira koliko se dobro multidimenzionalo skaliranje

uklapa u izvorne podatke. Interpretacija je analogna R2 u multiploj regresiji (Pog. 2.5)


2.9. MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE (AMMI model)

Multivarijatna analiza odnosa između okolina i genotipova

Multivarijatne tehnike mogu biti korisne za dodatno objašnjenje odnosa između okolina i

genotipova. Mogućnosti i reakcije genotipova mogu se opisati u multidimenzionalnom prostoru, u

kojemu svaka dimenzija predstavlja jednu od ispitivanih okolina čije su koordinate prinos ili neko

drugo svojstvo. I obrnuto, okoline je moguće bolje proučiti postavljanjem u multidimenzionalni

prostor u kojemu svaka dimenzija predstavlja jedan genotip.

U oplemenjivačkim programima, za svaku kulturu u svakom ciklusu, generira se

dvosmjerna tablica genotip x okolina, (GxE), sa podacima o prinosu i drugim svojstvima. Dok

ANOVA rješava problem dvosmjernih tablica aditivnim modelom, parametri u analizi glavnih

komponenata (PCA) se multipliciraju. Ova koncepcijska razlika, logično, uvjetuje i znatne razlike u

računskim operacijama (GAUCH, 1992): iterativni račun u PCA puno je zahtjevniji od računa

ANOVA; dok ANOVA rezultira samo jednim setom genotipskih i jednim setom okolinskih

odstupanja, potpuni PCA model nudi onoliko setova parametara (osi PCA) koliko je genotipova i

okolina. Praktične su razlike između ova dva modela vidljive u njihovoj pristupačnosti agronomima

i oplemenjivačima. PCA je puno manje razumljiva od već uvriježene ANOVA. Naime, rezultat

PCA su tablice i grafovi čija je interpretacija praktičarima apstraktna.

Multivarijatni model analize za pokuse u prostoru i vremenu stavlja prinos genotipa od

interesa u odnos sa svim ostalim prinosima. Stoga za preciznu procjenu prosječnog prinosa nekog

genotipa g u okolini e nisu dovoljni podaci samo o genotipu g u okolini e. Relevantani su podaci iz

cijelog pokusa: podaci o genotipu g u ostalim okolinama, podaci o ostalim genotipovima u okolini

e. Linearni model koji obuhvaća sve podatke o genotipovima i okolinama proizvodi reziduale (bitne

i nebitne) koji su, kako FREEMAN, 1973. naglašava, fundamentalni problem poljskih pokusa: “data

= pattern+noise”. Cilj ove analize je razlučiti bitno od nebitnog (pattern vs. noise) i podatke iz

ovakve tablice sažeti, najčešće u oblik biplota. Biplot je grafički prikaz lijevih i desnih vektora.


MODEL ADITIVNIH GLAVNIH EFEKATA I MULTIPLIKATIVNE INTERAKCIJE

Model aditivnih glavnih efekata i multiplikativne interakcije (Additive Main effects and

Multiplicative Interaction - AMMI model) analitičko je sredstvo za interpretaciju interakcije

genotipa i okoline (GAUCH i ZOBEL, 1988; CROSSA et al., 1991; VAN EEUWIJK, 1995a, 1995b, 1996;

FOX et al., 1997). AMMI je, dakle, kombinacija ANOVA (aditivnost) i PCA (multiplikativnost) u

jedinstvenoj analizi i ordinacijska je metoda. Zbog originalnosti AMMI modela razvijena je

posebna terminologija i način interpretacije.

Potpuni model AMMI je:

Yij = μ + gi + ej + Σ λk αik γjk + εij [2.9.a]

gdje je Yij prosjek i-tog genotipa u j-toj okolini, μ je ukupni prosjek, gi i ej su glavni efekti

pripadajućih genotipova i okolina, a εij je pogreška pokusa. Reziduali ij-tog podatka Zij = Yij - Yi. -

Y.j + Y, formiraju matricu Z. Procjene najmanjih kvadrata parametara AMMI modela λk , αik , γjk ,

svojstvene su vrijednosti, te lijevi i desni svojstveni vektori matrice Z. Dakle, prvi dio modela je

aditivni i podrazumijeva ANOVU u koja uključuje samo glavne efekte, bez interakcije. Drugi dio

modela je multiplikativni, i bavi se dekompozicijom matrice interakcije na svojstvene vrijednosti i

vektore (singular value decomposition - [2.1.7]) i tvore 1 do n osi. Ove osi nazivaju se interakcijske

PCA osi ili IPCA.

AMMI generira skup modela:

1. Prvi model, AMMI0, u stvari je ANOVA,

Yij = μ + gi + ej + εij , [2.9.b]

i za opis matrice podataka koristi aditivni genotipski i okolinski prosjek, i tako rangira

genotipove podjednako u svakoj okolini, ignorirajući pritom GxE interakciju. U ovom modelu

nema IPCA.

2. Drugi model, AMMI1,

Yij = μ + gi + ej + λ1 αi1 γj1 + εij , [2.9.c]


predstavljen je glavnim efektima i osi prve glavne komponente (IPCA1) za interpretaciju matrice

reziduala.

3. Model AMMI2,

Yij = μ + gi + ej + λ1 αi1 γj1 + λ2 αi2 γj2 +εij , [2.9.d]

uključuje glavne efekte, a neaditivnu varijabilnost, dakle interakciju, objašnjava u dvije glavne

komponente (IPCA1 i IPCA2).

U slijedećim AMMI modelima uključuju se dodatne glavne komponente. To uključivanje

može biti do potpunog modela AMMI tj. AMMIF (full AMMI model). Dakle, AMMI0 i AMMIF

su ekstremi i kao takvi praktično nisu nikad pogodni. AMMI0 je najčešće nedovoljan i podcjenjuje

učinak interakcija u modelu (data underfitting), dok je AMMIF pretjeran i precjenjuje učinak

interakcija (data overfitting).

U praksi se multiplikativne komponente višeg reda, tj. komponente interakcije, koje F

testom nisu signifikantne mogu zanemariti, i time nastaje tzv. reducirani model. Modeli AMMI1 i

AMMI2 su najčešće dovoljni za interpretaciju interakcije i smatraju se najboljima u skupu AMMI

modela.


3. UMJESTO ZAKLJUČKA

RAO, je 1964. prozvao Sir Ronald Aylmer Fishera arhitektom multivarijatne analize.

Pronalazak i razvitak kompjutorske tehnologije izazvao je revoluciju u znanstvenom istraživanju

(RAO, 1970), posebice u multivarijatnoj statističkoj analizi čije su novije tehnike isključivo vezane

uz primjenu kompjutora.

“Biolozi trebaju biti zainteresirani za statistiku ne zbog njene istinske elegancije, nego zbog

toga što im ona pruža alate koje mogu upotrijebiti za vrednovanje teorija i zaključaka od biološke

važnosti.” (WALTON, 1972).

Genotipovi ŠEĆERNE REPE (1995. - 1997.)

KWS255 H6852 ST1516 HY5073 HY2853

OSNADA H4671 M9505 M9503 COBRA

M9515 ANTONIA ROXANE

= NISU PRIZNATI= STANDARD= PRIZNATI

ICON PLOT - 2D Chernoff Faces (STATISTICA - statistical software)


4. LITERATURA

1. ANDERSON, TW., 1958. An Introduction to Multivariate Statistical Analysis. John Wiley & Sons Inc.

2. BARTLETT, M.S., 1947. Multivariate analysis. Journal of Royal Statistical Society B, 9 (176-197).

3. CALINSKI, T., CORSTEN, L.C.A., 1985. Clustering means in ANOVA by simultaneous testing. Biometrics 41 (39-48).

4. CATTEL, R.B., 1965. Factor analysis: an introduction to essentials. II. The role of factor analysis in research. Biometrics 21 (405-435).

5. CATTELL, R.B., 1949. rb and other coefficients of pattern similarity. Psychometrika 14 (279-298).

6. CATTELL, R.B., 1965. Factor analysis: an introduction to essentials. I. The purpose and underlying models. Biometrics 21 (190-215).

7. COCHRAN, W.G., 1957. Analysis of covariance: its nature and uses. Biometrics 13 (261-281).

8. COOLEY W.W., LOHNES P.R., 1971. Multivariate Data Analysis. John Wiley & Sons Inc.

9. CROSSA, J., GAUCH, H.G.JR., ZOBEL, R.W. 1990. Additive Main Effects and Multiplicative Interaction analysis of two international maize cultivar trials. Crop Sci. 30 (493-500).

10. DIGBY, P.G.N., KEMPTON, R.A., 1987. Multivariate Analysis of Ecological Communities. Chapman & Hall Ltd.

11. FISHER, R.A., 1928. The general sampling distribution of the multiple correlation coefficient. Proceedings of the Royal Society, A121 (654-673).

12. FISHER, R.A., 1936. The use of multiple measurements in taxonomic problems. Annals of Eugenics 7 (179-188).

13. FOX, P.N., CROSSA, J., ROMAGOSA, I., 1997. Multi-environment testing and genotype x environment interaction. In: Statistical Methods for Plant Variety Evaluation. Ed. by R.A. KEMPTON AND P.N. FOX, Chapter 8 (117-138), Chapman & Hall Ltd.

14. FREEMAN, G.H., CRISP, P., 1979. The use of related variables in explaining genotype-environment interactions. Heredity 42/1 (1-11).

15. FULGOSI, A., 1988. Faktorska analiza. Školska knjiga, Zagreb.

16. GAUCH, H.G.JR., 1992. Statistical Analysis of Regional Trials: AMMI Analysis of Factorial Designs. Elsevier Sci. Publ. B.V., Amsterdam, The Netherlands.

17. GAUCH, H.G.JR., ZOBEL, R.W., 1988. Predictive and postdictive success of statistical analyses of yield trials. Theor. Appl. Genet. 76 (1-10).

18. GIFI, A., 1990. Nonlinear Multivariate Analysis. John Wiley & Sons, Inc.

19. HAIR, J.F.JR., ANDERSON, R.E., TATHAM, R.L. BLACK, W.C., 1995. Multivariate Data Analysis (with Readings). Fourth Ed., Prentice-Hall International, Inc., USA.

20. HARMAN, H.H., 1960. Modern Factor Analysis. Chicago: University of Chicago Press.

21. HOTELLING, H., 1933. Analysis of a complex of statistical variables into principal components. Journal of Educational Psychology 24 (417-441; 498-520).

22. HOTELLING, H.,1936. Relations between two sets of variates. Biometrika 28 (321-377).

23. JOHNSON R.A., WICHERN D.W., 1988. Applied Multivariate Statistical Analysis. Second Ed., Prentice-Hall International, Inc. USA.

24. KACHIGAN, S.K., 1991. Multivariate Statistical Analysis. Radius Press, New York.

25. KANG, M.S., GAUCH, H.G.JR., 1996. Genotype by Environment Interaction. CRC Press, Inc.

26. KENDALL, M.G., 1957. A Course in Multivariate Analiysis. Charles Griffin & Co., London.

27. KEMPTON, R.A., 1984. The use of biplots in interpreting variety by environment interactions. J. Agric. Sci. Camb. 103 (123-135).

28. KEMPTON, R.A., FOX, P.N. 1997. Statistical Methods for Plant Variety Evaluation. Chapman & Hall Ltd.

29. KSHIRSAGAR, A.N., 1978. Multivariate Analysis. Marcel Dekker Inc., New York.


30. LEFKOVITCH, L.P., 1985. Multi-criteria clustering in genotype-environment interaction problems. Theor. Appl. Genet. 70/6 (585-589).

31. MAHALANOBIS, P.C., 1936. On the generalized distance in statistics. Proceedings of the National Institute of Science of India 2, (49-55).

32. MANLY, B.F.J., 1986. Multivariate Statistical Methods - A Primer. Chapman and Hall Ltd. London, New York.

33. MORRISON, D.F., 1976. Multivariate Statistical Methods. McGraw-Hill, New York.

34. PEARSON, K., 1901. On lines and planes of closest fit to system of points in space. Phylosophy Magazine 6th series 2 (559-572).

35. PEARSON, K., 1926. On the coefficient of racial likeness. Biometrika 18 (105-117).

36. PECINA, M., 1998. Multivarijatna analiza i primjena u oplemenjivanju bilja. Doktorska disertacija, Sveučilište u Zagrebu Agronomski fakultet.

37. RAO, C.R., 1964. Sir Ronald Aylmer Fisher - the architect of multivariate analysis. Biometrics 20 (286-300).

38. RAO, C.R., 1970. Computers: a great revolution in scientific research. Proc. Indian National Scientific Academy 36 (123-139).

39. RAO, C.R., 1972. Recent trends of research world in multivariate analysis. Biometrics 22 (3-22).

40. ROBINSON, D.L., 1987. Estimation and use of variance components. Statistician 36 (3-14).

41. ROBINSON, G.K., 1991. That BLUP is a good thing: the estimation of random effects. Stat. Sci. 6/1 (15-51).

42. SAS Institute, Inc., 1989. SAS/STAT® User's Guide, Version 6, Fourth Edition, Volume 1(943 pp) & 2 (846 pp), Cary, N.C: SAS Institute Inc.

43. SEAL, H., 1964. Multivariate Statistical Analysis for Biologists. Methuen, London.

44. SHARMA, S., 1996. Applied Multivariate Techniques. John Wiley & Sons, Inc.

45. TABACHNICK, B.G., FIDELL, L.S., 1989. Using Multivariate Statistics. Second Ed. Harper & Row Publishers, New York, USA.

46. VAN EEUWIJK, F.A., 1995. Linear and bilinear models for analysis of multi-environment trials: I. An inventory of models. Euphytica 84 (1-7).

47. VAN EEUWIJK, F.A., KEIZER, L.C.P. BAKKER, J.J., 1995. Linear and bilinear models for analysis of multi-environment trials: II. An application to data from Dutch maize Variety Trials. Euphytica 84 (9-22).

48. VAN EEUWIJK, F.A., 1996. Between and beyond additivity and non-additivity: The statistical modelling of genotype by environment interaction in plant breeding. Thesis, Wageningen Agricultural University, The Netherlands.

49. WARD, J.H., 1963. Hierarchical grouping to optimize an objective function. Journal of American Statistical Association, 59 (236-244).

50. WEATHERUP, S.T.C., 1980. Statistical procedures for distinctness, uniformity and stability variety trials. J. agric. Sci., Camb. 94 (31-46).

51. WEATHERUP, S.T.C., 1994. Use of Mahalanobis distance to measure varietal distinctness. Plant Varieties and Seeds 7(107-119).

52. WILKS, S.S., 1932. Certain generalization in the analysis of variance. Biometrika 24 (471-474).

Metode MVA - osnove (interna skripta)

Documents

Transcript of Metode MVA - osnove (interna skripta)