Fokomponens és Faktor analízis -  · 2017-12-05 · Valószínuségszámítás˝ és matematikai...

35
okomponens és Faktor analízis Márkus László 2017. december 5. Márkus László okomponens és Faktor analízis 2017. december 5. 1 / 35

Transcript of Fokomponens és Faktor analízis -  · 2017-12-05 · Valószínuségszámítás˝ és matematikai...

Fokomponens és Faktor analízis

Márkus László

2017. december 5.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 1 / 35

Valószínuségszámítás és matematikai statisztika Bevezetés - Fokomponens és Faktoranalízis

A fokomponens és faktor analízis olyan statisztikai technika, amelyet vál-tozók halmazára alkalmazunk, hogy feltárjuk, közülük melyek tartalmaz-nak közös fluktuációs mintákat - akár csak részben, más fluktuációkkalkombináltan is -, és meghatározzuk ezeket a közös mintákat.

Úgy gondoljuk általában, hogy egy-egy közös változékonyságmintavalamilyen, a háttérben meghúzódó (látens) változó/folyamat hatásánakeredményeként áll elo. E hatást a faktorváltozó reprezentálja.

Mivel faktor az egyes megfigyelt változók közös additiv komponense (bársúlya az egyes változóban általában eltéro, akár 0 is lehet), így ez a meg-figyelt változók korrelációjának forrása.

A faktorok segítségével az összes megfigyelt változó változékonyságaleírható, így ezek teljesen jellemzik megfigyeléseinketezért pusztánezeket megtartva információvesztés nélkül csökkenthetjük (sokszor jelen-tosen) a változóink számát, azaz adatstruktúránk dimenzióját.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 2 / 35

Valószínuségszámítás és matematikai statisztika Bevezetés - Fokomponens és Faktoranalízis

Például:

Hallgatók adatai: motiváció, intellektuális képességek, iskolatörténet,családtörténet, egészség, fizikai jellemzok, személyiségjegyek. Minde-gyiket több változóval is mérik. Néhány személyiségjegy, motivációs ésiskolatörténeti változó mutathatja, hogy mennyire szeret önállóan dolgo-zni a hallgató, kombinálódhat egy önállósági faktorban. Mások egy intel-ligencia fatort adhatnak ki. STB.

Talajvízszint méro kutak adatainak fluktuációja foként a csapadék-ból történo utánpótlás, esetlegesen fólyóvízbol oldalirányú betáplálásés a kommunális vízkivétel eredojeként alakul, e három hatás kutakszázainak adatait jellemezheti globálisan (és e hatások eltávolítása utánhatározhatók meg a lokális befolyásoló tényezok).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 3 / 35

Valószínuségszámítás és matematikai statisztika Bevezetés - Fokomponens és Faktoranalízis

A fokomponens analízis (Principal Component Analysis, PCA) a változókközötti variancia, míg a faktoranalízis (FA) inkább a korrelációs mintákatösszegzi.

A PCA (és a FA is) jelentosen csökkenti a változók számát. Bizonyosváltozók a kísérletek, megfigyelések során alig változnak ingadozásuk(szórásuk) kicsi, ezeket tehát nem tekintjük jellemzonek, elhagyhatjuk, hatudjuk, melyek ezek. Ám gyakran nem ez vagy az a változó kis szórású,hanem pl. a ketto összege, vagy valamely más lineáris kombinációja.Ezeket keressük. Illetve inkább azokat, amelyeknek nagy a szórása, ésezért nem hagyhatók el.

Az egész dolgot érdemes úgy is felfogni, hogy az X1, ...,Xn minta egy Ndimenziós teret feszít ki, ám még véletlenül sem ortogonális bázisként. Mitehát adatainkat egy F1, ...,Fn új, ortogonális bázisban szeretnénk felírni,melynek össz-hossznégyzete, azaz szórás2-összege az eredetivel egyezo.

Az új bázis Fi elemei az X1, ...,Xn lineáris kombinációjaként állnak elo.Ha megvan F1, ...,Fn, az utolsó néhányat (gyakran sokat) elhagyhatjuk.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 4 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Cél: Az elso fokomponens megtalálásához maximalizálni akarjuk a vál-tozók egy lineáris kombinációjának szórását. Lényegileg egy olyan iránytkeresünk, amely mentén a változók maximálisan "szétterülnek", szét-szóródnak. Általában ez különbözik a diszkriminancia analízis vagy akanonikus korreláció által találat irányoktól.Néha a PCA a végcél, de máskor inputot generál további elemzéshez.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 5 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

A kép

Eltoljuk a középpontot az új középpontba, majd beforgatjuk atengelyeket.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 6 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Tegyük fel, hogy a centrálás már megtörtént.

A forgatás egy A ortogonális mátrixszal: ATA = I való szorzás. X azadataink mátrixa, Z a fokomponenseké

Z = AX

A ellipszoid tengelyeit megtalálni pont az A mátrix megtalálásávalekvivalens, amely úgy forgatja el a változókat, hogy azok korrelálatlanoklegyenek, vagyis a variancia-kovariancia mátrix diagonális:

SZ = diag(σ2Z1, ...,σ2

Zp)

Másfelol:

SZ = EZZT = E(AX)(AX)T = ASxAT

Szimmetrikus mátrixok spektrálfelbontásának SX-re alkalmazásáhozvegyük az SX n db normált sajátvektorából (v1, ...,vn)-bol mintoszlopokból álló V mátrixot.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 7 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Ekkor I = VVT ⇒ :

SX = SXVVT = SX(v1, ...,vn)VT =

= (SXv1, ...,SXvn)VT = (λ1v1, ...,λnvn)VT = VΛVT

Ez a spektrálfelbontás, ahol Λ a sajátértékek diagonális mátrixa:

Λ = diag(λ1, ...,λn).

Innen SX = VΛVT miatt

⇒ VTSXV = VTVΛVTV = Λ

Tehát az A = VT választással kapott Z = AX bázisváltozók SZ

variancia-kovariancia mátrixa diagonális lesz, ahogy afokomponensekétol megkívántuk. A keresett forgatás tehát az Amátrixszal adható meg, az A meghatározásához pedig az SX

sajátvektorainak és sajátértékeinek számítása szükséges.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 8 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Egyszersmind az SX mátrix sajátértékei a fokomponensek szórás2-ei islesznek. Nagyságrend szerint rendezzük oket.

SX és SZ nyoma (⇒ az összes szórás2 összege) megegyezik, ezért vanértelme az elso k fokomponens által "megmagyarázott" varianciárólbeszélni, ami

Proportion of variance =σ2

Z1+...+σ2

Zkλ1+...+λn

=σ2

Z1+...+σ2

Zkσ2

X1+...+σ2

Xn=

σ2Z1+...+σ2

Zkσ2

Z1+...+σ2

Zn

Ha az eredeti változóink korreláltak (erosen), akkor az elso néhányfokomponens "sok" varianciát magyaráz, míg az utolsó (jó) néhánykeveset, így ez utóbbiak akár el is dobhatóak. Tehát az elso néhányat meg-tartva redukálhatjuk a dimenziót, miközben megorizzük a változékonysá-got.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 9 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Ha függetlenek (vagy inkább korrelálatlanok) a változóink, akkor okmaguk fokomponensek is⇒ nincs mit keresni.

Vigyázni kell a skálával. A fokomponensek nem skálainvariánsok. Ha g/lhelyett mg/l-ben mérünk egy változót ⇒ jóval nagyobb lesz a súlya afokomponensek eloállításában.

A megoldás, hogy a kovariancia mátrix helyett a korrelációkkal dolgo-zunk, azaz pl. minden változónk szórását 1-re normáljuk.

Megjegyzés: Eredetileg Z1 szórás2-ét akartuk maximalizálni, aztán a ráortogonális altérben Z2-t, és így tovább. De Zi szórás2-e: aTSxa, és tet-szoleges a-ra nincs maximum, ezért λ = aT SXa

aT a -t maximalizáljuk.

λ1 a legnagyobb sajátérték az (SX−λ I)a = 0 egyenletben

Itt nem kell invertálni⇒ szinguláris SX mátrix is megengedheto. (Ez ter-mészetesen algebrailag is ugyanazt a megoldást adja, mint elobb).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 10 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Elnevezések:

faktor/fokomponens mátrix: F vagy Z = AX, j-ik faktor:Fj vagy Zj = ∑

ni=1 ai,jXi

ai,j factor score coefficient

A factor score coefficient matrix

Xi =

Xi(ω1)

...Xi(ωp)

,Zj(ωk) = ∑ni=1 ai,jXi(ωk)

Fj = Zj =

Zj(ω1)→ (Factor score)

...Zj(ωp)→ (Factor score)

(De S+ ban: Factor score coefficient matrix = loadings, Factor scores =scores)

Márkus László Fokomponens és Faktor analízis 2017. december 5. 11 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Factor loadings matrix AT(most)

Z = AX→ ATZ = ATAX = X

Tehát a faktorokból a megfigyeléseket visszaállíthatjuk. Ez nem érdekesaddig, míg pontos az eloállítás, nincs zaj.

Fokomponens plotok

Az elso két vagy néhány fokomponens score-jait scatterplotoljuk párosá-val. Ezek mutathatnak normalitást, esetleg nemlinearitást (ez már össze-függés, ami nem jó, mert a PC-k korrelálatlanok és igazából normáliseloszlás alapfeltevés mellett ⇒ függetlenek is. Outlier is detektálhatóezekbol a plotokból, illeve csoportok is megfigyelhetoek az "eset"-ekben(az adatmátrix bizonyos sorai összetartozhatnak, csoportosulhatnak).

Itt is igaz, hogy kovariancia mátrix helyett korrelációs mátrixból is lehetdolgozni. Ez ugyanaz, mintha normálnánk a változókat, megszabadulunka skálázási problémától. Ez azonban nem mindig jogos!

Márkus László Fokomponens és Faktor analízis 2017. december 5. 12 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Például:

S =

{1 4

4 25

}, míg a neki megfelelo korrelációs mátrix: R =

{1 0.80.8 1

}S-bol λ1 = 25.65,λ2 = 0.35⇒ Az F1 98.6% szórást magyaráz

F1 = 0.16X1 +0.987X2, vagyis F1 lényegileg X2

Ugyanez R-rel:λ1 = 1.8λ2 = 0.2Az F1 90% szórást magyaráz.

F1 = 0.707 ·X1 +0.141 ·X2 tehát F1 sokkal inkább X1, mint X2.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 13 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

Hány fokomponenst tartsunk meg?4 lehetoség a döntésre:

1 Magyarázzák a szórás rögzített (pl 80) %-át2 Dobjuk azokat, melyek az átlagnál kisebb sajátértékhez tartoznak. λj

∑λiξn

;Korrelációs mátrixra ez az átlag 1, tehát az 1-nél kisebb sajátértékheztartozó fokomponenseket elhagyjuk.

3 Scree plot - koomlás diagram. (nagyság szerint plottoljuk asajátértékeket, és ahol az elso (vagy második) törést látjuk a közellineáris csökkenésben, onnantól dobjuk a fokomponenseket.)

4 A nagyobb fokomponens szignifikanciáját formálisan teszteljük.5 Értelmezés alapján, a társtudománnyal együttmuködve, ez nem

statisztikai módszer, de hasznos lehet.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 14 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

3. H0,k : λn−k+1 = · · ·= λn = 0

λ = 1k ∑

ni=n−k+1 logλi

Teszt statisztika:

n = (p− 2n+116 )(k log(λ )−∑

ni=n−k+1 logλi)

Ez közelítoleg χ2d , d = (k−1)(k+2)

2Ez általában kissé túlbecsüli a megtartandó komponensek számát.

2. Scree-plot

Márkus László Fokomponens és Faktor analízis 2017. december 5. 15 / 35

Valószínuségszámítás és matematikai statisztika Fokomponens analízis

4. Értelmezés

A faktormegoldások elforgathatók - ettol megoldások maradnak. A for-gatás PCA-ra nem javasolt, csak FA-ra, de Principal Factorból gyakranugyanazt kapjuk, mintha PCA-t forgattunk volna.

Az új, forgatott megoldás már korrelál és nem a maximális varianciáthatározza meg.

Úgy forgatjuk a megoldást, hogy minél több együttható a lineáris kom-binációban 0 legyen, így könnyebb értelmezni a megoldást, mert azeredeti változókból csak keveset használunk így fel egy-egy faktormeghatározásához⇒ a különbözo faktorok más és más mért változót tar-talmaznak (nagy súllyal).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 16 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Faktor Analízis

A FA-ban a változókat reprezentálni akarjuk, mint néhány (jóvalkevesebb) másik változó (a faktorok) lineáris kombinációja. A faktort ál-talában nem lehet mérni, vagy megfigyelni.

Rencher szerint a FA különbözik a PCA-tól, mert1 A PC-k az eredeti változók lineáris kombinációi, míg a FA-ban az eredeti

változókat fejezzük ki a faktorok lineáris kombinációival.2 PCA-ban az összes variancia nagy részét magyarázzuk, míg FA-ban a vál-

tozók közötti kovarianciákat szeretnénk a legjobban reprodukálni.

Több statisztikus nem szereti - a régebbi számítási módszerek gyakranadtak ellentmondó eredményeket, ezeket ma nem használják. Aszámítógépes módszerek ma már konzisztensebbek. Azonban így ismeglehetosen szubjektív az elfogadott modell, de ez egyúttal az alkal-mazó szabadsága is, a módszer "bája" akár.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 17 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Tegyük fel hogy p változót: Y1, . . . ,Yp figyelünk meg, mindegyiket pon-tosan n-szer. Ezekbol a megfigyelésekbol a szokásostól eltéroen egy p×n-es mátrixot állítunk össze (most az oszlopok az esetek!). A változókrólfeltesszük, hogy 0 várható értékuek, különben az átlaggal centrálunk.

Úgy gondoljuk, hogy a p változó közül az erosen összefüggok csoport-jainak szinkronizált fluktuációját mindössze egy-egy látens, közvetlenülnem megfigyelheto háttérváltozó hozza létre. Ezeket a háttérváltozókatnevezzük faktoroknak, számuk, m lényegesen kisebb mint a megfigyeltváltozóké m << p. A változók n megfigyelt értékéhez a faktorok n értéketársul, tehát egy m×n-es mátrixot adnak.

A megfigyelt változók fluktuációjának jelentos része tehát a faktorok fluk-tuációjának lineáris kombinációjaként áll elo, marad azonban egy csupánaz adott változóra Yi-re specifikus fluktuáció εi is. Ezt idioszinkratikuskomponensnek, vagy zajnak hívjuk. Minden i-re n értéke van, tehát ez isegy p×n-es mátrix.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 18 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A faktormodell egyenlet:Y = DF+ ε

Itt Y és ε p×n-es mátrix. Az F faktorok n×m, a D faktorsúlyok (factorloadings) p×m-es mátrixot adnak.

Lényeges, hogy D nem négyzetes, hanem p×m-es mátrix, több sora van,mint oszlopa m << p.

Az ε zaj és DF korrelálatlanok, a faktorok maguk (F oszlopai) ugyan-csak korrelálatlanok - normálisra függetlenek, és az Fj-ket 1 szórásúnakfeltételezzük.

Ezért:

ΣY = cov(DF+ε) = cov(DF)+cov(ε) = E(DFFTDT)+Σε = DDT +Σε

Itt Σε = diag(σ21,ε , · · · ,σ2

n,ε).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 19 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Ez a felbontás nem feltétlen létezik m >> n-re. De a lényeg, hogy FA-ban ezt keressük, ezt értjük azon, hogy szórásmátrixot szeretnénk minéljobban reprodukálni, kisebb dimenzióból.

A faktormegoldás nem egyértelmu: ugyanis, ha van egy megoldás tet-szoleges T m x m-es forgatással:

TTT = I∑Y = DTTTDT +∑ε =

= DDT +∑ε

tehát:

Y = DTF+ ε

is jól reprodukálja a szórásmátrixot, így F? =TF -fel, mint új faktorokkal:

Y = DF∗+ ε

és mivel T ortogonális, így F∗ is faktor tulajdonságú.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 20 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A FA modell szerint minden változó varianciája a faktorokvarianciájából áll elo lineáris kombinációként plusz még van egy, azajból származó saját, specifikus varianciája.

A faktorok által magyarázott rész az úgynevezett kommunalitás, ez

h2i = d2

i,1 + ...+d2i,m

a D mátrix i-ik sorának négyzetösszege.Ha még a megfigyelt változó is egy szórású, akkor a kommunalitás afaktorok által magyarázott variancia arányát adja.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 21 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Mivel Yi = ∑mj=1 di,jFj, és a faktorok korrelálatlanok és 1 szórásúak, ezért

cov(Yi,Fj) = di,j

Innen cov(Y,F) = DTovábbá

h2i = ∑

mj=1cov(Yi,Fj)

2 =

= D2(∑mj=1 dijFj)

A kommunalitások nem változnak a megoldás forgatásával.

Megjegyzés: hi nem más, mint az i-ik sor faktorsúly vektorának hosszaaz Rm -ben. Ha standardizáltak a megfigyelések, akkor az a jó, ha közelvan 1-hez.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 22 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A faktormegoldás eloállítása1 Fokomponens módszer2 Principal Factor vagy Principal Axis módszer (fotengely)

Márkus László Fokomponens és Faktor analízis 2017. december 5. 23 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Fokomponens módszer:

Eloször is ∑Y -t S-sel becsüljük. Keressük D-ot, amelyre

S∼= DDT +Sε

újfent spektrálfb.-juk S-et:

S = CECT

ahol E: diag. s.é, C: s.vekt.

Mivel E diag⇒ négyzetgyököt vonhatunk, mert a foátlóbanszórásnégyzetek állnak⇒ S = CE

12 (E

12 )TCT

Most lehetne D = CE12 , de ez még nem jó, mert n x n-es mártix. Na de

ne az összes sajátvektort vegyük, csak az elso m-et: CmD = CmE12m

Márkus László Fokomponens és Faktor analízis 2017. december 5. 24 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Tulajdonképp: az utolsó néhány fokomponenst zajnak tekintjük, és aváltozó egyéni variációjával "azonosítjuk". A dimenziók nem pontosakígy a zajra, az ugyanis n rangú, míg az utsó PC-k (n-m) rangúak. Tehátösszefüggés marad a zajban.

Úgy tunhet, hogy az interpretáció ugyanaz, mint a PCA-nál, de mostforgathatunk, míg a PCA-kat nincs értelme forgatni - elvesztik PCtulajdonságukat. (Más a cél!) (Tetszoleges pozitív definit mátrixdiagonálisba forgatható (vissza is!), de I-be már nem⇒ a PC-katforgatva kaphatok összefüggéseket, de a F-kat forgatva nem)

Újfent használhatjuk a korreláció mátrixot a kovariancia helyett. Most ezteljesen összeegyeztetheto az interpretációval.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 25 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Principal Factor vagy Principal Axis módszer (fotengely)

Eloször becsüljük meg a zajt, azt vonjuk ki, aztán a maradékbólhatározzuk meg a faktort. Nem a zajt, hanem annak kovariancia mátrixát,tehát az egyes változók specifikus varianciáit kell becsülnünk.

SY −Sε =

h21 s1,2 · · · s1,n

. . .sm,1 · · · sm,n−1 h2

m

ahol h2

i a kommunalitások. Ezeket kell tehát becsülnünk.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 26 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A kommunalitás becslése: sii az S−1 diagonálisának i-ik elemeh2

i = sii− 1sii= sii ∗R2

i (az utolsó egyenloség megmutatható)ahol R2

i a squared multiple correlation (- a regresszióból) a maradék n-1változóval.

Hasonlóan korreláció mátrix esetén:

h2i = 1− 1

rii= R2

i

az rii az R−1 diag.-nak i-ik eleme. Ez akkor jó, ha R nem szinguláris.

Ha szinguláris, akkor használjuk az abszolút érték vektort a négyzetét alegnagyobb korreláltnak az i. sorban.

Gyakran negatív sajátértékek is adódnak SY −Sε -ból. Ekkor amagyarázott variancia 1 fölé megy és aztán csökken vissza 1-re (normáltesetben)

Márkus László Fokomponens és Faktor analízis 2017. december 5. 27 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Maximum likelihood

Tfh Y1, ...,Yn Nn(η ,(∑Y ))Ekkor D és ∑ε ML becslése is lehetséges. Megmutatható, hogy ekkor Dés Sε a következot elégíti ki:

SYSεD = D(I + DTS−1ε D)

Sε = diag(SY − DDT)DTS−1

ε D diagonális mátrix

Ezt kell iteratíve megoldani.

Ez gyakran nem konvergál, vagy nem ad jó megoldást, akommunalitások meghaladják 1-et.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 28 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A faktorszám megváltozikugyanaz a 4 lehetoség, mint a PCA-nál:

1 inkább PCA-ra mint FA-ra2 A rutin a legtöbb softwareben3 Elég jó a scree plot is, (gyakran) felfedhet bizonytalanságot m

megváltozásában.4 -ben

H0 : ∑Y = DDT +∑ε

H1 : ∑Y 6= DDT +∑ε

akarjuk tesztelni.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 29 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

A teszt stat. likelihood hányadosból:

(p− 2n−2m+116 )∗ log( |DDT |

|SY | )

| | a determináns. Ez közelítoleg χ2d ahol

d = 12 [(n−m)2−n−m]

Ha H0-t elutasítjuk⇒ több faktor kell. Gyakorlatban gyakran túlbecsülia faktorszámot.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 30 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Factor scores

Itt is vannak score-k:

F = BTY + ε∗

ε∗: ez másik!

B elemei a Factor Scoreok. Becslése:

B = (YTY)−1YTF

regressziószeru (tulajdonképp az is).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 31 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

ForgatásVálasszuk T-t úgy, hogy minél könnyebben ért.hetoek legyenek afaktorok. Azaz az egyes faktorok minél közelebb kerüljenek a megfigyeltváltozók valamelyikéhez, hogy annak hatásával azonosítható legyen. Ígyforgassunk:

Márkus László Fokomponens és Faktor analízis 2017. december 5. 32 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Varimax forgatás

Olyan rotált loadingsokat keresünk, hogy a négyzetük varianciájátmaximalizáljuk D∗ oszlopaiban. Az értelme: ha a faktorsúlyok mindegyenloek lennének, a súlyok szórásnégyzete 0 lenne.

Ha "szétdobáljuk" a súlyokat, a négyzetes súlyok 0-t, illetve 1-tközelítenek, a szórása noni fog.⇒ A varimax módszer megkísérli asúlyokat vagy kicsi, vagy nagyra választani, hogy segítse azinterpretációt.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 33 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Változók csoportokba rendezése

Egy-egy változó megfigyelése - egy pont ℜm-ben.

Kell: távolság a pontok között:1 euklideszi2 négyzetes euklideszi

Kell: távolság a csoportok között Pl: csoportok középpontjainaktávolsága legközelebbi szomszédok távolsága legtávolabbi szomszédoktávolsága Ward táv. a csoportokra ANOVA és a táv. a megfeleloszignifikancia szint (p-érték), amely mellett elutasítanánk a 0-hipotézist

A cél: úgy csoportokra particionálni a megfigyelt változókat, hogy acsoportok távolsága maximális legyen (a legjobban elkülönüljenek).

Márkus László Fokomponens és Faktor analízis 2017. december 5. 34 / 35

Valószínuségszámítás és matematikai statisztika Faktor Analízis

Távolságok a megfigyelések, mint ℜd -beli pontok között:

Euklideszi:√

∑di=1 (xi− yi)2

Négyzetes Euklideszi: ∑di=1 (xi− yi)

2

Progresszíven nagyobb súly a távolabbi objektumokra

Hatvány: (∑di=1 |xi− yi|p)

1r

Manhattan: ∑di=1 |xi− yi|

Nem annyira outlier érzékeny

Csebisev: Max|xi− yi|Ha valaki kül. bármely koord.-ban kül.

Kül. százalék: xi 6=yid ∗100%

Jó, ha kategorikus vált. van.

Márkus László Fokomponens és Faktor analízis 2017. december 5. 35 / 35