ACP – Behind the Scenes
-
Upload
porcaras-adrian -
Category
Documents
-
view
21 -
download
6
description
Transcript of ACP – Behind the Scenes
ACP-ul Lucrului Bine Facut
Metodologie ACP
bine ati venit in Star Trek
Motto :
« Eu nu strivesc corola de minuni a lumii si nu ucid cu mintea taina nepatrunsului ascuns. »
(Lucian Blaga)
: « Eu STRIVESC corola de minuni a lumii (o calc in picioare) si UCID
cu mintea taina nepatrunsului ascuns. »
ACP-ul Lucrului Bine Facut
Dragi colegi,
Am incercat, aici, sa explic intr-un limbaj mai accesibil, in ce consta Analiza in Componente
Principale . Probabil ca-i nashputz si boringutz pentru voi, dar va ajuta sa intelegeti mai bine
cu ce se mananca ACP-ul
1. Pentru a realiza « manual » un ACP, avem nevoie mai intai de matricea de corelari intre
toate variabilele, doua cate doua….matrice, adica tabelul ala « colorat » cu aceleasi variabile
in linie si in coloana, cu valoarea 1 pe diagonala (pentru ca fiecare variabila se coreleaza cu
ea insasi 100 %) si cu valori mai mari sau mai mici in rest. (negative intre 0 si -1, daca
corelarile-s negative)
(N.B. lu Boamfa i-a iesit colorat tabelul asta, nu stiu exact cum, cica in Excel... dar mie in
Statistica mi-a dat “alb-negru”... in fine, culorile sunt folosite pentru a fi mai usor de
vizualizat corelarile puternice (pozitive sau negative, cu rosu, respectiv verde) si cele medii
(tot pozitive sau negative, cu portocaliu, galben, vernil). Observati ca populatia urbana si cea
rurala se coreleaza 100% negativ (valoarea -1). Fiind doar ele doua in categoria lor, cand una
creste, nu poate sa creasca decat in detrimentul celeilalte, automat cealalta scade)
2. Numai putin, dar cum se obtin valorile astea din tabel ?
Se aplica formula tipica de la coeficientul de corelaţie Pearson (vezi curs Groza de anu
trecut, ppt „Curs_11_12_Corelatia”,
slide 9...sau in cursul lui in pdf
„Elemente de Statistica Geografica”
pag. 70)
unde - media unei variabile
s – deviatia-standard (se mai
noteaza si „ ”)
cov – covarianța (facultativ)
n – numarul de valori
ACP-ul Lucrului Bine Facut
Sau altfel scris:
In Excel, puteti folosi functiile MOYENNE (pentru medie), ECARTYPE (pentru deviatia
standard), COVARIANCE (pentru covarianta), iar pentru corelatie trebuie instalat cel
«Utilitaire d’analyse », un package optional de la Excel.
In fine, mai intai trebuie aflate mediile variabilelor si deviatiile lor standard, ca apoi sa
calculati corelarile intre variabile doua cate doua…cred c-ati facut asta cu Groza anu trecut.
3. Pana aici a fost incalzirea. Dupa ce s-au calculat corelarile, variabilele sunt transpuse intr-un
spatiu vectorial (« vectorial » adica variabilele sunt reprezentate sub forma de sageti…lool)
4. Cum se face asta ? Pai, valorile corelatiilor sunt, de fapt, cosinusi de unghiuri. Pe baza lor
se poate afla unghiurile dintre variabile. Dar de ce cosinus ?
Dupa cum se stie din a-VII-a, definitia cosinusului e « cateta
alaturata supra ipotenuza ».
In triunghiul ABC, cos (A) =
In figura din dreapta, cosinusul arata proiectia ortogonala a pe
(perpendiculara dusa din B pe , care ajunge in punctul C).
Daca e vorba de doua variabile, lungimea lui “r” (in imagine),
arata cat de mult se coreleaza cu . Cu cat unghiul dintre
variabile este mai mare, cu atat se coreleaza mai putin…si invers, cu cat unghiul dintre ele
este mai mic, cu atat se coreleaza mai strans.
Un caz particular : atunci cand unghiul e de 90°, corelarea intre ele e 0 (cos 90° = 0), iar in
cazul asta variabilele sunt independente. Practic, corelare inseamna « influenta », ca se
influenteza una pe cealalta :
- direct proportional (pozitiv) amandoua cresc sau scad (in valori) in acelasi timp
- sau invers proportional (negativ) atunci cand una creste, cealalta scade
Daca variabilele-s independente, ele nu se influenteaza deloc una pe cealalta
P.S. : cineva mi-a zis sa fac « tutorialul » asta sa explic ca la prosti =)). Poate nu e nevoie, dar
vreau sa ma asigur ca nu sunt neclaritati.
ACP-ul Lucrului Bine Facut
Sau daca unghiul e de 180°, corelarea este -1 (100% negativa) : cazul de mai devreme
Populatie urbana vs. Populatie rurala
5. Buuun ! Pentru a afla unghiurile dintre variabile, aplicam deci functia inversa arccosinus pt
fiecare valoare de corelatie. Luam fiecare valoare din tabel (doar de-o parte a diagonalei, ca
restul, cealalta jumatate e simetrica) si aflam
unghiurile dintre variabile, doua cate doua, toate
plecand, bineinteles, de la aceeasi origine ,
pana ajungem la ceva asemanator (aici, in
dreapta : un caz simplificat cu 3 variabile)
De ex : arccos 0,45 = 63° (intre 1 si 2)
arccos 0,95 = 18° (intre 1 si 3)
arccos 0,70 = 45° (intre 2 si 3)
N.B. Deci cum spuneam mai devreme: cu cat unghiul dintre variabile e mai mare, cu atat
corelarea e mai mica (unghi de 63° - corelare 45%), cu cat unghiul este mai mic, corelarea
este mai mare (unghi de 18° - corelare 95 %)
6. Aici in dreapta am mai introdus o a patra variabila,
corelata negativ cu primele 3. Cunoastem unghiurile
dintre ele si cosinusii lor (vezi tabel).
Poate nu-i nevoie sa mai spun asta... dar precizez pt
variabila 4 (valorile din tabel)
cos 142° = - 0,788 (intre 1 si 4)
cos 160° = - 0,939 (intre 3 si 4)
cos 155° = - 0,906 (intre 2 si 4
In toate cele 3 cazuri, corelarea este puternic negativa
(aproape de -1). In fine, pe diagonala, fiecare variabila
facand 0° cu ea-insasi ...cos 0° = 1.
7. Dupa ce cunoastem unghiurile dintre toate variabilele, putem trasa prima componenta (o axa).
Fiind prima si cea mai importanta, ea trebuie sa maximizeze suma patratelor lungimilor
proiectiilor ortogonale ale vectorilor pe ea-insasi. « Dar LOOL ! Vorbesc din Star Trek ? »
Raspuns : NU. « Tineti aproape »
Deci, altfel spus (putin mai sumar), prima componenta trebuie sa maximizeze suma patratelor
corelatiilor tuturor variabilelor cu ea-insasi. De ce suma de patrate ? Pentru a calcula partea
din varianta totala (100%) explicata de prima componenta (se mai poate spune in loc de
« componenta » si « factor », e acelasi lucru). Fiind prima, ea explica cea mai mare parte din
varianța variabilelelor. Si cum bine stiti (tot de la Octav, daca nu de la profa de la FEAA din
anul II de la Statistica) formula varianței este « deviatia standard la patrat » sau :
Corelatiile sunt deja diferențe intre valorile individuale si valorile medii ale variabilelor
, ramane doar de ridicat la patrat si facuta suma in linie (voir plus loin).
ACP-ul Lucrului Bine Facut
(Mai este si un „ ” acolo se imparte la nr de indivizi doar daca vrem sa aflam sub forma
subunitara [0, 1], apoi procentuala, varianta totala explicata de prima componenta)
8. „Vorba lunga, saracia omului”. Trasam prima
componenta (vezi graficul). Pentru a maximiza
corelatiile (si implicit patratele corelatiilor), e
nevoie ca unghiurile dintre fiecare variabila cu
prima componenta sa fie cat mai MICI posibil
(axa sa fie cat mai bine ajustata dupa directia
vectorilor).
N.B. In afara de unghiurile dintre variabile (intre
ele), acum avem o alta serie de unghiuri care ne
intereseaza si anume (cum am spus) unghiurile
dintre fiecare variabila in parte cu primul factor
(vezi prima linie la „angle”).
Directia/ sensul de masurare a unghiurilor se face
de la dreapta la stanga (si „deasupra” axei si
„dedesubtul” ei). De aceea, variabilele corelate negativ fac unghiuri mai mari de 90° cu prima
componenta (de ex : unghiul dintre variabila 4 si prima componenta, nu e 10°, ci 170°)
9. OK, stim unghiurile dintre fiecare variabila cu prima componenta (28°, 35°, 10°, 170°), facem
cosinus de fiecare valoare, pentru a afla (repet) cat se coreleaza fiecare. Apoi, fiecare valoare
de cosinus o ridicam la patrat, pentru a „elimina” eventuale valori negative [practic, asta este si
scopul ridicarii la patrat din formula varianței...stiti cel ]; nu ne intereseaza sa adunam
numere pozitive sau negative, ci doar amplitudinea diferentelor. O sa spuneti: „Dar se putea face
si cu modul din valori negative.. |-0,98| = 0,98”. Da, dar nu e prea „cool”. DE CE ? Hmm...nu
stiu de-astea :)). In orice caz, trebuie respectata formula varianței.
10. In final, dupa ce-am calculat patratul corelatiilor fiecarei variabile cu prima componenta,
aflam varianta totala explicata de primul factor (3,39) prin insumarea rezultatelor de pana acum
(0,78 + 0,67 + 0,97 + 0,97).
N.B. Varianța asta de 3,39 nu e nici ea prea “cool”...la Boamfa era sub forma procentuala. Stati
ca ajungem si acolo ;)
11. Mai intai, exprimam (cum am zis si la sfarsitul punctului 7) varianța sub forma subunitara. O
impartim la suma varianțelor acelorași variabile, dar scrise sub forma standardizata
central-redusa (pentru „stardardizarea variabilelor” vezi curs Groza ppt „Curs 09-10
Transformarea variabilelor cantitative 2003” slide 12, sau in cursul lui in pdf „Elemente de
Statistica Geografica”, pag. 32). Si totusi intrebare: DE CE trebuie standardizate ? Pentru ca
variabilele astea au diferite unitati de masura (de ex: in turism, avem ca unitate de masura nr de
persoane pt variabila „Sosiri turisti”, nr de locuri/ paturi la „Capacitate de cazare”, nr de nopti la
„Innoptari” etc....aici nu e grav, dar in fizica, chimie unde lucrezi cu multipli si submultipli:
decagram (dag), hectometru (hm), miliamper (mA), kilowatt (kW), megaelectronvolt (MeV) – pt
ACP-ul Lucrului Bine Facut
energia nucleara DA ! trebuie standardizat pentru a scapa de „efectul unitatii de masura” care
poate adauga sau reduce din zerouri (si atunci obtinem alte valori – nashputz rezultat ). Dupa
standardizare, valorile sunt adimensionale !!!
Deci, standardizam valorile fiecarei variabile dupa formula
(citim „diferența intre
fiecare valoare si valoarea medie, impartita la deviația standard”) si calculam varianța valorilor
standardizate pentru „fiecare” variabila in parte , obtinand merdul urmator:
N.B. Am pus in prim-plan, media unei variabile stadardizate , pentru ca ea intra apoi in
calculul varianței.
BUN ! Ce observam ? Varianțele variabilelor standardizate sunt intotdeauna egale cu 1,
indiferent de valorile acesteia =))). Deci, glumeam . Nu mai trebuie standardizate valorile
tuturor variabilelor, pentru ca varianța lor este mereu 1. (Voiam sa verific cat de bine ati invatat
la Groza anu trecut ) (dar cred c-ati observat putin mai inainte c-am pus cuvantul „fiecare” in
ghilimele, nu degeaba) . Stiind acest lucru, concluzionam ca suma varianțelor variabilelor
standardizare este egal cu , numarul de variabile (in cazul asta 4).
N.B. Ati vazut, probabil, in rapoartele de la ACP facute in Philcarto, cea „Inertie totale” (la
punctul 3 din fiecare raport). La asta face referire: fiecare variabila a fost standardizata, toate au
aceeasi „importanta” si anume 1 (chiar daca se incearca o ponderare). Totalul de informatie pe
care-l pot da este nr de variabile n (adica totalul de varianța care-l pot avea toate variabilele la un
loc, in cazul de fața 4).
Inainte de „Inertie totale” (n-am nici cea mai vaga idee cum se zice in romana :D) apare la
punctul 2 „Matrice d’inertie” care este de fapt matricea de corelari intre variabile, sau matricea
varianța-covarianța, daca variabilele nu-s standardizare. Asta din cauza ca covarianța a doua
variabile standardizate este de fapt corelarea dintre ele. Demonstratia:
– doua variabile standardizate
Cele doua deviatii standard („standardizate” si alea la naiba ) ale lui x si y trec la numitor in
formula covariantei (la sfarsit) si devine practic formula corelatiei. (Pana si deviatia standard se
standardizeaza-n puii mei). E CLAR ACUM TRUF ???
ACP-ul Lucrului Bine Facut
12. Ce-am scris la punctul 11. e ca o paranteza „mai mare”. Reluam ! DECI, o lasam balta cu
„standardizatul in masa”, stim ca suma varianțelor variabilelor standardizate este egal cu nr
de variabile (pt ca 1 x 4 = 4....loool), avem varianța totala explicata de primul factor (3,39), deci
o putem exprima in forma subunitara si anume 3,39 : 4 = 0,8475, iar procentual x 100 = 84,75 %.
ASTA-I CEEA CE-APAREA IN CADRANELE
LU BOAMFA in dreptul la componenta 1: partea
din varianța totala explicata de primul factor. (aici
38,42 %). La Boamfa, se pare ca nu se coreleaza prea
„chouette” indicii intre ei (desi-s toti de geografie
umana), de-asta sunt imprastiati in toate cadranele, iar
prima componenta nu se poate ajusta prea bine (sa
maximizeze mai mult corelatiile) din cauza ca vectorii
„fug in toate partile” (exemplul de mai devreme cu 4
variabilele e unul banal; dincoace la Boamfa avem 15
variabile...cam multe totusi sa le ajustezi pe toate dupa o
axa)
Deci, din cauza ca vectorii „pleaca in toate directiile”
varianța explicata de primul factor este destul de slaba
(cel 38,42 %). Spre comparatie, mai devreme, in cazul
cu 4 variabile, aveam 84,75% din total pentru primul factor.
N.B. M-am cam pripit oleaca ! In dreapta (cadranul lu Boamfa) e spatiul factorial al primelor
doua componente. Inca n-am ajuns acolo. Nu confundati „spatiul vectorial” (cel cu sageti) cu
„spatiul factorial”. „Coordonatele” fiecarei variabile in cele doua spatii is diferite [to be
continued] (Nu va „tracasați”, ajungem si acolo, „Tineti aproape”)
13. Revenim la cazul simplu cu 4 variabile. Am rezolvat cu prima componenta: o stim din cap pana-n
picioare. In continuare, vom trasa a doua componenta perpendiculara pe prima. DE CE
perpendiculara ? Pai, „componenta” sau factor” poate fi echivalat cu o „cauza”...cauza care sa
explice (partial sau total) varianța tuturor
variabilelor. A doua componenta trebuie sa fie
perpendiculara pentru a fi independenta de
prima (mai tineti minte cos 90° = 0 ). Corelarea
dintre cele doua componente trebuie sa fie 0, sa nu
aibe nici o legatura una cu alta. Sau altfel spus, cele
doua „cauze” (sau mai multe) pe care le cautam si
prin intermediul carora incercam sa explicam
varianța variabilelor nu trebuie sa se influenteze una
pe cealalta (pe scurt, sa fie INDEPENDENTE).
Trasam a doua componenta. Aflam o a treia serie de
unghiuri si anume unghiurile pe care le face fiecare
variabila cu al doilea factor (vezi tabelul alaturat)
adica: 62°. 125°, 80°, 280°.
ACP-ul Lucrului Bine Facut
N.B. De data asta, componenta a doua fiind verticala, sensul de masurare a unghiurilor se face de
sus in jos, de-o parte si de alta a axei (in „dreapta” si-n „stanga” ei)
N.B.(2) Recunosc ca-i bizara valoarea aia de 280° la variabila 4...putea fi foarte simplu 80° pentru
ca cos 80° = tot 0,17 (lool).
14. Din nou, ca-n cazul primului factor, acum aflam corelatiile intre fiecare variabila cu al doilea
factor (facem cosinus de fiecare unghi), apoi fiecare valoare de cosinus o ridicam la patrat. In
final, facem suma in linie a valorilor de , si obtinem 0,61 (adica 0,22 + 0,33 + 0,03 + 0,03).
15. Pentru a doua componenta 0,61 este partea din varianța totala (anume 4) explicata de aceasta (la
fel ca 3,39 pentru prima). Deci, o exprimam subunitar (nu mai standardizam nimic, ca ne-am dat
deja odata demisia ), calculam doar 0,61 : 4 = 0,1525, iar procentual 15,25 %.
(Reluare): ASTA-I CEEA CE APAREA IN CADRANELE LU BOAMFA in dreptul la
componenta 2: partea din varianța totala explicata de al doilea factor (la Boamfa era 15,63
%, in figura de mai sus).
N.B. Ati observat mai inainte in josul figurii precedente (cu extragerea componentei 2) ca
variabilele erau standardizate si COPLANARE(adica se aflau toate in acelasi plan).
Ne-am rezumat doar la reprezentarea vectorilor intr-un singur plan, intr-un spatiu 2D.
De obicei, ACP-ul se face in 3D, dar nu-si are rostul sa ne complicam cu ce se „petrece”
acolo pentru ca intervine ecuatia planului, suprafata de tendinta, ecuatii polinomiale de
gradul n in sisteme de ecuatii derivabile cu n necunoscute si alte SF-uri.
16. OK ! Am extras doua componente care explica toata varianța 100 % (84,75 + 15,25). Am
rezolvat un caz simplu cu 4 variabile, unde nu e nevoie decat de 2 componente pentru a le
explica varianța.
N.B. In cazul unor variabile nu prea bine corelate intre ele si necoplanare (aflate intr-un spatiu
3D), intervine si a treia si a patra si a n componenta necesara de extras pentru a explica restul de
varianța ramas. Numarul maxim de componente care poate fi extras este, bineinteles, egal cu
numarul de variabile (repet, daca acestea nu sunt coplanare). Componentele sunt extrase in
ordinea descrescatoare a importantei (prima e cea mai importanta, am vazut...apoi, a doua, mai
secundara, a treia daca e nevoie...pana la a 15-a in cazul lu Boamfa; dar ultimele componente
sunt chiar derizorii, partea de varianta pe care o explica e cu 0,000 din total, deci... OUT !!!)
17. Un lucru care trebuie retinut: partea de varianța (explicata de fiecare factor) obtinuta din
insumarea valorilor de (3,39 la primul factor si 0,61 la al doilea) se mai numeste valoarea
proprie a factorului. Atunci cand avem mai multe componente (de ex: 15 à la Boamfa), in ACP
sunt retinute doar componentele a caror valoare proprie este mai mare sau egala cu
covarianța unei variabile standardizate (iar ), adica acel 1 de mai devreme. Adica, daca
varianța totala explicata de un factor (obtinuta, repet, prin insumarea valorilor de ) este mai
mica decat 1, atunci la acel factor i se „da cartonas rosu” si e scos afara. Sau mai simplu spus,
daca valoarea proprie a factorului este de la inceput subunitara (asta inainte de a se imparti la n
numarul de variabile), acel factor nu este retinut (e prea neimportant)
(Cred c-am spus-o in toate modurile posibile).
ACP-ul Lucrului Bine Facut
N.B. In cazul de mai devreme, cu 4 variabile, valoarea proprie a factorului 2 era, intr-adevar, de
la inceput subunitara (0,61), dar a fost retinuta pt ca era...abia a doua componenta, iar cazul era
unul simplu: variabile coplanare. In cazul in care situatia se complica, va fi retinut doar ceea ce
merita atentie. La fel si voi, cand o sa cititi doc asta, o sa stergeti ceea ce vi se pare mai putin
important care nu (prea) are aplicare la Boamfa.
18. Cred c-ati vazut prin rapoartele de la
Philcarto: doua cuvinte „alien” si
anume: „saturari” si „comunitati”.
Saturare nu inseamna altceva decat
„corelare intre un factor si o
variabila”, iar comunitatea este
totalul de varianța explicat de
componentele extrase (si retinute)
pentru o variabila anume, adica
suma in linie a patratelor corelatiilor
unei variabile cu componentele
extrase (vezi tabel)
De ex: pt variabila 2, comunitatea s-a obtinut astfel: (in fine, 0,9973)
N.B. In cazul de fața cu 4 variabile, din cauza ca cele doua componente explia 100 % varianța
variabilelor, comunitatea tuturor este 1.
N.B. (2) In cazul lui Edy, in terciul de variabile erau unele de agricultura =)), unele cu nivelul de
studii si unele de turism. Corelari intre cele ce tin de turism si cele cu nivelul de studii se mai pot
face, dar cu cele de agricultura...nu prea vad cum. DE ACEEA, in cazul in care se amesteca
variabile mult prea diferite intre ele, primele componentele incearca sa explice variabilele care se
coreleaza mai bine intre ele (in cazul asta: cele de turism si nivel de studiu). Comunitatea acestor
variabile va fi cea mai mare sau chiar maxima (= 1) (ma rog, putin probabil), iar comunitatea
celor de agricultura va fi mult mai slaba, pentru ca (repet) componentele care explica bine
turismul si nivelul de studii, nu pot sa explice la fel de bine (in acelasi timp) si agricultura.
19. DAR, la Boamfa (la punctul 12) erau reprezentate variabilele in spatiul factorial al primelor
doua componente. Cum a facut asta ?
Pai, s-au luat ca (virgula) coordonate ale variabilelor, valorile corelarilor pe care aceastea le au
cu cele doua componente (1 si 2).
(Am „reusit” si-o reprezentare in Excel mai jos) O luam „băbește”. Trasam un system de
coordonate : Ox, Oy, valorile minime si maxime pe ambele axe fiind -1 si +1. Mai tineti minte
cercul trigonometric cu cele 4 cadrane . Variabila 1 de ex : avand coordonatele in x 0,88 si in y
0,47…se va situa in cadranul 1, variabila 2 are valoare negativa pe Oy, deci cade in cadranul 4.
Variabila 3, la fel ca prima : pozitiv, pozitiv – cadranul 1. In fine variabila 4, negativ pe Ox,
pozitiv pe Oy – cadranul 2.
20. Ce observam ? Ceva “flagrant” ! Din cauza ca variabilele erau de la inceput coplanare, iar
varianța totala explicata de componentele 1 si 2 era 100 %, spatiul vectorial si cel factorial
coincid (pozitia variabilelor in cele doua spatii e identica)
ACP-ul Lucrului Bine Facut
21. Dar sa luam acum un exemplu « anti-usor » (mai « à la ULG » ). Avem aici 24 de indivizi
(comune) cu 13 variabile (nu 4)
Matricea de corelari intre variabile e asta (in fine, nu ne intereseaza prea mult)
-1
-0,8
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
-1 -0,5 0 0,5 1
Série1
ACP-ul Lucrului Bine Facut
Ce ne intereseaza sunt corelarile fiecarei variabile cu cei 13 factori (mai multi nu se poate :)) ca-s
doar 13 variabile in total) – cum ziceam mai devreme, nr. maxim de componente care poate fi
extras este egal cu nr. de variabile, in cazul asta 13)
In josul tabelului, pentru a vedea cat de important e un factor in raport cu altul s-a facut (iar)
suma patratelor corelatiilor in coloana = valoarea proprie a factorului (vedem la VarExpl:
7,96 pt factor 1; 1,80 pt al doilea s.a.m.d...ultimele, cum ziceam, sunt „derizorii”).
Transpunem datele de la VarExpl si PrpTot in alt tabel (pe verticala) pentru a vedea mai bine
contributia fiecarui factor la explicarea varianței variabilelor, iar in dreapta acelasi lucru, dar
vazut proportional (factorii, cum ziceam, sunt extrasi in ordinea descrescatoare a importantei)
ACP-ul Lucrului Bine Facut
N.B. Vezi acum Edy de ce trebuia aleasa reprezentarea
variabilelor in spatiul componentelor 1 si 2 ? si nu
componentele 3 cu 4. De altfel, procentajele care-s la CP3
(10,6%) si CP4 (9,43%) cam...dau de gol „Ehh, da lasa ca
nu stie nimeni ce-i acolo”.
OK, dar care era scopul pentru care-am desfasurat pe aici
atatea tabele ?
Scopul era sa va arat ca atunci cand avem mai multe variabile
necoplanare si muuulte componente extrase (imposibil pt primele doua sa poata explica toata
varianța), spatiul vectorial si spatiul factorial (al primelor doua componente) nu coincid. Exact
ce-am spus la punctul 12, la semnul
DE CE ? Vedem imediat ! „Tineti aproape !”
In tabelul 3 de la punctul asta 21. (tabelul „cu mult rosu”) avem corelarile intre variabile si
fiecare factor (hmm...prima corelare nu se vede, mais c’est pas grave). Luam in considerare
valorile din primele doua coloane (cu prima si a doua componenta), Reprezentam din nou,
variabilele in sistemul de axe Ox, Oy si folosim ca (virgula) coordonate corelarile fiecareia cu
factorul 1 (Ox) si factorul 2 (Oy). Obtinem alt merd:
Luam cateva variabile „la control”:
a) „% Proprio” avea corelare (vezi tabelul) 0,72 cu prima componenta, arccos 0,72 = 44°,
dar variabila „sta” pe componenta, nu face 44° cu ea. Coordonatele care conteaza, deci.
in spatiul factorial sunt (in cazul asta) 0,72 pe Ox si 0,0046 (citim din tabel) pe Oy
ACP-ul Lucrului Bine Facut
b) alt exemplu, variabila „CoefDepe” corelare - 0,47 cu primul factor...arccos - 0,47 =
118°.....eu zic ca-s cel putin 170° acolo
Concluzie: In spatiul factorial, nu ne intereseaza unghiurile pe care le aveau variabilele cu
componentele in spatiul vectorial, ci doar corelarile pe care acestea le au componentele. Unele
asemanari (de unghiuri) pot exista, dar coordonatele sunt diferite.
22. BUN ! Pana aici, am explicat DOAR O
FIGURA :)) din hartile de la Boamfa. In
legatura cu ACP-ul, mai era si „chestia” asta
(in dreapta).
Aici avem indivizii (unitatile spatiale/
teritoriile, la ce nivel de NUTS au fost
luate..parca NUTS 2) in spatiul celor doua
componente.
Cum transpui indivizii in spatiul factorial ?
Cu ajutorul scorurilor factoriale. Aici e si mai ANTI-USOR ! Trebuie facuta „legatura”
individ-variabila, variabila-componenta (cu ajutorul valorilor pe care le are fiecare individ cu
fiecare variabila si a corelarilor pe care le are fiecare variabila cu fiecare componenta).
Fiecare individ obtine un „scor” (habar n-am daca se zice asa in romana ) pe fiecare
componenta (aici doar 1 si 2). Numim individul „k”, scorul factorial pe care tre sa-l obtina „f” si
factorul/componenta „j” si avem formula:
Deci, scorul factorial este o suma de produsi intre:
a) coeficienti de scoruri factoriale obtinuti prin impartirea corelarilor
dintre factorul „f” si variabilele (aici) „1”, ”i”,...”p” la valoarea proprie a factorului
b) valorile standardizate (iar !) ale individului „k” pe variabilele
(aici) „1”, ”i”,...”p”
Deci, vedem ca variabilele sunt mereu „prinse la mijloc” intre indivizi si componente.
23. Se face necesara „traducerea” acestei formule. Sa luam un caz concret: cel de mai devreme cu 13
variabile.
Din tabelul initial de la punctul 21, luam de ex : primul individ, comuna ANS, pentru care vrem
sa-i calculam scorul factorial pe Ox si Oy si sa-l pozitionam in spatiul celor doua componente.
In Statistica, am obtinut automat (printr-un click) scorurile factoriale ale tuturor indivizilor, pe
toate componentele. Pe noi ne intereseaza doar comuna ANS cu primii doi factori (valorile
evidentiate cu rosu).
ACP-ul Lucrului Bine Facut
Dar cum s-au obtinut valorile alea concret ? [to be continued] « Tineti aproape »
Le vom calcula “manual” in Excel.
Revin la tabelul initial de la punctul 21 si fac Copier-Coller (ca Ponta) intr-o foaie de calcul
Excel.
Avem nevoie mai intai de valorile standardizate ale fiecarei variabile pentru individului ANS,
adica termenii din formula scorurilor factoriale (vezi fig, dati zoom). Pentru
asta, luam fiecare variabila (fiecare coloana) si ii calculam media si deviatia standard (vezi in
josul tabelului). Apoi pentru standardizare, aplicam (iarasi ? nu, iar din nou) renumita si sublima
formula
De ex: pentru variabila „Densité”,
= 0,35
ACP-ul Lucrului Bine Facut
Dupa ce-am calculat valorile standardizate ale variabilelor pentru comuna ANS, revenim la
tabelul cu (virgula) corelarile intre aceste variabile si primii doi factori. Avem acum nevoie de
acei „coeficienti de scoruri factoriale” (termenii din formula).
a) Pentru primul factor: facem raportul
De ex: pentru variabila „Densité”, coeficientul de scor factorial e –
= - 0,097
b) Pentru al doilea factor: acelasi lucru, doar ca vom lua in calcul valorile de corelatie ale fiecarei
variabile cu al doilea factor
De ex: pt aceeasi variabila „Densité”, coef. de scor factorial pe componenta 2, e –
= - 0,096
Dupa ce-am calculat coeficientii de scoruri factoriale, langa rezultate, alaturam coloana cu
valorile standardizate (calculate anterior) ale variabilelor pentru comuna ANS.
Inmultim coeficientii cu valorile standardizate (coloana 3), apoi facem suma in coloana (acea
„suma de produsi”).
Pentru factorul 1, „scorul” e - 0,32; iar pt factorul 2 - 0,808, aceleasi valori pe care le-am obtinut
si in Statistica „automat”.
Si toata asta DOAR PENTRU O COMUNA, mai raman inca 23 =)). Iti vine sa....
24. Cam asta deci, cu cele DOUA figuri/ grafice din hartile de la Boamfa (legate de ACP).
Celelalte doua ramase sunt facute cu CHA-ul, care-i alta poveste. [to be continued]
ACP-ul Lucrului Bine Facut
25. App, PRECIZARE !!! Tot ce-am explicat aici e in legatura cu „partea” din ACP pe care-a
folosit-o Boamfa. E doar prima „etapa”. Componentele pe care le-am extras au ramas
„nemiscate”. Pentru a le putea interpreta e nevoie de acea „rotire a componentelor principale”
(dupa ce-au fost eliminate cele „neimportante”).
Prin rotire, se modifica toate unghiurile initiale dintre componente si variabile. Asta inseamna ca
vom avea ALTE corelatii, ALTE comunitati, ALTE scoruri factoriale si implicit alta proportie
de varianta explicata de fiecare factor in parte. Cu alte cuvinte, ALTA distractie.
N.B. Daca se modifica varianța explicata de fiecare componenta, se va modifica si importanta si
ordinea lor. Unele cu procentaj mai mic pot sa creasca semnificativ, pentru ca explica mai bine
anumite aspecte, altele pot sa scada. Dar in fine, Boamfa nu a ajuns pana aici.
26. Nu uitati: „Intotdeauna se poate mai mult !”
27. ...daca inca mai cititi, inseamna ca n-ati inchis doc
Ce-i drept, calculul scorurilor factoriale e al ACP.
Acum :D
Sper ca nu aratati asa =))