ACP – Behind the Scenes

16
ACP-ul Lucrului Bine Facut Metodologie ACP bine ati venit in Star Trek Motto : « Eu nu strivesc corola de minuni a lumii si nu ucid cu mintea taina nepatrunsului ascuns. » (Lucian Blaga) : « Eu STRIVESC corola de minuni a lumii (o calc in picioare) si UCID cu mintea taina nepatrunsului ascuns. »

description

metodologie Analiza in Componente Principale

Transcript of ACP – Behind the Scenes

Page 1: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Metodologie ACP

bine ati venit in Star Trek

Motto :

« Eu nu strivesc corola de minuni a lumii si nu ucid cu mintea taina nepatrunsului ascuns. »

(Lucian Blaga)

: « Eu STRIVESC corola de minuni a lumii (o calc in picioare) si UCID

cu mintea taina nepatrunsului ascuns. »

Page 2: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Dragi colegi,

Am incercat, aici, sa explic intr-un limbaj mai accesibil, in ce consta Analiza in Componente

Principale . Probabil ca-i nashputz si boringutz pentru voi, dar va ajuta sa intelegeti mai bine

cu ce se mananca ACP-ul

1. Pentru a realiza « manual » un ACP, avem nevoie mai intai de matricea de corelari intre

toate variabilele, doua cate doua….matrice, adica tabelul ala « colorat » cu aceleasi variabile

in linie si in coloana, cu valoarea 1 pe diagonala (pentru ca fiecare variabila se coreleaza cu

ea insasi 100 %) si cu valori mai mari sau mai mici in rest. (negative intre 0 si -1, daca

corelarile-s negative)

(N.B. lu Boamfa i-a iesit colorat tabelul asta, nu stiu exact cum, cica in Excel... dar mie in

Statistica mi-a dat “alb-negru”... in fine, culorile sunt folosite pentru a fi mai usor de

vizualizat corelarile puternice (pozitive sau negative, cu rosu, respectiv verde) si cele medii

(tot pozitive sau negative, cu portocaliu, galben, vernil). Observati ca populatia urbana si cea

rurala se coreleaza 100% negativ (valoarea -1). Fiind doar ele doua in categoria lor, cand una

creste, nu poate sa creasca decat in detrimentul celeilalte, automat cealalta scade)

2. Numai putin, dar cum se obtin valorile astea din tabel ?

Se aplica formula tipica de la coeficientul de corelaţie Pearson (vezi curs Groza de anu

trecut, ppt „Curs_11_12_Corelatia”,

slide 9...sau in cursul lui in pdf

„Elemente de Statistica Geografica”

pag. 70)

unde - media unei variabile

s – deviatia-standard (se mai

noteaza si „ ”)

cov – covarianța (facultativ)

n – numarul de valori

Page 3: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Sau altfel scris:

In Excel, puteti folosi functiile MOYENNE (pentru medie), ECARTYPE (pentru deviatia

standard), COVARIANCE (pentru covarianta), iar pentru corelatie trebuie instalat cel

«Utilitaire d’analyse », un package optional de la Excel.

In fine, mai intai trebuie aflate mediile variabilelor si deviatiile lor standard, ca apoi sa

calculati corelarile intre variabile doua cate doua…cred c-ati facut asta cu Groza anu trecut.

3. Pana aici a fost incalzirea. Dupa ce s-au calculat corelarile, variabilele sunt transpuse intr-un

spatiu vectorial (« vectorial » adica variabilele sunt reprezentate sub forma de sageti…lool)

4. Cum se face asta ? Pai, valorile corelatiilor sunt, de fapt, cosinusi de unghiuri. Pe baza lor

se poate afla unghiurile dintre variabile. Dar de ce cosinus ?

Dupa cum se stie din a-VII-a, definitia cosinusului e « cateta

alaturata supra ipotenuza ».

In triunghiul ABC, cos (A) =

In figura din dreapta, cosinusul arata proiectia ortogonala a pe

(perpendiculara dusa din B pe , care ajunge in punctul C).

Daca e vorba de doua variabile, lungimea lui “r” (in imagine),

arata cat de mult se coreleaza cu . Cu cat unghiul dintre

variabile este mai mare, cu atat se coreleaza mai putin…si invers, cu cat unghiul dintre ele

este mai mic, cu atat se coreleaza mai strans.

Un caz particular : atunci cand unghiul e de 90°, corelarea intre ele e 0 (cos 90° = 0), iar in

cazul asta variabilele sunt independente. Practic, corelare inseamna « influenta », ca se

influenteza una pe cealalta :

- direct proportional (pozitiv) amandoua cresc sau scad (in valori) in acelasi timp

- sau invers proportional (negativ) atunci cand una creste, cealalta scade

Daca variabilele-s independente, ele nu se influenteaza deloc una pe cealalta

P.S. : cineva mi-a zis sa fac « tutorialul » asta sa explic ca la prosti =)). Poate nu e nevoie, dar

vreau sa ma asigur ca nu sunt neclaritati.

Page 4: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Sau daca unghiul e de 180°, corelarea este -1 (100% negativa) : cazul de mai devreme

Populatie urbana vs. Populatie rurala

5. Buuun ! Pentru a afla unghiurile dintre variabile, aplicam deci functia inversa arccosinus pt

fiecare valoare de corelatie. Luam fiecare valoare din tabel (doar de-o parte a diagonalei, ca

restul, cealalta jumatate e simetrica) si aflam

unghiurile dintre variabile, doua cate doua, toate

plecand, bineinteles, de la aceeasi origine ,

pana ajungem la ceva asemanator (aici, in

dreapta : un caz simplificat cu 3 variabile)

De ex : arccos 0,45 = 63° (intre 1 si 2)

arccos 0,95 = 18° (intre 1 si 3)

arccos 0,70 = 45° (intre 2 si 3)

N.B. Deci cum spuneam mai devreme: cu cat unghiul dintre variabile e mai mare, cu atat

corelarea e mai mica (unghi de 63° - corelare 45%), cu cat unghiul este mai mic, corelarea

este mai mare (unghi de 18° - corelare 95 %)

6. Aici in dreapta am mai introdus o a patra variabila,

corelata negativ cu primele 3. Cunoastem unghiurile

dintre ele si cosinusii lor (vezi tabel).

Poate nu-i nevoie sa mai spun asta... dar precizez pt

variabila 4 (valorile din tabel)

cos 142° = - 0,788 (intre 1 si 4)

cos 160° = - 0,939 (intre 3 si 4)

cos 155° = - 0,906 (intre 2 si 4

In toate cele 3 cazuri, corelarea este puternic negativa

(aproape de -1). In fine, pe diagonala, fiecare variabila

facand 0° cu ea-insasi ...cos 0° = 1.

7. Dupa ce cunoastem unghiurile dintre toate variabilele, putem trasa prima componenta (o axa).

Fiind prima si cea mai importanta, ea trebuie sa maximizeze suma patratelor lungimilor

proiectiilor ortogonale ale vectorilor pe ea-insasi. « Dar LOOL ! Vorbesc din Star Trek ? »

Raspuns : NU. « Tineti aproape »

Deci, altfel spus (putin mai sumar), prima componenta trebuie sa maximizeze suma patratelor

corelatiilor tuturor variabilelor cu ea-insasi. De ce suma de patrate ? Pentru a calcula partea

din varianta totala (100%) explicata de prima componenta (se mai poate spune in loc de

« componenta » si « factor », e acelasi lucru). Fiind prima, ea explica cea mai mare parte din

varianța variabilelelor. Si cum bine stiti (tot de la Octav, daca nu de la profa de la FEAA din

anul II de la Statistica) formula varianței este « deviatia standard la patrat » sau :

Corelatiile sunt deja diferențe intre valorile individuale si valorile medii ale variabilelor

, ramane doar de ridicat la patrat si facuta suma in linie (voir plus loin).

Page 5: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

(Mai este si un „ ” acolo se imparte la nr de indivizi doar daca vrem sa aflam sub forma

subunitara [0, 1], apoi procentuala, varianta totala explicata de prima componenta)

8. „Vorba lunga, saracia omului”. Trasam prima

componenta (vezi graficul). Pentru a maximiza

corelatiile (si implicit patratele corelatiilor), e

nevoie ca unghiurile dintre fiecare variabila cu

prima componenta sa fie cat mai MICI posibil

(axa sa fie cat mai bine ajustata dupa directia

vectorilor).

N.B. In afara de unghiurile dintre variabile (intre

ele), acum avem o alta serie de unghiuri care ne

intereseaza si anume (cum am spus) unghiurile

dintre fiecare variabila in parte cu primul factor

(vezi prima linie la „angle”).

Directia/ sensul de masurare a unghiurilor se face

de la dreapta la stanga (si „deasupra” axei si

„dedesubtul” ei). De aceea, variabilele corelate negativ fac unghiuri mai mari de 90° cu prima

componenta (de ex : unghiul dintre variabila 4 si prima componenta, nu e 10°, ci 170°)

9. OK, stim unghiurile dintre fiecare variabila cu prima componenta (28°, 35°, 10°, 170°), facem

cosinus de fiecare valoare, pentru a afla (repet) cat se coreleaza fiecare. Apoi, fiecare valoare

de cosinus o ridicam la patrat, pentru a „elimina” eventuale valori negative [practic, asta este si

scopul ridicarii la patrat din formula varianței...stiti cel ]; nu ne intereseaza sa adunam

numere pozitive sau negative, ci doar amplitudinea diferentelor. O sa spuneti: „Dar se putea face

si cu modul din valori negative.. |-0,98| = 0,98”. Da, dar nu e prea „cool”. DE CE ? Hmm...nu

stiu de-astea :)). In orice caz, trebuie respectata formula varianței.

10. In final, dupa ce-am calculat patratul corelatiilor fiecarei variabile cu prima componenta,

aflam varianta totala explicata de primul factor (3,39) prin insumarea rezultatelor de pana acum

(0,78 + 0,67 + 0,97 + 0,97).

N.B. Varianța asta de 3,39 nu e nici ea prea “cool”...la Boamfa era sub forma procentuala. Stati

ca ajungem si acolo ;)

11. Mai intai, exprimam (cum am zis si la sfarsitul punctului 7) varianța sub forma subunitara. O

impartim la suma varianțelor acelorași variabile, dar scrise sub forma standardizata

central-redusa (pentru „stardardizarea variabilelor” vezi curs Groza ppt „Curs 09-10

Transformarea variabilelor cantitative 2003” slide 12, sau in cursul lui in pdf „Elemente de

Statistica Geografica”, pag. 32). Si totusi intrebare: DE CE trebuie standardizate ? Pentru ca

variabilele astea au diferite unitati de masura (de ex: in turism, avem ca unitate de masura nr de

persoane pt variabila „Sosiri turisti”, nr de locuri/ paturi la „Capacitate de cazare”, nr de nopti la

„Innoptari” etc....aici nu e grav, dar in fizica, chimie unde lucrezi cu multipli si submultipli:

decagram (dag), hectometru (hm), miliamper (mA), kilowatt (kW), megaelectronvolt (MeV) – pt

Page 6: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

energia nucleara DA ! trebuie standardizat pentru a scapa de „efectul unitatii de masura” care

poate adauga sau reduce din zerouri (si atunci obtinem alte valori – nashputz rezultat ). Dupa

standardizare, valorile sunt adimensionale !!!

Deci, standardizam valorile fiecarei variabile dupa formula

(citim „diferența intre

fiecare valoare si valoarea medie, impartita la deviația standard”) si calculam varianța valorilor

standardizate pentru „fiecare” variabila in parte , obtinand merdul urmator:

N.B. Am pus in prim-plan, media unei variabile stadardizate , pentru ca ea intra apoi in

calculul varianței.

BUN ! Ce observam ? Varianțele variabilelor standardizate sunt intotdeauna egale cu 1,

indiferent de valorile acesteia =))). Deci, glumeam . Nu mai trebuie standardizate valorile

tuturor variabilelor, pentru ca varianța lor este mereu 1. (Voiam sa verific cat de bine ati invatat

la Groza anu trecut ) (dar cred c-ati observat putin mai inainte c-am pus cuvantul „fiecare” in

ghilimele, nu degeaba) . Stiind acest lucru, concluzionam ca suma varianțelor variabilelor

standardizare este egal cu , numarul de variabile (in cazul asta 4).

N.B. Ati vazut, probabil, in rapoartele de la ACP facute in Philcarto, cea „Inertie totale” (la

punctul 3 din fiecare raport). La asta face referire: fiecare variabila a fost standardizata, toate au

aceeasi „importanta” si anume 1 (chiar daca se incearca o ponderare). Totalul de informatie pe

care-l pot da este nr de variabile n (adica totalul de varianța care-l pot avea toate variabilele la un

loc, in cazul de fața 4).

Inainte de „Inertie totale” (n-am nici cea mai vaga idee cum se zice in romana :D) apare la

punctul 2 „Matrice d’inertie” care este de fapt matricea de corelari intre variabile, sau matricea

varianța-covarianța, daca variabilele nu-s standardizare. Asta din cauza ca covarianța a doua

variabile standardizate este de fapt corelarea dintre ele. Demonstratia:

– doua variabile standardizate

Cele doua deviatii standard („standardizate” si alea la naiba ) ale lui x si y trec la numitor in

formula covariantei (la sfarsit) si devine practic formula corelatiei. (Pana si deviatia standard se

standardizeaza-n puii mei). E CLAR ACUM TRUF ???

Page 7: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

12. Ce-am scris la punctul 11. e ca o paranteza „mai mare”. Reluam ! DECI, o lasam balta cu

„standardizatul in masa”, stim ca suma varianțelor variabilelor standardizate este egal cu nr

de variabile (pt ca 1 x 4 = 4....loool), avem varianța totala explicata de primul factor (3,39), deci

o putem exprima in forma subunitara si anume 3,39 : 4 = 0,8475, iar procentual x 100 = 84,75 %.

ASTA-I CEEA CE-APAREA IN CADRANELE

LU BOAMFA in dreptul la componenta 1: partea

din varianța totala explicata de primul factor. (aici

38,42 %). La Boamfa, se pare ca nu se coreleaza prea

„chouette” indicii intre ei (desi-s toti de geografie

umana), de-asta sunt imprastiati in toate cadranele, iar

prima componenta nu se poate ajusta prea bine (sa

maximizeze mai mult corelatiile) din cauza ca vectorii

„fug in toate partile” (exemplul de mai devreme cu 4

variabilele e unul banal; dincoace la Boamfa avem 15

variabile...cam multe totusi sa le ajustezi pe toate dupa o

axa)

Deci, din cauza ca vectorii „pleaca in toate directiile”

varianța explicata de primul factor este destul de slaba

(cel 38,42 %). Spre comparatie, mai devreme, in cazul

cu 4 variabile, aveam 84,75% din total pentru primul factor.

N.B. M-am cam pripit oleaca ! In dreapta (cadranul lu Boamfa) e spatiul factorial al primelor

doua componente. Inca n-am ajuns acolo. Nu confundati „spatiul vectorial” (cel cu sageti) cu

„spatiul factorial”. „Coordonatele” fiecarei variabile in cele doua spatii is diferite [to be

continued] (Nu va „tracasați”, ajungem si acolo, „Tineti aproape”)

13. Revenim la cazul simplu cu 4 variabile. Am rezolvat cu prima componenta: o stim din cap pana-n

picioare. In continuare, vom trasa a doua componenta perpendiculara pe prima. DE CE

perpendiculara ? Pai, „componenta” sau factor” poate fi echivalat cu o „cauza”...cauza care sa

explice (partial sau total) varianța tuturor

variabilelor. A doua componenta trebuie sa fie

perpendiculara pentru a fi independenta de

prima (mai tineti minte cos 90° = 0 ). Corelarea

dintre cele doua componente trebuie sa fie 0, sa nu

aibe nici o legatura una cu alta. Sau altfel spus, cele

doua „cauze” (sau mai multe) pe care le cautam si

prin intermediul carora incercam sa explicam

varianța variabilelor nu trebuie sa se influenteze una

pe cealalta (pe scurt, sa fie INDEPENDENTE).

Trasam a doua componenta. Aflam o a treia serie de

unghiuri si anume unghiurile pe care le face fiecare

variabila cu al doilea factor (vezi tabelul alaturat)

adica: 62°. 125°, 80°, 280°.

Page 8: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

N.B. De data asta, componenta a doua fiind verticala, sensul de masurare a unghiurilor se face de

sus in jos, de-o parte si de alta a axei (in „dreapta” si-n „stanga” ei)

N.B.(2) Recunosc ca-i bizara valoarea aia de 280° la variabila 4...putea fi foarte simplu 80° pentru

ca cos 80° = tot 0,17 (lool).

14. Din nou, ca-n cazul primului factor, acum aflam corelatiile intre fiecare variabila cu al doilea

factor (facem cosinus de fiecare unghi), apoi fiecare valoare de cosinus o ridicam la patrat. In

final, facem suma in linie a valorilor de , si obtinem 0,61 (adica 0,22 + 0,33 + 0,03 + 0,03).

15. Pentru a doua componenta 0,61 este partea din varianța totala (anume 4) explicata de aceasta (la

fel ca 3,39 pentru prima). Deci, o exprimam subunitar (nu mai standardizam nimic, ca ne-am dat

deja odata demisia ), calculam doar 0,61 : 4 = 0,1525, iar procentual 15,25 %.

(Reluare): ASTA-I CEEA CE APAREA IN CADRANELE LU BOAMFA in dreptul la

componenta 2: partea din varianța totala explicata de al doilea factor (la Boamfa era 15,63

%, in figura de mai sus).

N.B. Ati observat mai inainte in josul figurii precedente (cu extragerea componentei 2) ca

variabilele erau standardizate si COPLANARE(adica se aflau toate in acelasi plan).

Ne-am rezumat doar la reprezentarea vectorilor intr-un singur plan, intr-un spatiu 2D.

De obicei, ACP-ul se face in 3D, dar nu-si are rostul sa ne complicam cu ce se „petrece”

acolo pentru ca intervine ecuatia planului, suprafata de tendinta, ecuatii polinomiale de

gradul n in sisteme de ecuatii derivabile cu n necunoscute si alte SF-uri.

16. OK ! Am extras doua componente care explica toata varianța 100 % (84,75 + 15,25). Am

rezolvat un caz simplu cu 4 variabile, unde nu e nevoie decat de 2 componente pentru a le

explica varianța.

N.B. In cazul unor variabile nu prea bine corelate intre ele si necoplanare (aflate intr-un spatiu

3D), intervine si a treia si a patra si a n componenta necesara de extras pentru a explica restul de

varianța ramas. Numarul maxim de componente care poate fi extras este, bineinteles, egal cu

numarul de variabile (repet, daca acestea nu sunt coplanare). Componentele sunt extrase in

ordinea descrescatoare a importantei (prima e cea mai importanta, am vazut...apoi, a doua, mai

secundara, a treia daca e nevoie...pana la a 15-a in cazul lu Boamfa; dar ultimele componente

sunt chiar derizorii, partea de varianta pe care o explica e cu 0,000 din total, deci... OUT !!!)

17. Un lucru care trebuie retinut: partea de varianța (explicata de fiecare factor) obtinuta din

insumarea valorilor de (3,39 la primul factor si 0,61 la al doilea) se mai numeste valoarea

proprie a factorului. Atunci cand avem mai multe componente (de ex: 15 à la Boamfa), in ACP

sunt retinute doar componentele a caror valoare proprie este mai mare sau egala cu

covarianța unei variabile standardizate (iar ), adica acel 1 de mai devreme. Adica, daca

varianța totala explicata de un factor (obtinuta, repet, prin insumarea valorilor de ) este mai

mica decat 1, atunci la acel factor i se „da cartonas rosu” si e scos afara. Sau mai simplu spus,

daca valoarea proprie a factorului este de la inceput subunitara (asta inainte de a se imparti la n

numarul de variabile), acel factor nu este retinut (e prea neimportant)

(Cred c-am spus-o in toate modurile posibile).

Page 9: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

N.B. In cazul de mai devreme, cu 4 variabile, valoarea proprie a factorului 2 era, intr-adevar, de

la inceput subunitara (0,61), dar a fost retinuta pt ca era...abia a doua componenta, iar cazul era

unul simplu: variabile coplanare. In cazul in care situatia se complica, va fi retinut doar ceea ce

merita atentie. La fel si voi, cand o sa cititi doc asta, o sa stergeti ceea ce vi se pare mai putin

important care nu (prea) are aplicare la Boamfa.

18. Cred c-ati vazut prin rapoartele de la

Philcarto: doua cuvinte „alien” si

anume: „saturari” si „comunitati”.

Saturare nu inseamna altceva decat

„corelare intre un factor si o

variabila”, iar comunitatea este

totalul de varianța explicat de

componentele extrase (si retinute)

pentru o variabila anume, adica

suma in linie a patratelor corelatiilor

unei variabile cu componentele

extrase (vezi tabel)

De ex: pt variabila 2, comunitatea s-a obtinut astfel: (in fine, 0,9973)

N.B. In cazul de fața cu 4 variabile, din cauza ca cele doua componente explia 100 % varianța

variabilelor, comunitatea tuturor este 1.

N.B. (2) In cazul lui Edy, in terciul de variabile erau unele de agricultura =)), unele cu nivelul de

studii si unele de turism. Corelari intre cele ce tin de turism si cele cu nivelul de studii se mai pot

face, dar cu cele de agricultura...nu prea vad cum. DE ACEEA, in cazul in care se amesteca

variabile mult prea diferite intre ele, primele componentele incearca sa explice variabilele care se

coreleaza mai bine intre ele (in cazul asta: cele de turism si nivel de studiu). Comunitatea acestor

variabile va fi cea mai mare sau chiar maxima (= 1) (ma rog, putin probabil), iar comunitatea

celor de agricultura va fi mult mai slaba, pentru ca (repet) componentele care explica bine

turismul si nivelul de studii, nu pot sa explice la fel de bine (in acelasi timp) si agricultura.

19. DAR, la Boamfa (la punctul 12) erau reprezentate variabilele in spatiul factorial al primelor

doua componente. Cum a facut asta ?

Pai, s-au luat ca (virgula) coordonate ale variabilelor, valorile corelarilor pe care aceastea le au

cu cele doua componente (1 si 2).

(Am „reusit” si-o reprezentare in Excel mai jos) O luam „băbește”. Trasam un system de

coordonate : Ox, Oy, valorile minime si maxime pe ambele axe fiind -1 si +1. Mai tineti minte

cercul trigonometric cu cele 4 cadrane . Variabila 1 de ex : avand coordonatele in x 0,88 si in y

0,47…se va situa in cadranul 1, variabila 2 are valoare negativa pe Oy, deci cade in cadranul 4.

Variabila 3, la fel ca prima : pozitiv, pozitiv – cadranul 1. In fine variabila 4, negativ pe Ox,

pozitiv pe Oy – cadranul 2.

20. Ce observam ? Ceva “flagrant” ! Din cauza ca variabilele erau de la inceput coplanare, iar

varianța totala explicata de componentele 1 si 2 era 100 %, spatiul vectorial si cel factorial

coincid (pozitia variabilelor in cele doua spatii e identica)

Page 10: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

21. Dar sa luam acum un exemplu « anti-usor » (mai « à la ULG » ). Avem aici 24 de indivizi

(comune) cu 13 variabile (nu 4)

Matricea de corelari intre variabile e asta (in fine, nu ne intereseaza prea mult)

-1

-0,8

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

-1 -0,5 0 0,5 1

Série1

Page 11: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Ce ne intereseaza sunt corelarile fiecarei variabile cu cei 13 factori (mai multi nu se poate :)) ca-s

doar 13 variabile in total) – cum ziceam mai devreme, nr. maxim de componente care poate fi

extras este egal cu nr. de variabile, in cazul asta 13)

In josul tabelului, pentru a vedea cat de important e un factor in raport cu altul s-a facut (iar)

suma patratelor corelatiilor in coloana = valoarea proprie a factorului (vedem la VarExpl:

7,96 pt factor 1; 1,80 pt al doilea s.a.m.d...ultimele, cum ziceam, sunt „derizorii”).

Transpunem datele de la VarExpl si PrpTot in alt tabel (pe verticala) pentru a vedea mai bine

contributia fiecarui factor la explicarea varianței variabilelor, iar in dreapta acelasi lucru, dar

vazut proportional (factorii, cum ziceam, sunt extrasi in ordinea descrescatoare a importantei)

Page 12: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

N.B. Vezi acum Edy de ce trebuia aleasa reprezentarea

variabilelor in spatiul componentelor 1 si 2 ? si nu

componentele 3 cu 4. De altfel, procentajele care-s la CP3

(10,6%) si CP4 (9,43%) cam...dau de gol „Ehh, da lasa ca

nu stie nimeni ce-i acolo”.

OK, dar care era scopul pentru care-am desfasurat pe aici

atatea tabele ?

Scopul era sa va arat ca atunci cand avem mai multe variabile

necoplanare si muuulte componente extrase (imposibil pt primele doua sa poata explica toata

varianța), spatiul vectorial si spatiul factorial (al primelor doua componente) nu coincid. Exact

ce-am spus la punctul 12, la semnul

DE CE ? Vedem imediat ! „Tineti aproape !”

In tabelul 3 de la punctul asta 21. (tabelul „cu mult rosu”) avem corelarile intre variabile si

fiecare factor (hmm...prima corelare nu se vede, mais c’est pas grave). Luam in considerare

valorile din primele doua coloane (cu prima si a doua componenta), Reprezentam din nou,

variabilele in sistemul de axe Ox, Oy si folosim ca (virgula) coordonate corelarile fiecareia cu

factorul 1 (Ox) si factorul 2 (Oy). Obtinem alt merd:

Luam cateva variabile „la control”:

a) „% Proprio” avea corelare (vezi tabelul) 0,72 cu prima componenta, arccos 0,72 = 44°,

dar variabila „sta” pe componenta, nu face 44° cu ea. Coordonatele care conteaza, deci.

in spatiul factorial sunt (in cazul asta) 0,72 pe Ox si 0,0046 (citim din tabel) pe Oy

Page 13: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

b) alt exemplu, variabila „CoefDepe” corelare - 0,47 cu primul factor...arccos - 0,47 =

118°.....eu zic ca-s cel putin 170° acolo

Concluzie: In spatiul factorial, nu ne intereseaza unghiurile pe care le aveau variabilele cu

componentele in spatiul vectorial, ci doar corelarile pe care acestea le au componentele. Unele

asemanari (de unghiuri) pot exista, dar coordonatele sunt diferite.

22. BUN ! Pana aici, am explicat DOAR O

FIGURA :)) din hartile de la Boamfa. In

legatura cu ACP-ul, mai era si „chestia” asta

(in dreapta).

Aici avem indivizii (unitatile spatiale/

teritoriile, la ce nivel de NUTS au fost

luate..parca NUTS 2) in spatiul celor doua

componente.

Cum transpui indivizii in spatiul factorial ?

Cu ajutorul scorurilor factoriale. Aici e si mai ANTI-USOR ! Trebuie facuta „legatura”

individ-variabila, variabila-componenta (cu ajutorul valorilor pe care le are fiecare individ cu

fiecare variabila si a corelarilor pe care le are fiecare variabila cu fiecare componenta).

Fiecare individ obtine un „scor” (habar n-am daca se zice asa in romana ) pe fiecare

componenta (aici doar 1 si 2). Numim individul „k”, scorul factorial pe care tre sa-l obtina „f” si

factorul/componenta „j” si avem formula:

Deci, scorul factorial este o suma de produsi intre:

a) coeficienti de scoruri factoriale obtinuti prin impartirea corelarilor

dintre factorul „f” si variabilele (aici) „1”, ”i”,...”p” la valoarea proprie a factorului

b) valorile standardizate (iar !) ale individului „k” pe variabilele

(aici) „1”, ”i”,...”p”

Deci, vedem ca variabilele sunt mereu „prinse la mijloc” intre indivizi si componente.

23. Se face necesara „traducerea” acestei formule. Sa luam un caz concret: cel de mai devreme cu 13

variabile.

Din tabelul initial de la punctul 21, luam de ex : primul individ, comuna ANS, pentru care vrem

sa-i calculam scorul factorial pe Ox si Oy si sa-l pozitionam in spatiul celor doua componente.

In Statistica, am obtinut automat (printr-un click) scorurile factoriale ale tuturor indivizilor, pe

toate componentele. Pe noi ne intereseaza doar comuna ANS cu primii doi factori (valorile

evidentiate cu rosu).

Page 14: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Dar cum s-au obtinut valorile alea concret ? [to be continued] « Tineti aproape »

Le vom calcula “manual” in Excel.

Revin la tabelul initial de la punctul 21 si fac Copier-Coller (ca Ponta) intr-o foaie de calcul

Excel.

Avem nevoie mai intai de valorile standardizate ale fiecarei variabile pentru individului ANS,

adica termenii din formula scorurilor factoriale (vezi fig, dati zoom). Pentru

asta, luam fiecare variabila (fiecare coloana) si ii calculam media si deviatia standard (vezi in

josul tabelului). Apoi pentru standardizare, aplicam (iarasi ? nu, iar din nou) renumita si sublima

formula

De ex: pentru variabila „Densité”,

= 0,35

Page 15: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

Dupa ce-am calculat valorile standardizate ale variabilelor pentru comuna ANS, revenim la

tabelul cu (virgula) corelarile intre aceste variabile si primii doi factori. Avem acum nevoie de

acei „coeficienti de scoruri factoriale” (termenii din formula).

a) Pentru primul factor: facem raportul

De ex: pentru variabila „Densité”, coeficientul de scor factorial e –

= - 0,097

b) Pentru al doilea factor: acelasi lucru, doar ca vom lua in calcul valorile de corelatie ale fiecarei

variabile cu al doilea factor

De ex: pt aceeasi variabila „Densité”, coef. de scor factorial pe componenta 2, e –

= - 0,096

Dupa ce-am calculat coeficientii de scoruri factoriale, langa rezultate, alaturam coloana cu

valorile standardizate (calculate anterior) ale variabilelor pentru comuna ANS.

Inmultim coeficientii cu valorile standardizate (coloana 3), apoi facem suma in coloana (acea

„suma de produsi”).

Pentru factorul 1, „scorul” e - 0,32; iar pt factorul 2 - 0,808, aceleasi valori pe care le-am obtinut

si in Statistica „automat”.

Si toata asta DOAR PENTRU O COMUNA, mai raman inca 23 =)). Iti vine sa....

24. Cam asta deci, cu cele DOUA figuri/ grafice din hartile de la Boamfa (legate de ACP).

Celelalte doua ramase sunt facute cu CHA-ul, care-i alta poveste. [to be continued]

Page 16: ACP – Behind the Scenes

ACP-ul Lucrului Bine Facut

25. App, PRECIZARE !!! Tot ce-am explicat aici e in legatura cu „partea” din ACP pe care-a

folosit-o Boamfa. E doar prima „etapa”. Componentele pe care le-am extras au ramas

„nemiscate”. Pentru a le putea interpreta e nevoie de acea „rotire a componentelor principale”

(dupa ce-au fost eliminate cele „neimportante”).

Prin rotire, se modifica toate unghiurile initiale dintre componente si variabile. Asta inseamna ca

vom avea ALTE corelatii, ALTE comunitati, ALTE scoruri factoriale si implicit alta proportie

de varianta explicata de fiecare factor in parte. Cu alte cuvinte, ALTA distractie.

N.B. Daca se modifica varianța explicata de fiecare componenta, se va modifica si importanta si

ordinea lor. Unele cu procentaj mai mic pot sa creasca semnificativ, pentru ca explica mai bine

anumite aspecte, altele pot sa scada. Dar in fine, Boamfa nu a ajuns pana aici.

26. Nu uitati: „Intotdeauna se poate mai mult !”

27. ...daca inca mai cititi, inseamna ca n-ati inchis doc

Ce-i drept, calculul scorurilor factoriale e al ACP.

Acum :D

Sper ca nu aratati asa =))