Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di...

29
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media

Transcript of Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di...

Page 1: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Metodi Quantitativi per Economia, Finanza e Management

Lezione n°4Analisi bivariata.

Analisi di connessione, correlazione e di dipendenza in media

Page 2: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

VariabiliSi usa il termine variabile (oppure carattere) per indicare ogni caratteristica che viene rilevata su ciascuna unità statistica:• Variabili qualitative– Ordinali: variabili qualitative che, come il titolo di studio, hanno modalità ordinabili, cioè possono essere ordinate in senso crescente, dal più basso al più alto. Esempi: la valutazione della critica su un film, la categoria di un albergo

etc. – Nominali: variabili qualitative che, come il sesso e la regione di residenza, non hanno modalità ordinabili, si dicono anche variabili qualitative sconnesse.

• Variabili quantitative– Discrete: i valori con cui si può manifestare la variabile costituiscono un insieme finito di numeri reali – ossia un insieme discreto. Esempi: numero componenti nucleo familiare, numero stanze abitazione.

– Continue : L’altezza o il peso di una persona sono grandezze misurabili quindi variabili continue. Occorre pensare al loro comportamento potenziale, possono assumere ogni valore in un intervallo, cioè in un insieme continuo di numeri reali (ad esempio 1 metro 78 centimetri 2 millimetri ….).

Page 3: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Statistica descrittiva bivariata

Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate:

• var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata)

• var. quantitative: analisi di correlazione lineare

• una var. qualitativa e una quantitativa: confronto tra le medie

Page 4: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Tavole di contingenzaSono tabelle a doppia entrata; i valori riportati all’interno della tabella sono le

frequenze congiunte assolute, e la loro somma è pari al totale dei casi osservati.

Dalla tabella si possono ricavare inoltre le distribuzioni marginali, sommando per riga e per colonna le frequenze congiunte; le frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e il totale dei casi osservati.

Sesso * Età Crosstabulation

25 22 22 17 86

29.1% 25.6% 25.6% 19.8% 100.0%

32.1% 40.0% 53.7% 36.2% 38.9%

11.3% 10.0% 10.0% 7.7% 38.9%

53 33 19 30 135

39.3% 24.4% 14.1% 22.2% 100.0%

67.9% 60.0% 46.3% 63.8% 61.1%

24.0% 14.9% 8.6% 13.6% 61.1%

78 55 41 47 221

35.3% 24.9% 18.6% 21.3% 100.0%

100.0% 100.0% 100.0% 100.0% 100.0%

35.3% 24.9% 18.6% 21.3% 100.0%

Count

% within Sesso

% within Età

% of Total

Count

% within Sesso

% within Età

% of Total

Count

% within Sesso

% within Età

% of Total

M

F

Sesso

Total

18-25 26-35 36-50 Over 50

Età

Total

Page 5: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Dalle tabelle di contingenza si possono ricavare ulteriori distribuzioni unidimensionali :– Frequenze subordinate ovvero la frequenza di osservare il carattere x

dato il carattere y e viceversa. Formalmente:

P y|x (xi,yj) = P (xi,yj) / P x(xi)

P x|y (xi,yj) = P (xi,yj) / P y(yj)

Indipendenza statistica se al variare di X le distribuzioni subordinate (Y|X)= xi sono tutte uguali tra loro,si può concludere che la distribuzione del carattere Y non dipende da X. Nel caso di indipendenza statistica, la frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti

P(xi,yj)=Px (xi)Py(yj)

L’indipendenza stat. è un concetto simmetrico: se vale per X, vale anche per Y. Se si verifica, vuol dire che l’analisi bivariata di X (Y) non dà informazioni aggiuntive rispetto all’analisi univariata.

Tavole di contingenza

Page 6: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

– Perfetta dipendenza unilaterale ad ogni valore di X corrisponde un solo valore di Y, ma non è detto che si verifichi il contrario. In generale, quando il numero di colonne (valori assunti dalla Y) è inferiore al numero di righe (valori assunti dalla X) non è mai possibile che X dipenda perfettamente da Y.

– Perfetta dipendenza bilaterale ad ogni valore di X corrisponde un solo valore di Y e viceversa; la perfetta dipendenza bilaterale si può avere allora solo per matrici quadrate.

Tavole di contingenza

Page 7: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Indici di connessioneNella realtà è difficile che si verifichi la condizione di indipendenza

statistica. Pertanto è utile disporre di indici che misurino il grado di connessione tra le variabili.

– χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono indipendenti. Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere.

χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj)

Chi-Square Tests

5.471a 3 .140

5.402 3 .145

221

Pearson Chi-Square

Likelihood Ratio

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)

0 cells (.0%) have expected count less than 5. Theminimum expected count is 15.95.

a.

Page 8: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

– Un indice più efficace (perchè relativo, e dunque non risente del numero di osservazioni) è l’indice di Cramer V, basato sul χ². assume valori compresi tra 0 e 1: 0 nel caso di indipendenza statistica, 1 nel caso di perfetta dipendenza almeno unilaterale e tende a crescere all’aumentare del grado di dipendenza delle variabili considerate.

Symmetric Measures

.157 .140

.157 .140

221

Phi

Cramer's V

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the nullhypothesis.

b.

Indici di connessione

Page 9: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Indici di connessioneNella realtà è difficile che si verifichi la condizione di indipendenza

statistica. Pertanto è utile disporre di indici che misurino il grado di connessione tra le variabili.

– χ² (chi-quadrato) assume valore nullo se i fenomeni X e Y sono indipendenti. Risente del numero delle osservazioni effettuate quindi al crescere di N, l’indice tende a crescere.

χ²=N Σ Σ [P(xi,yj)-Px(xi) y(yj)] ²/ Px(xi) Py(yj)

Chi-Square Tests

5.471a 3 .140

5.402 3 .145

221

Pearson Chi-Square

Likelihood Ratio

N of Valid Cases

Value dfAsymp. Sig.

(2-sided)

0 cells (.0%) have expected count less than 5. Theminimum expected count is 15.95.

a.

Page 10: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

– Un indice più efficace (perchè relativo, e dunque non risente del numero di osservazioni) è l’indice di Cramer V, basato sul χ². assume valori compresi tra 0 e 1: 0 nel caso di indipendenza statistica, 1 nel caso di perfetta dipendenza almeno unilaterale e tende a crescere all’aumentare del grado di dipendenza delle variabili considerate.

Symmetric Measures

.157 .140

.157 .140

221

Phi

Cramer's V

Nominal byNominal

N of Valid Cases

Value Approx. Sig.

Not assuming the null hypothesis.a.

Using the asymptotic standard error assuming the nullhypothesis.

b.

Indici di connessione

Page 11: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Tavole di contingenzaChe relazione c’è tra la professione e il fatto di avere una polizza vita?

Statistic DF Value ProbChi-Square 3 10732.85 <.0001

Likelihood Ratio Chi-Square 3 8872.81 <.0001Mantel-Haenszel Chi-Square 1 3371.31 <.0001

Phi Coefficient 0.37Contingency Coefficient 0.35

Cramer's V 0.37

FrequencyPercentRow Pct N Y TotalCol Pct 15001 1609 16610

19.51 2.09 21.6190.31 9.6922.39 16.3215115 1332 1644719.66 1.73 21.3991.9 8.122.56 13.5127767 1297 2906436.12 1.69 37.8195.54 4.4641.44 13.159130 5624 1475411.88 7.32 19.1961.88 38.1213.62 57.0367013 9862 7687587.17 12.83 100

LIBERO PROFESSIONISTA

Total

Table of Professione by Polizza VitaProfessione Polizza Vita

COMMERCIANTE

DIPENDENTE

OPERAIO

Page 12: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Statistica descrittiva bivariata

Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate:

• var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata)

• var. quantitative: analisi di correlazione lineare

• una var. qualitativa e una quantitativa: confronto tra le medie

Page 13: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Correlazione lineare

Le misure di connessione possono essere applicate a variabili qualitative. Se si vuole misurare il grado di concordanza tra due variabili quantitative occorre utilizzare altri indici:

– Covarianza Cov(X,Y) è un indice che assume valori positivi se vi è concordanza tra X e Y (a modalità elevate dell’una, corrispondono modalità elevate dell’altra); assume valori negativi nel caso di discordanza (a modalità elevate dell’una non corrispondono modalità elevate dell’altra). Nel caso di indipendenza statistica, la covarianza assumerà valore nullo. È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può dire sul grado del loro legame.

Cov(X,Y)= Σ Σ (xi-μx) (yj- μy) p(xi,yj)

Page 14: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

• Covarianza tra due variabili:

Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione

Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte

Cov(x,y) = 0 x e y no relazione lineare

– Riguarda solo la forza della relazione, ma non implica un effetto causale

Correlazione lineare

Page 15: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

– Coefficiente di correlazione lineare ρ(X,Y) è un indice relativo che ovvia al problema del precedente indice. Assume valori compresi tra -1 e 1. In particolare vale 1 se e solo se Y è funzione lineare di X (e viceversa) e in questo caso i punti corrispondenti alle osservazioni sono disposti su una retta con inclinazione positiva. Analogamente l’indice assume valore -1 nel caso in cui i punti siano disposti su una retta con inclinazione negativa. Assume valore nullo se tra le variabili non è presente alcun tipo di relazione lineare (indipendenti in correlazione).

Correlazione lineare

Page 16: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

• Coefficiente di correlazione lineare ρ(X,Y) :

• ρ = 0 non c’è relazione lineare tra X e Y• ρ > 0 relazione lineare positiva tra X e Y

» quando X assume valori alti (bassi) allora anche Y probabilmente assume valori alti (bassi)

» ρ = +1 => dipendenza lineare perfetta positiva• ρ < 0 relazione lineare negativa tra X e Y

» quando X assume valori alti (bassi) allora Y probabilmente assume valori bassi (alti)

» ρ = -1 => dipendenza lineare perfetta negativa

YXσσ

Y)Cov(X,Y)Corr(X,ρ

Correlazione lineare

Page 17: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

• Senza unità di misura

• Campo di variazione fra –1 e 1

• Quanto più è vicino a –1, tanto più è forte la relazione lineare

negativa

• Quanto più è vicino a 1, tanto più è forte la relazione lineare

positiva

• Quanto più è vicino a 0, tanto più è debole la relazione

lineare

Correlazione lineare

Page 18: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Y

X

Y

X

Y

X

Y

X

Y

X

r = -1 r = -0.6 r = 0

r = +0.3r = +1

Y

Xr = 0

Correlazione lineare

Page 19: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Correlations

1 .629** .299** .232**

.000 .000 .001

220 220 218 220

.629** 1 .468** .090

.000 .000 .181

220 220 218 220

.299** .468** 1 .030

.000 .000 .657

218 218 219 219

.232** .090 .030 1

.001 .181 .657

220 220 219 221

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Pearson Correlation

Sig. (2-tailed)

N

Qualità degli ingredienti

Genuinità

Leggerezza

Sapore/gusto

Qualità degliingredienti Genuinità Leggerezza Sapore/gusto

Correlation is significant at the 0.01 level (2-tailed).**.

Correlazione lineare

Page 20: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Correlazione lineare

C’è una relazione lineare tra la lunghezza e la profondità dei laghi? Il coeff. di correlazione lineare tende a zero, le due variabili sono linearmente indipendenti

Length Depth1 -0.03007

0.595-0.03007 1

0.595

Pearson Correlation Coefficients, N = 315Prob > |r| under H0:

Rho=0

Length

Depth

Page 21: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Statistica descrittiva bivariata

Indaga la relazione tra due variabili misurate. Si distingue rispetto alla tipologia delle variabili indagate:

• var. qualitative/quantitative discrete: tavole di contingenza (o a doppia entrata)

• var. quantitative: analisi di correlazione lineare

• una var. qualitativa e una quantitativa: confronto tra le medie

Page 22: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Confronto tra le medie

Per misurazione della connessione tra una variabile quantitativa Y e una qualitativa X, è possibile confrontare le distribuzioni condizionate di Y tramite le medie condizionate.

Page 23: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Confronto tra le medie

Se si vuole incrociare una variabile quantitativa con una variabile qualitativa, la loro relazione può essere descritta confrontando le medie della variabile numerica all’interno delle categorie definite dalla variabile misurata a livello nominale/ordinale.

Rapidità

Tipo cliente

Media N

Persone fisiche 7.8403 357

Aziende 8.5132 76

Totale 7.9584 433

Page 24: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Un indice sintetico dell’intensità della relazione si basa sulla scomposizione della varianza per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile categorica X. La variabilità totale di Y è

SQTy=SQtra + SQnei

dove

• SQTy (somma dei quadrati tot) è la variabilità totale,

• SQtra variabilità tra i gruppi (somma dei quadr. tra i gruppi) esprime quanta variabilità di Y può essere legata al variare delle categorie di X,

• SQnei variabilità interna ai gruppi (somma dei quadr. nei gruppi) esprime la variabilità nell’andamento di Y indipendente da X.

Confronto tra le medie

Page 25: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Confronto tra le medie

E’ quindi possibile definire un indice relativo per misurare la dipendenza in media, come

η2= SQtra /SQTy=1-(SQnei /SQTy)

Per l’interpretazione del valore assunto da η2 si consideri che:

• η2= 0 indipendenza in media⇒• η2> 0 dipendenza in media ⇒• η2= 1 massima dipendenza in media⇒

η2 è sempre compreso tra 0 e 1.

Page 26: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Report

Produzione artigianale

5.01 78 2.224

5.53 55 2.609

6.00 41 2.098

6.09 47 2.320

5.55 221 2.352

Età18-25

26-35

36-50

Over 50

Total

Mean N Std. Deviation

Confronto tra le medie

Measures of Association

.191 .036Produzioneartigianale * Età

Eta Eta Squared

In caso di indipendenza in media le medie dei diversi gruppi (medie condizionate ai diversi livelli della variabile qualitativa) saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di massima dipendenza in media e si avrà variabilità interna ai gruppi nulla. Per misurare l’intensità della dipendenza in media si può utilizzare l’indice η2.

Modesta dipendenza in media della produzione

artigianale dall’età

Page 27: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Confronto tra le medie

La pubblicità ha influenzato le vendite di snacks? Esiste una relazione di dipendenza in media tra le due variabili

Level ofAdvertised Mean Std Dev

0 34793 5.0 7.51 977 9.9 9.4

N QtySold

R-Square Coeff Var

Root MSE QtySold Mean

0.011154 145.12 7.515171 5.17858

Source DF Sum of Squares

Mean Square

F Value Pr > F

Model 1 22786.74 22786.74 403.46 <.0001Error 35768 2020097.83 56.478

Corrected Total

35769 2042884.57

Devianza Varianza

TraNei (Entro)

eta quadro

Page 28: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Summary

Tipologia variabili Tipo di analisi Indici di connessione

2 variabili qualitative e/o quantitative discrete

DIPENDENZA STATISTICA

- TABELLA DI CONTINGENZA- CHI QUADRO- V DI CRAMER

2 variabili quantitative continue

DIPENDENZA LINEARE

- COVARIANZA - INDICE DI CORRELAZIONE DI PEARSON

1 variabile quantitativa continua e 1 variabile qualitativa

DIPENDENZA IN MEDIA

- η2 (ETA QUADRO)

Page 29: Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.

Esempio

Siano X e Y due variabili di cui si vuole indagare la relazione bivariata.

Quali indici utilizzare nei seguenti casi?

•X= peso in kg e Y= altezza in cm

•X= sesso e Y= altezza in cm

•X= sesso e Y= fumatore (SI/NO)