Metodi Quantitativi per Economia, Finanza e Management Lezione n°3

Metodi Quantitativi per Economia, Finanza e Management

Lezione n°3

The implementation of a market research can be summed up in the following stages:

• business goals• target population• fieldwork• questionnaire set-up• sampling • basic treatment of collected data• data analysis• presentation of the results

Quantitative Market Research Set-up Protocol

Business Aim

Targeted population

Choice ofsample

Fieldwork

Data Audit

Data Analysis

Presentation

Characters to be assesed

Sampling error

Techniques of datacollection

Set-up questionnarie

Pre-testquestionnarie

N_ IDD_ 1 D_ 2_ 1D_ 2_ 2D_ 2_ 3D_ 2_ 4D_ 2_ 5D_ 2_ 6D_ 2_ 7D_ 2_ 8D_ 2_ 9D_ 3 D_ 4_ 1D_ 4_ 2H1 1 5 9 1 4 4 1 2 2 1 2 9 9H2 1 6 9 8 7 3 3 6 2 1 2 7 8H3 1 6 8 5 3 3 1 7 4 1 2 9 9H4 1 7 6 3 8 7 2 2 4 1 4 9 9H5 1 9 8 7 8 6 2 6 7 6 1 8 9H6 1 9 9 7 2 2 2 6 8 6 1 9 7H7 1 7 7 4 8 7 6 9 8 6 7 9 8H8 1 5 3 6 1 5 1 4 5 1 2 7 9H9 1 8 7 5 5 5 7 8 4 5 7 9 8H10 1 8 5 2 2 8 8 6 5 1 1 8 6H11 1 8 9 5 7 6 2 1 3 4 2 4 7H12 1 6 5 4 9 7 2 8 3 1 4 6 9H13 1 3 4 1 4 1 1 1 1 1 4 5 8H14 1 5 8 1 9 3 1 2 1 1 4 9 9H15 1 6 5 8 9 4 1 5 2 1 4 9 9H16 1 6 7 4 3 3 3 4 6 1 2 6 8H17 1 7 4 6 9 8 2 5 3 1 4 8 7H18 1 9 5 4 8 6 1 7 3 2 4 9 7H19 1 9 9 1 9 1 1 1 1 1 1 8 9


Target population Target population definitiondefinition

• We plan to target Milanese inhabitants (Italian and foreign) from 18 to 60 years old

• We chose to focus on the geographical area rather than on the origin as the French concept is internationally appealing

• We personally foresee that our real target population will be the people between 25 and 55 years old but in order not to bias our study, we prefer to extend this scale from 18 to 60 years old

• We assume that aspirations and financial means evolve along life cycle, therefore our study is based on four different categories pertaining to four life stages:

18-25 26-35 36-45 46-60

M F Total

18- 25 44 390 41 036 85 426

26- 35 83 446 81 204 164 650

36- 45 117 411 115 740 233 151

46- 60 127 402 136 367 263 769

Total 372 649 374 347 746 996

Source: demo.istat.it/The overall Milanese targeted population

4

Choice of sampleChoice of sample• Only 100 questionnaires because we are foreign

students and we are aware that our network is not as large as that of Italian students

• If the output of our project reveals a significant business opportunity, we recommend to carry out a new and wider-ranging market research in order to gain more accuracy and statistical relevance

5

M F Total

18- 25 6 6 12

26- 35 11 11 22

36- 45 16 15 31

46- 60 17 18 35

Total 50 50 100

Our sample design according to the overall Milanese population described on slide 6

Sampling

The major aspects that affect the choice of the sample size are the following:

• Cost of fieldwork

• Time of fieldwork

• Degree of accuracy of the estimates:– Variability of the character investigated in the targeted

population– Sampling error– Sampling Design– Choice of the estimator

Sampling - Sample size

Practical tips:

• Sample picked by a Customer Database with regard to customer profiling analysis: 50.000-200.000 sample units (consumer)

• Sample picked with regard to ad hoc surveys: 1.000-3.000 sample units (consumer)

• Sample picked with regard to repeated surveys (Panel): 4.000-9.000 sample units (consumer)

Sampling - Sample size

Business Aim

Targeted population

Choice ofsample

Fieldwork

Data Audit

Data Analysis

Presentation

Characters to be assesed

Sampling error

Techniques of datacollection

Set-up questionnarie

Pre-testquestionnarie


Our choice was consistent with the following criteria:-The proportion between the maximum number of variables and the chosen factors is in the acceptable range (4/13 < 30%)-The Eingenvalues are all bigger than 1-The Cumulative Variance Explained is over 60%-Communalities homogeneous values

As the Scree Plot confirms, only after 4 components the slope of the curve sensibly decreases.

4 Factors

40

The 5 Clusters• Cool Hunters (28%): More than all, they are users absolutely interested on

Broadening. • PR’s (7%): Interested above all in Public Relations and express some

attachment to Spying, but not related at all with Keeping Up. • Detached (20%): Apart from some light interest on Broadening, they do not

express any involvement with the Facebook use (in particular with PublicRelations).

• Functional (18%): Above all, interested in Keeping up with their network of friends and use Public Relations inside this network. Besides, they do not care at all about Spying and Broadening.

• Gossipers (27%): They are also interested in Keeping up, but above all in Spyingtheir network. Furthermore, they are not interested in Public Relations and Broadening.

Each single Cluster was then crossed with socio-demographic and usage variables, through the contingency table tool, in order to better understand their main characteristics. The following slides sum-up the most relevant results of these crossings for each single cluster. 68

• Qualitative– Nominal it’s used for qualitative data which are classified

in defined categories with no a specific order.– Ordinal the categories have got a specific order; it does

not enable to define any numeric assessment.

• Quantitative– Ratio scale through this type of data it is possible to

determine the different ratio between one category and an other; the value “0” of the scale is set.

– Interval scale has the same characteristics as the previous scale, even though it has not got a fixed value “0”.

Type of data

Type of data guides the analyses

Most of the quantitative methods deal with quantitative data

Tipologie di dati

• Qualitativi dati espressi in forma verbale, solitamente classificati in categorie

• Quantitativi dati espressi in forma numerica. si distinguono in:– discreti dati caratterizzati da una quantità finita o infinita

numerabile di classi di misura– continui risposta numerica derivamte da un processo di

misurazione che fornisce indicazioni puntuali all’interno di un continuum

• Territoriali

• Date

• Nominale usato per dati qualitativi, che vengono così classificati in categorie distinte senza alcun ordine implicito (es. professione del cliente)

• Ordinale le categorie presentano un ordine implicito; consente di stabilire una relazione d’ordine tra le diverse categorie, ma nessuna asserzione numerica, ovvero si può dire che un determinato valore è più grande di un altro, ma non di quanto

Tipologie di datiqualitativi

Where do you come from?a. North Italyb. Center Italyc. South Italyd. Outside Italy

Education level (Currently Attending)a. High Schoolb. Undergraduatec. Graduate

• Scala di rapporti con questa tipologia si può dire di quanto una categoria è maggiore di un’altra; è fissato un valore “0” della scala.

es. Le variabili spesa media e tempo impiegato sono misurate a livello di rapporto,ovvero rientrano in una scala di valutazione comparativa

Tipologie di datiquantitativi

How long have you been a Facebook user for (Months):

Approximately, how many friends do you have on Facebook:

How many of these friends do you contact regularly:

On average, how many times a week do you check Facebook:

How much time do you spend on each visit (in minutes):

• Scala di intervalli presenta le stesse caratteristiche della precedente, ma non possiede un valore “0” fissato.

es. In una indagine sui clienti di un supermercato, il loro livello di soddisfazione può essere adeguatamente rappresentato mediante una scala di valutazione compresa tra 1 e 9, ciò che posso asserire è che la differenza tra 2 e 3 è la medesima di quella tra 8 e 9, ma non che 8 sia il doppio di 4.

Tipologie di datiquantitativi

Where do you connect on Facebook more frequently? 1 2 3 4 5 6 7 8 9

a. Home,b. Work/ Universityc. Other places (internet point, friends' houses ..)

Medium HighLow

La tipologia di dati guida l’analisis

L’analisi statistica dei dati

Statistica descrittiva insieme dei metodi che riguardano la rappresentazione e sintesi di un insieme di dati al fine di evidenziarne le caratteristiche principali

Statistica inferenziale insieme dei metodi che permettono la stima di una caratteristica di una popolazione basandosi sull’analisi di un campione

Totalità degli elementi presi in esame dallaindagine

La parte di popolazioneselezionata per l’analisi

Misura riassuntiva,calcolata sui dati campionari,utile per descrivere unacaratteristica non nota della popolazione

Univariate descriptive statistics

In the univariate descriptive statistics we analyze one variable at a time.

• Frequency distribution• Synthesis measures

– Measures of location– Measures of spread– Measures of shape

N_ ID D_8_2H1 0.1H2 0H3 0H4 0.2H5 0.05H6 0.2H7 0.1H8 0.1H9 0.2H10 0.05H11 0H12 0H13 0H14 0.15H15 0H16 0.1H17 0H18 0.2H19 0H20 0.05H21 0.2H22 0.2

……H234 0.2H235 0.1H236 0.1

• Data Audit– Input errors– Missing values– Outliers

• Basic insights

Le distribuzioni di frequenza

• Frequenza assoluta: è un primo livello di sintesi dei dati- consiste nell’associare a ciascuna categoria, o modalità, il numero di volte in cui compare nei dati

• Distribuzione di frequenza: insieme delle modalità e delle loro frequenze

• Frequenza relativa: rapporto tra la frequenza assoluta ed il numero complessivo delle osservazioni effettuate.

I due tipi di frequenze vengono usati con dati quantitativi, qualitativi ordinali, quantitativi discreti.

pi= ni/ N

• Rappresentazione grafica var.qualitative:

Diagr. a barre: nell’asse delle ascisse ci sono le categorie, senza un ordine preciso; in quello delle ordinate le frequenze assolute/relative corrispondenti alle diverse modalità

Diagr. a torta: la circonferenza è divisa proporzionalmente alle frequenze

0

50

100

150

200

250

casalinga dirigente studente

Diagramma a barre-professione intervistato Diagramma a torta


• Rappresentazione grafica var.quantitative discrete:

Diagr. delle frequenze: nell’asse delle ascisse ci sono i valori assunti dalla var. discreta (quindi ha un significato quantitativo); l’altezza delle barre è proporzionale alle frequenze relative o assolute del valore stesso

Istogramma:nell’asse delle ascisse ci sono le classi degli intervalli considerati; l’asse delle ordinate rappresenta la densità di frequenza; l’area del rettangolo corrisponde alla frequenza della classe stessa.

Diagramma delle frequenze

220170

30

10057

30

0

100

200

300

0

0,02

0,04

0,06

istogramma


Misure di sintesi

Misure di tendenza centrale:• Media aritmetica• Mediana• Moda Misure di tendenza non centrale:• Quantili• PercentiliMisure di dispersione:• Campo di variazione• Differenza interquantile• Varianza• Scarto quadratico medio• Coefficiente di variazioneMisure di forma della distribuzione:• Skewness• Kurtosis

Misure di Tendenza Centrale

Tendenza Centrale

Media Mediana Moda

n

xx

n

1ii

Valore centrale delle osservazioni ordinate

Valore più frequente

Media Aritmetica

Media Aritmetica

• La misura di tendenza centrale più comune

• Media = somma dei valori diviso il numero di valori

• Influenzata da valori estremi (outlier)

0 1 2 3 4 5 6 7 8 9 10

Media = 3

0 1 2 3 4 5 6 7 8 9 10

Media = 4

35

15

5

54321

4

5

20

5

104321

Mediana

• In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto)

• Non influenzata da valori estremi

0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

0 1 2 3 4 5 6 7 8 9 10

Mediana = 3

Moda

• Valore che occorre più frequentemente

• Non influenzata da valori estremi

• Usata sia per dati numerici che categorici

• Può non esserci una moda

• Ci può essere più di una moda

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Moda = 9

0 1 2 3 4 5 6

No Moda

• I Quartili dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori

25% 25% 25% 25%

• Il primo quartile, Q1, è il valore per il quale 25% delle osservazioni sono minori e 75% sono maggiori di esso

• Q2 coincide con la mediana (50% sono minori, 50% sono maggiori)

• Solo 25% delle osservazioni sono maggiori del terzo quartile

Q1 Q2 Q3

Misure di Tendenza Non Centrale

Box Plot

Mediana(Q2)

XmassimoX

minimo Q1 Q3

25% 25% 25% 25%

12 30 45 57 70

Differenza Interquartile 57 – 30 = 27

OUTLIERS: Q1 - 1,5 * Differenza interquartileQ3 + 1,5 * Differenza interquartile

Stesso centro,

diversa variabilità

Misure di Variabilità

Variabilità

Varianza Scarto Quadratico

Medio

Coefficiente di Variazione

Campo di Variazione

Differenza Interquartile

• Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori.

Campo di Variazione

• La più semplice misura di variabilità

• Differenza tra il massimo e il minimo dei valori osservati:

Campo di variazione = Xmassimo – Xminimo

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Campo di Variazione = 14 - 1 = 13

Esempio:

• Ignora il modo in cui i dati sono distribuiti

• Sensibile agli outlier

7 8 9 10 11 12

Campo di Var. = 12 - 7 = 5

7 8 9 10 11 12

Campo di Var. = 12 - 7 = 5

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120

Campo di Var. = 5 - 1 = 4

Campo di Var = 120 - 1 = 119

Campo di Variazione

Differenza Interquartile

• Possiamo eliminare il problema degli outlier usando la differenza interquartile

• Elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati

• Differenza Interquartile = 3o quartile – 1o quartile

IQR = Q3 – Q1

• Media dei quadrati delle differenze fra ciascuna osservazione e la media

– Varianza della Popolazione:

Varianza

N

μ)(xσ

N

1i

2i

2

dove = media della popolazione

N = dimensione della popolazione

xi = iimo valore della variabile X

μ

Scarto Quadratico Medio

• Misura di variabilità comunemente usata

• Mostra la variabilità rispetto alla media

• Ha la stessa unità di misura dei dati originali

– Scarto Quadratico Medio della Popolazione:

N

μ)(xσ

N

1i

2i

Scarto quadratico medio piccolo

Scarto quadratico medio grande


Media = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

Dati B

Dati A

Media = 15.5 s = 0.926

11 12 13 14 15 16 17 18 19 20 21

Media = 15.5 s = 4.570

Dati C


• Viene calcolato usando tutti i valori nel set di dati

• Valori lontani dalla media hanno più peso (poichè si usa il quadrato delle deviazioni dalla media)

• Le stesse considerazioni valgono anche per il calcolo della Varianza



• Misura la variabilità relativa

• Sempre in percentuale (%)

• Mostra la variabilità relativa rispetto alla media

• Può essere usato per confrontare due o più set di dati

misurati con unità di misura diversa

100%|x|

sCV

• Azione A:

– Prezzo medio scorso anno = $50

– Scarto Quadratico Medio = $5

• Azione B:

– Prezzo medio scorso anno = $100

– Scarto Quadratico Medio = $5

Entrambe le azioni hanno lo stesso scarto quadratico medio, ma

l’azione B è meno variabile rispetto al suo prezzo

10%100%$50

$5100%

|x|

sCVA

5%100%$100

$5100%

|x|

sCVB


Forma della Distribuzione

• La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate, o distribuite in modo approssimativamente regolare attorno al centro.

Distribuzione Simmetrica

0123456789

10

1 2 3 4 5 6 7 8 9F

req

uen

za0

20

40

60

80

100

120

• La forma della distribuzione è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro.

Distribuzione con Asimmetria Positiva

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Fre

qu

en

za

Distribuzione con Asimmetria Negativa

0

2

4

6

8

10

12

1 2 3 4 5 6 7 8 9

Fre

qu

en

za

Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che si estende a destra, nella direzione dei valori positivi.

Una distribuzione con asimmetria negativa (obliqua a sinistra) ha una coda che si estende a sinistra, nella direzione dei valori negativi.

Forma della Distribuzione

• Descrive come i dati sono distribuiti

• Misure della forma

– Simmetrica o asimmetrica

Media = Mediana Media < Mediana Mediana < Media

Obliqua a destraObliqua a sinistra Simmetrica

Misure di Forma della Distribuzione

Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione. – γ=0 ditribuzione simmetrica;– γ<0 asimmetria negativa (mediana>media);– γ>0 asimmetria positiva (mediana<media).

Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica).– β=3 se la distribuzione è “Normale”;– β<3 se la distribuzione è iponormale (rispetto alla distribuzione

di una Normale ha densità di frequenza minore per valori molto distanti dalla media);

– β>3 se la distribuzione è ipernormale (rispetto alla distribuzione di una Normale ha densità di frequenza maggiore per i valori molto distanti dalla media).

Misure di Forma della Distribuzione

Basic Statistical Measures

Location Variability

Mean 106.1410 Std Deviation 81.01306

Median 103.2900 Variance 6563

Mode 0.0000 Range 523.69000

Interquartile Range 118.62500

IMPORTO NETTO UNITARIO

Basic Statistical Measures

Location Variability

Mean 138.0247 Std Deviation 64.29397

Median 129.1100 Variance 4134

Mode 149.0000 Range 521.77000

Interquartile Range 82.62000


Metodi Quantitativi per Economia, Finanza e Management Lezione n°3

Documents

Transcript of Metodi Quantitativi per Economia, Finanza e Management Lezione n°3