ANALISI DI MERCATO CLEA -...
Transcript of ANALISI DI MERCATO CLEA -...
1
ANALISI DI MERCATO
CLEA
INTEGRAZIONEAL CAPITOLO 5
L. Molteni, G. Troilo (a cura di)
Ricerche di marketing,McGraw-Hill, Milano, 2003
IL CAMPIONAMENTO:
TEORIA E ESERCIZI
Versione 1.0
A.A. 2010/2011
Capitolo 1
Il campionamento casualesemplice
1. Introduzione
La validita delle indagini campionarie fu posta per la prima volta nel 1895 da
Anders N. Kiaer, direttore dell’Ufficio centrale di statistica della Norvegia, nella
riunione dell’Istituto Internazionale di Statistica in cui presento le inchieste sulla
distribuzione dei redditi in Osservazioni e esperienze riguardanti le rilevazioni
rappresentative. Il metodo si basava su una selezione delle unita della popolazione,
dalle fonti censuarie, al fine di costruirne un’immagine simile con un numero
ridotto di unita, una miniatura della realta oggetto di indagine.
La rappresentativita e intesa in termini intuitivi e il procedimento richiede
la conoscenza di informazioni a priori, come quelle ottenute da un censimento.
2. Censimento e campionamento
Per popolazione obiettivo (target population) o universo, P si intende un gruppo
di elementi, N , definiti in accordo con gli obiettivi dell’indagine nei contenuti,
nello spazio, e nel tempo: Ω = 1, 2, . . . , N. I suoi membri sono chiamati unita
statistiche o unita di analisi.
Esempio: caratteristiche degli acquirenti di scarpe per adulti.
La popolazione obiettivo deve essere definita nei
1. contenuti (eta dei clienti),
2. nello spazio (area geografica, Italia o regione o citta),
3. nel tempo (nell’anno 2010).
3
4 Capitolo 1. Il campionamento casuale semplice
La caratteristica di interesse o carattere sara indicata con Y e con y1, y2, . . . , yN .
si indicheranno i valori che essa assumera nelle unita 1, 2, . . . , N.Il periodo di riferimento e la data rispetto alla quale raccogliere le informa-
zioni e deve essere lo stesso per tutti al fine di ottenere dati “omogenei”.
Il censimento, detto anche rilevazione totale, e un modo di raccogliere i
dati che comporta l’acquisizione delle le caratteristiche designate per ciascun
elemento costituente la popolazione obiettivo.
Il campionamento, detto anche rilevazione parziale, e un modo di raccoglie-
re i dati che comporta l’acquisizione delle caratteristiche designate solo per gli
elementi di un sottoinsieme della popolazione obiettivo, detto campione.
Il campione e un sottoinsieme composto da n unita selezionate tra le N
unita della popolazione obiettivo. Il campione rappresenta, quindi, la popolazione
obiettivo che in tale contesto e detta anche popolazione di riferimento (Fabbris,
1989). Gli elementi che appartengono al campione sono detti unita statistiche
campionarie.
I fattori che determinano i vantaggi/svantaggi sono i seguenti.
1. Costi ridotti per la realizzazione
Una rilevazione totale comporta una spesa molto piu onerosa di una rilevazione
parziale perche la raccolta dei dati ha un costo per ogni individuo. La struttura
organizzativa di base, poi, deve essere molto ampia per dirigere i lavori e svolgere
la supervisione. Il numero dei rilevatori necessari per raccogliere i dati e elevato
e questi devono essere anche addestrati.
2. Tempi piu brevi per la raccolta dei dati
La rilevazione totale richiede una notevole quantita di tempo per essere condotta
a termine, mentre un’indagine campionaria puo essere realizzata in un tempo
ragionevolmente inferiore. si noti che un tempo troppo lungo per raccogliere i
dati potrebbe vanificare la loro utilita.
3. Qualita dei dati raccolti piu elevata
In una rilevazione totale e piu difficile controllare o ricontrollare i dati osservati
e l’operato dei rilevatori, naturalmente sempre a causa dei tempi e dei costi;
mentre, in una indagine parziale i dati possono essere raccolti con una precisione
maggiore e una quantita minore di errori.
4. Quantita di informazioni piu elevata
In una rilevazione totale il numero di informazioni che si raccolgono sono limitate
perche entrare nei particolari aumenta le difficolta della rilevazione dei dati.
3.. La lista 5
3. La lista
La lista o base campionaria (list or frame) e l’elenco delle unita della popolazione
e rappresenta la fonte per effettuare la scelta. Le unita selezionate dalla lista
costituiscono il campione.
Per ottenere un buon campionamento bisogna procurarsi una buona lista,
cioe una lista esente da difetti perche un campione non puo dare risultati piu
precisi della lista da cui e stato estratto. In realta, le liste disponibili presentano
diversi limiti:
— Incompletezza che genera sottocopertura,
— Sovracompletezza che genera sovracopertura,
— Ridondanza o registrazione multipla di unita,
— Inesistenza o registrazione di unita bianche
— Inattualita o non aggiornamento della lista
— Imprecisioni (errori di codifica, di trascrizione, di immissione.
4. Parametri e stimatori
Alcuni parametri della popolazione P sono riportati nella tabella 1.1. Seguono
due esempi di parametri, stimatori, e stime.
Esempio 1
Sia θ il livello potenziale della domanda di un bene nella popolazione (obiettivo)
P costituita da N unita. Sia θ il parametro non noto, θ =∑N
i=1 Xi/N , dove Xi
vale 1 se l’i-esimo soggetto acquisterebbe il bene e 0 altrimenti.
Si estrae un campione di n unita da P . La proporzione di consumatori in-
tervistati che dichiarano di essere disposti a acquistarlo costituisce uno stimatore
di θ; ossia, lo stimatore e T =∑n
i=1 Xi/n.
Il valore dello stimatore che si ottiene per questo campione, θ = t =∑ni=1 xi/n, e la stima del parametro θ della popolazione P .
Esempio 2
Sia Y il reddito delle unita della popolazione P . Si consideri il reddito medio,
µY , relativo a tutti i potenziali consumatori, che e dato dalla media dei redditi
delle N unita che formano la popolazione P . Il parametro non noto e costituito
da µY =∑N
i=1 Yi/N .
Si estrae un campione di n unita da P . La media (campionaria) dei redditi
(delle unita statistiche incluse nel campione) puo essere lo stimatore di µY . Allora,
T = Y =∑n
i=1 Yi/n, dove (Y1, . . . , Yn) e il vettore di osservazione.
6 Capitolo 1. Il campionamento casuale semplice
Tabella 1.1: Parametri della popolazione spesso oggetto di stima
Totale Y =∑N
i=1 Yi
Media Y =
∑Ni=1 Yi
N=
Y
N
Proporzione Py =Y
N
Y =∑N
i=1 Xi ∧ Xi ∼ Ber(P )
Varianza S2y =
∑Ni=1(Yi − Y )2
N[formula per calcolo S2
y =
∑Ni=1 Y
2i
N− Y 2
]S′2y =
∑Ni=1(Yi − Y )2
N − 1
Varianza di un carattere dicotomo S2y = N Py (1− Py)
Deviazione standard o SQM Sy =
√∑Ni=1(Yi − Y )2
N
=
√∑Ni=1 Y
2i
N− Y 2
Coefficiente di variazione (C.V.) CVy =Sy
Y
CV 2y =
S2y
Y 2
C.V. di un carattere dicotomo CV 2y =
N Py (1− Py)
(N Py)2=
1
N
1− Py
Py
Il valore dello stimatore che si ottiene dalle rilevazioni eseguite in questo
campione, che fornisce un vettore osservato (y1, . . . , yn), e la stima di µY ; ossia,
µY = y =∑n
i=1 yi/n.
5. Campionamento probabilistico
Il campionamento probabilistico richiede l’uso di procedimenti oggettivi, che non
coinvolgono l’intervento dell’operatore, e casuali, che assegnano a ogni unita una
probabilita di essere inclusa nel campione maggiore di zero.
Esso definisce, quindi, un approccio alla selezione delle unita nel campione
che soddisfa le seguenti condizioni.
1. Si deve poter definire l’insieme di tutti i possibili campioni, S = s1, . . . , sM,
5.. Campionamento probabilistico 7
di ampiezza fissata n ottenibili, detto spazio campionario.
2. A ogni possibile campione s deve essere associata una probabilita nota di
selezione, p(s), definita su S e detta piano di campionamento, tale che:
p(s) ≥ 0;∑
s∈S p(s) = 1 .
3. La procedura deve assegnare a ogni unita della popolazione una probabilita
maggiore di zero di essere estratta (probabilita di inclusione).
4. Si seleziona un solo campione con un meccanismo casuale per il quale ogni
possibile campione s ha probabilita p(s) di essere estratto.
Il meccanismo casuale di estrazione si puo realizzare con un esperimento casuale
o modello d’urna: si inserisce in un’urna un biglietto per ogni unita della popo-
lazione; ogni biglietto identifica univocamente una sola unita. L’urna contiene,
allora, N biglietti. Ogni biglietto e diverso dagli altri e ha la stessa possibilita di
essere estratto.
Sia P = 1, . . . , N la popolazione, con ciascun elemento contrassegnato da
un’etichetta o codice. L’esecuzione di n estrazioni genera una sequenza di indici
(i1, . . . , in) denominata campione ordinato, dove il simbolo ij (per j = 1, . . . , n)
indica l’etichetta dell’unita della popolazione selezionata nella j-esima estrazione.
I vari tipi di campionamento sono riportati nello schema seguente.
Tabella 1.2: Metodi di campionamenti probabilistici e non probabilistici
Probabilistici Campionamento Casuale Semplice (CCS)
Campionamento Sistematico (CSist)
Campionamento Stratificato (CStr)
Campionamento a grappoli (CG)
Campionamento a due o piu stadi
NON Probabilistici Campionamento per quote
Campionamento a scelta ragionata
Campionamento per convenienza
8 Capitolo 1. Il campionamento casuale semplice
6. Campionamento casuale semplice senza reim-
missione
Il Campionamento Casuale Semplice consiste nell’estrarre senza reimmissione
(CCS-SR) n unita campionarie da una popolazione obiettivo, P, costituita da
N unita. Ne consegue che ogni unita estratta non ha piu la possibilita di essere
estratta di nuovo e il numero di campioni possibili e B(N, n).
Il piano di campionamento attribuisce a ciascuno dei B(N,n) campioni
possibili la stessa probabilita, 1/B(N, n), di essere estratto:
p(s) =n
N
n− 1
N − 1
n− 2
N − 2· · · 1
N − n+ 1=
1
B(N,n)=
1(N
n
) . (1.1)
6.1. Stima della media
Si supponga di voler stimare la media, Y , del reddito Y della popolazione dei
potenziali consumatori di un bene. Per il principio di corrispondenza, lo stimatore
di Y e la media campionaria, y. Per il seguito si veda Cochran (1977).
Teorema 6..1 Sia dato un piano di campionamento probabilistico che preve-
da l’estrazione senza reimmissione di n unita. La media campionaria y e uno
stimatore corretto della media della popolazione Y .
Teorema 6..2 Sia dato un piano di campionamento probabilistico che preveda
l’estrazione senza reimmissione di n unita. La varianza della media campionaria,
s2y, e uguale a
s2y = Var (y) = E(y − Y
)2=
S2
n
N − n
N − 1. (1.2)
Si noti solo che il primo termine del secondo membro, S2/n, e la varianza del-
la media in un campionamento casuale semplice con reimmissione. Il secondo
termine, il fattore (N − n)/(N − 1), e chiamato fattore di correzione per popo-
lazioni finite e rappresenta la riduzione di incertezza ottenuta con il mancato
reinserimento delle unita estratte.
Si ricorda che la varianza campionaria, data dalla media degli scarti dalla
media elevati al quadrato, e una stima distorta della varianza della popolazione
(nel nostro caso S ′2).
E(s2) = E
[∑ni=1(yi − y)2
n
]=
n− 1
nS ′2 . (1.3)
7.. Campionamento casuale semplice con reimmissione 9
6.2. Stima della proporzione
Sia Y un carattere dicotomo in P . La proporzione P del carattere presente in Psara
P =Y
N= Y =
∑Ni=1 Yi
N=
A
N. (1.4)
La variabile casuale Yi e dicotoma, ossia Yi ∼ Ber(P ) e lo stimatore di P sara
p =y
n= y =
∑ni=1 yin
=a
n. (1.5)
Proposizione 6..3 Lo stimatore p di P e non distorto
E (p) = P. (1.6)
Proposizione 6..4 La varianza della popolazione per un carattere dicotomo e
S2 = P (1− P ). (1.7)
Proposizione 6..5 Sia Y una variabile casuale dicotoma con valore atteso P e
sia dato un piano di campionamento casuale semplice senza reimmissione di n
unita. La varianza dello stimatore p di P e
Var(p) = Var(y) =S2
n
N − n
N − 1=
P (1− P )
n
N − n
N − 1. (1.8)
7. Campionamento casuale semplice con reim-
missione
Il Campionamento Casuale Semplice con reimmissione (CCS-SR) consiste nel-
l’estrarre n unita campionarie da una popolazione obiettivo, P , costituita da N
unita, reinserendo nell’urna ciascuna unita estratta prima di eseguire l’estrazione
successiva. Ne consegue che ogni unita estratta ha la possibilita di essere estratta
di nuovo e il numero di campioni possibili e Nn.
Il piano di campionamento e tale che ciascuno degli Nn campioni possibili
abbia la stessa probabilita, 1/Nn, di essere estratto.
p(s) =1
N
1
N
1
N· · · 1
N=
1
Nn(1.9)
10 Capitolo 1. Il campionamento casuale semplice
7.1. Stima della media
In analogia al caso precedente si riportano lo stimatore della media e la sua
varianza corrispondente, ma si noti che le espressioni sono quelle esposte in un
corso di statistica di primo livello.
Teorema 7..1 Sia dato un piano di campionamento probabilistico che prevede
l’estrazione con reimmissione di campioni di ampiezza fissata n. Siano y1, . . . , yn
le osservazioni campionarie. Allora, uno stimatore corretto della media e dato
da:
y =1
n
n∑i=1
yi (1.10)
e la varianza dello stimatore assume la forma
Var(y) =S2
n. (1.11)
e puo essere stimata correttamente con
var(y) =s′2
n=
1
n
[1
n− 1
n∑i=1
(yi − y)2]. (1.12)
8. Effetto del disegno: deff
L’effetto del disegno (deff dall’inglese design effect) esprime la variazione del-
la precisione campionaria dovuta alla modalita di esecuzione del campione. La
precisione delle stime del CCS-SR e presa come riferimento di qualunque altro
disegno di campionamento e il deff e dato dal rapporto tra la varianza delle stime
del disegno oggetto di valutazione (•) o confronto e la varianza ottenuta da un
CCS-SR:
deff(•, CCS − SR) =V•(y)
VCCS−SR(y). (1.13)
Si ha, allora, che il campionamento casuale semplice con reimmissione produce
varianze della stima del totale (o della media o della proporzione) piu elevate e,
quindi, e meno efficiente; infatti,
deff(CR, SR) =S2
nS2
nN−nN−1
=N − 1
N − n> 1 . (1.14)
Se deff e maggiore di 1, allora si e persa precisione per non avere usato il CCS-SR;
se deff e minore di 1, allora si e guadagnato in precisione rispetto al CCS-SR.
9.. Dimensione del campione 11
9. Dimensione del campione
La determinazione della dimensione del campione e importante perche comporta,
quasi sempre, un conflitto tra le risorse disponibili e la precisione desiderata delle
stime: piu il campione e grande, piu aumentano i costi; piu il campione e piccolo,
piu i risultati sono imprecisi o inaffidabili.
La dimensione del campione in base alla precisione desiderata delle stime
si determina esaminando ciascuna variabile oggetto di stima. Si distinguono,
pertanto, le variabili qualitative dalle variabili quantitative; per semplificare i
calcoli, si considerano solo variabili qualitative dicotome.
9.1. Variabili qualitative dicotome
Sia P la proporzione di elementi della popolazione che hanno un determinato
attributo e (1 − P ) la proporzione di quelli che non l’hanno. Sia e l’errore o la
distanza massima desiderata tra il possibile valore risultante dal campione e il
valore della popolazione P . Sia α il livello di errore in termini di probabilita di
osservare un campione che produca una stima maggiore di quella desiderata. In
termini di probabilita si puo scrivere come segue:
Pr(|p− P | ≥ e) = α.
L’espressione precedente si puo standardizzare usando lo scarto quadratico medio
di p e da lı ricavare l’espressione per il calcolo di n.
α = Pr
|p− P |√P (1− P )
n
N − n
N − 1
≥ e√P (1− P )
n
N − n
N − 1
.
Lo stimatore si puo considerare distribuito secondo una normale standardizzata,
per cui l’uguaglianza si ha in z1−α/2:
z1−α/2 =e√
P (1− P )
n
N − n
N − 1
Risolvendo si ha:
n =z21−α/2
P (1− P )
e2
1 +1
N
(z21−α/2 P (1− P )
e2− 1
) (1.15)
12 Capitolo 1. Il campionamento casuale semplice
Il numeratore e indicato, in genere, con n0 e si riferisce alla dimensione cam-
pionaria per popolazioni infinite; cosı, il fattore al denominatore rappresenta la
correzione della dimensione per popolazioni finite. Si scrivera, allora
n0 = z21−α/2
P (1− P )
e2(1.16)
n =n0
1 +n0 − 1
N
. (1.17)
Nella tabella seguente sono riportati alcuni calcoli di dimensione campionaria
per un errore del 5% (e = 0, 05) e un errore dell’1% (e = 0, 01), per un livello di
rischio del 5% (α = 0, 05) che implica un valore di z1−α/2 = 1, 96 (approssimato
a 2, per semplicita). Il valore massimo della dimensione campionaria si ottiene
quando P = 1/2. In mancanza di informazioni sul possibile valore di P nella
popolazione, si puo assumere P = 1/2 ottenendo cosı il valore massimo di n.
Tabella 1.3: Dimensioni campionarie: (e = 0, 05), (α = 0, 05), z1−α/2 = 2
N n0,max e = 0, 05 n0,max e = 0, 01
n022×0,5×(1−0,5)
(0,05)2400 22×0,5×(1−0,5)
(0,01)210000
100 4001+ 399
100
≃ 80 100001+ 9999
100
≃ 99
400 4001+ 399
400
≃ 200 100001+ 9999
400
≃ 385
1000 4001+ 399
1000
≃ 286 100001+ 9999
1000
≃ 909
5000 4001+ 399
5000
≃ 370 100001+ 9999
5000
≃ 3333
10000 4001+ 399
10000
≃ 386 100001+ 9999
10000
≃ 5000
20000 4001+ 399
20000
≃ 392 100001+ 9999
20000
≃ 6666
Se la P di interesse e minore del 10% o maggiore del 90%, se si vuole
stimare il totale di unita appartenenti alla modalita (categoria) di interesse,
N P , si preferisce controllare l’errore relativo, r. Con un procedimento analogo
al precedente si ha che la dimensione del campione in assenza di correzione per
popolazione finita, n0, e data da
n0 = z21−α/2
P (1− P )
e2= z21−α/2
P (1− P )
r2 P 2=
z21−α/2
r2(1− P )
P. (1.18)
9.. Dimensione del campione 13
Quando P assume valori molto piccoli, inferiori al 10%, allora piccole variazioni
sulle valutazioni di P conduce a forti variazioni di n0
α = 0, 05 z1−α/2 = 2
e = 0, 05 ⇒ r =P − (P − 0, 05)
P= 0, 5
n0 =22
(0, 5)20, 90
0, 10= 144
n0 =22
(0, 5)20, 99
0, 01= 1584.
A parita di errore relativo la dimensione del campione n0 cresce al diminuire di
P . Inoltre, dai numeri riportati si deduce che e elevata la possibilita di estrarre
campioni troppo piccoli o troppo grandi per gli obiettivi che si devono conseguire.
9.2. Variabili quantitative
Sia Y una variabile casuale quantitativa relativa a una popolazione. Il controllo
dell’errore, e, non puo piu essere espresso in termini assoluti perche e difficile
quantificare in termini immediati l’entita dell’errore che si puo ancora esprimere
in termini di distanza massima desiderata dal parametro da stimare: Y o Y .
Si puo controllare piu agevolmente l’errore relativo. Sia α il livello di errore in
termini di probabilita di osservare un campione che produca una stima maggiore
di quella desiderata. In termini di probabilita si puo scrivere come segue:
Pr(| y − Y |Y
≥ r) = Pr(|N y −N Y |N Y
≥ r) = α.
L’espressione precedente si puo standardizzare usando lo scarto quadratico medio
di y e da lı ricavare l’espressione per il calcolo di n.
α = Pr
|y − Y |√S2
n
N − n
N − 1
≥ r Y√S2
n
N − n
N − 1
.
Lo stimatore si puo considerare distribuito secondo una normale standardizzata,
per cui l’uguaglianza si ha in z1−α/2:
z1−α/2 =r Y√
S2
n
N − n
N − 1
14 Capitolo 1. Il campionamento casuale semplice
Risolvendo si ha:
n =z21−α/2
S2
Y 2 r2
1 +1
N
(z21−α/2 S2
Y 2 r2− 1
) . (1.19)
Il numeratore e indicato, in genere, con n0 e si riferisce alla dimensione cam-
pionaria per popolazioni infinite; cosı, il fattore al denominatore rappresenta la
correzione della dimensione per popolazioni finite. Si scrivera, allora
n0 = z21−α/2
S2
Y 2 r2(1.20)
n =n0
1 +n0 − 1
N
. (1.21)
Si puo assumere che y ∼ N(Y , σ2
y
). La dimensione del campione dipende dai
dati non noti della popolazione: Y , S2.
9.3. Esempi e esercizi
Esercizio 1
La popolazione di imprese di una certa regione e composta da N = 50000 unita.
Si vuole condurre una indagine per stimare la proporzione di imprese che applica
una nuova forma contrattuale. Si suppone che la proporzione, P , si aggiri tra il
10% e il 20%.
a) Determinare la dimensione di un CCS senza reimmissione con un livello di
fiducia del 95% e un errore assoluto del 5% per P .
b) Determinare la dimensione di un CCS senza reimmissione con un livello di
fiducia del 95% e un errore relativo del 15% di P .
Soluzione
a) Si considerano le dimensioni per le due percentuali ipotizzate.
P1 = 20%
n1 =
z21−α P (1− P )
e2
1 +1
N
(z21−α P (1− P )
e2− 1
)
=
(1, 96)2 0, 20 (1− 0, 20)
(0, 05)2
1 +1
50000
((1, 96)2 0, 20 (1− 0, 20)
(0, 05)2− 1
) = 244, 7
9.. Dimensione del campione 15
P2 = 10%
n2 =
(1, 96)2 0, 10 (1− 0, 10)
(0, 05)2
1 +1
50000
((1, 96)2 0, 10 (1− 0, 10)
(0, 05)2− 1
) = 137, 9 .
b) La seconda domanda ha le sue motivazioni sul basso valore di P . Si possono
applicare le formule precedenti sostituendo all’errore assoluto il suo valore corri-
spondente alla percentuale del 15% di P oppure utilizzare le formule con l’errore
relativo.
P1 = 20%
e1 = 0, 15× 0, 2 = 0, 03 errore assoluto pari al 15% di P
n1 =
z21−α (1− P )
r2 P
1 +1
N
(z21−α (1− P )
r2 P− 1
) =N z21−α (1− P )
(N − 1) P r2 + z21−α (1− P )
=50000 (1, 96)2 (1− 0, 20)
(50000− 1) 0, 20 (0, 15)2 + (1, 96)2 (1− 0, 20)= 673, 8
P2 = 10%
e2 = 0, 15× 0, 1 = 0, 015 errore assoluto pari al 15% di P
n2 =50000 (1, 96)2 (1− 0, 10)
(50000− 1) 0, 10 (0, 15)2 + (1, 96)2 (1− 0, 10)= 1490, 9 .
Esercizio 2
Si vuole stimare la proporzione di famiglie italiane che non va in vacanza per piu
di 10 giorni l’anno, mediante un campionamento casuale semplice senza reim-
missione e un errore assoluto del 2,5%. Quanto deve essere la dimensione del
campione?
Soluzione
1. La dimensione,N , di P e elevata; quindi, si ignora la correzione per popolazione
finita.
2. Senza informazioni a priori si assume P = 0, 5. Se la realta e diversa, come e
molto probabile, allora si avra, in pratica, una minore incertezza di quella fissata
all’inizio che e pari al 2,5%:
n =z21−α P (1− P )
e2=
(1, 96)2 0, 5 (1− 0, 5)
(0, 025)2= 1536, 64 .
16 Capitolo 1. Il campionamento casuale semplice
Esercizio 3
Si vuole stimare la proporzione di famiglie italiane che possiede una barca, me-
diante un campionamento casuale semplice senza reimmissione e un errore del 2%.
Quanto deve essere la dimensione del campione, ipotizzando che la percentuale
di famiglie sia dell’ordine del 5%?
Soluzione
1. La dimensione, N , di P e elevata; si ignora, percio, la correzione per popola-
zione finita.
2. Il testo non specifica se si tratta di errore assoluto o relativo, ma dato il basso
valore della percentuale in P si deve usare l’errore relativo.
n =z21−α (1− P )
r2 P=
(1, 96)2 (1− 0, 05)
(0, 02)2 0, 05= 182476 .
Esercizio 4
Una comunita, P , e formata da Nf = 3000 famiglie. Si sa che, in un anno, la
media di film visti per famiglia e 56,8 con una deviazione standard pari a 23,166.
Quanto deve essere la dimensione del campione, ipotizzando che la stima si debba
ottenere con un livello di fiducia del 95% e un errore relativo del 10%?
Soluzione
La soluzione, qui come in sede di esame, consiste nell’applicazione della formula
per il calcolo di n per variabili continue; infatti, sono (e saranno) fornite la media
e la deviazione standard.
n =
z21−α S2
r2 Y 2
1 +1
N
(z21−α S2
r2 Y 2− 1
)
=
(1, 96)2 (23, 166)2
(0, 1)2 (56, 8)2
1 +1
3000
((1, 96)2 (23, 166)2
(0, 1)2 (56, 8)2− 1
) = 62, 59 .
Capitolo 2
Campionamento sistematico
La popolazione P abbia le N unita numerate progressivamente da 1 a N .
SiaK = ⌊N/n⌋ il passo di campionamento (sampling interval), ossia l’intero
piu vicino a N/n; infatti, il simbolo ⌊·⌋ indica la parte intera.
Si estragga un numero casuale r tale che 1 ≤ r ≤ K.
Si chiama campionamento sistematico l’insieme di unita contraddistinte
dalle etichette: r, r +K, r + 2K, . . . , r + (n− 1)K. Il altri termini (Sarndal,
Swensson, Wretman, 1992),
• N = nK + q;
• si genera un numero casuale con probabilita 1/K;
• s = i : i = r + (j − 1)K ≤ N ; j = 1, . . . , ns e il campione casuale
selezionato di dimensione ns
ns =n+ 1 se 1 ≤ r ≤ qn se q < r ≤ K .
La procedura di realizzazione del campionamento sistematico e semplice: gli ele-
menti sono selezionati scorrendo la lista e scegliendo un elemento ogniK a partire
dal soggetto che nei primi K elementi occupa una posizione scelta secondo un
numero casuale, r, compreso tra 1 e K e detto partenza casuale (random start).
Esistono almeno due situazioni in cui il campionamento sistematico puo
condurre a errori considerevoli.
• I soggetti ordinati secondo un criterio sistematico non alfabetico e, comun-
que, non assimilabile al caso. Per esempio, i soggetti sono elencati secondo
il prestigio, il grado gerarchico, la classe sociale, il tipo di mansioni svolte,
l’anzianita.
17
18 Capitolo 2. Campionamento sistematico
• La lista presenta ricorrenze cicliche il cui periodo coincide con la frazione
di campionamento. Per esempio, se si intervistano consumatori che escono
da un supermercato tutti i giovedı dalle 12 alle 13, cio puo a un errore.
Osservazioni
O.1. Se la lista e molto lunga o bisogna scegliere un campione molto grande,
il campionamento sistematico diventa piu conveniente del campionamento
casuale semplice.
O.2. Se i soggetti sono stati inseriti (elencati) nella lista in modo casuale, al-
lora il campionamento sistematico puo considerarsi a tutti gli effetti un
campionamento casuale semplice.
O.3. Nel campionamento sistematico si estrae un solo numero casuale.
O.4. Gli elenchi alfabetici sono una buona base di campionamento.
1. Stimatori e efficienza
Teorema 1..1 Sia dato un piano di campionamento sistematico con passo di
campionamento K. Sia ySM la corrispondente media campionaria, allora
E (ySM) = Y
e la sua varianza e data da
Var(ySM) =S2
n
(N − n
N − 1
)[1 + (n− 1) ρW ]
dove ρW e il coefficiente di correlazione tra le coppie di unita che sono nello
stesso campione sistematico (Within)
ρW =E[(yij − Y ) (yil − Y )
]E[(yij − Y )2
] . (2.1)
Il numeratore e mediato sulle K n (n − 1)/2 coppie distinte e il numeratore su
tutti gli N valori di yij.
In genere il deff(SM, SR) > 1 perche ρW e spesso maggiore di zero; ma
se ρW < 0, allora deff(SM, SR) < 1.
Capitolo 3
Campionamento stratificato
Le conoscenze disponibili sulla popolazione obiettivo, P composta di N unita,
permettono di suddividerla in H sottogruppi o strati disgiunti, all’interno dei
quali le unita siano omogenee secondo i criteri definiti in base alla conoscenze
iniziali, e tali che N = N1 +N2 + · · ·+NH .
Da ogni strato si estrae in modo indipendente un campione sicche la di-
mensione complessiva del campione e data da n = n1 + n2 + · · ·+ nH .
Il piano campionario risultante e detto campionamento casuale stratificato.
Osservazioni.
(a) Gli strati devono essere il piu possibile omogenei internamente e eterogenei
tra loro.
(b) La definizione dell’omogeneita dipende dalle finalita che si devono conseguire
con la stratificazione. Il singolo strato potrebbe costituire un dominio di studio.
(c) La stratificazione puo essere eseguita in base a uno o piu caratteri.
Vantaggi della stratificazione
1. Riduzione dell’errore delle stime dei parametri di P.
2. Incremento dell’efficienza (delle stime) per unita di costo.
3. Precisione per strato (eventualmente) delle stime dei parametri di P .
4. Convenienza operativa perche le informazioni su P sono spesso raggruppate
in base a determinati caratteri a fini amministrativi, contabili, e altro.
5. Differenziazione per strato dei problemi di campionamento.
Quando e perche la stratificazione
1. Quando le stime sono richieste separatamente per ogni suddivisione della
popolazione obiettivo, quali aree geografiche, strati sociali, gruppi etnici.
19
20 Capitolo 3. Campionamento stratificato
2. Quando la composizione per strato e molto variabile e si vuole includere
nel campione elementi appartenenti a strati poco numerosi.
3. Quando la caratteristica oggetto di stima ha una varianza molto elevata;
come, il numero degli addetti, il fatturato, il reddito.
4. Quando differenti procedure campionarie devono essere adottate in uno o
piu strati differenti, in accordo con la natura della sottopopolazione.
5. Multi-stadificazione. La stratificazione puo essere adottata anche a diffe-
renti stadi del campionamento. Per esempio, in una indagine sul compor-
tamento al consumo delle famiglie si selezionano le citta di interesse e in
ogni citta si stratificano le famiglie in base al numero dei loro componenti.
6. Post-stratificazione. In fase di elaborazione dei dati raccolti si puo assumere
che una variabile oggetto di stima, X, provenga da una stratificazione.
1. Stima della media e della varianza
Per illustrare gli aspetti formali di una strategia di campionamento si definisco-
no, in genere, subito l’insieme degli indici e dei simboli utilizzati nelle formule.
Nella tabella 3.1 sono riportate le grandezze che appaiono nei risultati inerenti
al campionamento stratificato. In particolare, le espressioni della media e della
varianza della popolazione e del campione, rispettivamente.
2. Stima della dimensione campionaria
La dimensione del campione puo essere determinata anche in ogni singolo stra-
to, nh, con il procedimento descritto in precedenza e con precisioni desiderate
eventualmente diverse, ma preferibilmente uguali, per strato. Il numero totale di
unita da selezionare, allora, sara n = n1 + n2 + · · · + nH . Diversamente, si puo
determinare la dimensione totale del campione considerando tutta la popolazione
(indipendentemente dagli strati) e, dopo, procedere al calcolo della dimensione
dei campioni per ogni strato, nh. Si descrivono due procedure di determinazio-
ne di nh, quando e nota la dimensione totale, n, del campione: l’allocazione
proporzionale e l’allocazione ottimale.
2.. Stima della dimensione campionaria 21
Tabella 3.1: Simboli e formule utilizzate nel processo di stima
Nh Numero di unita per strato della popolazione
nh Numero di unita per strato del campione
Wh =Nh
NPeso dello strato nella popolazione
wh =nh
nPeso dello strato nel campione
fh =nh
NhFrazione campionaria per strato
Yh =
∑Nhi=1 YhiNh
=YhNh
Media della popolazione per strato
yh =
∑nhi=1 yhinh
=yhnh
Media del campione per strato
S′2h =
∑Nhi=1(Yhi − Yh)
2
Nh − 1Varianza popolazione per strato
s′2h =
∑nhi=1(yhi − yh)
2
nh − 1Varianza campionaria per strato
2.1. Allocazione proporzionale
La procedura mantiene le proporzioni tra la consistenza della popolazione per
strato e le corrispondenti dimensioni del campione (Cochran, 1977):
nh
n=
Nh
N→ nh
Nh
=n
N→ fh = f (3.1)
dove N = N1 + · · · + NH . Si ottengono gli stessi risultati se si impone che nel
calcolo della media campionaria si utilizzano gli stessi “pesi” che figurano nel-
l’espressione della media relativa alla popolazione. L’allocazione proporzionale
fornisce un campione autoponderante (self-wieghting); ossia, l’ammontare del-
le unita nel campione per strato e proporzionale a quella corrispondente della
popolazione.
Teorema 2..1 In ogni strato, la media campionaria, yh, e uno stimatore corretto
della media della popolazione, Yh. Allora, la media campionaria pesata, yST, euno stimatore corretto della media della popolazione, Y .
E(yST) = E
(H∑
h=1
wh yh
)=
H∑h=1
wh E (yh) =H∑
h=1
wh Yh = Y .
22 Capitolo 3. Campionamento stratificato
Teorema 2..2 Se i campioni sono estratti indipendentemente in ciascun strato,
allora la varianza della media campionaria, yST, e data da
Var(yST) = H∑
h=1
W 2h Var (yh) =
H∑h=1
W 2h
S2h
nh
Nh − n
Nh − 1(3.2)
dove Var(yh) e la varianza di yh per campioni (ripetuti) nell’h-esimo strato.
Da questi due teoremi deriva che la Var(yST) dipende solo dalla varianza
delle stime della media per strato. All’aumentare del numero degli strati in una
data popolazione di dimensione fissata, N , diminuisce la varianza; la stratifica-
zione diventa sempre piu efficiente fino a quando in ogni strato si hanno elementi
uguali tra loro (strati perfettamente omogenei), ossia yhi = yhj, ∀i, j = 1, . . . , Nh.
2.2. Allocazione ottimale
Il costo di una intervista e spesso costante, ma, a volte, puo avere variazioni
anche complicate. Si puo dimostrare che la dimensione del campione per strato,
nh, e piu grande se
• lo strato e piu numeroso
• lo strato ha piu variabilita interna
• il costo per unita di rilevazione e piu economico, cioe il campione costa
meno all’interno dello strato rispetto agli altri.
Con un costo di rilevazione costante per strato si ha l’allocazione ottimale di
Neyman.
Teorema 2..3 In un campionamento stratificato con funzione di costo lineare
C = C0 +H∑
h=1
c nh,
la varianza dello stimatore della media (campionaria) e minima per una dimen-
sione del campione totale fissata, n, quando
nh = nWh Sh∑Hh=1 Wh Sh
= nNh Sh∑Hh=1 Nh Sh
(3.3)
3.. Esempi e esercizi 23
3. Esempi e esercizi
Esercizio 5
La popolazione di imprese, P , di un certo comune e composta da N = 3000 unita
e per ogni azienda, i, si conosce il numero di addetti Yi. Si vuole condurre una
indagine sul 10% di P, sapendo che le imprese sono suddivise per strati, come
riportato nella tabella seguente
Tabella 3.2: Numero di imprese e deviazioni standard per classe di addetti
Classe addetti Nh Sh
A: 1–9 1200 1,5
A: 10–19 900 4
A: 20–49 500 8
A: 50–99 260 16
A: >=100 140 100
Totale 3000 60
a) Determinare la dimensione del campione negli strati con il metodo dell’allo-
cazione proporzionale.
b) Determinare la dimensione del campione negli strati con il metodo dell’allo-
cazione ottimale di Neyman.
Soluzione
a) La dimensione del campione deve essere il 10% di N , per cui si ha n = 10×3000/100 = 300. Nell’allocazione proporzionale si ha nh = nNh/N , ossia il 10%
della popolazione dello strato Nh, come riportato in tabelle 3.3. Per la prima
classe (A: 1–9) si ha npr; 1 = 300 × 1200/3000 = 120, Per la seconda classe (A:
10–19) si ha npr; 2 = 300× 900/3000 = 90, e cosı via.
b) Per eseguire semplicemente le operazioni conviene calcolare la colonna Nh Sh:
il totale diventera il denominatore dell’equazione 3.3, mentre il numeratore sara
dato dal prodotto di n per il valore della cella (Nh Sh). Per la prima classe (A:
1–9) si ha nott; 1 = 300 × (1200 × 1, 5)/27560 = 20, Per la seconda classe (A:
10–19) si ha nott; 2 = 300× (900× 4)/27560 = 39, e cosı via.
Dopo l’esecuzione dei calcoli, si verifica che in uno strato (l’ultimo) la dimen-
sione del campione e superiore alla dimensione della popolazione. In tali casi, si
24 Capitolo 3. Campionamento stratificato
Tabella 3.3: Numero di imprese (Nh), deviazione standard (Sh), dimensione delcampione con allocazione proporzionale (npr;h), prodotto Nh Sh, dimensionedel campione con allocazione ottimale (nott;h), dimensione effettiva risultante(nott-eff;h
), e dimensione finale in seconda applicazione (n′ott;h) per classe di
addetti
Classe addetti Nh Sh npr;h Nh Sh nott;h nott-eff;hn′ott;h
A: 1–9 1200 1,5 120 1800 20 20 21
A: 10–19 900 4 90 3600 39 39 43
A: 20–49 500 8 50 4000 44 44 47
A: 50–99 260 16 26 4160 45 45 49
A: >=100 140 100 14 14000 152 140 140
Totale 3000 60 300 27560 300 288 300
includono tutte le unita dello strato (o degli strati) nel campione e si riapplica
la procedura agli strati restanti per il numero di unita campionarie restanti.
Escluso l’ultimo strato, la somma di Nh Sh e 13560; mentre il numero di imprese
da includere ancora nel campione, n′, diventa n′ = 300−140 = 160. Per la prima
classe (A: 1–9) si ha n′ott; 1 = 160 × (1200 × 1, 5)/13560 = 21, Per la seconda
classe (A: 10–19) si ha n′ott; 2 = 160× (900× 4)/13560 = 43, e cosı via.
Esercizio 6
Gli iscritti ai Centri Per l’Impiego (CPI) di cinque citta dell’Emilia sono riportati
di seguito (dati artificiali e un solo CPI per citta)
Tabella 3.4: Numero di iscritti ai CPI, proporzione di occupati, eta media (PO)
Citta Nh Xh PO
Bologna 35000 34,5 25
Modena 15000 33,4 20
Reggio Emilia 10000 36,2 15
Parma 12000 31,4 18
Piacenza 13000 34,3 25
Totale 85000 — —
3.. Esempi e esercizi 25
a) Proporre una ripartizione adeguata di un campione di n = 1000 iscritti in
base ai dati forniti.
Soluzione
a) Per rispondere al quesito, qui e in sede di esame, occorre valutare gli elementi
forniti con la tabella. Si tratta di un campionamento stratificato perche le citta
si possono considerare come strati; pertanto, bisogna definire se si deve ap-
plicare l’allocazione proporzionale o l’allocazione ottimale. Tale scelta si
effettua come segue:
(1) se NON sono state fornite le deviazioni standard per strato (Sh), allora si
applica l’allocazione proporzionale;
(2) se sono state fornite le deviazioni standard per strato (Sh), allora si applica
l’allocazione ottimale.
In questo caso, sono state fornite informazioni che non si riferiscono alla de-
viazione standard (per rendere il testo simile nei due casi); pertanto, si DEVE
applicare l’allocazione proporzionale.
Nell’allocazione proporzionale si ha nh = nNh/N .
Per Bologna si ha npr; 1 = 1000× 35000/85000 = 411, 8.
Per Modena si ha npr; 2 = 1000×15000/85000 = 176, 5, e cosı via, come riportato
nella tabella di seguito. La dimensione e stata indicata con una cifra decimale.
Tabella 3.5: Numero di iscritti ai CPI, proporzione di occupati, eta media (PO)
Citta Nh Xh PO npr;h
Bologna 35000 34,5 25 411,8
Modena 15000 33,4 20 176,5
Reggio Emilia 10000 36,2 15 117,6
Parma 12000 31,4 18 141,2
Piacenza 13000 34,3 25 152,9
Totale 85000 — — 1000,0
Esercizio 7
Gli iscritti ai Centri Per l’Impiego (CPI) di cinque citta dell’Emilia sono riportati
di seguito (dati artificiali e un solo CPI per citta)
26 Capitolo 3. Campionamento stratificato
Tabella 3.6: Numero di iscritti ai CPI, tempi di attesa in mesi (X)
Citta Nh Xh Sh
Bologna 35000 15,8 15,5
Modena 15000 14,5 12,4
Reggio Emilia 10000 13,9 15,2
Parma 12000 16,2 20,4
Piacenza 13000 16,1 25,2
Totale 85000 — —
a) Proporre una ripartizione adeguata di un campione di n = 1000 iscritti in
base ai dati forniti.
Soluzione
a) Per rispondere al quesito, qui e in sede di esame, occorre valutare, come sopra,
gli elementi forniti con la tabella. Si tratta di un campionamento stratificato
perche, come sopra, le citta si possono considerare come strati; pertanto, bisogna
scegliere tra allocazione proporzionale e allocazione ottimale. Tale scelta
si effettua considerando lo schema esposto nell’esercizio precedente.
In questo caso, sono state fornite deviazioni standard di una variabile quantitativa
(tempo di attesa per trovare un lavoro); pertanto, si DEVE applicare l’allocazione
ottimale e nh = nNh Sh/(∑H
h=1 Nh Sh
)Per Bologna si ha nott; 1 = 1000× 542500/1452900 = 373, 4.
Per Modena si ha nott; 2 = 1000 × 186000/1452900 = 128, 0; e cosı via, come
riportato nella tabella di seguito. La dimensione e stata indicata con una cifra
decimale.
Si puo riflettere sulle differenze delle dimensioni campionarie ottenute con i due
metodi in base agli obiettivi di stima e alle informazioni disponibili all’inizio.
3.. Esempi e esercizi 27
Tabella 3.7: Numero di iscritti ai CPI, tempi di attesa in mesi (X)
Citta Nh Sh NhSh nott;h
Bologna 35000 15,5 542500 373,4
Modena 15000 12,4 186000 128,0
Reggio Emilia 10000 15,2 152000 104,6
Parma 12000 20,4 244800 168,5
Piacenza 13000 25,2 327600 225,5
Totale 85000 — 1452900 1000,0
Capitolo 4
Campionamento a grappoli
La popolazione P e suddivisa in un numero elevato di gruppi (grappoli, cluster).
Le unita nel procedimento di selezione sono i grappoli e tutti gli elementi
dei grappoli selezionati sono rilevati.
La procedura richiede, per essere efficace, che i grappoli siano al loro interno
eterogenei al massimo, in quanto non si selezionano i soggetti bensı i grappoli
(campionamento a grappoli a un solo stadio).
Si usa per ridurre i costi di raccolta dei dati e per non costruire la lista.
Nel campionamento a grappoli (a uno stadio) non vi e errore di campio-
namento all’interno del grappolo in quanto tutti i soggetti di appartenenza sono
inclusi nel campione. L’errore di campionamento deriva, allora, dalla differenza
tra i grappoli sicche si richiede che i grappoli siano eterogenei al loro interno e
siano omogenei tra loro. Nel caso estremo, un grappolo solo dovrebbe essere una
“mini-immagine” (o una “miniatura”) della popolazione.
I simboli per formalizzare la strategia del campionamento a grappoli sono
riportati nella tabella 4.1 (Cochran, 1977).
Per il campionamento a grappoli si avra S ′2i = s′2i .
Teorema 0..1 Sia dato un piano di campionamento a grappoli a un solo stadio
in cui i grappoli sono selezionati con un procedimento analogo al campionamento
casuale semplice. Se i grappoli sono estratti con probabilita uguali, ossia secondo
un campionamento casuale semplice, si ha che lo stimatore della media della
popolazione e yCG =
∑ni=1 Mi yi ·∑n
i=1 Mi
(4.1)
e la varianza corrispondente e
Var(yCG
)=
1
n
(∑Ni=1(Yi · − ¯Y )2
N
)N − n
N − 1(4.2)
(4.3)
29
30 Capitolo 4. Campionamento a grappoli
Tabella 4.1: Simboli e formule utilizzate nel processo di stima
N Numero di grappoli nella popolazione
n Numero di grappoli nel campione
Mi Numero di unita nel grappolo i
M· =∑N
i=1Mi Numero di unita nella popolazione
Yij Valore di Y nell’unita j del grappolo i in P
yij Valore di Y nell’unita j del grappolo i in un ∫
Yi · =
∑Mij=1 Yij
MiMedia per grappolo in P
Yi · =∑Mi
j=1 Yij Totale per grappolo in P
yi · =
∑Mij=1 yij
MiMedia campionaria per grappolo
yi · =∑Mi
j=1 yij Totale campionario per grappolo
dove ¯Y = Y· ·/N esprime il totale medio del carattere Y per grappolo, mentre
Y· · indica il totale del carattere Y (Cicchitelli, Herzel, Montanari, 1997).
Teorema 0..2 Sia dato un piano di campionamento a grappoli a un solo stadio
in cui i grappoli sono selezionati con un procedimento analogo al campionamento
casuale semplice. Se i grappoli sono estratti con probabilita uguali, ossia secondo
un campionamento casuale semplice si ha che il rapporto tra la varianza del-
lo stimatore della media della popolazione e la corrispondente varianza di un
campionamento casuale semplice e data da
Var(yCG
)Var
(ySRS
) = 1 + ρi (M − 1) (4.4)
dove ρi e il coefficiente di correlazione intra-classi e M e il numero medio di
unita nei grappoli.
Generalmente sara ρi > 0 che implica Var(yCG
)> Var
(ySRS
). Il coefficiente ρi
esprime una misura di omogeneita dei grappoli: piu i grappoli sono omogenei,
piu ρi risulta maggiore di zero. Si ha ρi < 0 quando i grappoli sono piu eterogenei
di quanto ci si potrebbe aspettare se i grappoli si formassero per effetto del caso,
che e abbastanza raro.
Si noti che le tecniche di inferenza statistica non si applicano facilmente a
dati ottenuti da un campionamento a grappolo.
Capitolo 5
Miscellanea
1. Confronto dell’efficienza tra i vari metodi
La relazione tra le varianze dei diversi metodi si puo sintetizzare come segue:
Var(yCst−Ott
)≤ Var
(yCst−Prop
)≤ Var
(yCCS−SR
)≤ Var
(yCCS−CR
)Rispetto al CCS-SR, si ha per gli altri metodi
Var(yCCS−SR
)≤ Var
(yCsist
)se ρW ≥ 0; diversamente vale >
≤ Var(yCG
)se ρi ≥ 0; diversamente vale >
Dalla catena di relazioni si evince l’efficienza dei diversi metodi.
L’efficienza del campionamento a grappoli diminuisce rispetto al campione
casuale semplice, all’aumentare della dimensione media dei grappoli, N . In gene-
rale, il campionamento a grappoli e meno efficiente anche rispetto agli altri tipi
di campionamento.
2. Il campionamento non probabilistico
Studiare il paragrafo 5.2.2 (o il corrispondente della nuova edizione) del testo
adottato: Molteni L. e Troilo G. (a cura di), Ricerche di marketing, McGraw-Hill,
Milano, 2003 (1.a edizione).
31
32 Capitolo 5. Miscellanea
3. Indagini longitudinali
La composizione di quasi tutte le popolazioni (individui, famiglie, imprese) cam-
bia con il tempo. Gli elementi entrano nella popolazione in oggetto quando na-
scono, immigrano, o raggiungono lo stato utilizzato per definirla; gli elementi
escono o abbandonano la popolazione quando muoiono (cessano), emigrano, o
perdono lo stato che li fa appartenere a essa; percio, si parlera di entrate e uscite.
Per appurare le modifiche avvenute si devono eseguire indagini ripetute nel
tempo o che ricostruiscono il passato (retrospettive) che, per semplicita, si deno-
mineranno longitudinali. Gli obiettivi fondamentali conseguibili con tali indagini
sono (Duncan, Kalton, 1987):
(a) stima dei parametri della popolazione in periodi distinti del tempo; per
esempio, il tasso di disoccupazione trimestrale;
(c) stima della variazione netta (net changes) ovvero della differenza tra le
medie al livello aggregato; per esempio, la variazione inter-trimestrale del
tasso di disoccupazione;
(d) stima dei cambiamenti individuali (gross changes) e di altri componenti
soggetti a variazione tra gli individui; per esempio, la variazione di spesa
del bilancio famigliare da un anno all’altro o del reddito di un individuo;
4. Tipi di indagine per fenomeni temporali
I fenomeni che si svolgono nel tempo richiedono indagini periodiche e tra i vari
metodi di campionamento si distinguono i seguenti casi.
4.1. Indagini ripetute (distinte, periodiche)
Questo schema si riferisce a osservazioni (misure) simili effettuate tramite cam-
pioni distinti estratti da una popolazione equivalente in momenti diversi del
tempo (Duncan, Kalton, 1987). Una popolazione equivalente e definita da preci-
se caratteristiche che la individuano in modo univoco e la sua composizione puo
cambiare nel tempo. Una indagine ripetuta, che si riferisce a campioni realizza-
ti in periodi di tempo regolari, viene anche chiamata periodica. Ogni campione
corrisponde a una indagine trasversale, detta anche per contemporanei, che mi-
sura i caratteri delle unita statistiche alla data di riferimento, ossia tra loro
contemporanee.
4.. Tipi di indagine per fenomeni temporali 33
L’indagine ripetuta nel tempo consente di perseguire gli obiettivi (a), (c);
ma non l’obiettivo (d). Risulta anche relativamente piu semplice delle altre
tipologie.
4.2. Indagini panel
Lo schema di indagine panel richiede che si effettuino le stesse misure sullo stes-
so campione a momenti diversi del tempo; si hanno quindi osservazioni ripetute
a date diverse sugli stessi elementi (soggetti, famiglie, imprese) selezionati al
momento della costituzione iniziale del campione (Lazarsfeld, Fiske, 1938; La-
zarsfeld, 1940). Altra denominazione e indagine longitudinale, che e preferibile,
comunque, usarla nel contesto di una indagine trasversale (cross-section survey)
nella quale i dati sono acquisiti retrospettivamente, come suggeriscono Duncan e
Kalton (1987). La terminologia non e ancora consolidata; cosı le indagini panel
concernenti sottogruppi di popolazione che hanno sperimentato lo stesso evento
nello stesso periodo di tempo, come il numero di coppie che hanno celebrato il
matrimonio o il numero di laureati in un dato anno, sono chiamate studi di coorti
o di (per) generazioni.
La disponibilita dello stesso campione nel tempo consente di perseguire in
modo piu efficiente gli obiettivi (c), (d); ma con meno efficienza l’obiettivo (a).
Indagini panel versus indagini ripetute
I due metodi di indagine sono alle estremita delle possibilita.
Svantaggi delle indagini panel sulle indagini distinte
Auto-selezione iniziale. La costituzione di un panel richiede persone volontarie,
disposte a essere intervistate successivamente, ma cio incrementa la quota dei
mancate partecipazioni.
Attrito. La perdita di soggetti nel tempo non e alta come all’inizio, ma rimane
costante nei vari periodi di indagine per stanchezza, noia, apatia oppure perche
si sono perse le loro tracce. Genera il cosiddetto logoramento del campione. Per
limitare la distorsione introdotta dal logoramento si possono interpolare i dati
mancanti o aggiustare i dati attraverso i pesi per compensare la mancata risposta
(Kish, 1990).
Mobilita. Gli elementi della popolazione si spostano spesso da un luogo all’altro
e la loro reperibilita diventa difficile. La mobilita si distingue dall’attrito perche
la causa della scomparsa dell’elemento nel campione e diversa.
34 Capitolo 5. Miscellanea
Natalita e Mortalita. In tutte le popolazioni si verificano entrate e uscite: gli
individui nascono e muoiono, le imprese cessano la loro attivita. Il movimento
avviene anche per immigrazione e emigrazione.
Vantaggi delle indagini panel sulle indagini distinte
Potenzialita di analisi. Solo i panel forniscono dati sui cambiamenti individuali
e, quindi, e possibile stimare parametri di modelli inerenti ai cambiamenti indivi-
duali (d), cumulare i dati individuali nel tempo (e), collezionare dati per costruire
la storia degli eventi e correggere gli errori telescopici (g).
Famigliarita. Possibilita di facilitazione del flusso informativo.
Efficienza nella stima della variazione netta. Siano y1 e y2 le medie della variabile
in esame ai tempi t = 1 e t = 2 e sia ∆ = (y2 − y1) lo stimatore della variazione
netta. Allora,
Var(∆) = Var(y1) + Var(y2)− 2 ρ [Var(y1) Var(y2)]1/2 (5.1)
e la varianza relativa, dove ρ e il coefficiente di correlazione tra y1 e y2. In una
indagine ripetuta i due campioni sono indipendenti e ρ = 0; in una indagine panel,
invece, i valori individuali della y dovrebbero essere positivamente correlati nel
tempo e produrre stime piu precise della variazione netta.
4.3. Indagini panel rotante
In questo schema di indagine, gli elementi del campione hanno una permanenza
limitata nel panel: man mano che alcuni di essi lasciano il campione, altri elementi
vengono aggiunti. L’indagine panel rotante e denominata semplicemente indagine
rotata (overlapping design). Le differenziazioni che si hanno tra i vari disegni di
campionamento riguardano l’ammontare, P , e il tipo di rotazione tra i periodi.
L’entrata e l’uscita degli elementi, quindi, e determinata da regole precise.
1. Sovrapposizione completa, P = 1; in tutto il periodo di rotazione si hanno
gli stessi elementi: aaa- aaa- aaa- ....
2. Sovrapposizione parziale, 0 < P < 1; ogni periodo di tempo mostra solo
una quota dei soggetti presenti nel periodo precedente: abc- cde- efg- ...
dove P = 1/3 e tale valore sembra ottimale (Kish, 1989) per stimare sia i
valori dei parametri della popolazione corrente, sia la variazione netta.
3. Non sovrapposizione, P = 0; in ogni periodo di tempo il campione viene
completamente sostituito, si ottiene cosı un’indagine ripetuta o periodica:
aaa- bbb- ccc- ....
4.. Tipi di indagine per fenomeni temporali 35
L’indagine panel rotante, tramite la sostituzione degli elementi del campione con
altri estratti dalla popolazione nel periodo corrente, cerca di ridurre gli inconve-
nienti dell’indagine panel come il logoramento dovuto all’abbandono o al rifiuto
di rispondere per l’onerosita che comporta l’intervista, la perdita di rappresen-
tativita dovuta agli ingressi (e alle uscite) che avvengono nella popolazione, il
condizionamento delle risposte nelle fasi successive dell’inchiesta rispetto a quelle
date in precedenza.
L’indagine panel rotante si usa per conseguire gli obiettivi (a), (c). L’obiet-
tivo (d) e limitato dalla breve permanenza degli elementi nel campione.
4.4. Indagini split panel
Questo schema di indagine e una combinazione di una indagine panel e una in-
dagine ripetuta o un panel rotante. La componente indagine panel consente di
ottenere gli obiettivi (c), (d). La componente indagine ripetuta o panel rotante,
invece, puo essere utilizzata per tenere conto degli ingressi e delle uscite che si
verificano nella popolazione, per controllare la distorsione dovuta al condizio-
namento e alla perdita dei soggetti o logoramento del campione che si verifica
nell’indagine panel. Entrambe le componenti consentono di ottenere gli obiettivi
(a), (b), (c).
4.5. Indagini trasversali con domande retrospettive
Questo schema coincide con una indagine trasversale (cross-sectional survey), ma
la rilevazione dei dati relativi alle differenti unita hanno periodi di riferimento
multipli, cioe si riferiscono sia al momento in cui generalmente si realizza la misu-
ra, sia a momenti o tempi precedenti attraverso domande retrospettive. Il metodo,
detto anche indagine retrospettiva, si basa sul ricordo dei soggetti intervistati per
ricostruire il flusso delle informazioni nel tempo.
Le domande retrospettive rilevano dati che possono essere affetti da errori
di memoria notevoli perche gli intervistati dimenticano gli eventi oppure non ri-
cordano con precisione quando siano avvenuti e la loro entita (effetto telescopico).
Non e possibile, inoltre, portare indietro di molto la raccolta delle informazioni
perche la memoria degli intervistati e notoriamente labile. Si e osservato che non
si ricordano anche eventi importanti, come la disoccupazione o i ricoveri ospe-
dalieri, e non si e in grado di fornire informazioni attendibili sulle esperienze
soggettive.
36 Capitolo 5. Miscellanea
Con tale schema di indagine si possono conseguire con precisione solo alcuni
obiettivi rispetto all’ultimo periodo di riferimento. Gli obiettivi (a), (b), (c) sono
difficili da conseguire. Con le limitazioni descritte e possibile ottenere (d).
5. Stadificazione
Le indagini riferite a un territorio ampio e popolazione numerosa o di indi-
sponibilita della lista, la strategia consigliata e quella del campionamento a
stadi.
Il campionamento a uno stadio e il campionamento a grappoli.
Il campionamento a due stadi e un piano di campionamento consistente
nell’estrarre, senza ripetizione, un campione casuale di grappoli e nel selezionare,
senza ripetizione, da ogni grappolo estratto un certo numero di unita statistiche
elementari (Cicchitelli, Herzel, Montanari, 1997). Il piano e detto anche campio-
namento a grappoli con sottocampionamento: i grappoli sono le Unita di Primo
Stadio (UPS) o unita primarie, mentre le unita elementari che costituiscono i
grappoli sono le Unita di Secondo Stadio (USS) o unita secondarie. La definizione
si puo facilmente generalizzare a tre o piu stadi.
Esempi di indagine a due stadi sono la Rilevazione Continua delle Forze
di Lavoro (RCFL) e l’indagine sui consumi condotte dall’Istat; L’indagine sui
bilanci delle famiglie condotta dalla Banca d’Italia.
Vantaggi
(1) Occorre costruire la lista solo per i grappoli selezionati.
(2) Per ogni grappolo si puo adattare precisione e strategia di campionamento
(3) La mobili ta territoriale degli intervistatori e ridotta.
Svantaggi
(1) L’efficienza finale del campionamento e modesta.
(2) La determinazione dell’errore finale e complessa.
6. Il campionamento nella ricerca qualitativa
Studiare il paragrafo 5.5 (o il corrispondente della nuova edizione) del testo adot-
tato: Molteni L. e Troilo G. (a cura di), Ricerche di marketing, McGraw-Hill,
Milano, 2003 (1.a edizione).
7.. Errori non campionari 37
7. Errori non campionari
La teoria della probabilita ci permette di valutare il rischio di commettere errori
che possono essere diversi l’uno dall’altro unicamente per la casualita delle estra-
zioni, dato che il carattere Y , oggetto di rilevazione, presenti una certa variabilita
nella popolazione di riferimento. L’errore generato da tale processo e detto errore
campionario o anche di campionamento.
La rilevazione campionaria e un processo costituito da un complesso di ope-
razioni, interdipendenti e sequenziali, che si sviluppano in piu fasi e coinvolgono
numerose persone. I momenti e le cause in cui si possono generare errori, diversi
da quelli del caso, sono molteplici: nella misura, nella codifica, nella trascrizione,
nell’immissione su supporto magnetico. Essi non dipendono dal piano di campio-
namento e, percio, sono detti errori non campionari (Diana, Salvan 1989; Kish,
1965).
Una tradizionale suddivisione dei vari tipi di errori e la seguente.
7.1. Errori di copertura
Gli errori di copertura derivano dalle imprecisioni presenti nella lista o base
campionaria e sono stati gia elencati in precedenza, come l’incompletezza, la
molteplicita, la sovracompletezza, la ridondanza.
Si ha, in tal caso, una distorsione da mancata copertura. Per esempio, l’in-
completezza contempla il caso in cui la popolazione non e interamente inclusa
nella lista, come per le indagini telefoniche.
7.2. Errori da mancate risposte
Gli errori da mancate risposte derivano dall’impossibilita di procedere alla ri-
levazione di alcune unita campionarie sia per l’impossibilita di rintracciare le
unita selezionate (per errore nei nominativi, cambio di indirizzo, emigrazione,
decesso, assenza temporanea, stile di vita), sia per il loro rifiuto di partecipare
all’indagine. Si parla, allora, di mancate risposte totali e di distorsione da man-
cata risposta perche possono generare un errore nel conseguimento delle stime
per ragioni simili a quelle della mancata copertura. Il rifiuto puo verificarsi anche
solo per qualche domanda del questionario; allora, si parla di mancata risposta
parziale.
La mancata risposta ha rilevanza solo se vi sono motivi per ritenere che
la non partecipazione all’indagine dipenda in qualche misura dai caratteri che si
38 Capitolo 5. Miscellanea
rilevano con l’indagine. La dipendenza e, in genere, il caso piu frequente; percio,
si adottano diverse strategie per ridurre il fenomeno.
Le mancate risposte parziali possono essere trattate solo in fase di pre-
elaborazione dei dati con procedimenti di imputazione per attribuire un dato
alla mancata rilevazione (Frosini, Montinaro, Nicolini, 1999; Kish, 1965).
7.3. Errori di misurazione
Gli errori di misurazione si sovrappongono, in parte, a quelli da mancata risposta
perche l’assenza di una risposta potrebbe dipendere proprio da una formulazione
ambigua o inadeguata della domanda.
La misurazione comporta, in generale, che il processo applicato goda di
alcune proprieta fondamentali: la validita, quando rileva effettivamente l’inten-
sita o la proprieta del concetto in esame, ossia, consegue gli obiettivi fissati;
l’attendibilita, quando applicato piu volte agli stessi fenomeni, nelle stesse con-
dizioni, riproduce (entro certi limiti) gli stessi risultati; la precisione, quando c’e
la possibilita di valutare i sottomultipli dell’unita di misura.
Una distinzione degli errori di misurazione e basata sulla causa che li ha
prodotti.
• (1) Errori di strumenti. Sono riconducibili al questionario per domande
formulate in modo ambiguo, ordinate in modo inadeguato, o batterie dei
test non tarati bene, e cosı via.
• (2) Errori di tecniche. Sono legati al tipo di tecnica utilizzata, come il
questionario postale, l’intervista auto-somministrata, l’intervista telefonica,
la batteria di test.
• (3) Errori dell’intervistatore, derivanti dalla influenza che esercita sull’in-
tervistato sia nell’incentivare o disincentivare la sua partecipazione, sia nel
fornire o non fornire una data risposta.
• (4) Errori dell’intervistato. Sono connessi alla capacita di comprensione
dell’intervistato o di ricordare gli eventi accaduti, alla sua idoneita e volonta
di fornire risposte veritiere.
7.4. Osservazioni finali
Non e sufficiente ridurre l’errore di campionamento e non vale neanche la pena di
ridurlo oltre ogni limite perche comporta un aumento forte di costi e di unita da
rilevare che ha, come conseguenza, un aumento della mole di lavoro e del rischio
8.. Bibliografia 39
di commettere errori. Occorre operare, quindi, in modo da ridurre anche gli errori
non campionari. Sia la precisione desiderata delle stime e sia una elevata qualita
dei dati sono limitate dalle risorse disponibili che pongono un limite superiore
sia alla dimensione del campione e sia al controllo sulla qualita dei dati.
Se le liste non sono complete o una grande percentuale di persone si rifiuta
di rispondere ci si trova, in pratica, a avere un campione non probabilistico.
8. Bibliografia
Ardilly P., Tille Y. (2006). Sampling Methods: Exercises and Solutions, New
York: Springer-Verlag.
Cicchitelli, G., A. Herzel, G.E. Montanari (1997). Il campionamento statistico,
nuova edizione, il Mulino: Bologna.
Cochran W. G. (1977). Sampling Techniques, 3.rd edition, New York: John Wiley
& Sons.
Diana G., Salvan A. (1989). Campionamento da popolazioni finite, CLEUP,
Padova.
Duncan G.J., Kalton G. (1987). Issue of design and analysis of surveys across
time, International Statistic Review, 55, 97–117.
Fabbris, L. (1989). L’indagine campionaria. Metodi, disegni e tecniche di cam-
pionamento, NIS: La Nuova Italia Scientifica, Roma.
Frosini, B.F., M. Montinaro, G. Nicolini (1999). Il campionamento da popolazioni
finite. Metodi e applicazioni, UTET, Torino.
Hansen, M.H., W.N. Hurwitz, W.G. Maddow (1953). Sample Survey Methods
and Theory, voll. I e II, John Wiley & Sons, New York.
Kish, L. (1965). Survey Sampling, John Wiley & Sons, New York.
Lazarsfeld, P.F., M. Fiske (1938). The panel as a new tool for measuring opinion,
Public Opinion Quarterly, 2, 596–612.
Lazarsfeld, P.F. (1940). “Panel” Studies, Public Opinion Quarterly, 4, 122–128.
Levy P. S., Lemeshow S. (1991). Sampling of Populations: Methods and Appli-
cations, New York: John Wiley & Sons.
Sarndal, C.E., B. Swensson, J. Wretman (1992).Model Assisted Survey Sampling.
New York: Springer-Verlag.
Stuart A. (1984). The Ideas of Sampling, Charles Griffin, High Wycombe. Trad.
it. (1996). I sondaggi di opinione. Idee per il campionamento, Tascabili
Newton Compton, Roma.