Statistica Inferenziale.pdf

download Statistica Inferenziale.pdf

of 23

Transcript of Statistica Inferenziale.pdf

  • 7/30/2019 Statistica Inferenziale.pdf

    1/23

    Media e varianza per distribuzioni

    Sia X una variabile casuale continua con densita di

    probabilita f(x). Il valor medio di x e

    = E(X) =+

    xf(x)dx

    Se X e una variabile casuale con valor medio la

    varianza di x e

    2 = var(X) = E[(X )2].

    La radice qudrata non negativa

    =

    var(X) =

    E[(X )2]

    e detta deviazione standard di X.

    1

  • 7/30/2019 Statistica Inferenziale.pdf

    2/23

    INFERENZA STATISTICA

    Linferenza statistica (o statistica inferen-

    ziale) si occupa di studiare alcuni parametri di una

    popolazione traendo conclusioni utilizzando i dati ot-

    tenuti su campioni estratti da essa. Con il termine

    popolazione intendiamo un insieme o collezione di

    oggetti,numeri,misure od osservazioni. Le popolazioni

    sono di solito descritte dai valori delle loro distribuzioni

    ed e comune riferirsi alle popolazioni in termini delle

    loro distribuzioni. Per popolazioni finite si fa riferi-

    mento alla effettiva distribuzione di frequenza dei val-

    ori, per quelle infinite alla distribuzione o densita di

    2

  • 7/30/2019 Statistica Inferenziale.pdf

    3/23

    probabilita.

    I metodi della statistica inferenziale riguardano essen-

    zialmente due aree: la stima dei parametri e i test

    dipotesi.

    Il primo importante problema dellinferenza sta-

    tistica e la stima dei parametri di una popo-

    lazione,media,varianza,scarto quadratico medio, per

    mezzo dei corrispondenti parametri campionari.

    Questi parametri vengono anche detti statistiche.

    Per studiare i parametri di una popolazione si fa uso

    di campioni e si traggono da essi, ossia si inferiscono,

    dati sullintera popolazione.

    3

  • 7/30/2019 Statistica Inferenziale.pdf

    4/23

    La teoria dei campioni e quella che stu-

    dia le relazioni tra una popolazione e i campi-

    oni estratti da essa. Tale teoria e utile per

    ottenere la stima dei parametri ignoti di una

    popolazione,media,varianza,scarto quadratico medio

    quando si conoscano i valori corrispondenti del campi-

    one. E utile anche per stabilire se le differenze rilevate

    tra due campioni possano essere dovute al caso o se

    siano significative: le risposte a questo ripo di quesito

    implicano luso dei test dipotesi.

    Affinche i risultati della teoria dei campioni siano va-

    lidi bisogna che i campioni scelti siano rappresentativi

    4

  • 7/30/2019 Statistica Inferenziale.pdf

    5/23

    dellintera popolazione.

    Il miglior modo per assicurarsi un campione non dis-

    torto consiste nel fornire a ogni membro della popo-

    lazione una eguale possibilita di essere incluso nel cam-

    pione: questa e la definizione di campione casuale.

    5

  • 7/30/2019 Statistica Inferenziale.pdf

    6/23

    Distribuzioni di campionamento.

    Consideriamo tutti i possibili campioni casuali di

    ampiezza n che possono essere estratti da una popo-

    lazione. Per ciascun campione si puo calcolare una

    statistica come la media, la varianza o lo scarto

    quadratico medio,che potra variare da campione a

    campione. Quindi possiamo considerare la statistica

    in questione come variabile aleatoria e studiarne la

    distribuzione. In tal modo otteniamo una di-

    stribuzione della statistica, detta distribuzione di

    campionamento della statistica stessa. Se ad

    esempio la statistica usata e la media, la distribuzione e

    6

  • 7/30/2019 Statistica Inferenziale.pdf

    7/23

    detta distribuzione della media campionaria.

    Le distribuzioni di campionamento si possono calcolare

    direttamente campionando da una popolazione finita.

    Se la popolazione e infinita le distribuzioni si derivano

    matematicamente.

    Distribuzione della media campionaria.

    Si puo dimostrare che la distribuzione della media cam-

    pionaria, qualsiasi sia la popolazione, e legata alla

    distribuzione normale. Piu precisamente si dimostra il

    Teorema del limite centrale. (Teorema 2 Par.6.3

    pag.172) Sia data una popolazione con media e var-

    ianza 2, da essa si estraggano campioni casuali di

    7

  • 7/30/2019 Statistica Inferenziale.pdf

    8/23

    ampiezza n; indichiamo con X la media campionaria.

    La distribuzione della media campionaria e approssi-

    mativamente normale con media e varianza 2/n

    per n sufficientemente grande.

    8

  • 7/30/2019 Statistica Inferenziale.pdf

    9/23

    Distribuzione della varianza campionaria.

    Supponiamo di avere una popolazione normale ed

    estraiamo tutti i possibili campioni casuali di ampiezza

    n determinando per ciascuno la varianza

    s2 =1

    n 1

    ni=1

    (xi x)2

    Anche in questo caso i valori della varianza possono

    essere visti come valori assunti da una variabile aleato-

    ria che indichiamo con S2 e che viene detta varianza

    campionaria.

    9

  • 7/30/2019 Statistica Inferenziale.pdf

    10/23

    Teorema.(Teorema n.4 Par.6.5.pag.178) Sia data

    una popolazione normale avente varianza 2 e da

    essa si estraggano campioni casuali di ampiezza

    n. Indichiamo con S2 la varianza campionaria. La

    variabile

    2 =(n 1)S2

    2

    e una variabile aleatoria avente la distribuzione 2

    (chi quadro) di parametro = n 1. Il valore

    prende il nome di grado di liberta.

    Non definiamo esattamente la funzione di

    distribuzione 2. Si dimostra comunque che la dis-

    tribuzione 2 ha media = e varianza 2 = 2.

    10

  • 7/30/2019 Statistica Inferenziale.pdf

    11/23

    La distribuzione chi-quadro e definita solo per valori

    positivi di x e in generale e asimmetrica.Lasimmetria

    diminuisce per valori elevati di .

    11

  • 7/30/2019 Statistica Inferenziale.pdf

    12/23

    STIMA DEI PARAMETRI

    Il primo problema dellinferenza statistica e quello

    di determinare i parametri relativi a una popo-

    lazione,media, varianza, scarto quadratico medio, per

    mezzo dei corrispondenti parametri campionari o

    statistiche del campione.

    Il valore del parametro da stimare per la popolazione

    e incognito e possiamo solo chiederci se, dopo ripetuti

    campionamenti, la distribuzione della statistica ha

    certe proprieta che possono garantirci che la statistica

    sia vicina al valore incognito del parametro.

    Ad esempio sappiamo che la distribuzione della media

    12

  • 7/30/2019 Statistica Inferenziale.pdf

    13/23

    campionaria ha la stessa media della popolazione da

    cui e stato ottenuto il campione. Possiamo percio

    aspettarci che, dopo piu campionamenti, la media

    campionaria sia vicina alla media della popolazione.

    I parametri che capita frequentemente di dover sti-

    mare sono la media, la varianza o la differenza tra le

    medie di due popolazioni,la proporzione di individui

    che appartengano a una certa classe di interesse. Le

    stime che si usano sono rispettivamente la media cam-

    pionaria, la varianza campionaria, la differenza tra le

    medie campionarie di due campioni indipendenti, la

    proporzione campionaria.

    13

  • 7/30/2019 Statistica Inferenziale.pdf

    14/23

    Definizione 1. Se la media di una distribuzione

    campionaria di una statistica e uguale al corrispon-

    dente parametro della popolazione, la statistica e

    detta stimatore corretto o non distorto del

    parametro.

    I valori corrispondenti di tali statistiche sono dette

    stime corrette del parametro. Ad esempio, la me-

    dia della distribuzione campionaria della media X e

    uguale alla media della popolazione. Quindi la me-

    dia campionaria x e una stima corretta della media

    della popolazione.

    Si dimostra che anche la mediana campionaria e una

    14

  • 7/30/2019 Statistica Inferenziale.pdf

    15/23

    stima corretta per la media di una popolazione. La

    varianza campionaria e a sua volta una stima corretta

    della varianza di una popolazione.

    Definizione 2. Se due statistiche sono entrambe

    stimatori corretti di un parametro, lo stimatore piu

    efficiente e quello per cui e minore la varianza della

    sua distribuzione campionaria.

    Si dimostra che tra tutte le statistiche che stimano la

    media di una popolazione, la media campionaria e la

    piu efficiente.

    15

  • 7/30/2019 Statistica Inferenziale.pdf

    16/23

    TEST DIPOTESI

    Un problema importante per linferenza statistica e

    quello di decidere se unaffermazione riguardante un

    parametro di una popolazione sia vera o falsa. Con op-

    portune verifiche si puo determinare se tali congetture

    siano compatibili con i dati disponibili dal campione.

    Definizione. Unipotesi formulata in termini di

    parametri di una popolazione, come media e varianza,

    e detta ipotesi statistica. Il procedimento che con-

    sente di rifutare o accettare uniptesi statistica utiliz-

    zando i dati di un campione, viene chiamato test di

    ipotesi.

    16

  • 7/30/2019 Statistica Inferenziale.pdf

    17/23

    La verifica delle ipotesi statistiche inizia con la

    definizione del problema in termini di ipotesi sul

    parametro di interesse. Per prima cosa si sta-

    bilisce lipotesi da sottoporre a test, detta ipotesi

    nulla,indicata con H0, ossia lipotesi che si ritiene vera

    fino a prova contraria. Oltre allipotesi nulla occorre

    specificare anche unadeguata ipotesi alternativa,

    indicata con H1, ossia unaffermazione che contraddice

    lipotesi nulla.

    Dopo aver formulato le ipotesi, occorre specifi-

    care quale risultato del campione portera al rifiuto

    dellipotesi nulla. In generale, utilizzando le proprieta

    17

  • 7/30/2019 Statistica Inferenziale.pdf

    18/23

    della distribuzione di campionamento della statistica

    soggetta a test, si puo identificare un intervallo di val-

    ori di quella statistica che verosimilmente non si pre-

    sentano se lipotesi nulla e vera.

    La distribuzione di campionamento della statistica test

    e, di solito, una distribuzione nota, come la normale e

    ricorriamo a queste distribuzioni per sottoporre a ver-

    ifica unipotesi nulla. La distribuzione di campiona-

    mento della statistica test e divisa in due regioni, una

    regione di rifiuto (insieme dei valori che conducono al

    rifiuto dellipotesi nulla) e una di accettazione (insieme

    dei valori che portano allaccettazione dellipotesi

    18

  • 7/30/2019 Statistica Inferenziale.pdf

    19/23

    nulla), delimitate da uno o piu valori, detti valori

    critici.

    19

  • 7/30/2019 Statistica Inferenziale.pdf

    20/23

    Test chi-quadro di adattamento

    Ci occuperemo adesso di un metodo statistico utile per

    stabilire se un campione di dati osservati si adatta a

    una distribuzione teorica assegnata. I test statistici

    che servono a verificare se una certa distribuzione e

    compatibile con i dati campione sono detti test sulla

    bonta delladattamento.

    Per effettuare il test supponiamo di avere un campi-

    one di n osservazioni di una variabile, raggruppate in

    una tabella contenente k classi (tabella di frequenza

    assoluta).

    20

  • 7/30/2019 Statistica Inferenziale.pdf

    21/23

    Supponiamo di avere per ciascuna classe, oltre alla

    frequenza osservata Oi, una frequenza attesa

    Ai con cui si vuole confrontare la frequenza osservata;

    le frequenze attese sono quelle che si osserverebbero se

    i dati del campione fossero distribuiti esattamente sec-

    ondo la distribuzione ipotizzata. Per valutare quanti-

    tativamente la bonta delladattamento delle frequenze

    osservate alle frequenze attese si utilizza la statistica

    test

    2 =k

    i=1

    (Oi Ai)2

    Ai

    che viene detta il chi-quadro calcolato dal cam-

    pione.

    21

  • 7/30/2019 Statistica Inferenziale.pdf

    22/23

    Si dimostra che, per n sufficientemente grande, questa

    statistica ha approssimativamente la distribuzione 2,

    con grado di liberta = k 1m, dove m e il nu-

    mero dei parametri della distribuzione teorica stimati

    servendosi dei dati del campione.

    Se lipotesi nulla H0 e che i dati si dattino alla dis-

    tribuzione teorica ipotizzata, la regola di decisione

    sara: si rifiuti lipotesi nulla se il valore della stati-

    stica 2 calcolato dai dati e maggiore del valore critico

    2

    2:

    2 > 2

    dove e il livello di significativita stabilito e il grado

    22

  • 7/30/2019 Statistica Inferenziale.pdf

    23/23

    di liberta della distribuzione 2 e = k 1m.

    Questa procedura, detta test chi-quadro di adat-

    tamento, e valida purche le frequenze assolute attese

    siano tutte maggiori o uguali a 5. Se, dopo aver cal-

    colato le frequenze attese, si osserva che qualcuna di

    queste e minore di 5, bisogna accorpare due o piu

    classi contigue.

    23