Repaso de estadistica e inferencia

Apuntes de Econometría EMI – Ingeniería Comercial

1

1. VARIABLES ALEATORIAS

EXPERIMENTO ALEATORIO, ESPACIO MUESTRAL, PUNTO MUESTRAL Y EVENTOS

EXPERIMENTO ALEATORIO Experimento: Medio de investigación científica, mediante el cual observamos, estudiamos o descubrimos las virtudes o propiedades de un fenómeno.

Aleatorio: El fenómeno investigado es de tipo aleatorio es decir los resultados del mismo son determinados por el azar o la casualidad. Antes de que se ejecute el experimento no conocemos los resultados. Ejemplos: Tirar un dado y observar el resultado, tirar dos dados y observar la suma de los mismos. Vemos un aspecto relativo a la economía como el resultado de un proceso estocástico, que, en realidad y en la generalidad de los casos, está fuera de nuestro control. El mecanismo mediante el cual se generan los resultados del proceso estocástico, se denomina Proceso Generador de Datos (PGD). ESPACIO MUESTRAL Conjunto de todos los resultados posibles de obtener cuando se realiza un experimento aleatorio. Espacio muestral del experimento aleatorio de tirar dos dados y observar la suma

D1 D2 D1+D2 D1 D2 D1+D2 D1 D2 D1+D2

1 1 2 3 1 4 5 1 61 2 3 3 2 5 5 2 71 3 4 3 3 6 5 3 81 4 5 3 4 7 5 4 91 5 6 3 5 8 5 5 101 6 7 3 6 9 5 6 112 1 3 4 1 5 6 1 72 2 4 4 2 6 6 2 82 3 5 4 3 7 6 3 92 4 6 4 4 8 6 4 102 5 7 4 5 9 6 5 112 6 8 4 6 10 6 6 12


2

PUNTO MUESTRAL Es un resultado posible cuando realizamos un experimento aleatorio. En el ejemplo anterior es un punto muestral que el primer dado salga 2 y el segundo 5. Notar que otro punto muestral es que el primer dado salga 5 y el segundo 2. EVENTO Un subconjunto del espacio muestral. (en el ejemplo, un evento posible es que la suma sea igual a 6) Eventos excluyentes, si la ocurrencia de uno de los eventos impide la ocurrencia del otro al mismo tiempo, y viceversa. Eventos exhaustivos, conjunto de todos los eventos que agotan todos los resultados posibles del experimento aleatorio.

PROBABILIDAD Y VARIABLES ALEATORIAS

PROBABILIDAD Sea A un evento en un espacio muestral. Sea )(AP la probabilidad del evento A , es decir, la proporción de veces (o frecuencia relativa) que el evento A ocurrirá en ensayos repetidos de un experimento aleatorio. PROPIEDADES DE LA PROBABILIDAD

1. 10 ≤≤ )(AP 2. Si ...,, CBA constituye un conjunto de eventos exhaustivo, entonces:

1=+++ ....)()()( CPBPAP 3. Si ...,, CBA son eventos mutuamente excluyentes, entonces:

...)()()(...)( +++= CPBPAPóCóBóAP


3

Construcción de estadísticos para el ejemplo de la suma de dados

VARIABLES ALEATORIAS Una variable, cuyo valor está determinado por el resultado de un experimento aleatorio se denomina variable aleatoria (va). Las variables aleatorias se denotan usualmente por las letras mayúsculas ZYX ,, y así sucesivamente y los valores que ellas toman se escriben con letras minúsculas zyx ,, Va. Discreta toma un número finito o infinito contable de valores. Va. Continua puede tomar cualquier valor dentro de un intervalo de valores. FUNCIÓN DE DENSIDAD DE PROBABILIDAD (FDP) DE UNA V.A DISCRETA Sea X una v.a. discreta que toma valores diferentes nxxx ,..., 21 . Entonces, la función:

i

i

xxxfnixXPxf

≠=

===

para021 para

)(

....,)()(

se denomina la función de densidad de probabilidad discreta (FDP) de X donde )( ixXP =significa la probabilidad de que la v.a. discreta X tome el valor de ix . DE UNA V.A CONTÍNUA Sea X una v.a. contínua. Entonces, se dice que )(xf es la FDP de X si cumple las siguientes condiciones:

Evento A X=x

Probabilidad(A) f(X=x) xf(x) (x-E(X))2*f(x) F(x)

2 1/36 0.06 0.69 0.033 2/36 0.17 0.89 0.084 3/36 0.33 0.75 0.175 4/36 0.56 0.44 0.286 5/36 0.83 0.14 0.427 6/36 1.17 0.00 0.588 5/36 1.11 0.14 0.729 4/36 1.00 0.44 0.83

10 3/36 0.83 0.75 0.9211 2/36 0.61 0.89 0.9712 1/36 0.33 0.69 1.00

E(X) 7.00 5.83 Var(X)2.42 Desv(X)


4

∫

∫≤≤=

=

≥∞+

∞−

b

abxaPdxxf

dxxf

xf

)()(

1)(

0)(

A diferencia de una v.a discreta, la probabilidad de que X tome un valor específico es cero. La probabilidad para este tipo de variables solamente se puede medir en un rango. FUNCIÓN DE DISTRIBUCIÓN ACUMULADA

DE UNA V.A DISCRETA

Sea X una v.a. discreta que toma valores diferentes nxxx ,..., 21 . Entonces, )(xF es la función de distribución acumulada:

Nótese que:

DE UNA V.A CONTINUA

Donde:

La función de distribución acumulada, satisface las siguientes propiedades:

1. 1)(0 ≤≤ xF 2. Si ,yx > entonces )()( yFxF ≥

3. 1)( =+∞F 4. 0)( =−∞F

Además obtenemos:

La función de distribución acumulada implica la existencia de la función de densidad de probabilidad y viceversa.


5

2. CARACTERÍSTICAS DE LAS DISTRIBUCIONES DE PROBABILIDAD

VALOR ESPERADO El valor esperado de una variable discreta X , denotado por )(XE , es:

∑=x

xxfXE )()(

El valor esperado de una variable continua X , denotado también por )(XE , es:

∫=x

dxxxfXE )()(

PROPIEDADES DEL VALOR ESPERADO

1. El valor esperado de una constante (variable determinística) es la misma constante. Si b es una constante, bbE =)( . 2. Si ba, son constantes, y X una variable aleatoria:

)()( XbEabXaE +=+ En general, para nXXX ,...., 21 y constantes nn bbbaaa ,...,,,...., 2121 :

).()()()...( nnnnnn XEbaXEbaXEbaXbaXbaXbaE +++++=++++ 222111222111 3. Si YX , son variables aleatorias, independientes una de otra:

)()()( YEXEXYE = 4. Si X es una variable aleatoria con FDP )(xf y si )(Xg es cualquier función de X , entonces

∑=x

xfXgXgE )()())(( v.a. discreta

∫=x

dxxfXgXgE )()())(( v.a. continua

Otras medidas de tendencia central son la mediana y la moda. m es la mediana de X si cumple:

21)(Pr

21)(Pr =≥=≤ mXobymXob

La moda es el valor de x para el cual )(xf toma su valor máximo. La mediana corresponde más que la media al valor medio de la distribución, elimina la influencia de valores extremos. En el caso discreto, la moda de x corresponde al valor de x que tiene la mayor probabilidad de ocurrencia.

VARIANZA (DESVIACIÓN ESTÁNDAR) Sea X una variable aleatoria y sea µ=)(XE . La distribución o dispersión de valores de los valores de X alrededor del valor esperado puede ser medida por la varianza:


6

{ }22 )()var( µσ −== XEX x La raíz cuadrada positiva de la varianza, es la desviación estándar, xσ . La varianza, se calcula como:

∑ 2)−=x

xfxX )(()var( µ v.a. discreta

dxxfxXx

)()()var( 2∫ −= µ v.a. continua

Mide el grado de dispersión de una distribución. PROPIEDADES DE LA VARIANZA (DESVIACIÓN ESTÁNDAR) 1. 22222 )()(( µσµµ +=→−=)− 2 XEXEXE 2. La varianza de una constante (variable determinística) es 0. 3. Si ba, son constantes y X es una variable aleatoria:

)var()var( XbbXa 2=− 4. Si YX , son variables aleatorias (independientes una de otra) y ba, son constantes:

)var()var()var( YbXabYaX 22 +=+ Este resultado se puede generalizar. COVARIANZA Sean YX , v.a. con medias (valores esperados) yx µµ , . La covarianza entre las dos variables es:

[ ] yxyx XYEYXEYX µµµµ −=−−= )())((),cov( La varianza es la covarianza de una variable aleatoria consigo misma. La covarianza se calcula de la siguiente manera:

∑∑∑∑ −=−−=y x

yxy x

yx yxXYfyxfYXYX µµµµ ),(),())((),cov( v.a. discretas

),(),( yYxXPyxf ===

∫ ∫∫ ∫ −=−−=y x

yxy x

yx dxdyyxXYfdxdyyxfYXYX µµµµ ),(),())((),cov( v.a continuas

PROPIEDADES DE LA COVARIANZA

1. Si YX , son independientes, su covarianza es cero. 2. ),cov(),cov( YXbddYcbXa =++


7

COEFICIENTE DE CORRELACIÓN El coeficiente de correlación se define de la siguiente manera:

yx

YXσσ

ρ),cov(

=

El coeficiente de correlación mide el grado de asociación entre las variables YX , y se encuentra en –1 y +1, donde –1 indica perfecta asociación negativa y +1 perfecta asociación positiva. Si el coeficiente de correlación es cero la asociación entre las variables es nula. VARIANZAS DE VARIABLES CORRELACIONADAS

1. Si YX , v.a. no son independientes:

),cov(2)var()var()var(),cov(2)var()var()var(

YXYXYXYXYXYX

−+=−

++=+

2. En general,

)cov(...

),cov(),cov()var(...)var()var()...var( .

nn

nn

XXXXXXXXXXXX

1

31212121

222

−

++++++=+++

MOMENTOS SUPERIORES DE LAS DISTRIBUCIONES DE PROBABILIDAD Aunque la media, la varianza y la covarianza son las medidas resumen más utilizadas en una función de densidad de probabilidades, en ocasiones se deben utilizar momentos superiores. Por ejemplo, la simetría de la distribución o la curtosis. La simetría es:

{ }3)(Simetría µ−= XE Que normalizada es el coeficiente de simetría:

{ }3

3)−=

σ

µXES

(


8

Distribución – Chi Cuadrado (Para diferentes grados de libertad)

En una distribución simétrica la simetría es igual a cero y:

La curtosis se define como:

{ }4)(Curtosis µ−= XE Que normalizada es el coeficiente de curtosis:

0 2 4 6 8 10 12 14 16 18 20 22 24

K=2

K=5K=10


9

( )4

4(σ

µ)−=

XEK

Distribuciones para diferentes grados de curtosis

La simetría y la curtosis se normalizan en la medida que la siguiente expresión crece a medida que r aumenta:

3. ALGUNAS DISTRIBUCIONES DE PROBABILIDAD IMPORTANTES

LA DISTRIBUCIÓN NORMAL La más conocida de las distribuciones. Su función de distribución de probabilidad tiene forma de campana.

⎟⎟⎠

⎞⎜⎜⎝

⎛ −−

2=

2σ

µ

πσ

2

211 )(

exp)(x

xf

Los parámetros de la distribución normal son la media y la varianza. Se dice que X tiene una distribución normal con media µ y varianza 2σ adoptando la siguiente notación:

)( 2,→ σµNX

A partir de cualquier v.a. normal se puede generar una variable Z :

σµ−

=xZ

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

Leptocúrtica

Mesocúrtica

Platicúrtica


10

Dicha variable se dice que tiene una distribución normal estándar. Esta distribución tiene la particularidad de que la media es igual a 0 y la varianza es igual a 1. Es decir, )( 10,→ NZ

Función de densidad de la distribución normal estandarizada

En una normal, el coeficiente de simetría es 0 y la curtosis es 3 (es decir, es simétrica y mesocúrtica). LA DISTRIBUCIÓN CHI-CUADRADO

Es una distribución asimétrica (a la derecha) que se va volviendo simétrica a medida que aumentan los grados de libertad (el número de observaciones o tamaño de la muestra). Su dominio corresponde a valores únicamente positivos.

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.068%

95%

99.7%

0 2 4 6 8 10 12 14 16 18 20 22 24

K=2

K=5K=10


11

LA DISTRIBUCIÓN T-STUDENT

Distribución simétrica (muy parecida a la normal). Más plana que la normal (más platicúrtica). Converge a una normal a medida que aumentan los grados de libertad K .

LA DISTRIBUCIÓN F DE FISHER

Distribución asimétrica (a la derecha). Los valores de X están definidos en el rango positivo. Al igual que la chi-cuadrado se vuelve simétrica a medida que aumentan los grados de libertad.

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5

K=1

K=150

K=10

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0

2,2

10,2

50,50


12

4. INFERENCIA ESTADÍSTICA: ESTIMACIÓN

Con el fin de estimar de estimar los parámetros de un modelo u otro tipo de experimento aleatorio, necesitaremos dos insumos: una muestra aleatoria de datos y un supuesto sobre la distribución de probabilidad asociada a dichos parámetros. Existe la estimación puntual y la estimación por intervalos.

ESTIMACIÓN PUNTUAL Sea la variable aleatoria X . Se dispone de una muestra aleatoria )...,( 21 nxxx y se conoce la función de distribución de probabilidad, ),( θxf . El parámetro a obtener es θ . Para ello se utiliza la muestra y se genera un estimador que es función de la misma:

)...,(ˆ21 nxxxg=θ

θ̂ se conoce como el estimador de θ y el valor específico que toma se denomina estimación. ESTIMACIÓN POR INTERVALOS En vez de una estimación puntual, se proporciona un intervalo de valores dentro de los cuales puede encontrarse el verdadero valor del parámetro. La clave consiste en reconocer que el estimador es una variable aleatoria, con una distribución de probabilidad. La misma puede ser utilizada para generar un intervalo de confianza para el estimador (visto más adelante). MÉTODOS DE ESTIMACIÓN En el análisis de regresión existen tres métodos de estimación que generalmente son utilizados: Mínimos Cuadrados Ordinarios (MCO), Método de Máxima Verosimilitud (MV) y el Método Generalizado de Momentos (MGM). PROPIEDADES ESTADÍSTICAS EN MUESTRAS PEQUEÑAS La calidad de un estimador, se mide por las propiedades estadísticas deseables que pueda tener: Insesgamiento Un estimador es insesgado, si el valor esperado del mismo es igual al parámetro poblacional. Es decir,

θθ =)ˆ(E


13

El insesgamiento es una propiedad de muestreo repetido. Manteniendo el tamaño de la muestra, se generan diferentes muestras y en base a cada una de ellas se genera una estimación del parámetro (y se reproduce la distribución de probabilidades del estimador). Si el estimador es insesgado, se espera que el valor esperado del mismo coincida con el parámetro poblacional. Mínima Varianza Un estimador es de mínima varianza si tiene la varianza menor entre un conjunto de estimadores.

Estimador de mínimo error cuadrático medio

El error cuadrático medio se define como:

Distribución del estimador Tita 1Distribución del estimador Tita 2

Parametro tita

Valor esperado del Tita 1 Valor esperado del Tita 2


14

2)ˆ( θθ −= EECM Es decir, es el valor esperado de la diferencia entre el estimador y el verdadero valor poblacional. Mientras menor el ECM mejor el estimador utilizado (un criterio de selección). Cuando el estimador es insesgado, el ECM coincide con la varianza del estimador. PROPIEDADES ESTADÍSTICAS EN MUESTRAS GRANDES

Insesgamiento Asintótico Un estimador es asintóticamente insesgado si a medida que aumentamos el tamaño de la muestra, el valor esperado del mismo se acerca al verdadero valor poblacional. Consistencia Un estimador es consistente si a medida que aumentamos el tamaño de la muestra la probabilidad de que el estimador difiera del valor poblacional se hace cero.

Eficiencia asintótica Un estimador es eficiente cuando asintóticamente tiene la menor varianza entre todos los estimadores considerados.

n=30

n=60

n=120


15

Normalidad Asintótica Un estimador es asintóticamente normal cuando a medida que aumenta la muestra la distribución del mismo converge a una distribución de probabilidad normal. EL PROBLEMA DE ESTIMACIÓN Sea una v.a. X con una FDP ),( θxf donde θ es el parámetro de la distribución. Sobre la base de una muestra de tamaño n se halla el estimador puntualθ̂ . La pregunta es: ¿el estimador θ̂ es compatible con algún valor para el parámetro *θ ? ¿Puede la muestra haber provenido de la FDP *),( θxf ? Para resolver estas interrogantes se utilizan las pruebas de hipótesis bajo dos modalidades: intervalos de confianza y pruebas de significancia.

*:0 θθ =H se denomina hipótesis nula.

*:1 θθ ≠H se denomina hipótesis alterna. (Prueba de dos colas) Método del Intervalo de Confianza Este método, básicamente tiene dos pasos:

• Construir un intervalo para el estimador. Es decir, construir un intervalo de confianza para θ̂ .

• Verificar si el valor *θ se encuentra dentro del intervalo. Si se encuentra dentro dicho intervalo no se rechaza la hipótesis nula. Por el contrario, si no se encuentra dentro del intervalo, se rechaza la hipótesis nula.

Para construir el intervalo de confianza del estimador, necesitamos dos ingredientes: la función de distribución de probabilidad del mismo y un nivel de significancia (denotado por α ). Veamos cómo se construye un intervalo de confianza para la media poblacional en el caso de una v.a. que tiene una distribución normal. Sea X una v.a. con distribución normal ),( 2σµN . Para construir un intervalo de confianza para µ tomamos una muestra de datos de X de tamaño n y calculamos la media muestral X . Se puede demostrar fácilmente (utilizando propiedades de valor esperado y varianza, y sabiendo que la suma de variables normalmente distribuidas tienen una distribución normal)

que ),(2

nNX

σµ→ . En términos gráficos:


16

En este caso, la hipótesis nula y la hipótesis alterna son:

*:

*:

1

0

µµ

µµ

≠

=

HH

Transformando en una distribución normal estándar:

nXZ/σ

µ−=

y recordando las propiedades de la distribución normal estándar:

Sabemos que:

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.068%

95%

99.7%


17

95.0)96.196.1( =≤≤− ZP Reemplazando la definición de Z obtenida anteriormente:

95.0)96.1/

96.1( =≤−

≤−n

XPσ

µ

Operando se tiene:

95.0)/96.1/96.1(

95.0)/96.1/96.1(

=+≤≤−

=≤−≤−

nXnXP

nXnP

σµσ

σµσ

Si *µ se encuentra dentro de este intervalo no se rechaza la hipótesis nula. En caso contrario, se rechaza la hipótesis nula. El intervalo construido se denomina región de aceptación. Los límites superior e inferior se denominan valores críticos y las regiones que quedan fuera del intervalo se denominan regiones críticas o de rechazo.

Cuando se llevan a cabo las pruebas de hipótesis existen dos tipos de errores: el error tipo I que es consiste en rechazar la hipótesis nula cuando es verdadera y el error tipo II que consisten en no rechazar la hipótesis nula cuando es falsa. Nos concentraremos en el primero de estos errores el cual se representa por α . La potencia de una prueba es la probabilidad de no cometer el error tipo II. Es decir, mide la capacidad de una prueba de rechazar la hipótesis nula cuando es falsa. Método de la prueba de significancia

Este método consiste en calcular Z :


18

nXZ/*

σ

µ−=

Bajo la hipótesis nula y alterna:

*:

*:

1

0

µµ

µµ

≠

=

HH

Luego, en la FDP de Z se encuentra la probabilidad asociada el valor obtenido de Z . Si la probabilidad asociada es baja (frente a un nivel de significancia predeterminado), se rechaza la hipótesis nula. En caso contrario, no se rechaza la hipótesis nula. Alternativamente, si el Z ( denominado Z calculado o Zc queda en la región de rechazo con los límites inferior y superior habiendo sido determinados en función a la distribución de Z y un nivel de significancia α , se rechaza la hipótesis nula. Es decir, Si Z > 2/,αtablasZ entonces se rechaza la hipótesis nula.

5. DISTRIBUCIONES CONJUNTAS (BIVARIADAS Y MULTIVARIADAS)

FUNCIÓN DE DENSIDAD DE PROBABILIDAD CONJUNTA Sean YX , v.a. discretas. Entonces la función de densidad de probabilidad conjunta discreta de que X tome el valor de x y de que Y tome el valor de y es:

yYxXyYxXPyxf

≠≠=

===

,),(),(

cuando0

Ejemplo:

Función de Probabilidad Conjunta P(X=x,Y=y)


19

En el caso de un rango (y para el caso de v.a. discretas y continuas):

Las propiedades son similares a una función de distribución univariada:

La función de distribución acumulada:

FUNCIÓN DE DENSIDAD DE PROBABILIDAD MARGINAL En relación con ),( yxf , )(xf y )(yf , se denominan funciones de densidad de probabilidad individuales o marginales. Estas funciones de densidad de probabilidad marginales, se obtienen de la siguiente manera (en el caso de una v.a. discreta):

∑

∑

=

=

x

y

yxfyf

yxfxf

),()(

),()(

-2 -1 0 1 2-1 2/24 0 2/24 4/24 00 0 1/24 2/24 0 2/242 0 3/24 2/24 0 6/24

Y=y

X=x


20

En el caso de una variable continua, se reemplaza por el integral. X y Y son estadísticamente independientes sii:

)()(),( yfxfyxf =

la misma relación se obtiene para la función de distribución conjunta.

)()(),( yFxFyxF = VALOR ESPERADO EN UNA DISTRIBUCIÓN CONJUNTA

El valor esperado, las varianzas y covarianzas y los momentos superiores se definen en términos son definidos con respecto a las distribuciones marginales. En el caso de una v.a. discreta, el valor esperado de X , )(xE , es:

∑∑∑ ==x yx

yxxfxxfxE ),()()(

En el caso de una función de una v.a. continua: dydxyxxfdxxxfxE

yxx

),()()( ∫∫∫ ==

VARIANZAS En el caso de una v.a. discreta:

∑∑∑ −=−=x yx

yxfxExxfxExxVar ),())(()())(()( 22

En el caso de una v.a. continua dydxyxfxExdxxfxExxE

yxx

),())(()())(()( 22 −=−= ∫∫∫

FUNCIÓN DE DENSIDAD DE PROBABILIDAD CONDICIONAL Estudiar el comportamiento de una variable aleatoria respecto a los valores de otra u otras variables. La función de densidad de probabilidad condicional, se define como:

)/()/( yYxXfyxf === Evalúa la probabilidad de que xX = dado que yY = . También se puede evaluar la probabilidad condicional de que yY = dado que xX = :

)/()/( xXyYfxyf ===


21

Las funciones de densidad condicionales se pueden obtener en función de las funciones de densidad conjunta y marginal, de la siguiente manera:

)(),()/(

)(),()/(

xfyxfxyf

yfyxfyxf

=

=

INDEPENDENCIA ESTADÍSTICA Dos variables aleatorias YX , son estadísticamente independientes sí y solo sí:

)()(),( yfxfyxf =

ESPERANZA Y VARIANZA CONDICIONAL La esperanza condicional de X, dado que yY = en el caso de una v.a. discreta es:

∑ ====x

yYxXxfyYXE )/()/(

En el caso de una v.a. continua se reemplaza la sumatoria por el integral. La varianza condicional de una v.a. discreta:

∑ ===−==x

yYxXfyYXEXyYX )/())/(()/var( 2

En el caso de una v.a. continua se reemplaza la sumatoria por el integral.

Repaso de estadistica e inferencia

Education

Transcript of Repaso de estadistica e inferencia