TEMA 3. Modelos de Elección Discreta - RUA:...

Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales

TEMA 3. Modelos de Elección Discreta

Profesor: Pedro Albarrán Pérez

Universidad de Alicante. Curso 2010/2011.


Contenido

1 Introducción

2 Modelos para respuesta binariaModelo Lineal de ProbabilidadModelos Probit y Logit.

3 Estimación por Máxima Verosimilitud

4 Efectos Marginales. Predicción de ProbabilidadesEfectos Marginales¾Qué Efecto Marginal Utilizamos?Predicción de ProbabilidadesComparación de parámetros entre modelos

5 Inferencia sobre el modelo: Bondad de ajuste y Contrastes

6 Modelos Multinomiales


Introducción

En ocasiones analizamos datos donde la variable dependiente de interéstoma valores discretos:

1 Variable dependientes binarias: endeudarse o no2 Variables discretas sin ordenación: modo de transporte (tren,

autobús, etc...)3 Variables discretas con orden: cali�cación/�rating� �nanciero4 Datos de conteo (�count data�) con variables discretas ordenadas

que pueden tomar muchos valores diferentes: número de patentes deuna empresa


Un modelo de regresión lineal puede no ser lo más adecuado en estoscasos

Los resultados son difíciles de interpretar: no se puede hablar decambio continuo

La variable dependiente sólo admite valores discretos, y puede quesólo no-negativos

A veces, la variable dependiente debe entenderse cualitativa y nocuantitativamente.

Podemos estar interesados en estimar la probabilidad de laocurrencia de los distintos valores de la variable dependiente

no tanto en el valor esperado predicho

Empezaremos considerando el caso más sencillo: la variable dependientesólo toma dos valores (es binaria).


Una variable binaria (toma sólo dos valores):

Yi =

{1 con probabilidad p

0 con probabilidad 1− p

el valor 1 denota que el individuo ha tomado alguna acción

sigue una distribución de Bernoulli

f (y) = Pr (Y = y) = py (1− p)1−y

E (Y ) = Pr (Y = 1) = p

Var (Y ) = p (1− p)

NO estamos interesados en esta distribución incondicional de Y ,sino en su distribución condicional:

dadas sus características, cuál es la probabilidad de que el individuo i

tome una acción (Yi = 1)

Generalizando el resultado anterior, la probabilidad de Y = 1condicional en X es igual a la esperanza condicional de Y dado X

E (Y |X = x) = Pr (Y = 1|X = x) = p(x)

p (x) podría ser cualquier función


Modelo Lineal de Probabilidad


El Modelo Lineal de Probabilidad simplemente supone que laesperanza condicional de la variable binaria Y es lineal.

E (Y |X = x) = Pr (Y = 1|X = x) = p(x) = β0 + β1x

Todo lo que ya sabemos sobre el modelo de regresión lineal se puedeaplicar directamente: estimación, contraste de hipótesis,interpretación de los parámetros, etc.

Sólo debemos recordar que la esperanza condicional es, en este caso,una probabilidad.

¾Por qué no se utiliza frecuentemente el Modelo Lineal deProbabilidad?



MLP: limitaciones

1 Heterocedasticidad. El Modelo Lineal de Probabilidad es, porconstrucción, heterocedástico

Var (Y |X = x) = p (x) [1− p (x)] = (β0 + β1x) (1− β0 − β1x)

NO crucial: simplemente será necesario utilizar errores estándarrobustos a la presencia de heterocedasticidad

2 En un modelo lineal, los valores de E (Y |X = x) (que sonprobabilidades) NO están restringidos a estar comprendidos entrecero y uno

se pueden tener probabilidades mayores que uno o menores que ceroel cambio en la probabilidad esperada de Y = 1 puede no tenersentido


Modelos Probit y Logit.

Debemos garantizar que los valores de E (Y |X = x) = p(x) esténcomprendidos entre cero y uno.Una elección natural es una función de distribución acumulada F (•),PERO sólo depende de una variable

1 Primero utilizaremos una función h (x1, . . . , xk) que ofrezca un únicovalor (índice)

el valor puede estar fuera del intervalo cero y uno

2 Posteriormente se aplica la función de distribución acumulada alíndice

E (Y |X = x) = p(x) = F (h (x1, . . . , xk))

y se obtienen valores entre el intervalo adecuado.

La opción más simple consiste en utilizar un índice lineal

h (x1, . . . , xk) = β0 + β1X1 + · · ·+ βkXk

esto no supone una restricción ahora: F (•) transformará los valoresal intervalo entre cero y uno

Estos modelos se denominan modelos de índice lineal:

E (Y |X = x) = Pr (Y = 1|X = x) = F (β0 + β1X1 + · · ·+ βkXk)


Modelos Probit y Logit.

Aunque existen múltiples posibilidades para F (•), se suelen utilizar dos1 La función de distribución acumulada de la normal estandarizada

Φ (z) =

zˆ

−∞φ (x) dx =

zˆ

−∞12π

exp(−12x2)dx

donde φ (x) es la función de densidad de la normal estandarizada.2 La función de distribución acumulada logística

Λ (z) =ez

1+ ez

El modelo de índice lineal que utiliza esta función de distribuciónacumulada se denomina modelo probit:

E (Y |X = x) = Pr (Y = 1|X = x) = Φ (β0 + β1X1 + · · ·+ βkXk)

El modelo de índice lineal que utiliza esta función de distribuciónacumulada se denomina modelo logit:

E (Y |X = x) = Pr (Y = 1|X = x) = Λ (β0 + β1X1 + · · ·+ βkXk)


Interpretación de Elección Económica Discreta.

Modelo de Elección Discreta

Consideremos un individuo que se plantea comprar un bien (uncoche, una casa, etc.).

Su decisión se basara en la utilidad que obtiene con la compra delbien frente a la que obtiene si no lo compra (con la mejor alternativaposible).La utilidad del individuo de comprar el bien, Vi1, depende de lascaracterísticas del mismo, algunas de las cuales son observables (X )y otras no (ε).

Supongamos que se puede expresar la utilidad como un índice linealde las características

Vi1 = π0 + π1X11i + · · ·+ πkX 1

ki + εi1

Supongamos que la utilidad del individuo si no compra el biendepende de las características de la mejor alternativa posible:

Vi0 = δ0 + δ1X01i + · · ·+ δkX 0

ki + εi0

El individuo comprará el bien si la utilidad de comprarlo es mayorque la de no comprarlo Vi1 > Vi0.



Se de�ne la variable latente Y ∗i como la diferencia de las utilidades(no observadas)

Y ∗i = Vi1 − Vi0

Sí observamos la decisión del individuo que resulta de compararambas utilidades.

Yi =

{1, si el individuo compra: Y ∗i = Vi1 − Vi0 > 0

0, si el individuo NO compra: Y ∗i = Vi1 − Vi0 < 0

La variable latente Y ∗i es un índice lineal de comparación deutilidades

Y ∗i = β0 + β1X1i + · · ·+ βkXki + ui

donde X son diferencias en características de las dos opciones

Si queremos calcular la esperanza condicional de la variableobservable Yi , tenemos

E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Pr (Y ∗i > 0|X1i , . . . ,Xki )

= Pr (β0 + β1X1i + · · ·+ βkXki + ui > 0|X1i , . . . ,Xki )



Sólo el término de error ui es estocásticoE (Yi |X1i , . . . ,Xki ) = Pr (β0 +β1X1i + · · ·+βkXki + ui > 0|X1i , . . . ,Xki )

= Pr (ui > −β0 −β1X1i − · · ·−βkXki |X1i , . . . ,Xki )

El modelo se completa con un supuesto sobre la distribución deltérmino de error ui para calcular esta probabilidad

típicamente, se elige una distribución acumulada F (z) = Pr (U < z)

que cumpla la propiedad de simetría:

1− F (−z) = F (z)

por tanto,

Pr (ui > −β0 −β1X1i − · · ·−βkXki ) = 1−Pr (ui < −β0 −β1X1i − · · ·−βkXki )

= 1− F (−β0 −β1X1i − · · ·−βkXki )

= F (β0 +β1X1i + · · ·+βkXki )

Si ui sigue una distribución normal, se tiene un modelo probit paraYi

E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Φ (β0 + β1X1i + · · ·+ βkXki )

Si ui sigue una distribución logística, se tiene un modelo logit para Yi

E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Λ (β0 + β1X1i + · · ·+ βkXki )


Intuición

Ejemplo: la variable Yi toma valor 1 si al lanzar una moneda sale cara y 0en caso contrario

Se tienen muestras con dos lanzamientos: los posibles valores son{0, 0}, {0, 1}, {1, 0} y {1, 1}.

Se tienen tres posibles monedas con distintas probabilidades deobtener cara: p = {0,1; 0,5; 0,9}

La probabilidad de observar los distintos posibles valores en cadacaso es:

p = 0,10 p = 0,50 p = 0,90{0, 0} 0,81 0,25 0,01{0, 1} 0,09 0,25 0,09{1, 0} 0,09 0,25 0,09{1, 1} 0,01 0,25 0,81

La probabilidad de observar cada uno de los cuatro casos varía segúnla moneda (parámetro p)

Si observamos una muestra concreta, ¾cómo �predecir� la monedaque moneda se utilizó?


Intuición

Intuitivamente, la lógica que propone el método de máximaverosimilitud es:

Dada un muestra observada, se elige como valor estimadoaquél que maximiza la probabilidad (verosimilitud) de queprecisamente esa muestra hubiera sido la observada.

El método de máxima verosimilitud consta, pues, de dos pasos:1 Calcular la probabilidad de cada muestra como función de los

parámetros del modelo.

Dada una muestra observada �nalmente, la probabilidad de observaresa muestra varía sólo como función de los parámetros.

2 Estimar el parámetro cómo el valor que hace máxima la probabilidadde observar una muestra concreta


Estimación Máximo Verosímil del Modelo Probit

yi =

{1, si y∗i > 0

0, si y∗i < 0

Por simplicidad, la variable latente depende linealmente de unavariable explicativa

y∗i = β0 + β1X1 + εi

εi |X1 ∼ N (0, 1)

Para estimar los parámetros β0,β1 de este modelo probit,escribiremos la función de verosimilitud

esto es, calcular la probabilidad de los parámetros en función de lamuestra que observamos



Sea un individuo i con valores observados X1i = x1iLa probabilidad de que la variable dependiente para i tome valor 1es:

Pr (Yi = 1|X1i = x1i ) = Pr (β0 + β1x1 + εi > 0)

= Pr (εi > −β0 − β1x1)

= 1− Pr (εi < −β0 − β1X1)

= 1−Φ (−β0 − β1x1)

= Φ (β0 + β1x1)

Y la probabilidad de que tome valor 0 es:

Pr (Yi = 0|X1i = x1i ) = 1−Φ (β0 + β1x1)

Por tanto, la probabilidad de observar cada valor yi = {0, 1} para elindividuo i es

Pr (Yi = yi |xi1;β0,β1) = [Φ (β0 + β1x1)]yi [1−Φ (β0 + β1x1)]

1−yi



Si tenemos una muestra aleatoria, la probabilidad conjunta deobservar a los N individuos de la muestra será:

Pr (Y1 = y1, . . . ,YN = yN) =

N∏i=1

Pr (Yi = yi |xi1;β0,β1) =

L (β0,β1; y1, . . . , yn) =

N∏i=1

[Φ (β0 +β1x1)]yi [1−Φ (β0 +β1x1)]

1−yi

La probabilidad conjunta L (β0,β1; y1, . . . , yn) como función de losparámetros se denomina función de verosimilitud

para cada valor de los parámetros, informa sobre cómo de verosímil(probable) resulta que se haya generado la muestra que observamos(y1, . . . , yn).

En general, resulta más conveniente trabajar con la función delog-verosimilitud

logL (β0,β1; y1, . . . , yn) =

N∑i=1

[yi logΦ (β0 +β1x1)] (1− yi ) log [1−Φ (β0 +β1x1)]

Nuestra estimación de los parámetros será aquella que haga máximaesta función



La función de verosimilitud depende del supuesto distribucional deltérmino de error

εi |X1 ∼ N (0, 1)

Si suponemos otra distribución (logística, por ejemplo) para eltérmino de error, entonces

el mecanismo del método de máxima verosimilitud es el mismola probabilidad conjunta calculada sería diferente

Por tanto, diferentes supuestos distribucionales implican distintasfunciones de verosimilitud

Asimismo, los estimadores pueden ser diferentes dependiendo delsupuesto distribucional

el máximo de la función de (log-)verosimilitud puede ser distinto


Propiedades de los Estimadores Máximo Verosímiles

Los estimadores y sus propiedades dependen crucialmente de quédistribución se haya supuesto para el término de error.

el término de error es inobservable, no podemos conocer sudistribución

Si la distribución que suponemos resulta ser la verdaderadistribución, el estimador máximo verosímil será

1 consistente

cuando el tamaño muestral es grande, el valor estimado está próximoal verdadero valor de parámetro.

2 e�ciente (asintóticamente)

la varianza del estimador es la menor posible

Si la distribución que suponemos no resulta ser la verdadera, no sepuede garantizar esas buenas propiedades.

En algunos casos, el estimador máximo verosímil sigue siendoconsistente incluso si el supuesto distribucional no es cierto.

se habla de estimación por �pseudo� máxima verosimilitud.


Efectos Marginales

En los modelos de elección discreta,

E(Y |X1, . . . ,Xj , . . . ,Xk

)= Pr

(Y = 1|X1, . . . ,Xj , . . . ,Xk

)= F

(β0 +β1X1 + · · ·+βjXj + · · ·+βkXk

)El efecto parcial o efecto marginal de una variable continua es:

δE(Y |X1, . . . ,Xj , . . . ,Xk

)δXj

= βj f(β0 +β1X1 + · · ·+βjXj + · · ·+βkXk

)El efecto parcial o efecto marginal de una variable discreta es:

F(β0 +β1X1 + · · ·+βj

(cj + 1

)+ · · ·+βkXk

)−

F(β0 +β1X1 + · · ·+βj

(cj)+ · · ·+βkXk

)donde

F (•) es una función de distribución acumulada

(Φ (•) en el probit y Λ (•) en el logit)

f (z) = δF(z)δz

es su función de densidad.


Efectos Marginales

Notad que, a diferencia de los modelos lineales más simples,1 El efecto marginal no depende de un único parámetro

depende de todos los parámetros del modelodepende de la forma funcional concreta de f (•)

2 El efecto marginal depende de los valores de las variables explicativasX .

individuos con valores diferentes en al menos una variable explicativatienen distinto efecto marginal.para cada combinación de valores de las X tendremos distintosefectos parciales

En la práctica, se tiene un efecto marginal distinto para cadaindividuo de la muestra.

efectos ceteris paribus son efectos manteniendo constante el resto devariables en el valor de cada individuo

Aunque el efecto marginal de Xj no sólo depende de βj , el signo síque coincide,

f (•) > 0F (•) es monótona no decreciente

La signi�catividad del efecto marginal también coincide con la delparámetro, en general


Efectos Marginales

Ejemplo 1

E (Y |X = x) = Pr (Y = 1|X = x) = δ0 + δ1X

E (Y |X = x) = Pr (Y = 1|X = x) = π0 +π1X +π2X2

E (Y |X = x) = Pr (Y = 1|X = x) = F (β0 +β1X)

Los efectos marginales son, respectivamente:δE (Y |X = x)

δX= δ1

δE (Y |X = x)

δX= π1 + 2π2X

δE (Y |X = x)

δX= β1f (β0 +β1X)

Ejemplo: Y = 1 si un individuo decide retirarse y X es su edadEl efecto marginal debe ser diferente para X = 20 y X = 60

El primer modelo lineal sólo ofrece un único efecto marginalel promedio para los distintos valores de X

El efecto marginal dependerá de X de forma diferente segúncómo se transforme X en el modelo lineal: X 2, logX , 1

X, . . .

la forma funcional de F (•)


Efectos Marginales

Ejemplo

E (Y |X1,X2) = Pr (Y = 1|X1,X2) = π0 +π1X1 +π2X2 +π3X2

2

E (Y |X1,X2) = Pr (Y = 1|X1,X2) = F (β0 +β1X1 +β2X2)

Los efectos marginales de X2 son, respectivamente:

δE (Y |X1,X2)

δX2

= π2 + 2π3X2

δE (Y |X1,X2)

δX2

= β2f (β0 +β1X1 +β2X2)

En ambos caso, el efecto marginal de X2 es depende del valor inicialde X2

Pero cuando dos individuos tienen el mismo valor de X2 y distintovalor de X1, el efecto marginal d

en el modelo lineal, es el mismo para ambos individuosen el modelo no lineal, es distinto porque sí depende de X1

Sería necesario incluir alguna interacción entre X1 y X2 en el modelolineal para conseguir lo mismo


¾Qué Efecto Marginal Utilizamos?

A diferencia del modelo lineal, no existe un único efecto marginal

Para cada combinación de valores en las variables explicativas, setiene un efecto marginal diferente

si hay muchas variables explicativas y/o toman muchos valoresdiferentes, mayor número de posibles valores del efecto marginal.

En la práctica, se tendrá un efecto marginal diferente para cadaindividuo en la muestra.

se tiene una distribución (muestral) de efectos parciales

Inconveniente: a priori, no tenemos un valor resumen del efectoesperado del cambio en una variable



Efecto Marginal Evaluado en Valores Relevantes

En ocasiones, queremos el efecto marginal para un conjunto devalores bien determinado

por ejemplo, para un individuo de un determinado nivel educativo,con una renta dada, etc.para un único conjunto de valores dados para cada variable, setendrá un único efecto marginal

Para una variable continua, el efecto marginal evaluado en{X1 = x∗1 , . . . ,Xk = x∗k

}es:

emj∗ =

δE(Y |X1, . . . ,Xj , . . . ,Xk

)δXj

∣∣∣∣∣X1=x

∗1 ,...,Xk

=x∗k

= βj f(β0 +β1x

∗1 + · · ·+βkx

∗k

)Y para una variable discreta:

emj∗ = F

(β0 +β1x

∗1 + · · ·+βj

(cj + 1

)+ · · ·+βkx

∗k

)− F

(β0 +β1x

∗1 + · · ·+βj

(cj)+ · · ·+βkx

∗k

)

No siempre tenemos claro en qué único conjunto de valores (paratodas las variables) resulta interesante evaluar el efecto marginal.



Efecto Marginal Evaluado en la Media (o Mediana)

Se puede utilizar la media (o mediana) de cada variable explicativacomo valores representativos

Para una variable continua, el efecto marginal evaluado en{X1 = x1, . . . ,Xk = xk } es:

emj• =

δE(Y |X1, . . . ,Xj , . . . ,Xk

)δXj

∣∣∣∣∣X1=x1,...,Xk

=xk

= βj f (β0 +β1x1 + · · ·+βkxk)

Y para una variable discreta:em

j• = F

(β0 +β1x1 + · · ·+βj

(cj + 1

)+ · · ·+βkxk

)− F

(β0 +β1x1 + · · ·+βj

(cj)+ · · ·+βkxk

)Esta alternativa puede resultar inadecuada:

1 la media no es siempre un valor representativo de una distribución2 cuando se eligen valores relevantes para varias variables, la elección

debe ser conjunta (considerando relaciones entre ellas)el valor medio de X1 no tiene porque encontrarse asociadogeneralmente al valor medio de X2.

Se puede evaluar el efecto marginal en la media de algunas variablesy en valores concretos de otras



Efecto Marginal Promedio (o Mediano, etc.)

Para cada individuo i , se obtiene su efecto marginal evaluado en{X1 = x1i , . . . ,Xk = xki }

emji=δE

(Y |X1, . . . ,Xj , . . . ,Xk

)δXj

∣∣∣∣∣X1=x1i ,...,Xk

=xki

= βj f (β0 +β1x1i + · · ·+βkxki )

Y para una variable discreta:em

j∗ = F

(β0 +β1x1i + · · ·+βj

(cj + 1

)+ · · ·+βkxki

)− F

(β0 +β1x1i + · · ·+βj

(cj)+ · · ·++βkxki

)Se tiene una distribución (muestral) de efectos marginales

puede resumirse con el Efecto Marginal Promedio

emj =1

N

N∑i=1

emji

Este enfoque sí controla por la relación entre variables explicativas.Como disponemos de toda la distribución, podemos interesarnos

por percentiles representativos de la parte alta o de la parte bajapor medidas de dispersión



Nota sobre los Errores Estándar

La varianza de un efecto marginal depende de la varianza de todoslos coe�cientes estimados y de una forma no lineal:

Var

(emj∗|X

)= Var

(βj f

(β0 + β1x

∗1 + · · ·+ βkx∗k

))

resulta complicado calcular la varianza exacta (en muestra �nitas)

Se puede utilizar el llamado método delta para calcular la varianzaasintótica

AVar(emj∗|X)= J

′VJ

como una función de

la matriz de varianzas y covarianzas de los coe�cientes estimados

V = Var(β)

el jacobiano de la función f (•)

J =δ

δβ ′

[βj f

(β0 + β1x

∗1 + · · ·+ βkx

∗k

)]


Predicción de Probabilidades


Los modelos no lineales también permiten predecir los valores de lavariable dependiente

PERO para variables dependientes discretas, resulta más convenientepredecir probabilidades de los valores

El modelo binario se re�ere directamente a la probabilidad predichade Y = 1

E [Y |X1,X2] = Pr (Y = 1|X1,X2) = F(β0 + β1X1 + β2X2

)en función de los parámetros estimadosy de los valores de las variables explicativas en los que condicionemos

La probabilidad de Y = 0 se obtiene automáticamente como sucomplementaria



Se tienen diversas formas de predecir probabilidades1 Evaluada en valores concretos o en la media (mediana)

predicciones puntuales para unos valores no disponibles en la muestra(contrafactual)

puede contradecir la relación real entre variables explicativas

2 Evaluado en los valores observados para cada individuo

Como en el caso lineal, la media de la variable dependiente coincidirácon la media de la probabilidad predicha

Se pueden combinar ambos enfoques: algunos valores �jos y otrosobservados

se obtiene una distribución de probabilidades predichas para uncontrafactual (valores �jados arti�cialmente)

Debe calcularse el error estándar de las probabilidades predichas

puesto que dependen de estimaciones de parámetros

Se utiliza el método delta para obtener esos errores estándar

AVar(Pr (Y = 1|X1 = x∗1 ,X2 = x∗2)

)= G ′VG

donde G = δδβ′

[F(β0 + β1x

∗1+ β2x

∗2

)]


Comparación de parámetros entre modelos

Los coe�cientes estimados en modelos Probit, Logit y deProbabilidad Lineal tienen una escala muy diferentes

βlogit ' 4βlineal

βprobit ' 2,5βlineal

βlogit ' 1,6βprobit

Esto NO supone que las implicaciones de ambos modelos seadiferentes

Los efectos marginales y las probabilidades predichas son muysimilares entre los tres modelos

sólo existen diferencias de cierta importancia en las colas entre elprobit y el logit.

Hay que recordar que el modelo lineal de probabilidad sólo estima elefecto marginal promedio y la probabilidad predicha promedio

el efecto marginal promedio del logit y del probit serán similares alcoe�ciente del modelo de probabilidad lineal


Bondad de Ajuste

Bondad de Ajuste

El valor de la (log-)verosimilitud.

A mayor (log-)verosimilitud, mejor será el modelo

Sólo puede compararse entre modelos de la misma clase

El pseudo-R2 de McFadden:

R2 = 1−LN(β)

LN (y)

Es una medida de la mejora relativa en la log-verosimilitud

del modelo que incluye variables explicativas, LN(β)

respecto al modelo sólo con constante,LN (y) (probabilidad mediaincondicional)Esta medida está entre cero y uno, PERO NO representa proporciónde varianza explicada por el modelo


Bondad de Ajuste

Predicciones y Bondad de Ajuste

La bondad de ajuste puede medirse como capacidad para predeciradecuadamente los datos observados

Las probabilidad predichas serán valores entre cero y uno, PERO losdatos observados son exactamente cero o uno

1 Comparación de probabilidades predichas con frecuencias muestrales

Se divide la muestra en g subgruposCalculamos la diferencia entre las probabilidad media predicha y laobservada en cada subgrupo

2 Convertir la predicción en valores binarios y calcular el porcentaje deobservaciones correctamente clasi�cadas

El resultado predicho de un individuo será 1 si su probabilidadpredicha supera un cierto umbral (p.e., 0.5 o la media de la variabledependiente)La medida de bondad de ajuste es el porcentaje de resultadospredichos que coinciden con los observados


Contrastes

1 Test de Wald:

estima el modelo bajo la hipótesis alternativa (modelo sin restringir)comprueba si las estimaciones satisfacen las restricciones: poca�distancia� a lo especi�cado por el modelo restringido (H0)

Los test de Wald tienen una distribución asintótica conocida bajo H0

Cuando la probabilidad de observar valores muy alejados es pequeñade acuerdo con la distribución normal, se rechaza H0

2 Test del Ratio de Verosimilitudes

se estiman el modelo no restringido (Ha) y el restringido (H0)

el modelo restringido siempre tendrá menor verosimilitud (porimponer restricciones)

Una �gran� diferencia en las verosimilitudes es poco probable bajo H0

El estadístico de contraste es

LR = −2[lnL

(θr

)− lnL

(θu

)]a∼ χ2(q) bajo H0

Ambos tests son asintóticamente equivalentes: se obtendránresultados similares (rechazo o no de H0, p-valor, etc.)


Introdución: Modelos Multinomiales

Introducción

Los modelos binarios pueden generalizarse de varias formas:

modelos univariantes multinomiales: una variable dependiente conmúltiples categorías mutuamente exclusivas

las categorías pueden ser ordenadas o nolas variables explicativas pueden ser especi�cas de cada alternativa,etc.

modelos multivariantes para variables discretas

útil para varias categorías no mutuamente exclusivas

Existen varios modelos diferentes para adecuarse a cada situación

algunos modelos son consistentes con maximación de utilidad

Los parámetros NO son, en general, directamente interpretables

un coe�ciente positivo NO implica necesariamente un aumento de laprobabilidad

Los efectos marginales informan del cambio en la probabilidad deobservar cada una de las distintas categorías

no en una única probabilidad



Modelos Multinomiales

El valor de la variable dependiente Yi para el individuo i es una de malternativas

Yi = r , r = 1, 2, . . . ,m

los valores son arbitrarios (no afectan a resultados)salvo en los modelos ordenados

La probabilidad de la alternativa r para el individuo i , condicional enlas variables explicativas Xi

pir = Pr (Yi = r |Xi ) = Fr (Xi ; θ)

donde Fr (•) depende del modelo multinomial concretoEl efecto marginal de la variable explicativa j sobre la probabilidadde la alternativa r para el individuo i es

emirj =δPr (Yi = r |Xi )

δxij=δFr (Xi ; θ)

δxij

Las probabilidades y los efectos marginales dependen de los valoresconcretos de las variables explicativas en que se evalúen



Estimación por Máxima Verosimilitud

Para un individuo i

Pr (Yi = r |Xi ) = pyi1i1× · · · × p

yimim

=

m∏s=1

pyisis

donde

yir =

{1, si Yi = r

0, en caso contrario

Para una muestra aleatoria de individuos, la función de verosimilitudes

Pr (Y1 = y1, . . . ,YN = yN) =

N∏i=1

Pr (Yi = r |Xi ) =

N∏i=1

m∏s=1

pyisis

L (θ) =

N∏i=1

m∏s=1

[Fs (Xi ;θ)]yis

y, por tanto, la log-verosimilitud es

lnL (θ) =

N∑i=1

m∑s=1

yis lnFs (Xi ;θ)



Ya conocemos las propiedades generales del método de máximaverosimilitud

por lo visto para modelos binarios

Sabemos cómo obtener los errores estándar y realizar contrastes

Los estimadores máximo verosímiles tienen buenas propiedades,siempre que Fr (•) esté correctamente especi�cado:

supuesto distribucional correctomodelo multinomial adecuado a los datos

Se puede obtener el pseudo-R2 como medida de bondad de ajuste



Modelos aditivos de utilidad aleatoria

Algunos modelos pueden interpretarse como resultado de maximizaciónde utilidad

La utilidad de la alternativa r para el individuo i resulta de la sumade

un componente determinístico Vir

un componente aleatorio inobservado εir

Uir = Vir + εir

Se observa que el individuo i elige la alternativa r , Yi = r , si obtienela mayor utilidad entre alternativas

Pr (Yi = r) = Pr (Uir > Uis) , para todo s

= Pr (Uis − Uir 6 0) , para todo s

= Pr (εis − εir 6 Vir − Vis) , para todo s



Un modelo multinomial concreto especi�ca típicamente:

Vir = x ′irβ+ z ′i γr

los regresores xir son variables especí�cas para cada alternativa

(ej. características de la opción)

los regresores zi son variables invariantes a la alternativa, aunquepotencialmente con impacto diferente en cada alternativa

(ej. características del individuo)

Una distribución conjunta de εi1, . . . , εimdistintos supuestos llevan a diferentes formas de Fr (•)


Logit Multinomial y Logit Condicional

Modelo Logit Multinomial

Todas las variables explicativas son invariantes a la alternativaLos errores siguen una distribución conjunta logística; por tanto,

pir =exp

(X ′i βr

)∑ms=1 exp

(X ′iβs

) r = 1, . . . ,m

el vector βs se �ja a cero en una categoría (base)los coe�cientes se interpretan con respecto a la categoría base

Puede interpretarse como una serie de modelos logit para pares dealternativas

Pr (Yi = r |Yi = r o Yi = 1) =Pr (Yi = r)

Pr (Yi = r) + Pr (Yi = 1)=

exp(X ′i βr

)1+ exp

(X ′iβr

)siendo s = 1 la categoría base

Se pueden de�nir los �odd-ratios� o ratios de riesgos relativosPr (Yi = r)

Pr (Yi = 1)= exp

(X ′i βr

)exp (βrj ) representa el cambio relativo en la probabilidad de laalternativa j frente a la alternativa 1 cuando xirj aumenta en unaunidad.



En lugar de una esperanza condicional, el logit multinomial ofrece laprobabilidad de cada alternativa

Y los correspondientes efectos marginales de los regresores sobrecada probabilidad

δpirδXi

= pir(βr − βi

)βi es una media ponderada (por las probabilidades) para el individuoi del vector de coe�cientes en todas las alternativas

βi =

m∑s=1

pisβs

El signo de los coe�cientes NO coincide con el del efecto marginal:para una variable xij el efecto marginal es positivo si βj ,r > βj ,iTanto las probabilidades predichas como los efectos marginalesdependen de los valores en que se evalúen



Modelo Logit Condicional

Es una extensión del modelo Logit Multinomial que permiteregresores especí�cos para cada alternativa

pir =exp

(X ′irβ+ Z ′i γr

)∑ms=1 exp

(X ′isβ+ Z ′i γs

) r = 1, . . . ,m

Los coe�cientes de los regresores especí�cos de cada alternativa sonfácilmente interpretables:

δpirδXjis

=

{pir (1− pir )βj , r = s

−pirpisβj , r 6= s

si βj > 0, un incremento de una variable en una alternativa suponemayor probabilidad de elegir esa categoría y menor de elegir el resto


Logit Anidado (�Nested Logit)

Logit Anidado

Los modelos logit multinomial/condicional imponen una restricción:la elección entre pares de alternativas es un modelo logit binario

este supuesto, conocido como de independencia de alternativas

irrelevantes, puede ser muy restrictivoej.: problema del elección �coche/bus rojo/bus azul�

Es decir, suponen que los errores de cada alternativa εir sonindependientes e idénticamente distribuidos como valor extremo

El modelo Logit Anidado requiere una estructura �anidada�

las alternativas se reparten en gruposlos errores εir están correlacionados dentro del grupo, peroincorrelacionados fuera del grupo

Por ejemplo,

modo de pesca

costa barco

playa puerto alquilado comprado


Logit Anidado (�Nested Logit)

Modelo Logit Anidado (cont.)

El modelo Logit Anidado se puede derivar un problema demaximización de utilidad

suponiendo que los errores siguen una distribución multivariante (devalor extremo de Gumbel)

El modelo Logit Anidado se puede de�nir para múltiples niveles

aunque típicamente se tienes dos

Las probabilidades del modelo Logit Anidado son �similares� a las deLogit Condicional

aunque con una estructura anidada especí�ca

La interpretación de coe�cientes y efectos marginales es igual a ladiscutida antes

según se tengan regresores especí�cos de cada alternativa o nonotad que si se tienen regresores no especí�cos a la alternativa, debehaber una categoría base con su vector de parámetros igual a cero


Modelo Probit Multinomial

Probit Multinomial

Permite relajar el supuesto de independencia de alternativasirrelevantes

permite un patrón de correlaciones en los errores muy �exibleno es necesario de�nir una estructura anidada

Dado un modelo de utilidad aleatoria, donde la utilidad de laalternativa r es

Uir = x ′irβ+ z ′i γr + εir

Se supone que los errores siguen una distribución conjunta normal

ε ∼ N (0,Σ)

donde ε = (εi1, . . . , εim)

La probabilidad de elegir la alternativa r es

pir = Pr (Yi = r) = Pr(εis − εir 6 (xir − xis)

′β+ z ′i (γr −γs)), para todo s

implica resolver una integral de dimensión m− 1, sin solución cerraday difícil de resolver


Modelo Probit Multinomial

Probit Multinomial (cont.)

La estimación del modelo necesita

imponer restricciones sobre Σobtener las probabilidades integrando numéricamente o utilizar elmétodo de máxima verosimilitud simulada

La interpretación de probabilidades predichas y de efectos marginaleses �similar� a lo discutido anteriormente


Logit/Probit Ordenado

Modelos para variable discreta ordenada

En algunos casos, las variables categóricas están ordenadas demanera naturalSea una variable latente

Y ∗i = X ′i β+ ui

La variable categórica se observa según Y ∗i cruza secuencialmentedeterminados umbrales

Yi = r , si αr−1 < Y ∗i 6 αr , r = 1, . . . ,m

donde α0 = −∞ y αm =∞La probabilidad de cada alternativa es

Pr (Yi = r) = Pr (αr−1 < Y ∗i 6 αr )

= Pr(αr−1 < X ′i β+ ui 6 αr

)= Pr

(αr−1 −X ′i β < ui 6 αr −X ′i β

)= F

(αr −X ′i β

)− F

(αr−1 −X ′i β

)


Logit/Probit Ordenado

pir = Pr (Yi = r) = F (αr − X ′i β) − F (αr−1 − X ′i β)

La función de distribución acumulada F (•) depende del supuestosobre el término de error

si ui sigue una distribución normal estándar, se tiene el probitordenado F (•) = Φ (•)si ui sigue una distribución logística, se tiene el logit ordenadoF (•) = Λ (•)

Se pueden identi�car y estimar

bien m− 1 umbrales α y el vector β si el modelo no incluye constanteo bien m − 2 umbrales α y el vector β incluyendo constante

Las probabilidades predichas y los efectos marginales se calculan delas formas habituales

El efecto marginal de una variable continua es

δPr (Yi = r)

δXij= [F ′ (αr − X ′i β) − F ′ (αr−1 − X ′i β)]βj

el signo del efecto marginal y del coe�ciente βj coinciden


Modelos Multivariantes


Dos o más variables categóricas se tienen que analizarconjuntamente si

existe simultaneidad: las variables categóricas dependen de las otrasno existe simultaneidad, pero los errores están correlacionados

En el caso más sencillo tenemos dos variables binarias relacionadassólo por la correlación de los errores: modelo bi-probit

Se tienen dos variables latentes

Y∗

1i = X ′1iβ+ ε1i

Y∗

2i = X ′2iβ+ ε2i

donde ε1i y ε2i siguen una distribución conjunta normalcon esperanzas cero,varianzas 1 y correlación ρ

Se observan dos variables binarias

Y1i =

{1, si Y

∗

1i > 0

0, si Y∗

1i 6 0y Y2i =

{1, si Y

∗

2i > 0

0, si Y∗

2i 6 0

existen cuatro resultados mutuamente excluyentes



SÓLO cuando ρ = 0, se pueden estimar separadamente dos probits

El modelo conjunto se estima por máxima verosimilitud, a partir delas expresiones de las probabilidades para los cuatro casos

aunque no existe una expresión analítica cerrada

Estimando adecuadamente (de forma conjunta) se obtienenresultados sustancialmente diferentes de los probits separados

tanto en las probabilidades Pr (Y1i = 1|Xi ) y Pr (Y2i = 1|Xi ), y en lascuatro conjuntascomo en los efectos marginales

La generalización del modelo, especialmente si una variable dependede la otra, complica sustancialmente la estimación

TEMA 3. Modelos de Elección Discreta - RUA:...

Documents

Transcript of TEMA 3. Modelos de Elección Discreta - RUA:...