TEMA 3. Modelos de Elección Discreta - RUA:...
Transcript of TEMA 3. Modelos de Elección Discreta - RUA:...
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
TEMA 3. Modelos de Elección Discreta
Profesor: Pedro Albarrán Pérez
Universidad de Alicante. Curso 2010/2011.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Contenido
1 Introducción
2 Modelos para respuesta binariaModelo Lineal de ProbabilidadModelos Probit y Logit.
3 Estimación por Máxima Verosimilitud
4 Efectos Marginales. Predicción de ProbabilidadesEfectos Marginales¾Qué Efecto Marginal Utilizamos?Predicción de ProbabilidadesComparación de parámetros entre modelos
5 Inferencia sobre el modelo: Bondad de ajuste y Contrastes
6 Modelos Multinomiales
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introducción
En ocasiones analizamos datos donde la variable dependiente de interéstoma valores discretos:
1 Variable dependientes binarias: endeudarse o no2 Variables discretas sin ordenación: modo de transporte (tren,
autobús, etc...)3 Variables discretas con orden: cali�cación/�rating� �nanciero4 Datos de conteo (�count data�) con variables discretas ordenadas
que pueden tomar muchos valores diferentes: número de patentes deuna empresa
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Un modelo de regresión lineal puede no ser lo más adecuado en estoscasos
Los resultados son difíciles de interpretar: no se puede hablar decambio continuo
La variable dependiente sólo admite valores discretos, y puede quesólo no-negativos
A veces, la variable dependiente debe entenderse cualitativa y nocuantitativamente.
Podemos estar interesados en estimar la probabilidad de laocurrencia de los distintos valores de la variable dependiente
no tanto en el valor esperado predicho
Empezaremos considerando el caso más sencillo: la variable dependientesólo toma dos valores (es binaria).
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Una variable binaria (toma sólo dos valores):
Yi =
{1 con probabilidad p
0 con probabilidad 1− p
el valor 1 denota que el individuo ha tomado alguna acción
sigue una distribución de Bernoulli
f (y) = Pr (Y = y) = py (1− p)1−y
E (Y ) = Pr (Y = 1) = p
Var (Y ) = p (1− p)
NO estamos interesados en esta distribución incondicional de Y ,sino en su distribución condicional:
dadas sus características, cuál es la probabilidad de que el individuo i
tome una acción (Yi = 1)
Generalizando el resultado anterior, la probabilidad de Y = 1condicional en X es igual a la esperanza condicional de Y dado X
E (Y |X = x) = Pr (Y = 1|X = x) = p(x)
p (x) podría ser cualquier función
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelo Lineal de Probabilidad
Modelo Lineal de Probabilidad
El Modelo Lineal de Probabilidad simplemente supone que laesperanza condicional de la variable binaria Y es lineal.
E (Y |X = x) = Pr (Y = 1|X = x) = p(x) = β0 + β1x
Todo lo que ya sabemos sobre el modelo de regresión lineal se puedeaplicar directamente: estimación, contraste de hipótesis,interpretación de los parámetros, etc.
Sólo debemos recordar que la esperanza condicional es, en este caso,una probabilidad.
¾Por qué no se utiliza frecuentemente el Modelo Lineal deProbabilidad?
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelo Lineal de Probabilidad
MLP: limitaciones
1 Heterocedasticidad. El Modelo Lineal de Probabilidad es, porconstrucción, heterocedástico
Var (Y |X = x) = p (x) [1− p (x)] = (β0 + β1x) (1− β0 − β1x)
NO crucial: simplemente será necesario utilizar errores estándarrobustos a la presencia de heterocedasticidad
2 En un modelo lineal, los valores de E (Y |X = x) (que sonprobabilidades) NO están restringidos a estar comprendidos entrecero y uno
se pueden tener probabilidades mayores que uno o menores que ceroel cambio en la probabilidad esperada de Y = 1 puede no tenersentido
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelos Probit y Logit.
Debemos garantizar que los valores de E (Y |X = x) = p(x) esténcomprendidos entre cero y uno.Una elección natural es una función de distribución acumulada F (•),PERO sólo depende de una variable
1 Primero utilizaremos una función h (x1, . . . , xk) que ofrezca un únicovalor (índice)
el valor puede estar fuera del intervalo cero y uno
2 Posteriormente se aplica la función de distribución acumulada alíndice
E (Y |X = x) = p(x) = F (h (x1, . . . , xk))
y se obtienen valores entre el intervalo adecuado.
La opción más simple consiste en utilizar un índice lineal
h (x1, . . . , xk) = β0 + β1X1 + · · ·+ βkXk
esto no supone una restricción ahora: F (•) transformará los valoresal intervalo entre cero y uno
Estos modelos se denominan modelos de índice lineal:
E (Y |X = x) = Pr (Y = 1|X = x) = F (β0 + β1X1 + · · ·+ βkXk)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelos Probit y Logit.
Aunque existen múltiples posibilidades para F (•), se suelen utilizar dos1 La función de distribución acumulada de la normal estandarizada
Φ (z) =
zˆ
−∞φ (x) dx =
zˆ
−∞12π
exp(−12x2)dx
donde φ (x) es la función de densidad de la normal estandarizada.2 La función de distribución acumulada logística
Λ (z) =ez
1+ ez
El modelo de índice lineal que utiliza esta función de distribuciónacumulada se denomina modelo probit:
E (Y |X = x) = Pr (Y = 1|X = x) = Φ (β0 + β1X1 + · · ·+ βkXk)
El modelo de índice lineal que utiliza esta función de distribuciónacumulada se denomina modelo logit:
E (Y |X = x) = Pr (Y = 1|X = x) = Λ (β0 + β1X1 + · · ·+ βkXk)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Interpretación de Elección Económica Discreta.
Modelo de Elección Discreta
Consideremos un individuo que se plantea comprar un bien (uncoche, una casa, etc.).
Su decisión se basara en la utilidad que obtiene con la compra delbien frente a la que obtiene si no lo compra (con la mejor alternativaposible).La utilidad del individuo de comprar el bien, Vi1, depende de lascaracterísticas del mismo, algunas de las cuales son observables (X )y otras no (ε).
Supongamos que se puede expresar la utilidad como un índice linealde las características
Vi1 = π0 + π1X11i + · · ·+ πkX 1
ki + εi1
Supongamos que la utilidad del individuo si no compra el biendepende de las características de la mejor alternativa posible:
Vi0 = δ0 + δ1X01i + · · ·+ δkX 0
ki + εi0
El individuo comprará el bien si la utilidad de comprarlo es mayorque la de no comprarlo Vi1 > Vi0.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Interpretación de Elección Económica Discreta.
Se de�ne la variable latente Y ∗i como la diferencia de las utilidades(no observadas)
Y ∗i = Vi1 − Vi0
Sí observamos la decisión del individuo que resulta de compararambas utilidades.
Yi =
{1, si el individuo compra: Y ∗i = Vi1 − Vi0 > 0
0, si el individuo NO compra: Y ∗i = Vi1 − Vi0 < 0
La variable latente Y ∗i es un índice lineal de comparación deutilidades
Y ∗i = β0 + β1X1i + · · ·+ βkXki + ui
donde X son diferencias en características de las dos opciones
Si queremos calcular la esperanza condicional de la variableobservable Yi , tenemos
E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Pr (Y ∗i > 0|X1i , . . . ,Xki )
= Pr (β0 + β1X1i + · · ·+ βkXki + ui > 0|X1i , . . . ,Xki )
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Interpretación de Elección Económica Discreta.
Sólo el término de error ui es estocásticoE (Yi |X1i , . . . ,Xki ) = Pr (β0 +β1X1i + · · ·+βkXki + ui > 0|X1i , . . . ,Xki )
= Pr (ui > −β0 −β1X1i − · · ·−βkXki |X1i , . . . ,Xki )
El modelo se completa con un supuesto sobre la distribución deltérmino de error ui para calcular esta probabilidad
típicamente, se elige una distribución acumulada F (z) = Pr (U < z)
que cumpla la propiedad de simetría:
1− F (−z) = F (z)
por tanto,
Pr (ui > −β0 −β1X1i − · · ·−βkXki ) = 1−Pr (ui < −β0 −β1X1i − · · ·−βkXki )
= 1− F (−β0 −β1X1i − · · ·−βkXki )
= F (β0 +β1X1i + · · ·+βkXki )
Si ui sigue una distribución normal, se tiene un modelo probit paraYi
E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Φ (β0 + β1X1i + · · ·+ βkXki )
Si ui sigue una distribución logística, se tiene un modelo logit para Yi
E (Yi |X1i , . . . ,Xki ) = Pr (Yi = 1|X1i , . . . ,Xki ) = Λ (β0 + β1X1i + · · ·+ βkXki )
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Intuición
Ejemplo: la variable Yi toma valor 1 si al lanzar una moneda sale cara y 0en caso contrario
Se tienen muestras con dos lanzamientos: los posibles valores son{0, 0}, {0, 1}, {1, 0} y {1, 1}.
Se tienen tres posibles monedas con distintas probabilidades deobtener cara: p = {0,1; 0,5; 0,9}
La probabilidad de observar los distintos posibles valores en cadacaso es:
p = 0,10 p = 0,50 p = 0,90{0, 0} 0,81 0,25 0,01{0, 1} 0,09 0,25 0,09{1, 0} 0,09 0,25 0,09{1, 1} 0,01 0,25 0,81
La probabilidad de observar cada uno de los cuatro casos varía segúnla moneda (parámetro p)
Si observamos una muestra concreta, ¾cómo �predecir� la monedaque moneda se utilizó?
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Intuición
Intuitivamente, la lógica que propone el método de máximaverosimilitud es:
Dada un muestra observada, se elige como valor estimadoaquél que maximiza la probabilidad (verosimilitud) de queprecisamente esa muestra hubiera sido la observada.
El método de máxima verosimilitud consta, pues, de dos pasos:1 Calcular la probabilidad de cada muestra como función de los
parámetros del modelo.
Dada una muestra observada �nalmente, la probabilidad de observaresa muestra varía sólo como función de los parámetros.
2 Estimar el parámetro cómo el valor que hace máxima la probabilidadde observar una muestra concreta
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Estimación Máximo Verosímil del Modelo Probit
yi =
{1, si y∗i > 0
0, si y∗i < 0
Por simplicidad, la variable latente depende linealmente de unavariable explicativa
y∗i = β0 + β1X1 + εi
εi |X1 ∼ N (0, 1)
Para estimar los parámetros β0,β1 de este modelo probit,escribiremos la función de verosimilitud
esto es, calcular la probabilidad de los parámetros en función de lamuestra que observamos
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Estimación Máximo Verosímil del Modelo Probit
Sea un individuo i con valores observados X1i = x1iLa probabilidad de que la variable dependiente para i tome valor 1es:
Pr (Yi = 1|X1i = x1i ) = Pr (β0 + β1x1 + εi > 0)
= Pr (εi > −β0 − β1x1)
= 1− Pr (εi < −β0 − β1X1)
= 1−Φ (−β0 − β1x1)
= Φ (β0 + β1x1)
Y la probabilidad de que tome valor 0 es:
Pr (Yi = 0|X1i = x1i ) = 1−Φ (β0 + β1x1)
Por tanto, la probabilidad de observar cada valor yi = {0, 1} para elindividuo i es
Pr (Yi = yi |xi1;β0,β1) = [Φ (β0 + β1x1)]yi [1−Φ (β0 + β1x1)]
1−yi
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Estimación Máximo Verosímil del Modelo Probit
Si tenemos una muestra aleatoria, la probabilidad conjunta deobservar a los N individuos de la muestra será:
Pr (Y1 = y1, . . . ,YN = yN) =
N∏i=1
Pr (Yi = yi |xi1;β0,β1) =
L (β0,β1; y1, . . . , yn) =
N∏i=1
[Φ (β0 +β1x1)]yi [1−Φ (β0 +β1x1)]
1−yi
La probabilidad conjunta L (β0,β1; y1, . . . , yn) como función de losparámetros se denomina función de verosimilitud
para cada valor de los parámetros, informa sobre cómo de verosímil(probable) resulta que se haya generado la muestra que observamos(y1, . . . , yn).
En general, resulta más conveniente trabajar con la función delog-verosimilitud
logL (β0,β1; y1, . . . , yn) =
N∑i=1
[yi logΦ (β0 +β1x1)] (1− yi ) log [1−Φ (β0 +β1x1)]
Nuestra estimación de los parámetros será aquella que haga máximaesta función
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Estimación Máximo Verosímil del Modelo Probit
La función de verosimilitud depende del supuesto distribucional deltérmino de error
εi |X1 ∼ N (0, 1)
Si suponemos otra distribución (logística, por ejemplo) para eltérmino de error, entonces
el mecanismo del método de máxima verosimilitud es el mismola probabilidad conjunta calculada sería diferente
Por tanto, diferentes supuestos distribucionales implican distintasfunciones de verosimilitud
Asimismo, los estimadores pueden ser diferentes dependiendo delsupuesto distribucional
el máximo de la función de (log-)verosimilitud puede ser distinto
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Propiedades de los Estimadores Máximo Verosímiles
Los estimadores y sus propiedades dependen crucialmente de quédistribución se haya supuesto para el término de error.
el término de error es inobservable, no podemos conocer sudistribución
Si la distribución que suponemos resulta ser la verdaderadistribución, el estimador máximo verosímil será
1 consistente
cuando el tamaño muestral es grande, el valor estimado está próximoal verdadero valor de parámetro.
2 e�ciente (asintóticamente)
la varianza del estimador es la menor posible
Si la distribución que suponemos no resulta ser la verdadera, no sepuede garantizar esas buenas propiedades.
En algunos casos, el estimador máximo verosímil sigue siendoconsistente incluso si el supuesto distribucional no es cierto.
se habla de estimación por �pseudo� máxima verosimilitud.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Efectos Marginales
En los modelos de elección discreta,
E(Y |X1, . . . ,Xj , . . . ,Xk
)= Pr
(Y = 1|X1, . . . ,Xj , . . . ,Xk
)= F
(β0 +β1X1 + · · ·+βjXj + · · ·+βkXk
)El efecto parcial o efecto marginal de una variable continua es:
δE(Y |X1, . . . ,Xj , . . . ,Xk
)δXj
= βj f(β0 +β1X1 + · · ·+βjXj + · · ·+βkXk
)El efecto parcial o efecto marginal de una variable discreta es:
F(β0 +β1X1 + · · ·+βj
(cj + 1
)+ · · ·+βkXk
)−
F(β0 +β1X1 + · · ·+βj
(cj)+ · · ·+βkXk
)donde
F (•) es una función de distribución acumulada
(Φ (•) en el probit y Λ (•) en el logit)
f (z) = δF(z)δz
es su función de densidad.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Efectos Marginales
Notad que, a diferencia de los modelos lineales más simples,1 El efecto marginal no depende de un único parámetro
depende de todos los parámetros del modelodepende de la forma funcional concreta de f (•)
2 El efecto marginal depende de los valores de las variables explicativasX .
individuos con valores diferentes en al menos una variable explicativatienen distinto efecto marginal.para cada combinación de valores de las X tendremos distintosefectos parciales
En la práctica, se tiene un efecto marginal distinto para cadaindividuo de la muestra.
efectos ceteris paribus son efectos manteniendo constante el resto devariables en el valor de cada individuo
Aunque el efecto marginal de Xj no sólo depende de βj , el signo síque coincide,
f (•) > 0F (•) es monótona no decreciente
La signi�catividad del efecto marginal también coincide con la delparámetro, en general
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Efectos Marginales
Ejemplo 1
E (Y |X = x) = Pr (Y = 1|X = x) = δ0 + δ1X
E (Y |X = x) = Pr (Y = 1|X = x) = π0 +π1X +π2X2
E (Y |X = x) = Pr (Y = 1|X = x) = F (β0 +β1X)
Los efectos marginales son, respectivamente:δE (Y |X = x)
δX= δ1
δE (Y |X = x)
δX= π1 + 2π2X
δE (Y |X = x)
δX= β1f (β0 +β1X)
Ejemplo: Y = 1 si un individuo decide retirarse y X es su edadEl efecto marginal debe ser diferente para X = 20 y X = 60
El primer modelo lineal sólo ofrece un único efecto marginalel promedio para los distintos valores de X
El efecto marginal dependerá de X de forma diferente segúncómo se transforme X en el modelo lineal: X 2, logX , 1
X, . . .
la forma funcional de F (•)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Efectos Marginales
Ejemplo
E (Y |X1,X2) = Pr (Y = 1|X1,X2) = π0 +π1X1 +π2X2 +π3X2
2
E (Y |X1,X2) = Pr (Y = 1|X1,X2) = F (β0 +β1X1 +β2X2)
Los efectos marginales de X2 son, respectivamente:
δE (Y |X1,X2)
δX2
= π2 + 2π3X2
δE (Y |X1,X2)
δX2
= β2f (β0 +β1X1 +β2X2)
En ambos caso, el efecto marginal de X2 es depende del valor inicialde X2
Pero cuando dos individuos tienen el mismo valor de X2 y distintovalor de X1, el efecto marginal d
en el modelo lineal, es el mismo para ambos individuosen el modelo no lineal, es distinto porque sí depende de X1
Sería necesario incluir alguna interacción entre X1 y X2 en el modelolineal para conseguir lo mismo
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
¾Qué Efecto Marginal Utilizamos?
A diferencia del modelo lineal, no existe un único efecto marginal
Para cada combinación de valores en las variables explicativas, setiene un efecto marginal diferente
si hay muchas variables explicativas y/o toman muchos valoresdiferentes, mayor número de posibles valores del efecto marginal.
En la práctica, se tendrá un efecto marginal diferente para cadaindividuo en la muestra.
se tiene una distribución (muestral) de efectos parciales
Inconveniente: a priori, no tenemos un valor resumen del efectoesperado del cambio en una variable
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
¾Qué Efecto Marginal Utilizamos?
Efecto Marginal Evaluado en Valores Relevantes
En ocasiones, queremos el efecto marginal para un conjunto devalores bien determinado
por ejemplo, para un individuo de un determinado nivel educativo,con una renta dada, etc.para un único conjunto de valores dados para cada variable, setendrá un único efecto marginal
Para una variable continua, el efecto marginal evaluado en{X1 = x∗1 , . . . ,Xk = x∗k
}es:
emj∗ =
δE(Y |X1, . . . ,Xj , . . . ,Xk
)δXj
∣∣∣∣∣X1=x
∗1 ,...,Xk
=x∗k
= βj f(β0 +β1x
∗1 + · · ·+βkx
∗k
)Y para una variable discreta:
emj∗ = F
(β0 +β1x
∗1 + · · ·+βj
(cj + 1
)+ · · ·+βkx
∗k
)− F
(β0 +β1x
∗1 + · · ·+βj
(cj)+ · · ·+βkx
∗k
)
No siempre tenemos claro en qué único conjunto de valores (paratodas las variables) resulta interesante evaluar el efecto marginal.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
¾Qué Efecto Marginal Utilizamos?
Efecto Marginal Evaluado en la Media (o Mediana)
Se puede utilizar la media (o mediana) de cada variable explicativacomo valores representativos
Para una variable continua, el efecto marginal evaluado en{X1 = x1, . . . ,Xk = xk } es:
emj• =
δE(Y |X1, . . . ,Xj , . . . ,Xk
)δXj
∣∣∣∣∣X1=x1,...,Xk
=xk
= βj f (β0 +β1x1 + · · ·+βkxk)
Y para una variable discreta:em
j• = F
(β0 +β1x1 + · · ·+βj
(cj + 1
)+ · · ·+βkxk
)− F
(β0 +β1x1 + · · ·+βj
(cj)+ · · ·+βkxk
)Esta alternativa puede resultar inadecuada:
1 la media no es siempre un valor representativo de una distribución2 cuando se eligen valores relevantes para varias variables, la elección
debe ser conjunta (considerando relaciones entre ellas)el valor medio de X1 no tiene porque encontrarse asociadogeneralmente al valor medio de X2.
Se puede evaluar el efecto marginal en la media de algunas variablesy en valores concretos de otras
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
¾Qué Efecto Marginal Utilizamos?
Efecto Marginal Promedio (o Mediano, etc.)
Para cada individuo i , se obtiene su efecto marginal evaluado en{X1 = x1i , . . . ,Xk = xki }
emji=δE
(Y |X1, . . . ,Xj , . . . ,Xk
)δXj
∣∣∣∣∣X1=x1i ,...,Xk
=xki
= βj f (β0 +β1x1i + · · ·+βkxki )
Y para una variable discreta:em
j∗ = F
(β0 +β1x1i + · · ·+βj
(cj + 1
)+ · · ·+βkxki
)− F
(β0 +β1x1i + · · ·+βj
(cj)+ · · ·++βkxki
)Se tiene una distribución (muestral) de efectos marginales
puede resumirse con el Efecto Marginal Promedio
emj =1
N
N∑i=1
emji
Este enfoque sí controla por la relación entre variables explicativas.Como disponemos de toda la distribución, podemos interesarnos
por percentiles representativos de la parte alta o de la parte bajapor medidas de dispersión
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
¾Qué Efecto Marginal Utilizamos?
Nota sobre los Errores Estándar
La varianza de un efecto marginal depende de la varianza de todoslos coe�cientes estimados y de una forma no lineal:
Var
(emj∗|X
)= Var
(βj f
(β0 + β1x
∗1 + · · ·+ βkx∗k
))
resulta complicado calcular la varianza exacta (en muestra �nitas)
Se puede utilizar el llamado método delta para calcular la varianzaasintótica
AVar(emj∗|X)= J
′VJ
como una función de
la matriz de varianzas y covarianzas de los coe�cientes estimados
V = Var(β)
el jacobiano de la función f (•)
J =δ
δβ ′
[βj f
(β0 + β1x
∗1 + · · ·+ βkx
∗k
)]
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Predicción de Probabilidades
Predicción de Probabilidades
Los modelos no lineales también permiten predecir los valores de lavariable dependiente
PERO para variables dependientes discretas, resulta más convenientepredecir probabilidades de los valores
El modelo binario se re�ere directamente a la probabilidad predichade Y = 1
E [Y |X1,X2] = Pr (Y = 1|X1,X2) = F(β0 + β1X1 + β2X2
)en función de los parámetros estimadosy de los valores de las variables explicativas en los que condicionemos
La probabilidad de Y = 0 se obtiene automáticamente como sucomplementaria
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Predicción de Probabilidades
Se tienen diversas formas de predecir probabilidades1 Evaluada en valores concretos o en la media (mediana)
predicciones puntuales para unos valores no disponibles en la muestra(contrafactual)
puede contradecir la relación real entre variables explicativas
2 Evaluado en los valores observados para cada individuo
Como en el caso lineal, la media de la variable dependiente coincidirácon la media de la probabilidad predicha
Se pueden combinar ambos enfoques: algunos valores �jos y otrosobservados
se obtiene una distribución de probabilidades predichas para uncontrafactual (valores �jados arti�cialmente)
Debe calcularse el error estándar de las probabilidades predichas
puesto que dependen de estimaciones de parámetros
Se utiliza el método delta para obtener esos errores estándar
AVar(Pr (Y = 1|X1 = x∗1 ,X2 = x∗2)
)= G ′VG
donde G = δδβ′
[F(β0 + β1x
∗1+ β2x
∗2
)]
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Comparación de parámetros entre modelos
Los coe�cientes estimados en modelos Probit, Logit y deProbabilidad Lineal tienen una escala muy diferentes
βlogit ' 4βlineal
βprobit ' 2,5βlineal
βlogit ' 1,6βprobit
Esto NO supone que las implicaciones de ambos modelos seadiferentes
Los efectos marginales y las probabilidades predichas son muysimilares entre los tres modelos
sólo existen diferencias de cierta importancia en las colas entre elprobit y el logit.
Hay que recordar que el modelo lineal de probabilidad sólo estima elefecto marginal promedio y la probabilidad predicha promedio
el efecto marginal promedio del logit y del probit serán similares alcoe�ciente del modelo de probabilidad lineal
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Bondad de Ajuste
Bondad de Ajuste
El valor de la (log-)verosimilitud.
A mayor (log-)verosimilitud, mejor será el modelo
Sólo puede compararse entre modelos de la misma clase
El pseudo-R2 de McFadden:
R2 = 1−LN(β)
LN (y)
Es una medida de la mejora relativa en la log-verosimilitud
del modelo que incluye variables explicativas, LN(β)
respecto al modelo sólo con constante,LN (y) (probabilidad mediaincondicional)Esta medida está entre cero y uno, PERO NO representa proporciónde varianza explicada por el modelo
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Bondad de Ajuste
Predicciones y Bondad de Ajuste
La bondad de ajuste puede medirse como capacidad para predeciradecuadamente los datos observados
Las probabilidad predichas serán valores entre cero y uno, PERO losdatos observados son exactamente cero o uno
1 Comparación de probabilidades predichas con frecuencias muestrales
Se divide la muestra en g subgruposCalculamos la diferencia entre las probabilidad media predicha y laobservada en cada subgrupo
2 Convertir la predicción en valores binarios y calcular el porcentaje deobservaciones correctamente clasi�cadas
El resultado predicho de un individuo será 1 si su probabilidadpredicha supera un cierto umbral (p.e., 0.5 o la media de la variabledependiente)La medida de bondad de ajuste es el porcentaje de resultadospredichos que coinciden con los observados
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Contrastes
1 Test de Wald:
estima el modelo bajo la hipótesis alternativa (modelo sin restringir)comprueba si las estimaciones satisfacen las restricciones: poca�distancia� a lo especi�cado por el modelo restringido (H0)
Los test de Wald tienen una distribución asintótica conocida bajo H0
Cuando la probabilidad de observar valores muy alejados es pequeñade acuerdo con la distribución normal, se rechaza H0
2 Test del Ratio de Verosimilitudes
se estiman el modelo no restringido (Ha) y el restringido (H0)
el modelo restringido siempre tendrá menor verosimilitud (porimponer restricciones)
Una �gran� diferencia en las verosimilitudes es poco probable bajo H0
El estadístico de contraste es
LR = −2[lnL
(θr
)− lnL
(θu
)]a∼ χ2(q) bajo H0
Ambos tests son asintóticamente equivalentes: se obtendránresultados similares (rechazo o no de H0, p-valor, etc.)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Introducción
Los modelos binarios pueden generalizarse de varias formas:
modelos univariantes multinomiales: una variable dependiente conmúltiples categorías mutuamente exclusivas
las categorías pueden ser ordenadas o nolas variables explicativas pueden ser especi�cas de cada alternativa,etc.
modelos multivariantes para variables discretas
útil para varias categorías no mutuamente exclusivas
Existen varios modelos diferentes para adecuarse a cada situación
algunos modelos son consistentes con maximación de utilidad
Los parámetros NO son, en general, directamente interpretables
un coe�ciente positivo NO implica necesariamente un aumento de laprobabilidad
Los efectos marginales informan del cambio en la probabilidad deobservar cada una de las distintas categorías
no en una única probabilidad
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Modelos Multinomiales
El valor de la variable dependiente Yi para el individuo i es una de malternativas
Yi = r , r = 1, 2, . . . ,m
los valores son arbitrarios (no afectan a resultados)salvo en los modelos ordenados
La probabilidad de la alternativa r para el individuo i , condicional enlas variables explicativas Xi
pir = Pr (Yi = r |Xi ) = Fr (Xi ; θ)
donde Fr (•) depende del modelo multinomial concretoEl efecto marginal de la variable explicativa j sobre la probabilidadde la alternativa r para el individuo i es
emirj =δPr (Yi = r |Xi )
δxij=δFr (Xi ; θ)
δxij
Las probabilidades y los efectos marginales dependen de los valoresconcretos de las variables explicativas en que se evalúen
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Estimación por Máxima Verosimilitud
Para un individuo i
Pr (Yi = r |Xi ) = pyi1i1× · · · × p
yimim
=
m∏s=1
pyisis
donde
yir =
{1, si Yi = r
0, en caso contrario
Para una muestra aleatoria de individuos, la función de verosimilitudes
Pr (Y1 = y1, . . . ,YN = yN) =
N∏i=1
Pr (Yi = r |Xi ) =
N∏i=1
m∏s=1
pyisis
L (θ) =
N∏i=1
m∏s=1
[Fs (Xi ;θ)]yis
y, por tanto, la log-verosimilitud es
lnL (θ) =
N∑i=1
m∑s=1
yis lnFs (Xi ;θ)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Ya conocemos las propiedades generales del método de máximaverosimilitud
por lo visto para modelos binarios
Sabemos cómo obtener los errores estándar y realizar contrastes
Los estimadores máximo verosímiles tienen buenas propiedades,siempre que Fr (•) esté correctamente especi�cado:
supuesto distribucional correctomodelo multinomial adecuado a los datos
Se puede obtener el pseudo-R2 como medida de bondad de ajuste
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Modelos aditivos de utilidad aleatoria
Algunos modelos pueden interpretarse como resultado de maximizaciónde utilidad
La utilidad de la alternativa r para el individuo i resulta de la sumade
un componente determinístico Vir
un componente aleatorio inobservado εir
Uir = Vir + εir
Se observa que el individuo i elige la alternativa r , Yi = r , si obtienela mayor utilidad entre alternativas
Pr (Yi = r) = Pr (Uir > Uis) , para todo s
= Pr (Uis − Uir 6 0) , para todo s
= Pr (εis − εir 6 Vir − Vis) , para todo s
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Introdución: Modelos Multinomiales
Un modelo multinomial concreto especi�ca típicamente:
Vir = x ′irβ+ z ′i γr
los regresores xir son variables especí�cas para cada alternativa
(ej. características de la opción)
los regresores zi son variables invariantes a la alternativa, aunquepotencialmente con impacto diferente en cada alternativa
(ej. características del individuo)
Una distribución conjunta de εi1, . . . , εimdistintos supuestos llevan a diferentes formas de Fr (•)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit Multinomial y Logit Condicional
Modelo Logit Multinomial
Todas las variables explicativas son invariantes a la alternativaLos errores siguen una distribución conjunta logística; por tanto,
pir =exp
(X ′i βr
)∑ms=1 exp
(X ′iβs
) r = 1, . . . ,m
el vector βs se �ja a cero en una categoría (base)los coe�cientes se interpretan con respecto a la categoría base
Puede interpretarse como una serie de modelos logit para pares dealternativas
Pr (Yi = r |Yi = r o Yi = 1) =Pr (Yi = r)
Pr (Yi = r) + Pr (Yi = 1)=
exp(X ′i βr
)1+ exp
(X ′iβr
)siendo s = 1 la categoría base
Se pueden de�nir los �odd-ratios� o ratios de riesgos relativosPr (Yi = r)
Pr (Yi = 1)= exp
(X ′i βr
)exp (βrj ) representa el cambio relativo en la probabilidad de laalternativa j frente a la alternativa 1 cuando xirj aumenta en unaunidad.
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit Multinomial y Logit Condicional
En lugar de una esperanza condicional, el logit multinomial ofrece laprobabilidad de cada alternativa
Y los correspondientes efectos marginales de los regresores sobrecada probabilidad
δpirδXi
= pir(βr − βi
)βi es una media ponderada (por las probabilidades) para el individuoi del vector de coe�cientes en todas las alternativas
βi =
m∑s=1
pisβs
El signo de los coe�cientes NO coincide con el del efecto marginal:para una variable xij el efecto marginal es positivo si βj ,r > βj ,iTanto las probabilidades predichas como los efectos marginalesdependen de los valores en que se evalúen
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit Multinomial y Logit Condicional
Modelo Logit Condicional
Es una extensión del modelo Logit Multinomial que permiteregresores especí�cos para cada alternativa
pir =exp
(X ′irβ+ Z ′i γr
)∑ms=1 exp
(X ′isβ+ Z ′i γs
) r = 1, . . . ,m
Los coe�cientes de los regresores especí�cos de cada alternativa sonfácilmente interpretables:
δpirδXjis
=
{pir (1− pir )βj , r = s
−pirpisβj , r 6= s
si βj > 0, un incremento de una variable en una alternativa suponemayor probabilidad de elegir esa categoría y menor de elegir el resto
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit Anidado (�Nested Logit)
Logit Anidado
Los modelos logit multinomial/condicional imponen una restricción:la elección entre pares de alternativas es un modelo logit binario
este supuesto, conocido como de independencia de alternativas
irrelevantes, puede ser muy restrictivoej.: problema del elección �coche/bus rojo/bus azul�
Es decir, suponen que los errores de cada alternativa εir sonindependientes e idénticamente distribuidos como valor extremo
El modelo Logit Anidado requiere una estructura �anidada�
las alternativas se reparten en gruposlos errores εir están correlacionados dentro del grupo, peroincorrelacionados fuera del grupo
Por ejemplo,
modo de pesca
costa barco
playa puerto alquilado comprado
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit Anidado (�Nested Logit)
Modelo Logit Anidado (cont.)
El modelo Logit Anidado se puede derivar un problema demaximización de utilidad
suponiendo que los errores siguen una distribución multivariante (devalor extremo de Gumbel)
El modelo Logit Anidado se puede de�nir para múltiples niveles
aunque típicamente se tienes dos
Las probabilidades del modelo Logit Anidado son �similares� a las deLogit Condicional
aunque con una estructura anidada especí�ca
La interpretación de coe�cientes y efectos marginales es igual a ladiscutida antes
según se tengan regresores especí�cos de cada alternativa o nonotad que si se tienen regresores no especí�cos a la alternativa, debehaber una categoría base con su vector de parámetros igual a cero
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelo Probit Multinomial
Probit Multinomial
Permite relajar el supuesto de independencia de alternativasirrelevantes
permite un patrón de correlaciones en los errores muy �exibleno es necesario de�nir una estructura anidada
Dado un modelo de utilidad aleatoria, donde la utilidad de laalternativa r es
Uir = x ′irβ+ z ′i γr + εir
Se supone que los errores siguen una distribución conjunta normal
ε ∼ N (0,Σ)
donde ε = (εi1, . . . , εim)
La probabilidad de elegir la alternativa r es
pir = Pr (Yi = r) = Pr(εis − εir 6 (xir − xis)
′β+ z ′i (γr −γs)), para todo s
implica resolver una integral de dimensión m− 1, sin solución cerraday difícil de resolver
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelo Probit Multinomial
Probit Multinomial (cont.)
La estimación del modelo necesita
imponer restricciones sobre Σobtener las probabilidades integrando numéricamente o utilizar elmétodo de máxima verosimilitud simulada
La interpretación de probabilidades predichas y de efectos marginaleses �similar� a lo discutido anteriormente
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit/Probit Ordenado
Modelos para variable discreta ordenada
En algunos casos, las variables categóricas están ordenadas demanera naturalSea una variable latente
Y ∗i = X ′i β+ ui
La variable categórica se observa según Y ∗i cruza secuencialmentedeterminados umbrales
Yi = r , si αr−1 < Y ∗i 6 αr , r = 1, . . . ,m
donde α0 = −∞ y αm =∞La probabilidad de cada alternativa es
Pr (Yi = r) = Pr (αr−1 < Y ∗i 6 αr )
= Pr(αr−1 < X ′i β+ ui 6 αr
)= Pr
(αr−1 −X ′i β < ui 6 αr −X ′i β
)= F
(αr −X ′i β
)− F
(αr−1 −X ′i β
)
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Logit/Probit Ordenado
pir = Pr (Yi = r) = F (αr − X ′i β) − F (αr−1 − X ′i β)
La función de distribución acumulada F (•) depende del supuestosobre el término de error
si ui sigue una distribución normal estándar, se tiene el probitordenado F (•) = Φ (•)si ui sigue una distribución logística, se tiene el logit ordenadoF (•) = Λ (•)
Se pueden identi�car y estimar
bien m− 1 umbrales α y el vector β si el modelo no incluye constanteo bien m − 2 umbrales α y el vector β incluyendo constante
Las probabilidades predichas y los efectos marginales se calculan delas formas habituales
El efecto marginal de una variable continua es
δPr (Yi = r)
δXij= [F ′ (αr − X ′i β) − F ′ (αr−1 − X ′i β)]βj
el signo del efecto marginal y del coe�ciente βj coinciden
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelos Multivariantes
Modelos Multivariantes
Dos o más variables categóricas se tienen que analizarconjuntamente si
existe simultaneidad: las variables categóricas dependen de las otrasno existe simultaneidad, pero los errores están correlacionados
En el caso más sencillo tenemos dos variables binarias relacionadassólo por la correlación de los errores: modelo bi-probit
Se tienen dos variables latentes
Y∗
1i = X ′1iβ+ ε1i
Y∗
2i = X ′2iβ+ ε2i
donde ε1i y ε2i siguen una distribución conjunta normalcon esperanzas cero,varianzas 1 y correlación ρ
Se observan dos variables binarias
Y1i =
{1, si Y
∗
1i > 0
0, si Y∗
1i 6 0y Y2i =
{1, si Y
∗
2i > 0
0, si Y∗
2i 6 0
existen cuatro resultados mutuamente excluyentes
Introducción Modelos binarios Estimación MV Ef. Marginales. Predicción Inferencia Modelos Multinomiales
Modelos Multivariantes
SÓLO cuando ρ = 0, se pueden estimar separadamente dos probits
El modelo conjunto se estima por máxima verosimilitud, a partir delas expresiones de las probabilidades para los cuatro casos
aunque no existe una expresión analítica cerrada
Estimando adecuadamente (de forma conjunta) se obtienenresultados sustancialmente diferentes de los probits separados
tanto en las probabilidades Pr (Y1i = 1|Xi ) y Pr (Y2i = 1|Xi ), y en lascuatro conjuntascomo en los efectos marginales
La generalización del modelo, especialmente si una variable dependede la otra, complica sustancialmente la estimación