Post on 30-Jul-2020
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
Análisis de datos Categóricos
Regresión logística
Ms Carlos López de Castilla Vásquez
Universidad Nacional Agraria La Molina
2016-1
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónInterpretación de parámetrosInferencia
Introducción
Para una variable aleatoria respuesta Y y una variableexplicativa X , sea:
π(x) = Pr (Y = 1|X = x) = 1− Pr (Y = 0|X = x)
El modelo de regresión logística es:
π(x) =exp{β0 + β1x}
1+ exp{β0 + β1x}
que es equivalente a:
logπ(x)
1− π(x)= β0 + β1x
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónInterpretación de parámetrosInferencia
Interpretación de parámetros
El signo del coe�ciente β1 determina si π(x) aumenta odisminuye conforme x aumenta.
Si β1 = 0 entonces Y es independiente de X .
El odds se incrementa de forma proporcional a eβ1 por cadaunidad adicional en x .
El parámetro β0 no suele ser de mayor interés.
Si π(x) = 1/2 entonces x = −β0/β1. El valor anterior esllamado LD50 y corresponde a la dosis con un 50% deposibilidades de tener resultados letales.
La tangente en un punto particular de x tiene una pendienteigual a β1π(x)(1− π(x)).
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónInterpretación de parámetrosInferencia
Inferencia
Para el modelo con un solo predictor:
logπ (x)
1− π (x)= β0 + β1x
las pruebas de signi�cancia se enfocan en H0 : β1 = 0, lahipótesis de independencia.
Se pueden utilizar la prueba de Wald, score y razón deverosimilitud.
Para muestras grandes las tres pruebas anteriores danresultados similares, sin embargo se pre�ere usar la prueba derazón de verosimilitud ya que usa mayor información.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónInterpretación de parámetrosInferencia
Inferencia
Los intervalos de con�anza suelen ser más e�cientes. Elintervalo de Wald es:
β1 ± z1−α/2EE(β1)
Un intervalo de con�anza para logitπ(x0) es:
β0 + β1x0 ± z1−α/2EE(β0 + β1x0)
donde EE es la raíz cuadrada de:
Var(β0 + β1x0) = Var(β0) + x20Var(β1) + 2x0Cov(β0, β1)
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónInterpretación de parámetrosInferencia
Ejemplo
Ejemplo: Pulso
Suponga que se desea determinar el efecto del peso (en libras)de un grupo de pacientes sobre su tasa de pulso en reposo.
La variable respuesta es Y = 1 si la tasa de pulso es alta yY = 0 si la tasa de pulso es baja.
Estimar el modelo de regresión logística simple y probar si latasa de pulso es independiente del peso del paciente.
Hallar un intervalo de con�anza del 95% para el coe�ciente deregresión asociado al peso del paciente.
Hallar un intervalo de con�anza del 98% para la probabilidadque tiene un paciente de 140 libras de tener una tasa de pulsoalta.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Introducción
El modelo de regresión logística simple se puede extender haciaun modelo que permita incluir múltiples variables explicativas.
Suponga que el modelo para π (x) = Pr(Y = 1), dondex = (x1, x2, · · · , xp), es:
log
(π (x)
1− π (x)
)= β0 + β1x1 + β2x2 + . . .+ βpxp
El parámetro βi representa el efecto de xi en el logaritmo del
odds para Y = 1 controlando las otras xj .
El efecto multiplicativo sobre el odds por cada unidad adicionalen xi es exp{βi}, manteniendo �jas las otras xj .
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Ejemplo
Ejemplo: Diabetes
Se tiene información proveniente de un estudio con 768pacientes mujeres del Instituto Nacional de enfermedadesDigestivas, Diabetes y de Riñón.
Las variables independientes involucradas son: número deembarazos, concentración de glucosa en plasma en una pruebade tolerancia oral (mmol/L), presión arterial diastólica(mmHg), grosor del pliegue del tríceps (mm), suero de insulinaen dos horas (muU/ml), índice de masa corporal, funciónpedigrí de diabetes, edad (años).
La variable respuesta diabetes cuyo valor 1 es interpretadocomo prueba de diabetes positiva.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Prueba de Hosmer y Lemeshow
La idea es agrupar las observaciones en categorías de acuerdoa las probabilidades estimadas usando g grupos cada uno conaproximadamente la misma cantidad de observaciones.
Con 10 grupos, el primer grupo de conteos observados y suscorrespondientes conteos estimados esta formado con las n/10observaciones con las probabilidades más altas y asísucesivamente.
El valor estimado es la suma de las probabilidades estimadasen cada grupo.
Sea yij la observación j en el grupo de�nido por la partición i ,i = 1, 2, · · · , g y j = 1, 2, · · · , ni .
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Prueba de Hosmer y Lemeshow
Sea πij las probabilidades estimadas con la data no agrupada.
El estadístico de Hosmer y Lemeshow es:
X 2HL =
g∑i=1
(∑j yij −
∑j πij
)2(∑j πij
)(1−
(∑j πij
)/ni
)cuya distribución es aproximadamente chi-cuadrado con g − 2grados de libertad.
Si el valor es grande puede ser evidencia de una falta de ajusteen el modelo.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Medidas de bondad de ajuste
Es posible comparar el logaritmo de la verosimilitud del modeloestimado y el modelo minimal que es aquel donde todas lasprobabilidades son iguales.
Sea πi las probabilidades estimadas para yi bajo el modelo deinterés.
La estadística chi-cuadrado de razón de verosimilitud es:
C = 2 (l(π, y)− l(π, y)) ∼ χ2p
Otra estadística usada es:
pseudoR2 =l(π, y)− l(π, y)
l(π, y)
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Residuales de Pearson
El residual de Pearson es:
ei =yi − ni πi√ni πi (1− πi )
i = 1, 2, · · · , n
tal que X 2 =∑
e2i .
El residual estandarizado de Pearson es:
ri =ei√
(1− hi )
donde hi es el leverage obtenido de la matriz hat.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónPruebas y medidas de bondad de ajusteResiduales
Residuales de Devianza
El residual de devianza es:
gi =√di × signo(yi − ni πi )
donde:
di = 2
[yi log
(yini πi
)+ (ni − yi ) log
(ni − yini − ni πi
)]Se cumple que:
G 2 =∑
g2i
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónForward, Backward y AIC
Introducción
¾Como seleccionar un modelo de regresión logística adecuado?
El proceso de selección se hace difícil cuando el número devariables explicativas aumenta, porque aumentan a su vez losposibles efectos e interacciones.
Hay dos objetivos contrapuestos: el modelo debe ser losu�cientemente complejo como para adaptarse bien a losdatos, sin embargo los modelos más simples son más fáciles deinterpretar.
¾Cuantas variables predictoras se deben introducir en elmodelo? Los datos se dice que son no balanceados en lavariable respuesta si y = 1 o y = 0 aparecen pocas veces.
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos
Regresión logística simpleRegresión logística múltiple
Estrategias en la selección de modelos
IntroducciónForward, Backward y AIC
Forward, Backward y AIC
Lo mencionado anteriormente limitara el número de variablespredictoras cuyos efectos se pueden estimar de manera precisa.
Se considera que deberá haber al menos 10 observaciones de 1o 0 por cada variable predictora.
Por ejemplo, si y = 1 solo 30 veces en n = 1000 observaciones,el modelo no deberá tener más de tres variables predictoras,aunque el tamaño total de la muestra fuera grande.
Se pueden usar métodos de selección hacia adelante (forward),selección hacia atrás (backward), selección stepwise y elcriterio de informacion de Akaike (AIC).
Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos