Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple...

Regresión logística simpleRegresión logística múltiple

Estrategias en la selección de modelos

Análisis de datos Categóricos

Regresión logística

Ms Carlos López de Castilla Vásquez

Universidad Nacional Agraria La Molina

2016-1

Ms Carlos López de Castilla Vásquez Análisis de datos Categóricos

IntroducciónInterpretación de parámetrosInferencia

Introducción

Para una variable aleatoria respuesta Y y una variableexplicativa X , sea:

π(x) = Pr (Y = 1|X = x) = 1− Pr (Y = 0|X = x)

El modelo de regresión logística es:

π(x) =exp{β0 + β1x}

1+ exp{β0 + β1x}

que es equivalente a:

logπ(x)

1− π(x)= β0 + β1x

Interpretación de parámetros

El signo del coe�ciente β1 determina si π(x) aumenta odisminuye conforme x aumenta.

Si β1 = 0 entonces Y es independiente de X .

El odds se incrementa de forma proporcional a eβ1 por cadaunidad adicional en x .

El parámetro β0 no suele ser de mayor interés.

Si π(x) = 1/2 entonces x = −β0/β1. El valor anterior esllamado LD50 y corresponde a la dosis con un 50% deposibilidades de tener resultados letales.

La tangente en un punto particular de x tiene una pendienteigual a β1π(x)(1− π(x)).

Inferencia

Para el modelo con un solo predictor:

logπ (x)

1− π (x)= β0 + β1x

las pruebas de signi�cancia se enfocan en H0 : β1 = 0, lahipótesis de independencia.

Se pueden utilizar la prueba de Wald, score y razón deverosimilitud.

Para muestras grandes las tres pruebas anteriores danresultados similares, sin embargo se pre�ere usar la prueba derazón de verosimilitud ya que usa mayor información.

Inferencia

Los intervalos de con�anza suelen ser más e�cientes. Elintervalo de Wald es:

β1 ± z1−α/2EE(β1)

Un intervalo de con�anza para logitπ(x0) es:

β0 + β1x0 ± z1−α/2EE(β0 + β1x0)

donde EE es la raíz cuadrada de:

Var(β0 + β1x0) = Var(β0) + x20Var(β1) + 2x0Cov(β0, β1)

Ejemplo

Ejemplo: Pulso

Suponga que se desea determinar el efecto del peso (en libras)de un grupo de pacientes sobre su tasa de pulso en reposo.

La variable respuesta es Y = 1 si la tasa de pulso es alta yY = 0 si la tasa de pulso es baja.

Estimar el modelo de regresión logística simple y probar si latasa de pulso es independiente del peso del paciente.

Hallar un intervalo de con�anza del 95% para el coe�ciente deregresión asociado al peso del paciente.

Hallar un intervalo de con�anza del 98% para la probabilidadque tiene un paciente de 140 libras de tener una tasa de pulsoalta.

IntroducciónPruebas y medidas de bondad de ajusteResiduales

Introducción

El modelo de regresión logística simple se puede extender haciaun modelo que permita incluir múltiples variables explicativas.

Suponga que el modelo para π (x) = Pr(Y = 1), dondex = (x1, x2, · · · , xp), es:

(π (x)

1− π (x)

)= β0 + β1x1 + β2x2 + . . .+ βpxp

El parámetro βi representa el efecto de xi en el logaritmo del

odds para Y = 1 controlando las otras xj .

El efecto multiplicativo sobre el odds por cada unidad adicionalen xi es exp{βi}, manteniendo �jas las otras xj .

Ejemplo

Ejemplo: Diabetes

Se tiene información proveniente de un estudio con 768pacientes mujeres del Instituto Nacional de enfermedadesDigestivas, Diabetes y de Riñón.

Las variables independientes involucradas son: número deembarazos, concentración de glucosa en plasma en una pruebade tolerancia oral (mmol/L), presión arterial diastólica(mmHg), grosor del pliegue del tríceps (mm), suero de insulinaen dos horas (muU/ml), índice de masa corporal, funciónpedigrí de diabetes, edad (años).

La variable respuesta diabetes cuyo valor 1 es interpretadocomo prueba de diabetes positiva.

Prueba de Hosmer y Lemeshow

La idea es agrupar las observaciones en categorías de acuerdoa las probabilidades estimadas usando g grupos cada uno conaproximadamente la misma cantidad de observaciones.

Con 10 grupos, el primer grupo de conteos observados y suscorrespondientes conteos estimados esta formado con las n/10observaciones con las probabilidades más altas y asísucesivamente.

El valor estimado es la suma de las probabilidades estimadasen cada grupo.

Sea yij la observación j en el grupo de�nido por la partición i ,i = 1, 2, · · · , g y j = 1, 2, · · · , ni .

Prueba de Hosmer y Lemeshow

Sea πij las probabilidades estimadas con la data no agrupada.

El estadístico de Hosmer y Lemeshow es:

X 2HL =

g∑i=1

(∑j yij −

∑j πij

)2(∑j πij

)(1−

(∑j πij

)cuya distribución es aproximadamente chi-cuadrado con g − 2grados de libertad.

Si el valor es grande puede ser evidencia de una falta de ajusteen el modelo.

Medidas de bondad de ajuste

Es posible comparar el logaritmo de la verosimilitud del modeloestimado y el modelo minimal que es aquel donde todas lasprobabilidades son iguales.

Sea πi las probabilidades estimadas para yi bajo el modelo deinterés.

La estadística chi-cuadrado de razón de verosimilitud es:

C = 2 (l(π, y)− l(π, y)) ∼ χ2p

Otra estadística usada es:

pseudoR2 =l(π, y)− l(π, y)

l(π, y)

Residuales de Pearson

El residual de Pearson es:

ei =yi − ni πi√ni πi (1− πi )

i = 1, 2, · · · , n

tal que X 2 =∑

El residual estandarizado de Pearson es:

ri =ei√

(1− hi )

donde hi es el leverage obtenido de la matriz hat.

Residuales de Devianza

El residual de devianza es:

gi =√di × signo(yi − ni πi )

donde:

di = 2

[yi log

(yini πi

)+ (ni − yi ) log

(ni − yini − ni πi

)]Se cumple que:

G 2 =∑

IntroducciónForward, Backward y AIC

Introducción

¾Como seleccionar un modelo de regresión logística adecuado?

El proceso de selección se hace difícil cuando el número devariables explicativas aumenta, porque aumentan a su vez losposibles efectos e interacciones.

Hay dos objetivos contrapuestos: el modelo debe ser losu�cientemente complejo como para adaptarse bien a losdatos, sin embargo los modelos más simples son más fáciles deinterpretar.

¾Cuantas variables predictoras se deben introducir en elmodelo? Los datos se dice que son no balanceados en lavariable respuesta si y = 1 o y = 0 aparecen pocas veces.

IntroducciónForward, Backward y AIC

Forward, Backward y AIC

Lo mencionado anteriormente limitara el número de variablespredictoras cuyos efectos se pueden estimar de manera precisa.

Se considera que deberá haber al menos 10 observaciones de 1o 0 por cada variable predictora.

Por ejemplo, si y = 1 solo 30 veces en n = 1000 observaciones,el modelo no deberá tener más de tres variables predictoras,aunque el tamaño total de la muestra fuera grande.

Se pueden usar métodos de selección hacia adelante (forward),selección hacia atrás (backward), selección stepwise y elcriterio de informacion de Akaike (AIC).

Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple...

Documents

Transcript of Análisis de datos Categóricos - La Molinaclopez/Categoricos/... · Regresión logística simple...

Modelos de regresión logística incondicional

FUNDAMENTO DEL MODELO DE REGRESIÓN LOGÍSTICA

ANÁLISIS DE REGRESIÓN LOGÍSTICA - USC

ELECCIÓN DEL MEJOR MODELO DE REGRESIÓN LOGÍSTICA …

Ponencia de Regresión Logística Multinomial

Medición de riesgo y su Milcíades Ibáñez Pinilla · modelos de riesgo •• modelos regresiÓn logÍstica binaria (condicional e incondicional) • modelo: regresiÓn logÍstica

Regresión Logística · Regresión Logística P. Botella-Rocamora, M.A. Martínez-Beneito y M. Alacréu-García 1 Regresión Logística Introducción En este tema estudiaremos cómo

Estadística III. Regresión logística. Ángela Segura

Un modelo de regresión logística asimétrico que puede ...

Regresión Logística y Máxima Verosimilitud para ...

EMPLEO DE LA REGRESIÓN LOGÍSTICA ORDINAL PARA LA ...

Redalyc.La Regresión Logística aplicada a un programa de ...

“SOFTWARE ESTADÍSTICO PARA REGRESIÓN. El caso de regresión Logística y Poisson”

Tutorial Sobre Regresión Logística

Modelo de regresión logística binaria para el diagnóstico ...

Árboles de clasificación vs regresión logística en el ...

Influencia local en regresión logística

Regresión Logística Geográficamente Ponderada para ...

ANÁLISIS DE DATOS Y REGRESIÓN LOGÍSTICA CON

CAPÍTULO 2 MODELO DE REGRESIÓN LOGÍSTICA