Fundamentos de Biología Aplicada I
Estadística
Curso 2011-2012
Práctica 5: Regresión Lineal Múltiple
Índice
1. Objetivos de la práctica 2
2. Ajuste del modelo de regresión lineal múltiple con SPSS 2
2.1. Estimación de los parámetros del modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2. Contrastes en el modelo de regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.1. Contraste de la regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2. Contraste de hipótesis individuales sobre los coe�cientes (basados en la t de Student) . 4
2.3. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4. Diagnosis del modelo de regresión lineal múltiple . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.4.1. Normalidad de los errores y homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . 4
2.4.2. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.5. Selección de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.5.1. Eliminación hacia atrás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.2. Selección hacia adelante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.5.3. Pasos sucesivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3. Un análisis completo: estimación del porcentaje de grasa corporal 8
1
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
1 Objetivos de la práctica
El objetivo de esta práctica es que aprendas a plantear y analizar un modelo de regresión lineal múltiple. En un
modelo de regresión lineal múltiple, se asume que el valor esperado de una variable respuesta Y es función lineal
de varias variables explicativas X1; X2; : : : ; Xp. El modelo y las herramientas para hacer inferencia asociadas
serán válidos siempre que se veri�quen las hipótesis de independencia, normalidad y varianza constante de los
errores. En esta práctica aprenderás a utilizar las herramientas disponibles en SPSS para llevar a cabo un análisis
completo del modelo de regresión lineal múltiple.
2 Ajuste del modelo de regresión lineal múltiple con SPSS
En primer lugar veremos como llevar a cabo el ajuste de un modelo de regresión lineal múltiple con SPSS. Para
ello trabajaremos con los datos comentados en clase de teoría.
Ejemplo: En un estudio sobre la población de un parásito se hizo un recuento de parásitos en 15 localizaciones
con diversas condiciones ambientales. Se midieron en las 15 localizaciones las variables Humedad,
Temperatura y Recuento. Los datos se encuentran en el archivo parasito.sav.
En primer lugar, realizaremos un diagrama de dispersión para analizar grá�camente las posibles relaciones entre
las variables. Para ello selecciona Grá�cos I Cuadros de diálogos antiguos I Dispersión/puntos... Elige la
opción de Dispersión matricial para obtener una grá�ca como la que se muestra en la Figura 1.
Figura 1: Diagrama de dispersión
A la vista del diagrama de dispersión, parece que tiene sentido plantear un modelo de regresión lineal múltiple
para explicar la presencia del parásito en función de la temperatura y humedad de la localización. Es decir, si
denotamos
Y = Recuento del parásito
X1= Temperatura
X2= Humedad
el modelo planteado sería:
Y = �0 + �1X1 + �2X2 + �:
Página 2 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
El modelo asume además que los errores sin independientes, con distribución normal de media cero y varianza
constante �2. El primer objetivo será estimar, a partir de la muestra, los parámetros del modelo.
2.1 Estimación de los parámetros del modelo
Para obtener los parámetros estimados del modelo selecciona Analizar I Regresión I Lineales...
Elige la variable Recuento como variable dependiente y las variables Temperatura y Humedad como variables
independientes. Obtendrás entre otras la tabla que se muestra en la Figura 2
Figura 2: Coe�cientes parciales de la regresión estimados
A partir de la tabla deducimos que �0 = 25:7115, �1 = 1:5818 y �2 = 1:5424. Por lo tanto el modelo ajustado
sería:
Y = 25:7115 + 1:5818X1 + 1:5424X2:
Deducimos por ejemplo que, si mantenemos el porcentaje de humedad constante, el valor esperado de recuento
de parásitos aumenta 1:5818 unidades por cada unidad (oC) que aumenta la temperatura.
El estimador de la varianza del error es �2 = 343:54212 = 28:628.
En la tabla Resumen del modelo aparece también el valor de coe�ciente de determinación R2 y el del coe�ciente
de determinación ajustado.
2.2 Contrastes en el modelo de regresión lineal múltiple
2.2.1 Contraste de la regresión
Suponiendo que se cumple el modelo de regresión lineal múltiple, estamos interesados en determinar si el modelo
es o no explicativo. En este ejemplo:
Página 3 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
H0 : �1 = �2 = 0
H1 : �j 6= 0 para algún j = 1; 2
Recuerda que el estadístico de contraste es:
F =
VE
p
VR
n�(p+1)
:
En la tabla ANOVA vemos que para este ejemplo F = 63:751. ¾Cuál es la conclusión del contraste?
2.2.2 Contraste de hipótesis individuales sobre los coe�cientes (basados en la t de Student)
Suponiendo que se cumple el modelo de regresión lineal múltiple, estamos interesados en determinar qué variables
Xj son signi�cativas para explicar la variable respuesta Y .
H0 : �j = 0 (Xj no in�uye sobre Y )
H1 : �j 6= 0 (Xj in�uye sobre Y )
El contraste individual de la t de Student permite contrastar la in�uencia individual de la variable Xj . Analiza
en la tabla de Coe�cientes los resultados para los contrastes individuales sobre �1 y �2.
2.3 Predicción
Queremos contestar a las siguientes preguntas:
¾Cuál es el número medio estimado de parásitos en las localizaciones con un 70% de humedad y tempe-
ratura de 15oC?
En una zona de clima tropical del sur de Estados Unidos, la temperatura es de 15oC y su humedad del
70%, ¾cuál es el número predicho de parásitos en dicha localización?
En base al modelo ajustado, concluimos que:
El número medio estimado será 25:7115 + 1:5818 � 15 + 1:5424 � 70 = 157:41 parásitos:
Predecimos que en dicha localización habrá 25:7115 + 1:5818 � 15 + 1:5424 � 70 = 157:41 parásitos:
Podemos guardar los valores pronosticados para las observaciones de la muestra y los intervalos de con�anza
para la media y los intervalos de con�anza para los valores observados de Y mediante la opción Guardar (ver
Figura 3).
2.4 Diagnosis del modelo de regresión lineal múltiple
2.4.1 Normalidad de los errores y homocedasticidad
Para llevar a cabo una buena interpretación de un modelo de regresión debemos acompañar siempre nuestro
estudio de la diagnosis y validación del modelo. El modelo de regresión lineal múltiple asume que la distribución de
los errores es Normal. El modelo también asume que la varianza de los errores es constante (homocedasticidad).
Para estudiar si se veri�can estas hipótesis se pueden realizar grá�cos de normalidad y de residuos mediante la
opción Grá�cos como se muestra en la Figura 4. Analiza los resultados obtenidos.
Página 4 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
Figura 3: Predicciones e intervalos de con�anza
Figura 4: Grá�cos para diagnosis del modelo
2.4.2 Multicolinealidad
El modelo de regresión lineal múltiple asume que las variables explicativas son linealmente independientes. En la
práctica, aunque no se suele dar una relación lineal exacta entre variables explicativas, sí que suele ocurrir que
existe una cierta relación entre ellas (multicolinealidad). En ese caso se puede ajustar y estimar el modelo de
regresión lineal, pero con mucha variabilidad. Se puede detectar multicolinealidad a partir de:
Grá�co de dispersión (ver Figura 1).
Matriz de correlaciones (Analizar I Correlaciones I Bivariadas).
También se puede detectar multicolinealidad a partir de diagnósticos especí�cos:
Factores de in�ación de la varianza (FIV): Como regla general nos deberían preocupar valores de FIV
mayores de 10.
Página 5 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
Índice de condición: Si no hay multicolinealidad, estos índices no deben superar el valor 15. Índices mayores
que 15 indican posible existencia de multicolinealidad. Si los índices superan en valor 30, hay un problema
severo de multicolinealidad.
Para llevar a cabo estos diagnósticos, selecciona la opción Diagnósticos de colinealidad en el menú Analizar
I Regresión I Lineales... (botón Estadísticos), como se muestra en la Figura 5.
Figura 5: Diagnósticos de multicolinealidad
A la vista del grá�co de dispersión y de los resultados de los diagnósticos no observamos un problema serio de
multicolinealidad.
2.5 Selección de variables
Generalmente en la práctica disponemos de un conjunto grande de posibles variables explicativas. Se trata de
determinar qué variables deben entrar en el modelo y cuáles no deben entrar en el modelo de regresión.
Ejemplo: Un estudio analiza la relación entre la composición de un cemento tipo Portland y el calor des-
prendido durante la fase de fraguado. La muestra está formada por 13 cementos. Los datos se
encuentran en el �chero cemento.sav. La variable Y mide la cantidad de calor desprendido (cal-
s/gr). Las variables X1, X2, X3 y X4 representan el contenido (%) de cuatro ingredientes activos.a
aWoods, H., Steinour, H.H., Starke, H.R. (1932) E�ect of composition of Portland cement on heat evolved
during hardening. Industrial Engineering and Chemistry, 24, 1207-1214.
Ajusta un modelo de regresión lineal múltiple que explique Y en función de X1, X2, X3 y X4. ¾Te parece un
buen modelo? ¾Encuentras problemas de multicolinealidad?
A la vista de que considerar un modelo de regresión incluyendo todas las variables explicativas no es una buena
elección, debemos plantearnos qué variables independientes serían más adecuadas para explicar la cantidad
de calor desprendido (Y ). Considerar todos las posibles combinaciones de variables explicativas es inviable en
muchas situaciones pero existen procedimientos para seleccionar las variables explicativas que deben entrar en
el modelo.
Eliminación hacia atrás (Backward Stepwise Regression). Se introducen todas las variables en la
ecuación y después se van excluyendo una tras otra. En cada etapa se elimina la variable menos in�uyente
según el contraste individual (de la t o de la F ).
Página 6 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
Selección hacia adelante (Fordward Stepwise Regression). Las variables se introducen secuencialmen-
te en el modelo. La primera variable que se introduce es la de mayor correlación (+ o -) con la variable
dependiente. Dicha variable se introducirá en la ecuación sólo si cumple el criterio de entrada. A conti-
nuación se considerará la variable independiente cuya correlación parcial sea la mayor y que no esté en la
ecuación. El procedimiento termina cuando ya no quedan variables que cumplan el criterio de entrada.
Pasos sucesivos (Stepwise Regression). Este método es una combinación de los procedimientos an-
teriores. En cada paso se introduce la variable independiente que no se encuentre ya en la ecuación y
que tenga la probabilidad para F más pequeña. Las variables ya introducidas en la ecuación de regresión
pueden ser eliminadas del modelo. El método termina cuando ya no hay más variables candidatas a ser
incluidas o eliminadas.
2.5.1 Eliminación hacia atrás
En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4
como variables dependientes. En el desplegable Método selecciona la opción Atrás y analiza los resultados.
¾Cuál es la primera variable eliminada del modelo? ¾Cuáles son los modelos ajustados en los sucesivos pasos?
Comprueba que el modelo �nal ajustado es Y = 52:577 + 1:468X1 + 0:662X2. ¾Cuál es el coe�ciente de
determinación ajustado del modelo �nal?
2.5.2 Selección hacia adelante
En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4
como variables dependientes. En el desplegable Método selecciona la opción Adelante y analiza los resultados.
¾Cuál es la primera variable introducida en el modelo? ¾Cuáles son los modelos ajustados en los sucesivos
pasos? Comprueba que el modelo �nal ajustado es Y = 103:097 + 1:44X1 � 0:614X4. ¾Cuál es el coe�ciente
de determinación ajustado del modelo �nal?
Página 7 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
2.5.3 Pasos sucesivos
En el menú Analizar I Regresión I Lineales... selecciona Y como variable dependiente y X1, X2, X3 y X4
como variables dependientes. En el desplegable Método selecciona la opción Pasos sucesivos y analiza los
resultados. ¾Cuáles son los modelos ajustados en los sucesivos pasos? Comprueba que el modelo �nal ajustado
es Y = 103:097 + 1:44X1 � 0:614X4. ¾Cuál es el coe�ciente de determinación ajustado del modelo �nal?
3 Un análisis completo: estimación del porcentaje de grasa corporal
Es bien conocido el hecho de que el porcentaje de grasa corporal es un factor importante a tener en cuenta
para determinar el estado de salud. El porcentaje de grasa corporal es la parte del cuerpo no magra (es decir
la no formada por músculos, huesos, órganos, sangre, etc.) constituida por tejido adiposo. Valores elevados del
porcentaje de grasa corporal incrementan el riesgo de dolencias cardíacas, entre otras. Tiene relevancia, por lo
tanto, determinar el porcentaje de grasa corporal de una persona. Existen varios procedimientos para determinar
Página 8 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
el porcentaje de grasa corporal (como absorciometría de rayos X de energía dual o el análisis de impedancia
bioeléctrica). También se puede utilizar el método del peso debajo del agua: primero se pesa a la persona en
seco, luego se la sumerge en el agua, dentro de un tanque y se vuelve a pesar. El hueso y el músculo tienen más
densidad que el agua y la grasa tiene menos densidad que el agua. Una persona con más hueso y músculo pesará
más en el agua que una persona con menos hueso y músculo. En cualquier caso, ninguna de estas técnicas es
sencilla, y por eso sería interesante poder estimar el porcentaje de grasa corporal a partir de otros métodos.
Por ejemplo, se cree que ciertas medidas corporales están íntimamente relacionadas con el porcentaje de grasa
corporal. Sería importante encontrar un buen modelo para estimar el porcentaje de grasa a partir de dichas
medidas (fáciles de obtener).
Ejemplo: Con el objetivo de establecer un modelo que explique el porcentaje de grasa corporal mediante
técnicas sencillas basadas en la determinación de medidas corporales, se llevó a cabo un estudio en el
que 252 hombres fueron seleccionados aleatoriamente de entre una gran población de voluntariosa.
Para cada uno de los 252 individuos se obtuvo el porcentaje de grasa corporal (mediante la técnica
del peso debajo del agua) junto con otras variables y medidas corporales. En concreto se recogieron
las siguientes variables:
PORC: porcentaje de grasa corporal
EDAD: edad (años)
PESO: peso (libras)
ALTURA: estatura (pulgadas)
CUELLO: contorno de cuello (cm.)
PECHO: contorno de pecho (cm.)
ABDOMEN: contorno de abdomen (cm.)
CADERA: contorno de cadera (cm.)
MUSLO: contorno de muslo (cm.)
ANTE: contorno de antebrazo (cm.)
MUN: contorno de muñeca (cm.)
Los datos se encuentran en el archivo grasa.sav.
aEste ejemplo fue tomado de un curso de Estadística del Dpto. de Matemáticas y Ciencias Estadísticas de la
Universidad de Alberta
Contesta a las siguientes cuestiones con las ayuda de SPSS.
1. Análisis del diseño del estudio.
a) ¾Cuál es el objetivo del estudio? ¾Cuál es la variable respuesta? ¾Cuáles son las variables explicativas?
b) Teniendo en cuenta que la mayor parte de la grasa corporal en los hombres se acumula en la zona
intraabdominal (lo que se conoce como forma de �manzana�), ¾cuáles crees que pueden ser las
variables más relevantes a la hora de explicar el porcentaje de grasa corporal de los hombres?
2. Relaciones entre los distintos pares de variables.
Página 9 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
a) Describe la relación entre PORC y el resto de variables. ¾Son relaciones lineales? ¾Te parece una
relación débil o fuerte?
b) Si tuvieses que utilizar una única variable explicativa para determinar el comportamiento de PORC,
¾cuál elegirías?
c) ¾Te parece que la multicolinealidad es un posible problema a tener en cuenta en este estudio?
3. Planteamiento del modelo de regresión.
a) Plantea un modelo de regresión lineal múltiple que explique PORC en función del resto de variables
del conjunto de datos.
b) Establece las hipótesis del modelo.
4. Ajuste del modelo.
a) Ya que el tamaño muestral es considerable (n = 252), utilizaremos las 200 primeras observaciones
para ajustar el modelo y las 52 restantes para contrastar la validez del ajuste obtenido. Selecciona las
200 primeras observaciones a través del menú Datos I Seleccionar casos. En el cuadro de diálogo,
elige la opción de seleccionar Basándose en el rango de tiempo o de los casos como se muestra
en la Figura 6.
Figura 6: Selección de casos
b) Ajusta un modelo de regresión lineal múltiple con SPSS que explique PORC en función del resto de
variables. Analiza la signi�cación de las variables introducidas en el modelo.
c) Ajusta un modelo de regresión lineal múltiple con SPSS que explique PORC en función del resto
de variables. Utiliza el método Adelante para seleccionar las variables. ¾Qué variables han sido
introducidas en el modelo por este método de selección? ¾En qué orden han sido introducidas?
Escribe la ecuación ajustada.
d) ¾Qué porcentaje de la variabilidad del porcentaje de grasa corporal es explicada por las variables que
forman parte del modelo ajustado en el apartado 4c)?
e) ¾Es el modelo ajustado en el apartado 4c) explicativo para un nivel de signi�cación igual a 0:05? Es-
cribe la hipótesis nula y alternativa del contraste, el valor del estadístico de contraste, su distribución
bajo la hipótesis nula, el p-valor y la conclusión del contraste.
f ) ¾Son signi�cativas cada una de las variables introducidas en el modelo ajustado en el apartado 4c)?
Página 10 de 11
FBA I. Estadística Práctica 5: Regresión Lineal Múltiple
5. Diagnosis del modelo.
a) Obtén el grá�co de probabilidad normal de los residuos para el modelo ajustado en el apartado 4c).
Para ello vete a la opción Grá�cos que aparece en el cuadro de diálogo correspondiente a Analizar
I Regresión I Lineales.... A la vista del grá�co, ¾te parece razonable pensar que se incumple la
hipótesis de normalidad de los residuos?
b) Obtén un grá�co de los residuos estandarizados (Eje Y ) frente a los valores pronosticados estanda-
rizados (Eje X). Describe el patrón que observas en los residuos. ¾Existe evidencia de que incumple
la hipótesis de homocedasticidad (varianza constante de los errores)?
c) En base a la grá�ca anterior, ¾existen datos atípicos? Si es así, localiza y analiza las observaciones
atípicas.
d) El individuo número 20 es un dato atípico. Puedes comprobarlo realizando los diagramas de caja de
las distintas variables mediante el menú Grá�cos I Cuadros de diálogos antiguos I Diagramas
de caja (marca la opción Resúmenes para distintas variables).
e) Elimina la �la número 20 del archivo y reajusta el modelo (acuérdate de seleccionar ahora las 199
primeras observaciones a través del menú Datos I Seleccionar casos). ¾Siguen siendo signi�cativas
las mismas variables? Escribe la ecuación del nuevo modelo ajustado.
6. Predicción.
a) En base al modelo ajustado en el apartado 5e), ¾cuál es el valor predicho para el porcentaje de grasa
corporal de un hombre con un peso de 184:75 libras, un contorno de abdomen de 86:4 cm. y un
contorno de muñeca de 18:2 cm. (como el individuo número 1)?
b) Utiliza las salidas de SPSS para dar el Intervalo de con�anza (con nivel de con�anza del 95%) para
el porcentaje medio de grasa corporal de los individuos con un peso de 184:75 libras, un contorno de
abdomen de 86:4 cm. y un contorno de muñeca de 18:2 cm.
7. Validez del modelo.
a) Una vez ajustado el modelo 5e), calcula cuáles serían los valores de porcentaje de grasa corporal
pronosticados para los 52 individuos restantes de la muestra. Puedes hacerlo calculando una nueva
variable prediccion a partir del menú Transformar I Calcular variables.
b) Para estudiar la validez del modelo, realiza un contraste de igualdad de medias para muestras apa-
readas, que contraste si el porcentaje medio de grasa corporal es igual al porcentaje pronosticado
medio de grasa corporal. Escribe la hipótesis nula y alternativa del contraste, el valor del estadístico
de contraste, su distribución bajo la hipótesis nula, el p-valor y la conclusión del contraste.
Página 11 de 11
Top Related