M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o...
Transcript of M´etodos Estad´ısticos MultivariadosMatriz: Arreglo rectangular o cuadrado de nu´meros o...
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Metodos Estadısticos Multivariados
M. Lucini y P. Tandeo
UNNEFaCENA
Febrero 2011
UNNE Metodos Estadısticos Multivariados Febrero 2011 1/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
Plan
1 Introduccion¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
2 Algebra lineal y el software R
3 Estadıstica descriptiva
4 Estadıstica inferencial
5 Evaluacion
UNNE Metodos Estadısticos Multivariados Febrero 2011 2/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
Introduccion¿Que es estadıstica?
Estadısticas son matematicas aplicadas:
calculo de matriz:
resolucion de sistemas de ecuaciones linealesdescomposicion en valores singulares
conocimiento de las funciones basicas:
busqueda del mınimocalculo integral
probabilidad:
leyes estadısticastest estadısticos
Interes en todas las ciencias:
porque...
UNNE Metodos Estadısticos Multivariados Febrero 2011 3/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEstadısticas en todos lados
Medicina
Fısica
Biologıa
Ecologıa
Informatica
Ciencias sociales
Finanzas
Seguros
Estadısticas son importantes para ustedes:
conocer la teorıa basicautilizar software de estadısticaen una publicacion:
entender los metodoshacer su estudio
UNNE Metodos Estadısticos Multivariados Febrero 2011 4/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo en medicina
Datos:
16.000 personas HIV-negativas entre 18 y 30 anos en Tailandiaen 2003:
8000 personas con una vacuna (grupo A)8000 personas con placebo (grupo B)
3 anos despues (2006):
Grupo A Grupo B
Con HIV 51 74Sin HIV 7949 7926
Proporcion de HIV γA = 0.0064 γB = 0.0092Pregunta:
¿el efecto de la vacuna es significativo?¿la diferencia viene del azar?
UNNE Metodos Estadısticos Multivariados Febrero 2011 5/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo en medicina
Metodo estadıstico:
test de proporcionχ2-test
Hipotesis de test:
H0 : γA = γB
H1 : γA 6= γB
Resultados:
hay un efecto de la vacuna contra el HIV...con 4.8% de riesgo de error
UNNE Metodos Estadısticos Multivariados Febrero 2011 6/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo en oceanografıa
Figure: Ejemplo de geoestadıstica: interpolacion espacial y temporal deimagen de satelites de la temperatura del marUNNE Metodos Estadısticos Multivariados Febrero 2011 7/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo en ecologıa
Figure: Datos de temperatura media en Brest (Francia) entre 1975 y2005 y una prediccion hasta 2100 (rojo)UNNE Metodos Estadısticos Multivariados Febrero 2011 8/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
Introduccion¿Que son datos multivariados?
Ahora:
gran cantidad de informaciontodo esta grabado
Se necesita un tratamiento estadıstico:
resumir la informacionextraer la informacion importantetomar la decision
UNNE Metodos Estadısticos Multivariados Febrero 2011 9/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionVocabulario
individuos Variable 1 · · · Variable j · · · Variable p
1...
......
i · · · · · · xi ,j...n
Table: Representacion esquematica de una tabla de datos multivariados
n: numero de individuosp: numero de variablesxi ,j : respuesta de un individuo i a la variable j
UNNE Metodos Estadısticos Multivariados Febrero 2011 10/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo 1
Descripcion de los datos:
n = 26 individuos (paıses)p = 10 variables (indicadores demograficos)
cf. Population Reference Bureau (http://www.prb.org/)
Country Birth rate (h) Death rate (h) · · · Urban population
Afghanistan 47 21 6384000
Albania 13 6 1443000
Algeria 22 4 21962000
Argentina 19 8 36324000
...
Zimbabwe 31 21 5024000
Table: Ejemplo 1 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 11/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo 2
Descripcion de los datos:
n = 507 individuos (personas)p = 24 variables (indicadores del cuerpo)
cf.http://www.sci.usq.edu.au/staff/dunn/Datasets/application
Person Chest depht (cm) Shoulder girth (cm) · · · Age Weight (kg)
1 17.7 106.2 21 65.6
2 16.9 110.5 23 71.8
...
506 15.5 107.1 33 66.4
507 20.4 100.5 38 67.3
Table: Ejemplo 2 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 12/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEjemplo 3
Descripcion de los datos:
n = 60 individuos (gasolinas)p = 402 variables (respuestas a 401 longitudes de onda -numero de octano)
cf. www.jstatsoft.org/v18/i02/paper
Gasoline 900 nm 902 nm · · · 1700 nm Octane number
1 −0.050 −0.046 1.221 85.30
2 −0.044 −0.040 1.200 85.25
...
59 −0.056 −0.051 1.155 89.60
60 −0.059 −0.053 1.164 87.10
Table: Ejemplo 3 de datos multivariadosUNNE Metodos Estadısticos Multivariados Febrero 2011 13/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionPreguntas
Extraer y sintetizar las variables pertinentes:
ej 1 ⇁ ¿hay indicadores similares?ej 2 ⇁ ¿hay indicadores de cuerpo similares?ej 3 → ¿hay respuestas de ondas parecidas?
Hacer grupos de individuos similares:
ej 1 → ¿hay paıses similares?ej 2 → ¿hay personas similares?ej 3 → ¿hay gasolina similares?
Modelar una variable en funcion de otras variables:
ej 1 → ¿podemos explicar la tasa de mortalidad?ej 2 → ¿podemos explicar el peso de una persona?ej 3 → ¿podemos predecir el numero de octanos conociendolas respuestas a las ondas?
UNNE Metodos Estadısticos Multivariados Febrero 2011 14/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionObjetivos
Obtener datos:
recolectar informacionutilizar datos existentes
Estadıstica descriptiva:
cf. Capıtulo 3presentar los datos(dimension, unidades, fuente)extraer informacion:
resumenes numericosestudios univariados,bivariados y multivariadoshacer grupos de individuos(clasificacion)
Estadıstica inferencial:
cf. Capıtulo 4crear un modelohacer test estadısticospredecir con nuevos datos
Presentar resultados claros:
cf. Capıtulo 5presentacion oralinforme con graficos y tablas
Utilizar un software estadıstico:
software Rgratis
UNNE Metodos Estadısticos Multivariados Febrero 2011 15/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionTipo de datos
Real o numeros:
valores realesej: estatura (cm), edad
Binario:
m = 2 modalidadesej: sexo (masculino o femenino)
Multimodalidades:
m > 2 modalidadesej: situacion (soltero, casado, divorciado o viudo)
UNNE Metodos Estadısticos Multivariados Febrero 2011 16/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionTipo de relacion, de modelo y de hipotesis
Relacion entre variables:
lineal
no lineal
Modelo:
parametrico
no parametrico
Hipotesis de los errores:
Gaussiana: ε ∼ N(
µ, σ2)
otra ley
UNNE Metodos Estadısticos Multivariados Febrero 2011 17/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionEvaluacion del curso
Crear grupos de 2 o 3 alumnos
Buscar datos interesantes:
sus datosdatos de internet
Hacer una pequena presentacion:
presentar sus datos a la claseintercambio de ideas, discutir de los datos
Hacer un informe de 10 paginas:
extraer problematicasincluir figuras, tablas y modelosinterpretar
Para obtener mas informacion: cf. Capıtulo 5
UNNE Metodos Estadısticos Multivariados Febrero 2011 18/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
¿Que es estadıstica?¿Que son datos multivariados?ObjetivosComentariosEvaluacionBibliografıa
IntroduccionBibliografıa
Curso:
demostracionmas informacion, ejemplos, ejercicios“All of statistics”, A Concise Course in Statistical Inference, L.Wasserman, Springer, 2004“Analisis de Datos Multivariados”, D.Pena, McGraw Hills,Interamericana de Espana, 2002
R software:
funciones basicasejemplos“Introductory Statistics with R”, P. Dalgaard, Springer, 2002
UNNE Metodos Estadısticos Multivariados Febrero 2011 19/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Plan
1 Introduccion
2 Algebra lineal y el software RDefiniciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
3 Estadıstica descriptiva
4 Estadıstica inferencial
5 Evaluacion
UNNE Metodos Estadısticos Multivariados Febrero 2011 20/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealDefiniciones Basicas
Escalar: cualquier numero real. Notacion: a
Matriz: Arreglo rectangular o cuadrado de numeros o variablesdispuestos en filas o columnas. Se dice que una matriz es detamano n × p si tiene n filas y p columnas.
A = (aij ) =0
@
a11 a12
a21 a22
a31 a32
1
A
A matriz rectangular de tamano 3 × 2,
aij es un elemento general de la matriz A.
Vector: Matriz compuesta por solo una columna (o fila).
Notacion: x =
x1
x2
x3
o bien x′ = (x1, x2, x3)
UNNE Metodos Estadısticos Multivariados Febrero 2011 21/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealEjemplo
La siguiente tabla muestra las temperaturas medias (en Co) decada mes de algunas ciudades de Argentina durante el ano 2010:
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov DicCorrientes 27.1 27.8 25.4 20.7 16.2 15.7 14.6 15.3 18.3 19.9 22.4 25.3Formosa 27.8 29.0 26.5 22.0 16.8 17.2 15.2 16.7 19.7 21 23.1 26.6Posadas 27.3 28.0 26.2 21.8 17.4 17.3 16 17.2 19.7 20.9 23.7 26.0Resistencia 27.2 27.9 25.4 20.6 15.8 15.4 14.2 15.0 18.3 19.7 22.3 25.5
UNNE Metodos Estadısticos Multivariados Febrero 2011 22/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealEjemplo
x′ = (27.1, 27.8, 25.4, 20.7, 16.2, 15.7, 14.6, 15.3, 18.3, 19.9, 22.4, 25.3) es el vectorcuyos elementos son las temperaturas medias mensuales de la ciudad de Corrientesdurante el ano 2010
x6 = 15.7 es la media de la ciudad de Corrientes en el mes de junio de 2010.
A =0
B
B
@
27.1 27.8 25.4 20.7 16.2 15.7 14.6 15.3 18.3 19.9 22.4 25.327.8 29.0 26.5 22.0 16.8 17.2 15.2 16.7 19.7 21 23.1 26.627.3 28.0 26.2 21.8 17.4 17.3 16 17.2 19.7 20.9 23.7 26.027.2 27.9 25.4 20.6 15.8 15.4 14.2 15.0 18.3 19.7 22.3 25.5
1
C
C
A
La matriz A contiene las temperaturas promedio mensuales (2010) de las ciudades deCorrientes, Resistencia, Formosa y Posadas.
UNNE Metodos Estadısticos Multivariados Febrero 2011 23/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealIgualdad de matrices y vectores
Dos matrices A = (aij) y B = (bij) son iguales si:
son del mismo tamano
aij = bij , ∀i , j
La transpuesta de una matriz A = (aij) se denota por A′ y seobtiene intercambiando filas y columnas. Ademas (A′)′ =A.
Sea A =
(
1 2 34 5 6
)
A ′ =
1 42 53 6
Una matriz cuadrada A es simetrica si A=A′.
UNNE Metodos Estadısticos Multivariados Febrero 2011 24/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealOperaciones - Adicion
Sean A y B matrices del mismo tamano (n × p)
A+B=C= (cij) = (aij + bij) y C es de tamano n × p.
A−B=C= (cij) = (aij − bij) y C es de tamano n × p.
Propiedades:
A+B=B+A.
(A+B)′ =A′+B′.
Las suma (resta) de vectores se define en forma similar y valen lasmismas propiedades.
UNNE Metodos Estadısticos Multivariados Febrero 2011 25/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealOperaciones - Producto
Si A y B son matrices el producto AB esta definido cuando A y Bson“conformables”: no columnas de A = no filas de B.Si A es n × m, B es m × p ⇒ C=AB es n × p y cij =
∑mk=1 aikbkj .
Ejemplo:A =
0
@
1 2 3 43 4 5 64 5 6 7
1
A
B =
0
B
B
@
2 46 81 35 7
1
C
C
A
AB =0
@
1 · 2 + 2 · 6 + 3 · 1 + 4 · 5 1 · 4 + 2 · 8 + 3 · 3 + 4 · 73 · 2 + 4 · 6 + 5 · 1 + 6 · 5 3 · 4 + 4 · 8 + 5 · 3 + 6 · 74 · 2 + 5 · 6 + 6 · 1 + 7 · 5 4 · 4 + 5 · 8 + 6 · 3 + 7 · 7
1
A
AB =
0
@
37 5765 10179 123
1
A
UNNE Metodos Estadısticos Multivariados Febrero 2011 26/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealPropiedades
En general,
AB 6= BA
A(B + C) = AB + AC
A(B − C) = AB − AC
(A + B)C = AC + BC
(A − B)C = AC − BC
(AB)′ = B′A′
ABC = A(BC) = (AB)C
b escalar, bA = Ab
UNNE Metodos Estadısticos Multivariados Febrero 2011 27/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealRango de matriz
Sean x1, x2, ..., xn vectores de la misma longitud.Se dice que los xi son linealmente dependientes (l.d) si existenconstantes c1, ..., cn, (no todas nulas) tales que
c1x1 + c2x2 + ... + cnxn = 0
Caso contrario los xi son linealmente independientes (l.i)
rango(A) = numero de filas l.i de la matriz A= numero de columnas l.i de la matriz A
Si A es n × p ⇒ rango(A) ≤ min(n, p)Si rangoA = min(n, p) se dice que A es de rango completo.
UNNE Metodos Estadısticos Multivariados Febrero 2011 28/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealMatriz inversa
Si A matriz cuadrada y de rango completo se dice que A es nosingular y existe una unica matriz inversa de A, denotada por A−1,que satisface:
AA−1 = A−1A = I
con I matriz identidad.
La inversa de una matriz A no existe si:
A es cuadrada pero no es de rango completo (A es singular)
A no es cuadrada
UNNE Metodos Estadısticos Multivariados Febrero 2011 29/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealPropriedades y definiciones
Propiedades
A,B no singulares y del mismo tamano
(AB)−1 = B−1A−1
(A′)−1 = (A−1)′
Definiciones
A matriz cuadradaLa traza de A es tr(A) =
∑ni=1 aii y vale que:
tr(A + B) = tr(A)+tr(B)tr(AB) = tr(BA)
Si ademas A es simetrica y x′Ax > 0,∀x 6= 0 se dice que A esdefinida positivaSi A es simetrica, x′Ax ≥ 0,∀x 6= 0 se dice que A es definidasemipositiva
UNNE Metodos Estadısticos Multivariados Febrero 2011 30/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealDeterminante
Si A = (aij) matriz n × n,
det(A) =
n∑
j=1
aij(−1)i+jmij
mij = determinante de la matriz de orden n − 1 que resulta deeliminar la fila i y la columna j de la matriz A
UNNE Metodos Estadısticos Multivariados Febrero 2011 31/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealPropiedades del determinante
c escalar, det(cA) = cndet(A)
A,B ambas n × n , det(AB) = det(A)det(B).
A singular ⇒ det(A) = 0
A no singular ⇒ det(A) 6= 0 y det(A−1) = (det(A))−1
A positiva definida ⇒ det(A) > 0
det(A′) = det(A)
UNNE Metodos Estadısticos Multivariados Febrero 2011 32/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealOrtogonalidad
x, y vectores son ortogonales si x′y = 0.
Si x′x = 1 se dice que x esta normalizado. x puede“normalizarse”haciendo x√
x′x
C matriz es ortogonal si sus columnas (o filas) (c1, ...cn)satisfacen c′icj = 0,∀i 6= j y c′ici = 1.
En tal caso se satisface C′C = I = CC′, por lo tanto:
Si C es una matriz ortogonal ⇒ C−1 = C′
UNNE Metodos Estadısticos Multivariados Febrero 2011 33/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealAutovalores y autovectores de una matriz
Sea A matriz cuadrada. Existen λ ∈ IR y x vector tales que
Ax = λx
λ es un autovalor (eigenvalor, vector propio) de A y x es unautovector(eigenvector, vector propio) de A correspondiente alautovalor λ.Para encontrarlos debe resolverse A − λx = 0, o equivalentementela ecuacion caracterıstica
det(A − λI) = 0
.
UNNE Metodos Estadısticos Multivariados Febrero 2011 34/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealEjemplo
Para encontrar losautovalores yautovectores de
A =
(
1 2−1 4
)
debe resolverse laecuacion
0 = det(A − λI)
= det
(
1 − λ 2−1 4 − λ
)
Esto es,0 = (1−λ)(4−λ) + 2 = λ2 − 5λ + 6
UNNE Metodos Estadısticos Multivariados Febrero 2011 35/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealEjemplo
Se resuelve 0 = λ2 − 5λ + 6 = (λ − 3)(λ − 2) y resultanλ1 = 3, λ2 = 2.El autovector correspondiente al autovalor λ1 = 3 se encuentraresolviendo el sistema
0 = (A − λ1I)x =
(
1 − 3 2−1 4 − 3
)(
x1
x2
)
−2x1 + 2x2 = 0−x1 + x2 = 0
⇒ x1 = x2 ⇒(
x1
x2
)
= c
(
11
)
UNNE Metodos Estadısticos Multivariados Febrero 2011 36/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealEjemplo
Analogamente para λ2 = 2 resulta:
0 = (A − 2I)x =
(
1 − 2 2−1 4 − 2
)(
x1
x2
)
−x1 + 2x2 = 0−x1 + 2x2 = 0
⇒ x1 = 2x2 ⇒(
x1
x2
)
= c
(
21
)
Se puede elegir c tal que x ′i xi = 1, ası para λ1 = 3 el autovector
asociado de norma 1 es x1 = (1/√
2, 1/√
2), para λ2 = 2 elautovector asociado de norma 1 es x2 = (2/
√5, 1/
√5).
UNNE Metodos Estadısticos Multivariados Febrero 2011 37/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealDescomposicion espectral
Observaciones
Sea λ autovalor de A y x autovector asociado, entonces 1 + λes autovalor de I + A, 1 − λ es autovalor de I − A. En amboscasos x sigue siendo el autovector correspondiente.
A matriz cuadrada con autovalores λ1, λ2, ..., λn entonces:tr(A) =
∑n
i=1 λi
det(A) =∏n
i=1 λi
A positiva definida ⇒ sus autovalores son todos positivos.
A semidefinida positiva ⇒ sus autovalores son todos mayoreso iguales a cero, el no de autovalores no nulos = rango(A).
A n × n y simetrica, ⇒ sus autovectores son todosmutuamente ortogonales.
UNNE Metodos Estadısticos Multivariados Febrero 2011 38/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealDescomposicion espectral
Sea C la matriz cuadrada cuyas columnas son los autovectores(normalizados) de una matriz simetrica A. C es simetrica (yortogonal) y ademas:
A = CDC′ es la descomposicion espectral de A
donde D =
λ1 0 ... 00 λ2 ... 0
0 0 ... λn
con λi autovalores de A y
λ1 ≥ λ2 ≥ ... ≥ λn.
UNNE Metodos Estadısticos Multivariados Febrero 2011 39/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Algebra LinealOtras descomposiciones
Si A tiene autovalores λ1, ..., λn con autovectores x1, ..., xn
A2 tiene autovalores λ21, ..., λ
2n y autovectores x1, ..., xn. Si
ademas A es simetrica ⇒ A2 = CD2C′,D2 = diag(λ2
1, ..., λ2n)
.
Si A es no singular, entonces A−1 tiene autovalores1/λ2
1, ..., 1/λ2n y autovectores x1, ..., xn. Si ademas A es
simetrica ⇒ A−1 = CD−1C′,D−1 = diag(1/λ1, ..., 1/λn)
Si A positiva definida ⇒ A1/2 = CD1/2C′
con C matriz cuyas columnas son los autovectores de Anormalizados.
UNNE Metodos Estadısticos Multivariados Febrero 2011 40/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Introduccion a RCurso
cf. cursoR.pdf
Material impreso ya entregado
UNNE Metodos Estadısticos Multivariados Febrero 2011 41/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Introduccion a REjercicio 1: Algebra
1 Crear la matriz A =
2 1 13 7 51 1 1
2 Calcular el determinante y la traza de la matriz A
3 ¿Existe la inversa de la matriz A?
4 Compute autovectores y autovalores de la matriz A
Funciones que puede utilizar: matrix(), det(), t(), sum(),diag(), solve(), eigen().
UNNE Metodos Estadısticos Multivariados Febrero 2011 42/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Introduccion a REjercicio 2: Manipulacion de datos
En el archivo marambio 2007.dat estan guardadas las temperaturaspronosticadas por 5 modelos climaticos para las 12UTM en la baseantartica de Marambio en un determinado perıodo de 2007.
1 Lea el archivo y guardelo como data.frame
2 Los nombres de los modelos climaticos en cuestion son los nombresde las variables del data.frame. ¿Cuales son?
3 Para que perıodo se registraron esos pronosticos?
4 Calcule la temperatura promedio de ese perıodo para cada uno delos modelos climaticos involucrados.
5 Calcular temperaturas maximas y mınimas para el modelo CMAM.
6 Calcular medianas de las variables CMAM y UKMO.
UNNE Metodos Estadısticos Multivariados Febrero 2011 43/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Definiciones Basicas - NotacionOperacionesDescomposicion espectralIntroduccion a R
Introduccion a REjercicio 3: Graficos
1 En una misma ventana grafique las temperaturaspronosticadas por los cuatro modelos climaticos del ejercicioanterior, asignando un color distinto a cada modelo yrepresentando las mismas por puntos unidos por lineas depuntos. En el eje de las ordenadas coloque el nombreTemperatura, y como tıtulo“Marambio, 01/10/07 a31/12/07”)
2 Separe el dispositivo grafico en 4 ventanas y grafique en cadauna de ellas las temperaturas para 4 de los modelos.
UNNE Metodos Estadısticos Multivariados Febrero 2011 44/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Plan
1 Introduccion
2 Algebra lineal y el software R
3 Estadıstica descriptivaEstadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsAgrupamientoEjercicios
4 Estadıstica inferencial
5 Evaluacion
UNNE Metodos Estadısticos Multivariados Febrero 2011 45/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDefiniciones Basicas
Sea x1, . . . , xn una muestra aleatoria y representativa de n
observaciones (realizaciones) de la variable aleatoria x de media µy desviacion estandar σ.
UNNE Metodos Estadısticos Multivariados Febrero 2011 46/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaMedidas de Tendencia Central
Media muestral: Promedio aritmetico: x =∑n
i=1 xi .
Mediana muestral: Valor que divide a la distribucion en dos partesiguales, cada una de las cuales contiene el 50% de los datos.Deben ordenarse lo datos de menor a mayor,
n es impar ⇒ x es el dato que ocupa el lugar (n + 1)/2.
Si n es par ⇒ x es el promedio entre los datos que ocupan loslugares n/2 y (n/2) + 1
Moda: Observacion que mas se repite.
UNNE Metodos Estadısticos Multivariados Febrero 2011 47/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaMedidas de Posicion
Observaciones ordenadas de menor a mayor.Cuantiles: Son ciertos valores del conjunto de observaciones quepermiten dividirlo en partes iguales. Los cuantiles mas usados son:los Cuartiles (Q), los Deciles (D) y los Percentiles (P).
Cuartiles(Q): dividen el conjunto de observaciones en cuatro partesiguales, cada una de las cuales contiene un cuarto(25%) de lainformacion. Se denotan Q1, Q2 , Q3 , Q4.
UNNE Metodos Estadısticos Multivariados Febrero 2011 48/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaMedidas de Dispersion muestrales
Valores numericos que nos dan informacion sobre cuan esparcidos oconcentrados se encuentran los datos.
Rango intercuartılico = Q3 − Q1. Indica la amplitud del intervalodonde se encuentra el 50% de las observaciones.
Desviacion Estandar (s): Da informacion sobre como varıan los
datos respecto a la media s =√
Pni=1(xi−—x)2
n−1
Varianza,Var = s2
UNNE Metodos Estadısticos Multivariados Febrero 2011 49/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaGraficos
Histograma: Grafico para datos agrupados.
Sobre el eje de las abcisas se levantan rectangulos cuya basees la longitud de los intervalos de clase.
Altura de cada rectangulo (sobre el eje de las ordenadas) estal que el area del rectangulo sea proporcional a la frecuenciadel intervalo.
Intervalos de igual amplitud ⇒ la altura suele corresponder ala frecuencia del intervalo.
UNNE Metodos Estadısticos Multivariados Febrero 2011 50/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica Descriptiva
Boxplot: Grafico en forma de rectangulo(caja) construido en basea solamente cinco numeros que resumen los datos.
La altura del rectangulo: rango intercuartılico. Base inferior:Q1, base superior: Q3, lınea a la altura de la mediana (Q2).
Se calcula 1.5 * Rango intercuartılico, se dibuja una lıneavertical desde la mitad de la parte superior (inferior) delrectangulo hasta la mayor (menor) observacion que seencuentre entre ese extremo de la caja y 1.5 * Rangointercuartılico.
Las observaciones que caen fuera de esos “bigotes” serepresentan con cırculos rellenos si estan a una distanciamayor a 3* Rango intercuartılico, o por cırculos sin rellenar encaso contrario.
UNNE Metodos Estadısticos Multivariados Febrero 2011 51/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjemplo:
Datos: Usaremos el conjunto iris (disponible en R).
p = 5 Variables: largo y ancho de sepalo
(Sepal.Length, Sepal. Width), largo y ancho de
petalo (Petal.Length, Petal.Width) para flores de
tres especies de iris (Species): setosa,
versicolor y virginica.
n = 150 individuos (50 por cada especie)
UNNE Metodos Estadısticos Multivariados Febrero 2011 52/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica Descriptiva
Sepal.Length Sepal.Width Petal.Length Petal.Width Species1 5.1 3.5 1.4 0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 4.7 3.2 1.3 0.2 setosa4 4.6 3.1 1.5 0.2 setosa5 5.0 3.6 1.4 0.2 setosa...
......
......
...148 6.5 3.0 5.2 2.0 virginica149 6.2 3.4 5.4 2.3 virginica150 5.9 3.0 5.1 1.8 virginica
virginica = iris[iris$Species =="virginica",1:4]
versicolor = iris[iris$Species =="versicolor",1:4]
setosa = iris[iris$Species =="setosa",1:4]
>summary(versicolor[,3])
Min. 1st Qu. Median Mean 3rd Qu. Max.
3.00 4.00 4.35 4.26 4.60 5.10
UNNE Metodos Estadısticos Multivariados Febrero 2011 53/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica Descriptiva
3.03.54.04.55.0
Iris
Ver
sico
lor
Iris
Ver
sico
lor
Long
itud
de p
etal
o
Frecuencia
3.0
3.5
4.0
4.5
5.0
0246810
UNNE Metodos Estadısticos Multivariados Febrero 2011 54/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaCaso Bivariado
Se miden dos variables x , y sobre un mismo individuo ⇒ v.a.bivariada (x , y)
3.0
3.5
4.0
4.5
5.0
1.01.21.41.61.8
Iris
Ver
sico
lor
peta
l.len
gth
petal.width
UNNE Metodos Estadısticos Multivariados Febrero 2011 55/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaCaso Bivariado
Covarianza poblacional:cov(x, y) = σxy = E((x − µx)(y − µy)) = E(xy) − µxµy
Si x e y son v.a. independientes ⇒ σxy = 0 (la recıproca no escierta)
Covarianza muestral: sxy =Pn
i=1(xi−x)(yi−y)n−1 =
Pni=1 xiyi−nx y
n−1
Si sxy = 0 ⇒ x ey son ortogonales.Covarianza depende de la escala de medicion de x e y ⇒dificultad en comparar covarianzas entre distintos pares devariables.
UNNE Metodos Estadısticos Multivariados Febrero 2011 56/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaCaso Bivariado
Correlacion Poblacional
ρxy = corr(x, y) =σxy
σxσy
Correlacion Muestral
rxy =sxy
sx sy=
∑ni=1(xi − x)(yi − y)
√∑n
i=1(xi − x)2∑n
i=1(yi − y)2
−1 ≤ ρxy ≤ 1,−1 ≤ rxy ≤ 1
rxy solo mide el grado de relacion lineal entre dos variables.
Si x = Petal.Length e y = Petal.Width de la especie Versicolor,
sxy = 0.073, rxy = 0.787
UNNE Metodos Estadısticos Multivariados Febrero 2011 57/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDatos Multivariados
Sea x un vector aleatorio de p variables medidas sobre n
individuos. Los n vectores de observaciones, x1, x2, . . . , xn , sedenotan xi = (xi1, . . . , xip)
′.
La matriz de datos X se conforma haciendo:
X =
x′1x′2...x′i...
x′n
=
x11 x12 · · · x1j · · · x1p
x21 x22 · · · x2j · · · x2p...
......
...xi1 xi2 · · · xij · · · xip
......
......
xn1 xn2 · · · xnj · · · xnp
UNNE Metodos Estadısticos Multivariados Febrero 2011 58/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDatos Multivariados: Medidas de Tendencia Central
El vector Media Muestral es x = (x1, x2, . . . , xp)′
Equivalentemente x′ = 1n
j′X
donde j′ = (1, 1, . . . , 1)
El vector Mediana Muestral es x = (x1, x2, . . . , xp)′
UNNE Metodos Estadısticos Multivariados Febrero 2011 59/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaDatos Multivariados: Matriz de Covarianza
La Matriz de covarianza muestral S es la matriz (p × p) devarianzas y covarianzas muestrales
S = (sjk) =
s11 s12 · · · s1ns21 s22 · · · s2n...
......
sp1 sp2 · · · spp
diag(S) formada por lasvarianzas de las p
variables en estudio.
Todas las posiblescovarianzas de a paresocupan el resto de lamatriz.
S es simetrica,semidefinida positiva⇒ tr(S) ≥ 0,det(S) ≥ 0.
UNNE Metodos Estadısticos Multivariados Febrero 2011 60/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaMatriz de Correlacion
La Matriz de correlacion muestral S es la matriz (p × p)
R = (rjk) =
1 r12 · · · r1nr21 1 · · · r2n...
......
rp1 rp2 · · · 1
Si DS = diag(√
s11,√
s22, . . . ,√
spp) ⇒ R = D−1S SD−1
S
UNNE Metodos Estadısticos Multivariados Febrero 2011 61/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDatos Multivariados - Medidas globales de variabilidad
Supongamos variables se miden en las mismas unidades o sonadimensionales (porcentajes, proporciones, etc)
1 Variabilidad total T = tr(S) =∑p
i=1 s2i2 Varianza total generalizada = det(S)
Variabilidad total ignora la estructura de covarianzas ⇒ noinforma sobre la estructura de dependencia entre variables
Varianza total generalizada es una medida del hipervolumenocupado por el conjunto de datos. Si es 0 indica que existeuna relacion lineal exacta entre las variables y el conjunto dedatos ocupa un subespacio de, a lo mas, dimension p − 1.
UNNE Metodos Estadısticos Multivariados Febrero 2011 62/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDatos Multivariados-Distancias
Distancia Eucıdea:√
(xi − xj)′(xi − xj).Problema:Fuertemente dependiente de las unidades demedida.
Familia de Distancias Euclıdeas Ponderadas:dij =
[
(xi − xj)′M−1(xi − xj)
]1/2con M matriz utilizada para
estandarizar las variables.
Distancia de Mahalanobis: di =[
(xi − x)′S−1(xi − x)]1/2
.
UNNE Metodos Estadısticos Multivariados Febrero 2011 63/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaDatos Multivariados - Ejemplo
> summary(setosa)Sepal.Length Sepal.Width Petal.Length Petal.WidthMin. :4.300 Min. :2.300 Min. :1.000 Min. :0.100
1st Qu.:4.800 1st Qu.:3.200 1st Qu.:1.400 1st Qu.:0.200Median :5.000 Median :3.400 Median :1.550 Median :0.200
Mean :5.006 Mean :3.428 Mean :1.462 Mean :0.2463rd Qu.:5.200 3rd Qu.:3.675 3rd Qu.:1.575 3rd Qu.:0.300
Max. :5.800 Max. :4.400 Max. :1.900 Max. :0.600
x = (5.006, 3.428, 1.462, 0.246), x = (5.0, 3.4, 1.5, 0.2)
UNNE Metodos Estadısticos Multivariados Febrero 2011 64/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaMedidas de dispersion
cov(setosa) =
S =
0.12424898 0.09921633 0.016355102 0.0103306120.09921633 0.14368980 0.011697959 0.0092979590.01635510 0.01169796 0.030159184 0.0060693880.01033061 0.00929796 0.006069388 0.011106122
cor(setosa) = R =
1.0000000 0.7425467 0.2671758 0.27809840.7425467 1.0000000 0.1777000 0.23275200.2671758 0.1777000 1.0000000 0.33163000.2780984 0.2327520 0.3316300 1.0000000
UNNE Metodos Estadısticos Multivariados Febrero 2011 65/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaGraficos
12
34
56
7
0.00.51.01.52.02.5
Iris
Ver
sico
lor,
Iris
Vir
gin
ica,
Iris
Set
osa
peta
l.len
gth
petal.width
vers
icol
orvi
rgin
ica
seto
sa
UNNE Metodos Estadısticos Multivariados Febrero 2011 66/ 168
Intro
duccio
nAlg
ebra
linea
ly
elso
ftware
REsta
dıstica
descrip
tivaEsta
dıstica
inferen
cial
Eva
luacio
n
Esta
dıstica
Univaria
da
Caso
Bivaria
do
Dato
sM
ultivaria
dos
PCA
Bip
lots
Ejercicio
s
Esta
dıstica
Descrip
tivaGrafi
cos
setosa versicolor virginica
12
34
56
7
Especie
Long
itud
de P
etal
o
Iris Setosa
Long. de Petalo
Fre
cuen
cia
1.0 1.2 1.4 1.6 1.8
02
46
810
12
Iris Versicolor
Long. de Petalo
Fre
cuen
cia
3.0 3.5 4.0 4.5 5.0
02
46
810
Iris Virginica
Long. de Petalo
Fre
cuen
cia
4.5 5.0 5.5 6.0 6.5 7.0
02
46
8
UN
NE
Meto
dos
Esta
dıstico
sM
ultivaria
dos
Feb
rero2011
67/
168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaGraficos
Sep
al.L
engt
h
2.0
2.5
3.0
3.5
4.0
0.5
1.0
1.5
2.0
2.5
4.55.56.57.5
2.02.53.03.54.0
Sep
al.W
idth
Pet
al.L
engt
h
1234567
4.5
5.0
5.5
6.0
6.5
7.0
7.5
8.0
0.51.01.52.02.5
12
34
56
7
Pet
al.W
idth
UNNE Metodos Estadısticos Multivariados Febrero 2011 68/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjercicios
Resolver ejercicios 1 y 2 al final de esta seccion.
UNNE Metodos Estadısticos Multivariados Febrero 2011 69/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaReduccion de Dimensionalidad - PCA
Problema: Encontrar un espacio de dimension mas reducidaque represente adecuadamente los datos y brinde la mejorrepresentacion de la variabilidad y diversidad de los mismos.
Objetivos:
Reducir dimensionalidad describiendo las p variables de unamatriz X por un subconjunto (pequeno) r < p decombinaciones lineales de las variables originales.Describir patrones de correlacion entre las variablesinvolucradas.
UNNE Metodos Estadısticos Multivariados Febrero 2011 70/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaReduccion de Dimensionalidad - PCA
Herramienta exploratoria: tecnica basada en una muestra parafacilitar descripcion de los datos.
Aplicaciones:
Descripcion e interpretacion de un conjunto de datos.Utilizada como tecnica de pre-procesamiento en diversasaplicaciones(agrupamiento, regresion, etc)Utilizada en distintas disciplinas (economıa, meteorologıa ,procesamiento de imagenes de teledeteccion, psicologıa, etc).
UNNE Metodos Estadısticos Multivariados Febrero 2011 71/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA
El Analisis de Componentes Principales (PCA) permite:
Analizar los individuos: Hacer particiones entre individuos aldetectar similaridades (distancia euclıdea) entre ellos respectoa algunas variables o combinaciones de las mismas
Analizar las variables: Se encuentran relaciones lineales entrelas variables por medio de la descomposicion de la matriz decorrelacion R (o bien S).
Pueden describirse grupos de individuos por las variables
UNNE Metodos Estadısticos Multivariados Febrero 2011 72/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA
Pasos de un PCA:
Seleccionar las variables (descartar categoricas, etc.)
Centrar las variables respecto a su media xk − xk . Esto nocambia la estructura de la nube de puntos.
Decidir si se van a estandarizar las variables o no. Si lasvariables tienen distintas unidades o magnitudes muy disımilesdeben estandarizarse.
Determinar el numero de componentes que se desean retener.
Si es necesario rotar componentes para mejorarintrepretabilidad
Interpretar resultados.
UNNE Metodos Estadısticos Multivariados Febrero 2011 73/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA
Primer componente principal es la dimension en la cual lasvariables estan mas dispersas(varianza maxima).
Segunda componente principal combinacion lineal con maximavarianza con direccion ortogonal a la primer componente.
...
Estas nuevas variables (PC) son no correlacionadas.
En lo que resta: Sea X, n × p matriz de observaciones.Supondremos variables x1, . . . , xp centradas respecto a sus medias.
UNNE Metodos Estadısticos Multivariados Febrero 2011 74/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA- Enfoque Geometrico
4.0
4.5
5.0
5.5
6.0
2.53.03.54.04.5
Set
osa
Sep
al.L
engt
h
Sepal.Width
UNNE Metodos Estadısticos Multivariados Febrero 2011 75/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA- Enfoque Geometrico
Si las variables xi estan correlacionadas entonces, en general,la nube de puntos forma un elipsoide con centro en x cuyosejes principales no son paralelos a los ejes cartesianos.
La direccion del eje mayor del elipsoide y la proyeccion de lospuntos sobre esta permiten describir la orientacion de la nubede puntos. Este eje minimiza las distancias ortogonales de lasobservaciones a una recta que pase entre ellas.
Encontrar los ejes del elipsoide es equivalente a encontrar lamatriz ortogonal A que rota los ejes de manera tal que losalinea con los ejes del elipsoide.
UNNE Metodos Estadısticos Multivariados Febrero 2011 76/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA- Enfoque algebraico
Encontrar un subespacio de dimension r < p tal que laproyeccion de los puntos sobre el mismo preserve la estructura(posiciones relativas) con la menor distorsion posible.
Se busca una combinacion linealz1 = a11x1 + a12x2 + ... + a1pxp = a′1x de las variablesoriginales que tenga varianza maxima.
UNNE Metodos Estadısticos Multivariados Febrero 2011 77/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica Descriptiva
Los valores de la primer componente en los n individuos serepresenta por el vector
z1 = Xa1
z1 = 0 (variables originales centradas respecto a su media)
var(z1) = 1nz′1z1 = 1
na′1X
′Xa1 = a′1Sa1.
Para maximizar esa varianza, pidiendo ademas que a′1a1 = 1, sedebe resolver:Sa1 = λ1a1
Luego a1 y λ1 son un autovector de S y su autovalorcorrespondiente. Ademas λ = var(z1) y a1 define los coeficientesde cada variable en la primer componente principal.
UNNE Metodos Estadısticos Multivariados Febrero 2011 78/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA
Resto de las componentes se obtiene calculando losautovectores y autovalores de S (o R).
Se ordenan los autovalores de mayor a menor, λ1 ≥ λ2 ≥ ..., lak-esima PC es zk = a′kx, ak autovector correspondiente a λk
Los ai son ortogonales
En algunos casos es conveniente usar la matriz de correlacionR en lugar de S: si las varianzas difieren substancialmente olas unidades de medicion son inconmensurables lascomponentes de S seran dominadas por las variables conmayor varianza.
UNNE Metodos Estadısticos Multivariados Febrero 2011 79/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA - Propiedades
∑pi=1 var(zi ) =
∑pi=1 λi =
∑pi=1 var(xi )
Proporcion de variabilidad explicada por componentezk = λk
Ppi=1 λi
cov(zi, xj) = λiaij, cor(zi, xj) =λiaij
q
λis2j
UNNE Metodos Estadısticos Multivariados Febrero 2011 80/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA-Datos iris
UNNE Metodos Estadısticos Multivariados Febrero 2011 81/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA: ¿Cuantas?
Graficar λi vs i y buscar el corte (codo) entre autovalores“grande”y“pequenos”.
Seleccionar las componentes necesarias hasta lograr unaproporcion determinada de la varianza (80%, 90%).
Seleccionar las componentes cuyos autovalores sean mayoresque el promedio de los mismos
∑pi=1 λi/p.
UNNE Metodos Estadısticos Multivariados Febrero 2011 82/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaScreeplot
iris.pca
Var
ianc
es
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Comp.1 Comp.2 Comp.3 Comp.4
UNNE Metodos Estadısticos Multivariados Febrero 2011 83/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaPCA:Interpretacion
Si cov(xixj) > 0∀(i, j) ⇒ todos los elementos del primerautovector a1 son positivos ⇒
primer componente promedio ponderado de las variables:Factor o medida de“tamano”.resto de las componentes deben tener elementos positivos ynegativos, contraponiendo grupos de variables frente a otros:Factores o medidas de“forma”.
Rotacion: Rotar las PC para obtener mejor “interpretacion”buscando dimensiones donde varios de los coeficientes de lascombinaciones sean casi cero. Pero: nuevas PCcorrelacionadas, no dan informacion sobre maxima varianza.
Representacion grafica: Biplots.
UNNE Metodos Estadısticos Multivariados Febrero 2011 84/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaBiplot
Biplot: representacion bidimensional de una matriz de datos X,que asigna un punto a cada uno de los n vectores de observacionesy a cada una de las p variables.
p = 2: diagrama de dispersion da informacion sobre laposicion de cada punto respecto al resto y a las variables.
p > 2 Representacion puede obtenerse, por ejemplo, a partirde la descomposicion en valores singulares de una matriz.
UNNE Metodos Estadısticos Multivariados Febrero 2011 85/ 168
Intro
duccio
nAlg
ebra
linea
ly
elso
ftware
REsta
dıstica
descrip
tivaEsta
dıstica
inferen
cial
Eva
luacio
n
Esta
dıstica
Univaria
da
Caso
Bivaria
do
Dato
sM
ultivaria
dos
PCA
Bip
lots
Ejercicio
s
Esta
dıstica
Descrip
tivaBip
lot
−0.2 −0.1 0.0 0.1 0.2
−0.
2−
0.1
0.0
0.1
0.2
CP 1
CP
2
1
1
1
1
1
1
11
1
1
1
1
11
1
1
1
1
1
1
1
1
1
11
1
1
11
11
1
1
1
1
1
11
1
11
1
1
1
1
1
1
1
1
1
2
2 2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
22
22
2
2
2
2
2
22
2
2
2
2
22
2
2
2
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3 3
3
3
3
3
3
3
33
3
33
3
3
333
3
33
3
3
3
3
3
−10 −5 0 5 10
−10
−5
05
10
Sepal.Length
Sepal.Width
Petal.LengthPetal.Width
Fig
ure:
Represen
tacion
Bip
lot
de
los
resultad
os
del
PCA
de
iris
UN
NE
Meto
dos
Esta
dıstico
sM
ultivaria
dos
Feb
rero2011
86/
168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaBiplot
Si Xc =
(x1 − x)′
(x2 − x)′
...(xp − x)
Xc = ZA′
donde:
Z =
z′1z′2...z′n
A matriz cuyas columnasson los autovectoresnormalizados de S .
UNNE Metodos Estadısticos Multivariados Febrero 2011 87/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaBiplot
Xc = ZrA′r
es la mejor aproximacion de rango r < p a X, con:
Ar ,n × r , matriz formada por r primeras columnas de Acorrespondientes a los r mayores autovalores de S ,
Zr , r × p, formada por las r primeras filas de Z
Haciendo r = 2 ⇒ Representacion Biplot de Xc
UNNE Metodos Estadısticos Multivariados Febrero 2011 88/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Datos Multivariados - Biplot
Z2 representa las observaciones en un espacio bidimensional
A2 representa las variables en ese espacio.
Las observaciones se dibujan como puntos
Las variables se dibujan como vectores.
El (coseno del) angulo entre los vectores equivaleaproximadamente a la correlacion entre las variables querepresentan
Si (λ1 + λ2)/tr(S) λ1 > λ2 mayores autovalores de S, escercano a 1 ⇒ la representacion es buena. Si es muy pequenoel biplot no es confiable.
UNNE Metodos Estadısticos Multivariados Febrero 2011 89/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjemplo 1: Registro Temperaturas
Datos: registro de medias mensuales de temperatura duranteun ano en varias ciudades francesas.
Variables: Meses de Enero a Diciembre
Individuos: 30 ciudades francesas.
UNNE Metodos Estadısticos Multivariados Febrero 2011 90/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjemplo 1: Registro Temperaturas
UNNE Metodos Estadısticos Multivariados Febrero 2011 91/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjemplo 1: Registro Temperaturas
UNNE Metodos Estadısticos Multivariados Febrero 2011 92/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjemplo 1: Registro Temperaturas
UNNE Metodos Estadısticos Multivariados Febrero 2011 93/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjercicio 1
El archivo protein data.dat contiene datos sobre el consumo deproteınas en algunos paıses europeos para nueve grupos dealimentos.(cf. Hand et al., 1994)
1 ¿Cuales son las variables¿Cuantas observaciones hay?2 ¿Que paıs es el mayor consumidor de proteınas del grupo
alimentario White.Meat?3 Cacule el vector de medias y medianas.4 Calcule matrices de covarianza y correlacion. ¿Que puede
decir sobre ellas?5 Realice un grafico donde pueda comparar el consumo de esos
alimentos en los paıses involucrados.
Funciones: mean, summary, cov, cor, boxplot, etc.
UNNE Metodos Estadısticos Multivariados Febrero 2011 94/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica DescriptivaEjercicio 2
El archivo data PCA exercice 1.csv contiene datos sobre distintosindicadores sociodemograficos de varios paıses.
1 ¿Cuales son las variables¿Cuantos paıses fueron analizados?
2 ¿Que paıs es el que tiene menor esperanza de vida?
3 Cacule el vector de medias y medianas.
4 Calcule matrices de covarianza y correlacion. ¿Que puededecir sobre ellas?
5 Realice un diagrama de dispersion cuyos ejes sean las tasas denacimiento y de mortalidad de dichos paıses.
UNNE Metodos Estadısticos Multivariados Febrero 2011 95/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaEjercicio 3: datos
n = 26 individuos (paısesdel mundo)
cf.http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_01
p = 9 variables:
“BirthRate”(h)“DeathRate“ (h)“PopulationGainLoss”(rate)“InfantMortalityRate”(h)“Age65”(%)“LifeExpectancyBirth”(years)“LifeExpectancyBirthMales”(years)“LifeExpectancyBirthFemales”(years)“UrbanPopulation”
UNNE Metodos Estadısticos Multivariados Febrero 2011 96/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaEjercicio 3: preguntas
Instale el package FactoMineR:
utilizar install.packages() con la opciondependencies=TRUE
Importar los datos data_PCA_exercice_1.csv:
utilizar read.table()utilizar summary() para resumir los datos
Hacer el estudio univariado:
identificar las variables cuantitativas (datos reales)ver la distribucion de las variables con boxplot()
citar paıses atıpicos:
para la poblacion urbanapara la esperanza de vida
UNNE Metodos Estadısticos Multivariados Febrero 2011 97/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaEjercicio 3: preguntas
Hacer un PCA a ”mano”:
utilizar la formula del cursohacer la PCA con la matriz de correlacionutilizar mean(), sd(), for(), t() y eigen()
trazar la varianza explicada por los factores¿Cuantos factores piensa tener en cuenta?
Hacer un PCA con R:
utilizar PCA() con la opcion quali.sup=1 y scale=TRUE
trazar la varianza explicada por los factorescomparar con la PCA a“mano”trazar los 3 primeros factores:
utilizar opcion axes=c(1,2) y depues axes=c(1,3)
UNNE Metodos Estadısticos Multivariados Febrero 2011 98/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Estadıstica UnivariadaCaso BivariadoDatos MultivariadosPCABiplotsEjercicios
Estadıstica descriptivaEjercicio 3: preguntas
Describir los 3 primeros factores:
para cada uno (F1, F2 and F3), buscar las variables que tienen:
correlacion positiva con el factorcorrelacion negativa con el factor
¿al final, que significan los factores?
Describir los siguientes paıses:
AfghanistanUSAAustriaBulgaria
UNNE Metodos Estadısticos Multivariados Febrero 2011 99/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Plan
1 Introduccion
2 Algebra lineal y el software R
3 Estadıstica descriptiva
4 Estadıstica inferencialIntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
5 Evaluacion
UNNE Metodos Estadısticos Multivariados Febrero 2011 100/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialRappel: Estadıstica descriptiva
Solo descripcion de los datos:
reduccion de informacionreagrupar las variableshacer grupos de personas
Individuos Variable 1 · · · Variable p
1...
n
Table: Representacion esquematica de datos para la Estadısticadescriptiva
UNNE Metodos Estadısticos Multivariados Febrero 2011 101/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialPrincipio de la Estadıstica inferencial
Ahora, la inferencia sobre los datos:
una variable mas importante (variable de interes)otras variables explicativas (p covariables)
Regresiones:
regresion simple: p = 1 (cf. Dalgaard p. 95)regresion multiple: p > 1 (cf. Dalgaard p. 149)
Individuos Variable de interes Covariable 1 · · · Covariable p
1...
n
Table: Representacion esquematica de datos para la EstadısticainferencialUNNE Metodos Estadısticos Multivariados Febrero 2011 102/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialNotaciones
Variable de interes:
se denota Y
1 variable aleatoria{y1, . . . , yn} son n observaciones de Y
Covariable:
se denota X
p = 1 variable determinista{x1, . . . , xn} son n observaciones de X
Modelo (en el software R):
regresion simple: Y ∼ X
regresion multiple: Y ∼ X1 + . . . + Xp
UNNE Metodos Estadısticos Multivariados Febrero 2011 103/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialNotaciones
Individuals Y X
1 y1 x1...
......
i yi xi
......
...n yn xn
Table: Esquematizacion de datos de regresion simple entre Y y X
UNNE Metodos Estadısticos Multivariados Febrero 2011 104/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
200 ninos de 18 anos en Hong Kong
Y : altura (m)
X : peso (kg)
cf.http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data_Dinov_02
Individuos Y X
1 1.67 50.842 1.82 61.42...
......
199 1.73 57.36200 1.81 57.55
Table: Datos de altura y peso de200 jovenes
UNNE Metodos Estadısticos Multivariados Febrero 2011 105/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEstudio univariado
Figure: Histogramas de la altura y del peso
UNNE Metodos Estadısticos Multivariados Febrero 2011 106/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEstudio bivariado
Figure: y ∼ x
Lo que usted tiene quepreguntarse:
¿relacion lineal?¿valores atıpicas?¿misma variabilidad en eldiagrama de dispersion?
UNNE Metodos Estadısticos Multivariados Febrero 2011 107/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialModelo
Modelo de regresion simple
Y = α0 + α1X + ε
Con:
α0 ordenada al origenα1 la pendienteε el error
Hipotesis:
ε (variable aleatoria), ε ∼ N(
0, σ2)
∀i 6= j , ǫi y ǫj son independientes
UNNE Metodos Estadısticos Multivariados Febrero 2011 108/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialObjetivo y notaciones
Modelo de regresion simple
Y = α0 + α1X + ε
Objetivo:
Estimar α0, α1 y σ2
Notacion:
estimadores se denotan α0, α1 y σ2
valores ajustados se denotan y
residuos se denotan ε = y − y
UNNE Metodos Estadısticos Multivariados Febrero 2011 109/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialCriterio de mınimos cuadrados
Modelo de regresion simple
Y = α0 + α1X + ε
Minimizar la suma de los residuos al cuadrado (Residuals Sumof Squares or RSS):
RSS =
n∑
i=1
ǫ2i
=n
∑
i=1
(yi − yi)2
=
n∑
i=1
(yi − (α0 + α1xi ))2
UNNE Metodos Estadısticos Multivariados Febrero 2011 110/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEstimadores de los mınimos cuadrados
Estimadores:
α1 =
∑ni=1 (xi − x) (yi − y)∑n
i=1 (xi − x)2
α0 = y − α1x
σ2 =
(
1
n − 2
)
RSS
Con medias:
x =1
n
n∑
i=1
xi
y =1
n
n∑
i=1
yi
UNNE Metodos Estadısticos Multivariados Febrero 2011 111/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialValidez del modelo
¿Como validar el modelo?
tests estadısticos:
Fisher-testStudent-test
graficas:
lınea de regresiondistribucion de los residuos
criterio numerico:
R2
UNNE Metodos Estadısticos Multivariados Febrero 2011 112/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialFisher-test
Fisher-test o f-test
Testar la hipotesis global
Hipotesis:
H0 : ∀i , αi = 0H1 : ∃i , αi 6= 0¿hay, al menos, un α efecto significativo?ej: ¿α0 significativo? ¿α1 significativo? ¿α0 y α1 significativo?
Resultados:
sobre la base del p-valor (cf. Wasserman p. 156)p-valor<0.05 → efecto significativo de α0, α1 o α0 y α1 (noaceptamos H0)p-valor>0.05 → ningun efecto significativo (aceptamos H0)
UNNE Metodos Estadısticos Multivariados Febrero 2011 113/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialStudent-test
Student-test o t-test (cf. Wasserman, p. 170)¡Hacerlo solo si f-test es significativo!Testar el efecto de α1
Hipotesis:
H0 : α1 = 0H0 : α1 6= 0¿es la pendiente significativamente diferente de 0?¿es el efecto de X sobre Y significativo?
Resultados:
sobre la base del p-valor (cf. Wasserman p. 156)p-valor<0.05 → efecto significativo de α1 (no aceptamos H0)p-valor>0.05 → ningun efecto significativo de α1 (aceptamosH0)
UNNE Metodos Estadısticos Multivariados Febrero 2011 114/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialSalidas de R
Table: Salida de la funcion summary() deuna regresion simple
Estimadores de mınimoscuadrados:
α0 = 1.43α1 = 0.0051σ = 0.041
Pruebas estadısticas:
f-test es significativo(p-value< 2.2e−16)t-test es significativo(p-value< 2e−16)efecto significativo de X
(peso) sobre Y (altura)
UNNE Metodos Estadısticos Multivariados Febrero 2011 115/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialLınea de regresion
Ecuacion de la recta de regresion:
y = α0 + α1x
Interpretacion de los estimadores:
α0 = 1.43
ordenada al origenvalor de y cuando x = 0
α1 = 0.005
pendienteα1 > 0si aumenta el peso, aumentala altura
Figure: y ∼ x y la lınea de regresion(rojo)UNNE Metodos Estadısticos Multivariados Febrero 2011 116/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialValores ajustadas (y)
Table: Ejemplo de prediccion delmodelo de regresion simple para
Pregunta:
¿Cual es mi altura si mi peso esde 70 kg?
Utilizamos el modelo:
y = 1.43 + 0.005 ∗ 70
= 1.79
UNNE Metodos Estadısticos Multivariados Febrero 2011 117/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialResiduos (ε)
Figure: y ∼ x , la lınea de regresion(rojo) y los residuos εi (azul)
Lınea de regresion:
minimizar la RSS
RSS =∑n
i=1 (yi − yi )2
En el ejemplo, RSS = 0.33
UNNE Metodos Estadısticos Multivariados Febrero 2011 118/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialResiduos (ε)
Figure: Empırica (negro) y teorica(rojo) distribucion de los residuos
Distribucion teorica de los residuos:
la ley de Gaussε ∼ N
(
0, σ2)
σ2 =(
1n−2
)
RSS
En el ejemplo, σ2 = 0.0017
¿Es realista el supuesto sobre losresiduos?
en caso afirmativo, el modeloesta bien escritosi no:
no linealidadtransformar las variablesUNNE Metodos Estadısticos Multivariados Febrero 2011 119/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialCoeficiente R2
Table: Salida de la funcion summary() deuna regresion simple
R2 =Var
(
Y)
Var (Y )
Coeficiente de determinacion:
porcentajevariabilidad explicada porel modeloutilizar para compararmodelos
En el ejemplo, R2 = 0.31
UNNE Metodos Estadısticos Multivariados Febrero 2011 120/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialR comandos del ejemplo
R function Description
read.table() importacion de datos
nrow() numero de linea
ncol() numero de columna
summary() resumen de un elemento
sum() suma de un vector
sqrt() raız cuadrada
var() varianza de un vector
hist() histograma
R function Description
plot() dispersion
line() anadir una lınea
abline() anadir la lınea de regresion (”a” - ”b”)
segments() segmento de lınea
dnorm() calculo de densidad teorica de Gauss
data.frame() crear datos
lm() modelo lineal
predict() predecir valores ajustados de un modelo lineal
Table: Funciones de R utilizadas enscript_simple_regression_course.R
UNNE Metodos Estadısticos Multivariados Febrero 2011 121/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 1: datos
272 observaciones de“Old Faithfulgeyser” en Yellowstone National Park,Wyoming, USA
2 variables:
”eruption”, la duracion de la erupcion(min)“waiting”, el tiempo de espera(minutos) para la proxima erupcion
cf.http://www.stat.cmu.edu/~larry/all-of-statistics/=data/faith
Figure: El geiser del YellowstoneNational Park
UNNE Metodos Estadısticos Multivariados Febrero 2011 122/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 1: preguntas
Importar los datosdata_simple_regression_exercice_1.csv:
utilizar read.table()utilizar summary() para resumir los datos
Describir los datos:
estudio univariado:
utilizar boxplot() y hist()
¿algun comentario?
estudio bivariado:
utilizar plot()¿que podrıa preguntar?¿relacion lineal?
UNNE Metodos Estadısticos Multivariados Febrero 2011 123/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 1: preguntas
Realizar la regresion simple:
escribir el modeloutilizar lm()
Comentar los coeficientes:
utilizar summary()¿estimacion del intercept (α0) y de la pendiente (α1)?¿coeficientes significativos?decribir los coeficientes
Calcular RSS , σ y R2:
utilizar las formulas del cursoutilizar sum(), sqrt() y var()
comparar con el summary() salida
UNNE Metodos Estadısticos Multivariados Febrero 2011 124/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 1: preguntas
Salidas graficas:
trazar y ∼ x y la lınea de regresion:
utilizarplot() y abline()
trazar la distribucion empırica y teorica de los residuos:
utilizar hist(), lines() y dnorm()
¿son buenos los supuestos sobre los residuos?
hacer predicciones:
predecir el tiempo de erupcion para los siguientes tiempos deespera: 40, 70 and 100 minutespredecir la duracion de erupcion para los siguientes tiempos deespera: 40, 70 y 100 minutosutilizar data.frame() y predict()
UNNE Metodos Estadısticos Multivariados Febrero 2011 125/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 1: preguntas
Pregunta adicional:
recordar y ∼ x y los histogramas de x y y
¿algun comentario?describir su intuicionseparar los individuos:
utilizar kmeans()hacer una regresion para cada grupo de datostrazar las lıneas de regresion y los gruposcomparar las ordenadas al origen y las pendientes¿cual es la diferencia?
UNNE Metodos Estadısticos Multivariados Febrero 2011 126/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 2: datos
1000 observaciones
2 variables:
Y
Z
cf. secreto...
UNNE Metodos Estadısticos Multivariados Febrero 2011 127/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 2: preguntas
Importar los datosdata_simple_regression_exercice_2.csv
Describir los datos:
estudio univariado:
¿algun comentario?
estudio bivariado:
trazar y ∼ z
¿relacion lineal?
Para el “Modelo 1”: Y = α0 + α1Z + ε, con ε ∼ N(
0, σ2)
calcular el modelotrazar la lınea de regresiontrazar la distribucion teorica y empırica de los residuos¿algun comentario?
UNNE Metodos Estadısticos Multivariados Febrero 2011 128/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 2: preguntas
Pensar otro modelo...
¿Cual es la relacion entre Y y Z?crear la variable X = log (Z )anadirX a los datos
Para el “Modelo 2”: Y = α′0 + α′
1X + ε′, con ε′ ∼ N(
0, σ′2)
trazar y ∼ x
¿relacion lineal?trazar la distribucion teorica y empırica de los residuos¿son buenos los supuestos sobre los residuos?
UNNE Metodos Estadısticos Multivariados Febrero 2011 129/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio 2: preguntas
Modelo 1 VS Modelo 2:
comparar R2
comparar la distribucion de los residuos¿cual es el mejor modelo?
Por ultimo, ¿cul es la relacion entre Y y Z?
escribir el modelotrazar y ∼ z y la lınea de regresion que corresponde
En realidad, fueron datos simulados...
cf. script_simple_regression_exercice_2.R¡observar que α0, α1 y σ estan perfectamente estimados!
UNNE Metodos Estadısticos Multivariados Febrero 2011 130/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialNotaciones
Variable de interes:
se denota Y
1 variable aleatoria{y1, . . . , yn} son n observaciones de Y
Covariables:
se denotan X = (X1, . . . , Xj , . . . , Xp)p variables deterministasn × p observaciones de X
UNNE Metodos Estadısticos Multivariados Febrero 2011 131/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialNotaciones
Individuals Y X1 · · · Xj · · · Xp
1 y1...
......
...i yi · · · · · · xi ,j...
...n yn
Table: Esquematizacion de datos de regresion multiple
UNNE Metodos Estadısticos Multivariados Febrero 2011 132/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Descripcion de los datos:
n = 25 jovenes entre 7 y 23 anos que tienen fibrosis quıstica1 variable de interes:
presion espiratoria maxima
p = 8 covariables:
indicadores del cuerpoindicadores de la respiracion
Fuente
D.G. Altman (1991), Practical Statistics for Medical Research,Table 12.11, Chapman & Hall
UNNE Metodos Estadısticos Multivariados Febrero 2011 133/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Descripcion de las variables:
Y (“pemax”): maximum expiratory pressureX1 (“age”): ageX2 (“height”): height (cm)X3 (“weight”): weight (kg)X4 (“bmp”): body mass (pourcentage of normality)X5 (“fev1”): forced expiratory volumeX6 (“rv”): residuals volumeX7 (“frc”): functional residual capacityX8 (“tlc”): total lung capacity
UNNE Metodos Estadısticos Multivariados Febrero 2011 134/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Individuos Y X1 X2 X3 X4 X5 X6 X7 X8
1 95 7 109 13.1 68 32 258 183 137
2 85 7 112 12.9 65 19 449 245 134...
......
......
......
......
...
24 95 23 175 51.1 71 33 224 131 113
25 195 23 179 71.5 95 52 225 127 101
Table: Datos de 25 jovenes que tienen fibrosis quıstica
UNNE Metodos Estadısticos Multivariados Febrero 2011 135/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEstudio univariado
Figure: Histograma de Y “pemax”, lapresion espiratoria maxima
¿Valores extremos en ladistribucion de Y ?
si sı, entonces eliminelospuede afectar los estimadoresde los mınimos cuadrados
UNNE Metodos Estadısticos Multivariados Febrero 2011 136/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEstudio bivariado
Figure: Ejemplos de la relacion entre Y y 2Xi diferentes
Relaciones entreY y los Xi?
lineal?necesita transformaciones(log, exp, etc...)?
En el ejemplo:
todo linealnada que cambiar
UNNE Metodos Estadısticos Multivariados Febrero 2011 137/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialModelo
Modelo de regresion multiple
Y = α0 + α1X1 + . . . + αpXp + ε
Con:
α0 ordenada al origenαi , ∀i = 1..p, el efecto de la covariable Xi
ε el error
Hipotesis:
ε (variable aleatoria), ε ∼ N(
0, σ2)
∀i 6= j , ǫi y ǫj son independientes
UNNE Metodos Estadısticos Multivariados Febrero 2011 138/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialModelo
Modelo de regresion multiple (forma de matriz)
Y = Xβ + ε
Con:
X ∈ Rn×(p+1), X =
1 x1,1 . . . x1,p
......
...1 xn,1 . . . xn,p
Y ∈ Rn×1, Y = (y1 . . . yn)
′
β ∈ R(p+1)×1, β = (α0 . . . αp)
′
ε ∈ Rn×1, ε = (ε1 . . . εn)
′
UNNE Metodos Estadısticos Multivariados Febrero 2011 139/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialObjetivo y notaciones
Modelo de regresion multiple (forma de matriz)
Y = Xβ + ε
Objetivo:
Estimacion de β, Var (β) y σ2
Notacion:
estimadores se denotan β, Var(
β)
y σ2
valores ajustados se denotan y
residuos se denotan ǫ = y − y
UNNE Metodos Estadısticos Multivariados Febrero 2011 140/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialCriterio de los mınimos cuadrados
Modelo de regresion multiple (forma de matriz)
Y = Xβ + ε
Minimizar la suma de los residuos cuadrados (Residuals Sumof Squares o RSS):
RSS =
n∑
i=1
ǫ2i
=
n∑
i=1
(yi − yi)2
UNNE Metodos Estadısticos Multivariados Febrero 2011 141/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialCriterio de los mınimos cuadrados
Modelo de regresion multiple (forma de matriz)
Y = Xβ + ε
Estimadores:
β =(
X ′X)−1
X ′Y
Var(
β)
= σ2(
X ′X)−1
σ2 =
(
1
n − p − 1
)
RSS
Condicion:
X ′X invertiblecovariables no correlacionadas...
UNNE Metodos Estadısticos Multivariados Febrero 2011 142/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialFisher-test y Student-test
Fisher-test (f-test):
testar la hipotesis globalH0 : ∀i , αi = 0¿hay, al menos, un efecto αi significativo?
Student-test (t-test):
hacerlo solo si f-test es significativohacerlo para cada αi
H0 : αi = 0
UNNE Metodos Estadısticos Multivariados Febrero 2011 143/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialFisher-test y Student-test
Table: Salida R de la funcion summary() dela regresion multiple
Resultados:
f-test es significativo(p-valor= 0.0159)pero, no hay t-testssignificativos... (todos losp-valores> 0.05)
Contradiccion en losresultados de los tests:
en realidad, el f-test dicela verdad...hay efectos significativosde las covariables
UNNE Metodos Estadısticos Multivariados Febrero 2011 144/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialProblemas de los mınimos cuadrados
covariables muy correlacionadas:
difıcil de calcular (X ′X )−1
inestabilidad numericacf. matriz de correlacion
exceso de ajuste (over-fitting):
cuando hay muchasvariables...y pocos individuosejemplo: n = 25 y p = 8...
age height weight bmp fev1 rv frc tlcage 1.00 0.93 0.91 0.38 0.29 -0.55 -0.64 -0.47
height 0.93 1.00 0.92 0.44 0.32 -0.57 -0.62 -0.46weight 0.91 0.92 1.00 0.67 0.45 -0.62 -0.62 -0.42
bmp 0.38 0.44 0.67 1.00 0.55 -0.58 -0.43 -0.36fev1 0.29 0.32 0.45 0.55 1.00 -0.67 -0.67 -0.44
rv -0.55 -0.57 -0.62 -0.58 -0.67 1.00 0.91 0.59frc -0.64 -0.62 -0.62 -0.43 -0.67 0.91 1.00 0.70tlc -0.47 -0.46 -0.42 -0.36 -0.44 0.59 0.70 1.00
Table: Matriz de correlacion de los XiUNNE Metodos Estadısticos Multivariados Febrero 2011 145/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialObjetivos y metodos
Para evitar estos problemas:
reducir el numero de covariables correlacionadastener en cuenta pequeno numero de covariables
Proponemos 2 metodos:
seleccion de modelo exhaustivaregresion en componentes principales
UNNE Metodos Estadısticos Multivariados Febrero 2011 146/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialMetodo 1: seleccion de modelo exhaustiva
Idea:
usamos todos los modelos
Criterios de seleccion:
R2adj = (n−1)R2
−p
n−p−1
criterio R2 con...penalizacion sobre el numero de p covariables p
UNNE Metodos Estadısticos Multivariados Febrero 2011 147/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialMetodo 1: seleccion de modelo exhaustiva
Calcular todos los modelos posibles:
con 1 covariable:
Y = α0 + α1X1 + ε
· · ·
Y = α0 + αpXp + ε
con 2 covariables:
Y = α0 + α1X1 + α2X2 + ε
· · ·
Y = α0 + αp−1Xp−1 + αpXp + ε
con p covariables:
Y = α0 + α1X1 + . . . + αpXp + ε
Queremos un modelo con:
buen R2adj
pocos parametros
UNNE Metodos Estadısticos Multivariados Febrero 2011 148/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Figure: Salida de R para laseleccion de modelo exhaustiva
Ejemplos de buenos modelos:
“Modelo 1”:
pemax ∼ weight + bmp
R2adj = 0.43
“Modelo 2”:
pemax ∼ weight + bmp + fev1R2
adj = 0.51
“Modelo 3”:
pemax ∼ weight +bmp+ fev1+ rv
R2adj = 0.54
UNNE Metodos Estadısticos Multivariados Febrero 2011 149/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Table: Salida R de summary() de laregresion multiple (Modelo 2)
Elegimos el Modelo 2 porque:
numero de parametros(p = 3)calidad del ajuste(R2
adj = 0.51)
Resultados:
todos los efectos de lascovariables sonsignificativos(p-valores< 0.05)
UNNE Metodos Estadısticos Multivariados Febrero 2011 150/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialMetodo 2: regresion en componentes principales
Idea:
para evitar la correlacion fuerte entre covariables...hacer la regresion de los factores principales de la PCAporque no hay correlacion entre factores principales
Anotaciones:
F1, . . . , Fk son los primeros k factores de la PCAk ≤ p con p el numero de covariables
UNNE Metodos Estadısticos Multivariados Febrero 2011 151/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialModelo
Transformacion de las covariables:
F = XW
con:
F ∈ Rn×k , las coordenadas de los individuos sobre (F1, . . . , Fk)
X ∈ Rn×p, la matriz clasica de las covariables
W ∈ Rp×k , los coeficientes λi,j , las coordenadas de Xj sobre Fi
ejemplo: Fi = λi,1X1 + . . . + λi,pXp
Despues, regresion multiple clasica de Y sobre (F1, . . . ,Fk)
cf. www.jstatsoft.org/v18/i02/paper
UNNE Metodos Estadısticos Multivariados Febrero 2011 152/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialModelo
Modelo de regresion en componentes principales
Y = α1F1 + . . . + αkFk + ε
Con:
αi , ∀i = 1..k , el efecto de los factores Fi
ε el error
Hipotesis:
ε (variable aleatoria), ε ∼ N(
0, σ2)
∀i 6= j , ǫi y ǫj son independientes
UNNE Metodos Estadısticos Multivariados Febrero 2011 153/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
F1 F2 F3 F4 F5 F6 F7 F8
X 63.78 78.91 88.78 94.52 98.31 99.23 99.81 100
Y 30.24 36.28 36.74 46.41 59.19 59.45 59.78 63.59
Table: Salida R de summary() de la regresion en componentesprincipales: porcentaje de variabilidad de X y Y explicada por losfactores F
Modelo 1: Y ∼ F1 + F2
estimar solamente 2parametrossolo 36.28% de lavariabilidad Y es explicada
Modelo 2:Y ∼ F1 + F2 + F3 + F4 + F5
estimar 5 parametros (esmucho)59.19% de la variabilidad Y
es explicadaUNNE Metodos Estadısticos Multivariados Febrero 2011 154/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjemplo
Figure: Representacion de losfactores F1 y F2
descripcion de los factores:
F1: oposicion entre (age, height,weight) y (rv, frc, tlc)F2: representado para fev1F3, F4, F5: Interpretacion difıcil...
Modelo 1:
2 factores explicativospobre capacidad predictiva...
Modelo 2:
3 de los 5 primeros factores no sepueden explicarbuena prediccion pero... black boxUNNE Metodos Estadısticos Multivariados Febrero 2011 155/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialConclusion
Regresion multiple:
si hay:
demasiadas variables correlacionadasn pequeno en comparacion con p
hacer una seleccion de las variables:
seleccion de modelo exhaustivaregresion en componentes principales
UNNE Metodos Estadısticos Multivariados Febrero 2011 156/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialConclusion
Todo depende de su aplicacion:
modelo predictivo:
no entendemos los parametrosmuchas covariables p
buena prediccion
modelo explicativo:
entendemos los parametrospocas covariables p
puede ser menos predictivo...¡pero en general es solido!
UNNE Metodos Estadısticos Multivariados Febrero 2011 157/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialR comandos del ejemplo
R function Description
read.table() importacion de datos
nrow() numero de linea
ncol() numero de columna
summary() resumen de un elemento
boxplot() boxplot
plot() dispersion
R function Description
cor() Matriz de correlacion
lm() modelo lineal
regsubsets() seleccion de modelo exhaustiva
pcr() regresion en componentes principales
PCA() analisis en componentes principales
Table: Funciones de R utilizadas enscript_multiple_regression_course.R
UNNE Metodos Estadısticos Multivariados Febrero 2011 158/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio: datos
n = 507 individuos de California
1 variable de interes:
“weight”(kg)
p = 23 covariables:
medidas del cuerpo“wrist.girth“ (cm), elbow.diam (cm),age, etc...
cf.http://www.amstat.org/publications/jse/v11n2/datasets.heinz
Figure: Medidas del cuerpoUNNE Metodos Estadısticos Multivariados Febrero 2011 159/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio: preguntas
Descargar y cargar paquetes leaps, pls y FactoMineR
Importar y separar los datos en 2 partes:
individuos 1 hasta 400 en data.body1
individuos 401 hasta 507 en data.body2
Hacer el estudio univariado:
¿algun comentario?¿comentario sobre la distribucion de shoulder.girth?
Hacer el estudio bivariado:
¿Que tipo de relaciones? ¿Lineal?¿como son las pendientes (positiva o negativa)?
UNNE Metodos Estadısticos Multivariados Febrero 2011 160/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio: preguntas
Hacer la correlacion entre las variables:
¿como son los datos?¿puedes predecir un problema?
Calcule el modelo de regresion multiple con todas lascovariables (denotarlo“Modelo 1”):
escribir el modelo¿que variables son importantes?¿que pasa con wrist.girth?
¿efecto significativo?¿Cual es el signo del coeficiente?¿adecuacion con el estudio bivariado?
UNNE Metodos Estadısticos Multivariados Febrero 2011 161/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio: preguntas
Hacer la investigacion exhaustiva de las variables:
utilizar regsubsets():
elegir un modelo (denotarlo“Modelo 2”)hacer la regresion multiple de este modelocomentar los resultados
Hacer una regresion en componentes principales:
utilizar pcr() y summary():
describir el % de variabilidad explicada por los factores¿cuantos factores tenemos que mantener en cuenta?elegir un modelo (denotarlo“Modelo 3”)
utilizar PCA():
comparar con los resultados de pcr()
explicar el primer factor
UNNE Metodos Estadısticos Multivariados Febrero 2011 162/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
IntroduccionRegresion simpleEjerciciosRegresion multipleSeleccion de las covariablesEjercicio
Estadıstica inferencialEjercicio: preguntas
Comparar el comportamiento predictivo de los diferentesmodelos:
tenemos 3 modelos:
Modelo 1: todas las covariablesModelo 2: con la seleccion exhaustiva de modeloModelo 3: regresion en componentes principales
para cada modelo:
hacer una prediccion del peso sobre los datos data.body2calcular el RSS
¿cual es el mejor modelo?
UNNE Metodos Estadısticos Multivariados Febrero 2011 163/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Data-setCondicionEvaluacion
Plan
1 Introduccion
2 Algebra lineal y el software R
3 Estadıstica descriptiva
4 Estadıstica inferencial
5 EvaluacionData-setCondicionEvaluacion
UNNE Metodos Estadısticos Multivariados Febrero 2011 164/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Data-setCondicionEvaluacion
EvaluacionDatos
Sus datos:
relacionados con sus estudioso no...
Fuentes de propuesta:
http://wiki.stat.ucla.edu/socr/index.php/SOCR_Data
http://archive.ics.uci.edu/ml/datasets.html
http://www.stat.cmu.edu/~larry/all-of-statistics/
http://www.prb.org/DataFinder.aspx
http://lib.stat.cmu.edu/datasets/
etc...
UNNE Metodos Estadısticos Multivariados Febrero 2011 165/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Data-setCondicionEvaluacion
EvaluacionCondicion
Grupo de 2 o 3
Dimensiones de los datos:
numero de variables (p > 20)numero de individuos (n > p)
Tipo de variables:
solo valores numericosningun valor categoricosin valores faltantes
Buscar problematicas interesantes:
encontrar grupos de variables similaresencontrar grupos de individuos similarescrear un modelo de regresion simple o multiple
UNNE Metodos Estadısticos Multivariados Febrero 2011 166/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Data-setCondicionEvaluacion
EvaluacionEvaluacion
Presentacion:
frente el resto de la clasedatosproblematicahacer un brainstorming
Informe:
de 10 ± 10% paginastamano 12interlınea simpleincluir graficos y tablasen pdf
UNNE Metodos Estadısticos Multivariados Febrero 2011 167/ 168
IntroduccionAlgebra lineal y el software R
Estadıstica descriptivaEstadıstica inferencial
Evaluacion
Data-setCondicionEvaluacion
EvaluacionEl informe debe incluir
Presentacion de los datos:
fuentelink adicional (si es necesario)
Problematicas
Estadıstica descriptiva:
univariadabivariadamultivariada
Estadısticas Inferencial:
modelo claramente escritodescripcion del modelo
Comandos R:
¡no en el informe!mail [email protected],[email protected]
Deadline:
25 de Marzo, 2011
UNNE Metodos Estadısticos Multivariados Febrero 2011 168/ 168