David R. González Barreto Universidad de Puerto Rico

96
Análisis Multivariado de Datos (MVDA), un enfoque aplicado (gráfico- geométrico), y sus Aplicaciones en Umetrics David R. González Barreto Universidad de Puerto Rico

description

David R. González Barreto Universidad de Puerto Rico. Análisis Multivariado de Datos (MVDA ), un enfoque aplicado ( gráfico - geométrico ), y sus Aplicaciones en Umetrics. Motivación. - PowerPoint PPT Presentation

Transcript of David R. González Barreto Universidad de Puerto Rico

Page 1: David R.  González Barreto Universidad de Puerto Rico

Análisis Multivariado de Datos (MVDA),un enfoque aplicado (gráfico-geométrico), y sus Aplicaciones en Umetrics

David R. González BarretoUniversidad de Puerto Rico

Page 2: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[2]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.

Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.

Page 3: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[3]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.

El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.

Page 4: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[4]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por:αglogal = 1 – (1 – α )m

Ejemplo: 10 pruebas con α = 0.05

αglobal = 1 – (1 - 0.05)10

αglobal = 1 – 0.5987 = 0.4013

Page 5: David R.  González Barreto Universidad de Puerto Rico

Estructura de Correlación

2x

1x

Univariados

1x

2x

Control para dos variables

IntroMVDA - DRGB – Septiembre 2011

[5]PCA E -PCA PLS

E - PLS

Q Chart

Page 6: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[6]PCA E -PCA PLS

E - PLS

Q Chart

Estructura de Datos

VARIABLES

K

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

Complejidad de los datos

Número de variables

Univariado K = 1

Bivariado K = 2

“Low Variate” K < 5

Multivariate K > 5

Page 7: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[7]PCA E -PCA PLS

E - PLS

Q Chart

Tipos de Problemas Básicos

Visión general de los datos (data overview)

Clasificación y/o discriminación entre grupos de observaciones

Regresión y modelaje entre dos bloques de datos (X y Y)

Page 8: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[8]PCA E -PCA PLS

E - PLS

Q Chart

Tipos de Problemas Básicos

X X YIIIIII

Visión general de los datos

Clasificación y/o

discriminación entre

grupos de observacione

s

Regresión y modelaje entre dos

bloques de datos (X y Y)

PCA

PCA

PLS

Page 9: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[9]PCA E -PCA PLS

E - PLS

Q Chart

Técnicas Multivariadas

Datos del

Proceso

X

Datos de Calidad,

Productividad

Y

Existen Técnicas para:

Explicar la variación en X ó Y (PCA)

- mientras maximiza la Varianza (X) ó (Y)

Explicar la variación en X e Y y la relación entre X e Y (PLS)

- mientras maximiza la Covarianza (X ,Y)

Temperatura, Presión, Velocidad,Nivel de fluido, Ph, concentración, rendimiento, ……,

Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, ……

Page 10: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[10]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.

Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.

Page 11: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[11]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

Suponga que K = 3, esto es existen 3 variables. Cada observación puede ser representada en un conjunto de ejes, un espacio tridimensional

Page 12: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[12]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

El principio de representar cada observación como un punto en el espacio multidimensional hace posible convertir una tabla de datos en una representación gráfica. Todas las observaciones de X se desplegan en el espacio de dimensión K, como una nube de puntos. En esta gráfica se presentan 20 observaciones.

Page 13: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[13]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional. Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación. El principio detrás de esta converisón se conoce como proyección. La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.

Page 14: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[14]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones El principio de proyecciones puede ser

matemáticamente extendedido a cualquier número de variables en el espacio K.

Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.

Page 15: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[15]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

Base de Datos – FOODS.xls

Page 16: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[16]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

K (20) > N (16) Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones. Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana. Note como los países nórdicos se agrupan en la parte superior. Esta es la escencia de la metodología de PCA.

Page 17: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[17]PCA E -PCA PLS

E - PLS

Q Chart

Ejemplo FOODS

Ejemplo Foods: Score Plot

Ejemplo Foods: Loadings Plot

Page 18: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[18]PCA E -PCA PLS

E - PLS

Q Chart

Ejemplo FOODSEjemplo Foods: Distance to Model: DMODX

No se observan outliers, todos los países se ajustan bien al modelo

Page 19: David R.  González Barreto Universidad de Puerto Rico

Principal Component AnalysisPCA

Page 20: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[20]PCA E -PCA PLS

E - PLS

Q Chart

Componentes Principales-PCA

PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).

Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.

Page 21: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[21]PCA E -PCA PLS

E - PLS

Q Chart

PCA

PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.

La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.

Page 22: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[22]PCA E -PCA PLS

E - PLS

Q Chart

Datos Multivariados

Matriz de Datos:

• Las filas corresponden a las unidades experimentales y las columnas a las características

• p: número de características consideradas

• n: número de unidades experimentales

• Xrj: valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.

Page 23: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[23]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Si p variables son consideradas, existen p PCs:

PC1= α11X1 + α12X2 + … + α1pXp

PC2= α21X1 + α22X2 + … + α2pXp

::

PCp= αp1X1 + αp2X2 + … + αppXp

Page 24: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[24]PCA E -PCA PLS

E - PLS

Q Chart

PCA

El primer PC contiene la mayor proporción de la variabilidad.

El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….

Page 25: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[25]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Dos Componentes Principales

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

X1

X2

PC2

PC1

Page 26: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[26]PCA E -PCA PLS

E - PLS

Q Chart

Matriz de Covarianza:

σii = Var(Xi) para i = 1,2,…,pσij = Cov(Xi,Xj) para i ≠ j = 1,2,…,p

PCA

Page 27: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[27]PCA E -PCA PLS

E - PLS

Q Chart

Coeficiente de Correlación:

ρij = coeficiente de correlación entre Xi and Xj para i ≠ j = 1,2,…,p. -1 ≤ ρij ≤ 1 para cada i ≠ j

PCA

Page 28: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[28]PCA E -PCA PLS

E - PLS

Q Chart

Matriz de Correlación:

ρij = coeficiente de correlación entre Xi and Xj for i ≠ j = 1,2,…,p.

PCA

Page 29: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[29]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Interpretación de CentralizaciónTomado de: IBS Caribe, Presentation on Chemometrics and Multivariate

Model Development.

Centralización y Varianza UnitariaTomado de: IBS Caribe,Inc. presentation on

Chemometrics

Simca – realiza este pretratamiento por default

Page 30: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[30]PCA E -PCA PLS

E - PLS

Q Chart

Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).

A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.

PCA

Page 31: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[31]PCA E -PCA PLS

E - PLS

Q Chart

Datos Estandarizados:

son el promedio y desviación estándar de cada variable para todas las observaciones.

PCA

Page 32: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[32]PCA E -PCA PLS

E - PLS

Q Chart

Matrix de Datos Estandarizados:

Las filas corresponden a las unidades experimentales y las columnas a las características

PCA

Page 33: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[33]PCA E -PCA PLS

E - PLS

Q Chart

Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.

Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.

La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.

PCA

Page 34: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[34]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los componentes principales de un conjunto de variables del proceso x1, x2, ….., xp, son unas combinaciones lineales particulares de estas variables.

z1 = c11x1 + c12x2 + … + c1pxp

z2 = c21x1 + c22x2 + … + c2pxp

: : :

zp = cp1x1 + cp2x2 + … + cppxp

Page 35: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[35]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Cij’s son constantes que se obtienen de los vectores propios (eigenvectors).

Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).

Los nuevos ejes representan las direcciones de máxima variabilidad.

Page 36: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[36]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un vector

x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.

Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.

La varianza del componente principal i es el “eigenvalue” i, λi.

La proporción de la variabilidad explicada por el componente principal i está dado por:

Page 37: David R.  González Barreto Universidad de Puerto Rico

PCA

Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un

vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.

Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.

La varianza del componente principal i es el “eigenvalue” i, λi.

La proporción de la variabilidad explicada por el componente principal i está dado por:

p

i

....21

IntroMVDA - DRGB – Septiembre 2011

[37]PCA E -PCA PLS

E - PLS

Q Chart

Page 38: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[38]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s: PC1 = α11Z1 + α12Z2 + … + α1pZp

Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s. λ1, λ2, …, λp

La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.

p

ii

p

ii

1

2

1

Page 39: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[39]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PCA

Page 40: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[40]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PCA

Page 41: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[41]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuantos PC’s? “Scree Plot” – “estado estable” Porcentaje de la Varianza Criterio: Eigenvalues > 1 – Matriz de Correlación

Page 42: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[42]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Figure 7: “Scree Plot” (Matriz de Covarianza)

Page 43: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[43]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuantos PC’s? Porcentaje de la varianza

Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo.

Page 44: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[44]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuántos PC’s?Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto , cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1.

Scree Plot (Matriz de Correlacion)

Page 45: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[45]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Tradeoff entre el número de componentes y el “overfitting”

R2 – goodness of fitQ2 – goodness of prediction

Page 46: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[46]PCA E -PCA PLS

E - PLS

Q Chart

Pasos en PCA

Seleccione las variables para el análisis. Decida si utilizara datos estandarizados, o,

Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.

Determine el numero de PCs significativos. Interprete los PCs (cuando sea posible). Use los PCs estudios futuros.

Page 47: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[47]PCA E -PCA PLS

E - PLS

Q Chart

PCA

“Scores plots”: Muestra las observationes proyectadas en el hiper-plano

creado por los PCs. Muestra un resumen de la relacion entre las observaciones.

Score Plot

Page 48: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[48]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Loadings plots: Muestra la relación entre distintas variables. Los “loadings” son los pesos que combinan las

variables originales para obtener los scores. Geométricamente, representan la dirección de

los PCs. La dirección del plano de proyección provee

información sobre la importancia de las variables.

Page 49: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[49]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Loading Plot

Page 50: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[50]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Escuela % de Retención GPA_ESP GPA-ING GPA-MAT T_PromedioProportionA 0.909091 3.03502 3.06276 2.10736 5.113 0.714571B 0.869010 3.02640 2.93806 1.99109 5.335 0.678788D 0.864078 2.85926 2.78610 1.79392 5.345 0.674847E 0.849829 3.23867 3.11757 2.23159 5.525 0.689655F 0.824074 2.81570 2.71528 1.81269 5.742 0.603896H 0.819788 3.24921 3.36993 2.42833 4.822 0.743590A 0.818750 2.66353 2.58026 1.81161 5.523 0.542857I 0.786806 2.71901 2.59216 1.63373 5.625 0.536278J 0.786301 2.70699 2.89389 1.72668 5.566 0.515789K 0.737864 2.80734 3.12958 2.01135 5.636 0.578947L 0.644776 2.34304 2.28070 1.36698 5.954 0.393939

Page 51: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[51]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Eigenanalysis of the Correlation Matrix

Eigenvalue 4.9869 0.5929 0.2739 0.0803 0.0404 0.0257Proportion 0.831 0.099 0.046 0.013 0.007 0.004Cumulative 0.831 0.930 0.976 0.989 0.996 1.000

Variable PC1 PC2 PC3 PC4 PC5 PC6% de Retención 0.352 0.774 -0.188 -0.401 0.278 0.053GPA_ESP 0.433 -0.074 -0.342 0.449 -0.059 0.696GPA-ING 0.403 -0.492 -0.113 -0.713 -0.261 0.080GPA-MAT 0.425 -0.337 -0.135 0.198 0.677 -0.437Tiempo_Promedio -0.395 -0.040 -0.900 -0.055 -0.044 -0.168Proportion 0.435 0.194 -0.087 0.294 -0.626 -0.536

Page 52: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[52]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Model Overview

Page 53: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[53]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Scores Plot

Page 54: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[54]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Loadings Plot

Page 55: David R.  González Barreto Universidad de Puerto Rico

Partial Least SquaresPLS

Page 56: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[56]PCA E -PCA PLS

E - PLS

Q Chart

PLS

PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.

PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.

Page 57: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[57]PCA E -PCA PLS

E - PLS

Q Chart

PLS

PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.

La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.

Page 58: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[58]PCA E -PCA PLS

E - PLS

Q Chart

Estructura de Datos

X

FACTORES/PREDICTORES

K

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

RESPUESTAS

M

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

PLS Y

Page 59: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[59]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

K = 3, M = 1, dos nubes de puntos

Page 60: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[60]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

K = 3, M = 3, dos nubes de puntos

Page 61: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[61]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

Primer Componente, ambos espacios

Score Vectors

Page 62: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[62]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLSSegundo Componente, ambos espacios

Línea de segundo componente de XOrtogonal a la primera, esto no es necesariamente cierto para el espacio Y

Page 63: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[63]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

Score vectors, otros componentes

El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente

Page 64: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[64]PCA E -PCA PLS

E - PLS

Q Chart

PLS

Modelaje IndirectoTomado de: An Introduction to Partial Least Squares Regression by Randall D. Tobias

Page 65: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[65]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

Ejemplo: el archivo LOWARP, suministrado por Umetrics, es un ejemplo donde tenemos 17 observaciones (mezclas) de una cubierta de plástico para un celular. Cuatro componentes son utilizados en la mezcla. El objetivo del estudio es el de conseguir cubiertas con poca deformación (warpage) y alto esfuerzo (strength). Catorce respuestas relacionadas a las deformaciones y el esfuerzo son medidas en la cubierta.

Page 66: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[66]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploBase de Datos – LOWARP

Respuestas - YFactores - X

Page 67: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[67]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo LOWARP – Weight Plot

Page 68: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[68]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo LOWARP – Observed vs Predicted

Page 69: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[69]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

Tres Componentes Dos Componentes

Page 70: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[70]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

t1/t2 - Score plot Biplot

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

t[2]

t[1]

lowarp.M1 (PLS)t[Comp. 1]/t[Comp. 2]

R2X[1] = 0.324195 R2X[2] = 0.24819 Ellipse: Hotelling T2 (0.95)

1

2

34

5

6

7

8

9

10

11

12

13141516

17

SIMCA-P+ 12.0.1 - 2011-09-12 22:32:13 (UTC-5)

-1.0

-0.8

-0.6

-0.4

-0.2

-0.0

0.2

0.4

0.6

0.8

1.0

-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0

pc(corr)[1], t(corr)[1]

lowarp.M1 (PLS)pc(corr)[Comp. 1]/pc(corr)[Comp. 2]

pc(corr)[2] (X)pc(corr)[2] (Y)t(corr)[2]

Var_1

glas

crtp

mica

amtpw rp1w rp2

w rp3

w rp4

w rp5w rp6

st1

st2

w rp7

st3

st4

w rp8

st5

st6

1

2

34

5

6

7

8

9

10

11

12

13141516

17

SIMCA-P+ 12.0.1 - 2011-09-12 22:28:09 (UTC-5)

Page 71: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[71]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploInterpretación de los

“weights”

Page 72: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[72]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploCoeficientes de variables correlacionadas

wrp1 y wrp2

Page 73: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[73]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploCoeficientes de variables no correlacionadas

wrp4 y st4

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

0.4

0.5

0.6

glas

crtp

mic

a

amtp

Coe

ffCS

[2](

wrp

4)

Var ID (Primary)

lowarp.M1 (PLS)CoeffCS[Last comp.](wrp4)Colored according to Var ID (Primary)

SIMCA-P+ 12.0.1 - 2011-09-13 00:29:21 (UTC-5)

Page 74: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[74]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploVIP – Variance Influence on

projection

Page 75: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[75]PCA E -PCA PLS

E - PLS

Q Chart

PLS – Ejemplo Diagnóstico de observaciones – “outliers” p

“non-linearities”

Una observación puede ser un outlier en X en Y y/o en la relación entre X e Y. Cuatro score Plots pueden ayudar: t1/u1, t2/u2, t1/t2 y u1/u2

La no-linearidad entre X e Y Puede ser observada en los scores tj/uj

Page 76: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[76]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

t1/u1 - Score plot

Indica una correlación alta entreLos factores y las respuestas; no parecen existir “outliers”.

t2/u2 - Score plot

En general se observa una correlación alta entre los factores y las respuestas; puntos 6,11, 12 son como diferentes

Page 77: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[77]PCA E -PCA PLS

E - PLS

Q Chart

PLS – Resumen de gráficos t/t score útil para encontrar desviaciones

en X u/u plot – útil para encontrar desviaciones

en Y t/u plot – útil para encontrar desviaciones

de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.

DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados

Page 78: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[78]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploDMOD- distancia al modelo – detect

“outliers”moderados

DMODX DMODY

Page 79: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[79]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploR2VX- variación explicada de los predictores X

Primer Componente

DMODY

Page 80: David R.  González Barreto Universidad de Puerto Rico

Gráficos Multivariados - Monitoreo

Hotelling, PCA

Page 81: David R.  González Barreto Universidad de Puerto Rico

Gráficos Multivariados

1x

2x

1x

2x Variables Independendientes

Variables Dendendientes

IntroMVDA - DRGB – Septiembre 2011

[81]PCA E -PCA PLS

E - PLS

Q Chart

Page 82: David R.  González Barreto Universidad de Puerto Rico

Gráficos Multivariados

Hotelling T2

xxSxxnT 12 '

Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados)

Fase II – monitoreo de observaciones futuras

m = # de muestras, n = tamaño de muestra

p = # de variables

0LCI 1

)1)(1(1,,

pmmnpFpmmn

nmpLCS

0LCI 1

)1)(1(1,,

pmmnpFpmmn

nmpLCS

IntroMVDA - DRGB – Septiembre 2011

[82]PCA E -PCA PLS

E - PLS

Q Chart

Page 83: David R.  González Barreto Universidad de Puerto Rico

Gráficos Multivariados – Ejemplop = 2, n = 3

 A

 

 B

 

99 109 118 32 54 55

142 124 135 71 102 93

116 132 100 58 104 50

111 138 107 31 60 51

110 143 103 67 98 70

111 119 147 56 44 92

129 111 98 84 50 53

145 136 105 96 90 56

120 117 112 92 61 64

103 92 121 70 45 79

IntroMVDA - DRGB – Septiembre 2011

[83]PCA E -PCA PLS

E - PLS

Q Chart

Page 84: David R.  González Barreto Universidad de Puerto Rico

Gráficos Multivariados - Ejemplo

  A     B   Xbar A X Bar B Var A Var B Cov (A,B) Corr(A,B)

99 109 118 32 54 55 108.67 47.00 90.33 169.00 111.00 0.90

142 124 135 71 102 93 133.67 88.67 82.33 254.33 -135.17 -0.93

116 132 100 58 104 50 116.00 70.67 256.00 849.33 432.00 0.93

111 138 107 31 60 51 118.67 47.33 284.33 220.33 163.67 0.65

110 143 103 67 98 70 118.67 78.33 456.33 292.33 353.67 0.97

111 119 147 56 44 92 125.67 64.00 357.33 624.00 424.00 0.90

129 111 98 84 50 53 112.67 62.33 242.33 354.33 255.67 0.87

145 136 105 96 90 56 128.67 80.67 440.33 465.33 451.33 1.00

120 117 112 92 61 64 116.33 72.33 16.33 292.33 50.33 0.73

103 92 121 70 45 79 105.33 64.67 214.33 310.33 237.17 0.92

Average 118.43 67.60 244.00 383.17 234.37

Promedios

Varianzas Cov / Corr

IntroMVDA - DRGB – Septiembre 2011

[84]PCA E -PCA PLS

E - PLS

Q Chart

Page 85: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[85]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados - Ejemplo

A

B

15014013012011010090

110

100

90

80

70

60

50

40

30

Scatterplot of B vs A

Page 86: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[86]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados - Ejemplo

Sample

Tsq

ua

red

10987654321

20

15

10

5

0Median=1.36

UCL=18.09

LCL=0.00

Tsquared Chart of A, BT Square

3.561833.639060.627097.970262.097002.755020.410271.486480.919153.87732

MEAN1MEAN2118.433 67.6COV244.000 234.367234.367 383.167

Page 87: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[87]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados - Ejemplo

Uno de los retos en estos gráficos cuando ocurre una señal de fuera de control es distinguir o diagnosticar cual o cuales de las variables son las que han cambiado su comportamiento. Entre los métodos sugeridos para el disgnóstico se encuentran:

Gráficos Univariados usando límites Bonferroni Usar Componentes Principales Descomposición de T2

di = T2 – T2(i)

donde T2(i) – la estadística T2 sin la variable I,

valores de di altos indican variables sospechosas

Otro reto con estas variables es la estinmación de la matriz de covarianza y el vector de promedios

Page 88: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[88]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.

A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.

Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.

Uno de estos métodos es el de componentes principales PCA –

siglas en inglés).

Page 89: David R.  González Barreto Universidad de Puerto Rico

PCA – Ejemplo – Fase IX1 X2 X3 X4

10 20.7 13.6 15.5

10.5 19.9 18.1 14.8

9.7 20 16.1 16.5

9.8 20.2 19.1 17.1

11.7 21.5 19.8 18.3

11 20.9 10.3 13.8

8.7 18.8 16.9 16.8

9.5 19.3 15.3 12.2

10.1 19.4 16.2 15.8

9.5 19.6 13.6 14.5

10.5 20.3 17 16.5

9.2 19 11.5 16.3

11.3 21.6 14 18.7

10 19.8 14 15.9

8.5 19.2 17.4 15.8

9.7 20.1 10 16.6

8.3 18.4 12.5 14.2

11.9 21.8 14.1 16.2

10.3 20.5 15.6 15.1

8.9 19 8.5 14.7

IntroMVDA - DRGB – Septiembre 2011

[89]PCA E -PCA PLS

E - PLS

Q Chart

Page 90: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[90]PCA E -PCA PLS

E - PLS

Q Chart

PCA

X1

X3

X4

X2

222018 18151212

10

822

20

18 20

15

10

12108

18

15

12201510

Matrix Plot of X1, X2, X3, X4Correlations: X1, X2, X3, X4

X1 X2 X3X2 0.930X3 0.206 0.167X4 0.359 0.450 0.344

Type: PCA-X Observations (N)=20, Variables (K)=4 (X=4, Y=0)

Page 91: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[91]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Principal Component Analysis: X1, X2, X3, X4

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.3181 1.0118 0.6088 0.0613Proportion 0.580 0.253 0.152 0.015Cumulative 0.580 0.832 0.985 1.000

Variable PC1 PC2 PC3 PC4X1 0.594 -0.334 0.257 0.685X2 0.607 -0.330 0.083 -0.718X3 0.286 0.794 0.534 -0.061X4 0.444 0.387 -0.801 0.104

Page 92: David R.  González Barreto Universidad de Puerto Rico

PCA – Z Scores – Fase I

Z1 Z2 Z3 Z4

0.29168 -0.6034 0.02496 -0.49092

0.29428 0.49153 1.23823 0.312272

0.19734 0.64094 -0.20787 -0.15148

0.83902 1.46958 0.03929 -0.25134

3.20488 0.87917 0.1242 0.139832

0.20327 -2.29514 0.62545 -0.01022

-0.99211 1.67046 -0.58815 0.070475

-1.70241 -0.36089 1.82157 -0.04443

-0.14246 0.56081 0.231 0.520987

-0.99498 -0.31493 0.33164 -0.07661

0.9447 0.50471 0.17976 0.151732

-1.2195 -0.09129 -1.11787 0.334585

2.60867 -0.42176 -1.19166 -0.06521

-0.12378 -0.08767 -0.19592 0.203499

-1.10423 1.47259 0.01299 -0.44495

-0.27825 -0.94763 -1.31445 -0.09828

-2.65608 0.13529 -0.11243 0.00515

2.36528 -1.30494 0.32286 0.019618

0.41131 -0.21893 0.6448 -0.20362

-2.14662 -1.17849 -0.86838 0.078903

IntroMVDA - DRGB – Septiembre 2011

[92]PCA E -PCA PLS

E - PLS

Q Chart

Page 93: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[93]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase I

Page 94: David R.  González Barreto Universidad de Puerto Rico

PCA – Ejemplo – Fase II

X1 X2 X3 X4

9.9 20 15.4 15.9

8.7 19 9.9 16.8

11.5 21.8 19.3 12.1

15.9 24.6 14.7 15.3

12.6 23.9 17.1 14.2

14.9 25 16.3 16.6

9.9 23.7 11.9 18.1

12.8 26.3 13.5 13.7

13.1 26.1 10.9 16.8

9.8 25.8 14.8 15

Z1 Z2

0.074196 0.239359

-1.51756 -0.21121

1.408477 -0.87591

6.298004 -3.67398

3.802027 -1.99584

6.490675 -2.73143

2.73883 -1.37617

4.95875 -3.9485

5.678095 -3.85838

3.369658 -2.10878

Variables Originales Z Scores

IntroMVDA - DRGB – Septiembre 2011

[94]PCA E -PCA PLS

E - PLS

Q Chart

Page 95: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[95]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase II

Page 96: David R.  González Barreto Universidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[96]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase II

Hotelling T2 – monitoreo multivariado

Pesos señal de fuera de control – obs. 23