David R. González Barreto Universidad de Puerto Rico

Análisis Multivariado de Datos (MVDA),un enfoque aplicado (gráfico-geométrico), y sus Aplicaciones en Umetrics

David R. González BarretoUniversidad de Puerto Rico

IntroMVDA - DRGB – Septiembre 2011

[2]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.

Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.


[3]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.

El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.


[4]PCA E -PCA PLS

E - PLS

Q Chart

Motivación

Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por:αglogal = 1 – (1 – α )m

Ejemplo: 10 pruebas con α = 0.05

αglobal = 1 – (1 - 0.05)10

αglobal = 1 – 0.5987 = 0.4013

Estructura de Correlación

2x

1x

Univariados

1x

2x

Control para dos variables


[5]PCA E -PCA PLS

E - PLS

Q Chart


[6]PCA E -PCA PLS

E - PLS

Q Chart

Estructura de Datos

VARIABLES

K

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

Complejidad de los datos

Número de variables

Univariado K = 1

Bivariado K = 2

“Low Variate” K < 5

Multivariate K > 5


[7]PCA E -PCA PLS

E - PLS

Q Chart

Tipos de Problemas Básicos

Visión general de los datos (data overview)

Clasificación y/o discriminación entre grupos de observaciones

Regresión y modelaje entre dos bloques de datos (X y Y)


[8]PCA E -PCA PLS

E - PLS

Q Chart

Tipos de Problemas Básicos

X X YIIIIII

Visión general de los datos

Clasificación y/o

discriminación entre

grupos de observacione

s

Regresión y modelaje entre dos

bloques de datos (X y Y)

PCA

PCA

PLS


[9]PCA E -PCA PLS

E - PLS

Q Chart

Técnicas Multivariadas

Datos del

Proceso

X

Datos de Calidad,

Productividad

Y

Existen Técnicas para:

Explicar la variación en X ó Y (PCA)

- mientras maximiza la Varianza (X) ó (Y)

Explicar la variación en X e Y y la relación entre X e Y (PLS)

- mientras maximiza la Covarianza (X ,Y)

Temperatura, Presión, Velocidad,Nivel de fluido, Ph, concentración, rendimiento, ……,

Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, ……


[10]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones

Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.

Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.


[11]PCA E -PCA PLS

E - PLS

Q Chart


Suponga que K = 3, esto es existen 3 variables. Cada observación puede ser representada en un conjunto de ejes, un espacio tridimensional


[12]PCA E -PCA PLS

E - PLS

Q Chart


El principio de representar cada observación como un punto en el espacio multidimensional hace posible convertir una tabla de datos en una representación gráfica. Todas las observaciones de X se desplegan en el espacio de dimensión K, como una nube de puntos. En esta gráfica se presentan 20 observaciones.


[13]PCA E -PCA PLS

E - PLS

Q Chart


El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional. Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación. El principio detrás de esta converisón se conoce como proyección. La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.


[14]PCA E -PCA PLS

E - PLS

Q Chart

Principio de Proyecciones El principio de proyecciones puede ser

matemáticamente extendedido a cualquier número de variables en el espacio K.

Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.


[15]PCA E -PCA PLS

E - PLS

Q Chart


Base de Datos – FOODS.xls


[16]PCA E -PCA PLS

E - PLS

Q Chart


K (20) > N (16) Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones. Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana. Note como los países nórdicos se agrupan en la parte superior. Esta es la escencia de la metodología de PCA.


[17]PCA E -PCA PLS

E - PLS

Q Chart

Ejemplo FOODS

Ejemplo Foods: Score Plot

Ejemplo Foods: Loadings Plot


[18]PCA E -PCA PLS

E - PLS

Q Chart

Ejemplo FOODSEjemplo Foods: Distance to Model: DMODX

No se observan outliers, todos los países se ajustan bien al modelo

Principal Component AnalysisPCA


[20]PCA E -PCA PLS

E - PLS

Q Chart

Componentes Principales-PCA

PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).

Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.


[21]PCA E -PCA PLS

E - PLS

Q Chart

PCA

PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.

La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.


[22]PCA E -PCA PLS

E - PLS

Q Chart

Datos Multivariados

Matriz de Datos:

• Las filas corresponden a las unidades experimentales y las columnas a las características

• p: número de características consideradas

• n: número de unidades experimentales

• Xrj: valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.


[23]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Si p variables son consideradas, existen p PCs:

PC1= α11X1 + α12X2 + … + α1pXp

PC2= α21X1 + α22X2 + … + α2pXp

::

PCp= αp1X1 + αp2X2 + … + αppXp


[24]PCA E -PCA PLS

E - PLS

Q Chart

PCA

El primer PC contiene la mayor proporción de la variabilidad.

El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….


[25]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Dos Componentes Principales

-4 -3 -2 -1 0 1 2 3 4-4

-3

-2

-1

0

1

2

3

X1

X2

PC2

PC1


[26]PCA E -PCA PLS

E - PLS

Q Chart

Matriz de Covarianza:

σii = Var(Xi) para i = 1,2,…,pσij = Cov(Xi,Xj) para i ≠ j = 1,2,…,p

PCA


[27]PCA E -PCA PLS

E - PLS

Q Chart

Coeficiente de Correlación:

ρij = coeficiente de correlación entre Xi and Xj para i ≠ j = 1,2,…,p. -1 ≤ ρij ≤ 1 para cada i ≠ j

PCA


[28]PCA E -PCA PLS

E - PLS

Q Chart

Matriz de Correlación:

ρij = coeficiente de correlación entre Xi and Xj for i ≠ j = 1,2,…,p.

PCA


[29]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Interpretación de CentralizaciónTomado de: IBS Caribe, Presentation on Chemometrics and Multivariate

Model Development.

Centralización y Varianza UnitariaTomado de: IBS Caribe,Inc. presentation on

Chemometrics

Simca – realiza este pretratamiento por default


[30]PCA E -PCA PLS

E - PLS

Q Chart

Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).

A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.

PCA


[31]PCA E -PCA PLS

E - PLS

Q Chart

Datos Estandarizados:

son el promedio y desviación estándar de cada variable para todas las observaciones.

PCA


[32]PCA E -PCA PLS

E - PLS

Q Chart

Matrix de Datos Estandarizados:

Las filas corresponden a las unidades experimentales y las columnas a las características

PCA


[33]PCA E -PCA PLS

E - PLS

Q Chart

Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.

Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.

La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.

PCA


[34]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los componentes principales de un conjunto de variables del proceso x1, x2, ….., xp, son unas combinaciones lineales particulares de estas variables.

z1 = c11x1 + c12x2 + … + c1pxp

z2 = c21x1 + c22x2 + … + c2pxp

: : :

zp = cp1x1 + cp2x2 + … + cppxp


[35]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Cij’s son constantes que se obtienen de los vectores propios (eigenvectors).

Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).

Los nuevos ejes representan las direcciones de máxima variabilidad.


[36]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un vector

x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.

Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.

La varianza del componente principal i es el “eigenvalue” i, λi.

La proporción de la variabilidad explicada por el componente principal i está dado por:

PCA

Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un

vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.

Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.

La varianza del componente principal i es el “eigenvalue” i, λi.

La proporción de la variabilidad explicada por el componente principal i está dado por:

p

i

....21


[37]PCA E -PCA PLS

E - PLS

Q Chart


[38]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s: PC1 = α11Z1 + α12Z2 + … + α1pZp

Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s. λ1, λ2, …, λp

La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.

p

ii

p

ii

1

2

1


[39]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PCA


[40]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PCA


[41]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuantos PC’s? “Scree Plot” – “estado estable” Porcentaje de la Varianza Criterio: Eigenvalues > 1 – Matriz de Correlación


[42]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Figure 7: “Scree Plot” (Matriz de Covarianza)


[43]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuantos PC’s? Porcentaje de la varianza

Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo.


[44]PCA E -PCA PLS

E - PLS

Q Chart

PCA

¿Cuántos PC’s?Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto , cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1.

Scree Plot (Matriz de Correlacion)


[45]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Tradeoff entre el número de componentes y el “overfitting”

R2 – goodness of fitQ2 – goodness of prediction


[46]PCA E -PCA PLS

E - PLS

Q Chart

Pasos en PCA

Seleccione las variables para el análisis. Decida si utilizara datos estandarizados, o,

Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.

Determine el numero de PCs significativos. Interprete los PCs (cuando sea posible). Use los PCs estudios futuros.


[47]PCA E -PCA PLS

E - PLS

Q Chart

PCA

“Scores plots”: Muestra las observationes proyectadas en el hiper-plano

creado por los PCs. Muestra un resumen de la relacion entre las observaciones.

Score Plot


[48]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Loadings plots: Muestra la relación entre distintas variables. Los “loadings” son los pesos que combinan las

variables originales para obtener los scores. Geométricamente, representan la dirección de

los PCs. La dirección del plano de proyección provee

información sobre la importancia de las variables.


[49]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Loading Plot


[50]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Escuela % de Retención GPA_ESP GPA-ING GPA-MAT T_PromedioProportionA 0.909091 3.03502 3.06276 2.10736 5.113 0.714571B 0.869010 3.02640 2.93806 1.99109 5.335 0.678788D 0.864078 2.85926 2.78610 1.79392 5.345 0.674847E 0.849829 3.23867 3.11757 2.23159 5.525 0.689655F 0.824074 2.81570 2.71528 1.81269 5.742 0.603896H 0.819788 3.24921 3.36993 2.42833 4.822 0.743590A 0.818750 2.66353 2.58026 1.81161 5.523 0.542857I 0.786806 2.71901 2.59216 1.63373 5.625 0.536278J 0.786301 2.70699 2.89389 1.72668 5.566 0.515789K 0.737864 2.80734 3.12958 2.01135 5.636 0.578947L 0.644776 2.34304 2.28070 1.36698 5.954 0.393939


[51]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Eigenanalysis of the Correlation Matrix

Eigenvalue 4.9869 0.5929 0.2739 0.0803 0.0404 0.0257Proportion 0.831 0.099 0.046 0.013 0.007 0.004Cumulative 0.831 0.930 0.976 0.989 0.996 1.000

Variable PC1 PC2 PC3 PC4 PC5 PC6% de Retención 0.352 0.774 -0.188 -0.401 0.278 0.053GPA_ESP 0.433 -0.074 -0.342 0.449 -0.059 0.696GPA-ING 0.403 -0.492 -0.113 -0.713 -0.261 0.080GPA-MAT 0.425 -0.337 -0.135 0.198 0.677 -0.437Tiempo_Promedio -0.395 -0.040 -0.900 -0.055 -0.044 -0.168Proportion 0.435 0.194 -0.087 0.294 -0.626 -0.536


[52]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Model Overview


[53]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Scores Plot


[54]PCA E -PCA PLS

E - PLS

Q Chart

PCA - Ejemplo

Ejemplo Escuelas: Loadings Plot

Partial Least SquaresPLS


[56]PCA E -PCA PLS

E - PLS

Q Chart

PLS

PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.

PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.


[57]PCA E -PCA PLS

E - PLS

Q Chart

PLS

PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.

La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.


[58]PCA E -PCA PLS

E - PLS

Q Chart

Estructura de Datos

X

FACTORES/PREDICTORES

K

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

RESPUESTAS

M

OB

SER

VA

CIO

NES,

OB

JETO

S,

MU

ESTR

AS

, C

ASO

S,

ÍTEM

S

N

PLS Y


[59]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

K = 3, M = 1, dos nubes de puntos


[60]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

K = 3, M = 3, dos nubes de puntos


[61]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

Primer Componente, ambos espacios

Score Vectors


[62]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLSSegundo Componente, ambos espacios

Línea de segundo componente de XOrtogonal a la primera, esto no es necesariamente cierto para el espacio Y


[63]PCA E -PCA PLS

E - PLS

Q Chart

Geometría de PLS

Score vectors, otros componentes

El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente


[64]PCA E -PCA PLS

E - PLS

Q Chart

PLS

Modelaje IndirectoTomado de: An Introduction to Partial Least Squares Regression by Randall D. Tobias


[65]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

Ejemplo: el archivo LOWARP, suministrado por Umetrics, es un ejemplo donde tenemos 17 observaciones (mezclas) de una cubierta de plástico para un celular. Cuatro componentes son utilizados en la mezcla. El objetivo del estudio es el de conseguir cubiertas con poca deformación (warpage) y alto esfuerzo (strength). Catorce respuestas relacionadas a las deformaciones y el esfuerzo son medidas en la cubierta.


[66]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploBase de Datos – LOWARP

Respuestas - YFactores - X


[67]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo LOWARP – Weight Plot


[68]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo LOWARP – Observed vs Predicted


[69]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

Tres Componentes Dos Componentes


[70]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

t1/t2 - Score plot Biplot

-3.0

-2.0

-1.0

0.0

1.0

2.0

3.0

-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

t[2]

t[1]

lowarp.M1 (PLS)t[Comp. 1]/t[Comp. 2]

R2X[1] = 0.324195 R2X[2] = 0.24819 Ellipse: Hotelling T2 (0.95)

1

2

34

5

6

7

8

9

10

11

12

13141516

17

SIMCA-P+ 12.0.1 - 2011-09-12 22:32:13 (UTC-5)

-1.0

-0.8

-0.6

-0.4

-0.2

-0.0

0.2

0.4

0.6

0.8

1.0

-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0

pc(corr)[1], t(corr)[1]

lowarp.M1 (PLS)pc(corr)[Comp. 1]/pc(corr)[Comp. 2]

pc(corr)[2] (X)pc(corr)[2] (Y)t(corr)[2]

Var_1

glas

crtp

mica

amtpw rp1w rp2

w rp3

w rp4

w rp5w rp6

st1

st2

w rp7

st3

st4

w rp8

st5

st6

1

2

34

5

6

7

8

9

10

11

12

13141516

17

SIMCA-P+ 12.0.1 - 2011-09-12 22:28:09 (UTC-5)


[71]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploInterpretación de los

“weights”


[72]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploCoeficientes de variables correlacionadas

wrp1 y wrp2


[73]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploCoeficientes de variables no correlacionadas

wrp4 y st4

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0.0

0.1

0.2

0.3

0.4

0.5

0.6

glas

crtp

mic

a

amtp

Coe

ffCS

[2](

wrp

4)

Var ID (Primary)

lowarp.M1 (PLS)CoeffCS[Last comp.](wrp4)Colored according to Var ID (Primary)

SIMCA-P+ 12.0.1 - 2011-09-13 00:29:21 (UTC-5)


[74]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploVIP – Variance Influence on

projection


[75]PCA E -PCA PLS

E - PLS

Q Chart

PLS – Ejemplo Diagnóstico de observaciones – “outliers” p

“non-linearities”

Una observación puede ser un outlier en X en Y y/o en la relación entre X e Y. Cuatro score Plots pueden ayudar: t1/u1, t2/u2, t1/t2 y u1/u2

La no-linearidad entre X e Y Puede ser observada en los scores tj/uj


[76]PCA E -PCA PLS

E - PLS

Q Chart

PLS - Ejemplo

t1/u1 - Score plot

Indica una correlación alta entreLos factores y las respuestas; no parecen existir “outliers”.

t2/u2 - Score plot

En general se observa una correlación alta entre los factores y las respuestas; puntos 6,11, 12 son como diferentes


[77]PCA E -PCA PLS

E - PLS

Q Chart

PLS – Resumen de gráficos t/t score útil para encontrar desviaciones

en X u/u plot – útil para encontrar desviaciones

en Y t/u plot – útil para encontrar desviaciones

de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.

DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados


[78]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploDMOD- distancia al modelo – detect

“outliers”moderados

DMODX DMODY


[79]PCA E -PCA PLS

E - PLS

Q Chart

PLS - EjemploR2VX- variación explicada de los predictores X

Primer Componente

DMODY

Gráficos Multivariados - Monitoreo

Hotelling, PCA

Gráficos Multivariados

1x

2x

1x

2x Variables Independendientes

Variables Dendendientes


[81]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados

Hotelling T2

xxSxxnT 12 '

Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados)

Fase II – monitoreo de observaciones futuras

m = # de muestras, n = tamaño de muestra

p = # de variables

0LCI 1

)1)(1(1,,

pmmnpFpmmn

nmpLCS

0LCI 1

)1)(1(1,,

pmmnpFpmmn

nmpLCS


[82]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados – Ejemplop = 2, n = 3

A

B

99 109 118 32 54 55

142 124 135 71 102 93

116 132 100 58 104 50

111 138 107 31 60 51

110 143 103 67 98 70

111 119 147 56 44 92

129 111 98 84 50 53

145 136 105 96 90 56

120 117 112 92 61 64

103 92 121 70 45 79


[83]PCA E -PCA PLS

E - PLS

Q Chart

Gráficos Multivariados - Ejemplo

A B Xbar A X Bar B Var A Var B Cov (A,B) Corr(A,B)

99 109 118 32 54 55 108.67 47.00 90.33 169.00 111.00 0.90

142 124 135 71 102 93 133.67 88.67 82.33 254.33 -135.17 -0.93

116 132 100 58 104 50 116.00 70.67 256.00 849.33 432.00 0.93

111 138 107 31 60 51 118.67 47.33 284.33 220.33 163.67 0.65

110 143 103 67 98 70 118.67 78.33 456.33 292.33 353.67 0.97

111 119 147 56 44 92 125.67 64.00 357.33 624.00 424.00 0.90

129 111 98 84 50 53 112.67 62.33 242.33 354.33 255.67 0.87

145 136 105 96 90 56 128.67 80.67 440.33 465.33 451.33 1.00

120 117 112 92 61 64 116.33 72.33 16.33 292.33 50.33 0.73

103 92 121 70 45 79 105.33 64.67 214.33 310.33 237.17 0.92

Average 118.43 67.60 244.00 383.17 234.37

Promedios

Varianzas Cov / Corr


[84]PCA E -PCA PLS

E - PLS

Q Chart


[85]PCA E -PCA PLS

E - PLS

Q Chart


A

B

15014013012011010090

110

100

90

80

70

60

50

40

30

Scatterplot of B vs A


[86]PCA E -PCA PLS

E - PLS

Q Chart


Sample

Tsq

ua

red

10987654321

20

15

10

5

0Median=1.36

UCL=18.09

LCL=0.00

Tsquared Chart of A, BT Square

3.561833.639060.627097.970262.097002.755020.410271.486480.919153.87732

MEAN1MEAN2118.433 67.6COV244.000 234.367234.367 383.167


[87]PCA E -PCA PLS

E - PLS

Q Chart


Uno de los retos en estos gráficos cuando ocurre una señal de fuera de control es distinguir o diagnosticar cual o cuales de las variables son las que han cambiado su comportamiento. Entre los métodos sugeridos para el disgnóstico se encuentran:

Gráficos Univariados usando límites Bonferroni Usar Componentes Principales Descomposición de T2

di = T2 – T2(i)

donde T2(i) – la estadística T2 sin la variable I,

valores de di altos indican variables sospechosas

Otro reto con estas variables es la estinmación de la matriz de covarianza y el vector de promedios


[88]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.

A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.

Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.

Uno de estos métodos es el de componentes principales PCA –

siglas en inglés).

PCA – Ejemplo – Fase IX1 X2 X3 X4

10 20.7 13.6 15.5

10.5 19.9 18.1 14.8

9.7 20 16.1 16.5

9.8 20.2 19.1 17.1

11.7 21.5 19.8 18.3

11 20.9 10.3 13.8

8.7 18.8 16.9 16.8

9.5 19.3 15.3 12.2

10.1 19.4 16.2 15.8

9.5 19.6 13.6 14.5

10.5 20.3 17 16.5

9.2 19 11.5 16.3

11.3 21.6 14 18.7

10 19.8 14 15.9

8.5 19.2 17.4 15.8

9.7 20.1 10 16.6

8.3 18.4 12.5 14.2

11.9 21.8 14.1 16.2

10.3 20.5 15.6 15.1

8.9 19 8.5 14.7


[89]PCA E -PCA PLS

E - PLS

Q Chart


[90]PCA E -PCA PLS

E - PLS

Q Chart

PCA

X1

X3

X4

X2

222018 18151212

10

822

20

18 20

15

10

12108

18

15

12201510

Matrix Plot of X1, X2, X3, X4Correlations: X1, X2, X3, X4

X1 X2 X3X2 0.930X3 0.206 0.167X4 0.359 0.450 0.344

Type: PCA-X Observations (N)=20, Variables (K)=4 (X=4, Y=0)


[91]PCA E -PCA PLS

E - PLS

Q Chart

PCA

Principal Component Analysis: X1, X2, X3, X4

Eigenanalysis of the Correlation Matrix

Eigenvalue 2.3181 1.0118 0.6088 0.0613Proportion 0.580 0.253 0.152 0.015Cumulative 0.580 0.832 0.985 1.000

Variable PC1 PC2 PC3 PC4X1 0.594 -0.334 0.257 0.685X2 0.607 -0.330 0.083 -0.718X3 0.286 0.794 0.534 -0.061X4 0.444 0.387 -0.801 0.104

PCA – Z Scores – Fase I

Z1 Z2 Z3 Z4

0.29168 -0.6034 0.02496 -0.49092

0.29428 0.49153 1.23823 0.312272

0.19734 0.64094 -0.20787 -0.15148

0.83902 1.46958 0.03929 -0.25134

3.20488 0.87917 0.1242 0.139832

0.20327 -2.29514 0.62545 -0.01022

-0.99211 1.67046 -0.58815 0.070475

-1.70241 -0.36089 1.82157 -0.04443

-0.14246 0.56081 0.231 0.520987

-0.99498 -0.31493 0.33164 -0.07661

0.9447 0.50471 0.17976 0.151732

-1.2195 -0.09129 -1.11787 0.334585

2.60867 -0.42176 -1.19166 -0.06521

-0.12378 -0.08767 -0.19592 0.203499

-1.10423 1.47259 0.01299 -0.44495

-0.27825 -0.94763 -1.31445 -0.09828

-2.65608 0.13529 -0.11243 0.00515

2.36528 -1.30494 0.32286 0.019618

0.41131 -0.21893 0.6448 -0.20362

-2.14662 -1.17849 -0.86838 0.078903


[92]PCA E -PCA PLS

E - PLS

Q Chart


[93]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase I

PCA – Ejemplo – Fase II

X1 X2 X3 X4

9.9 20 15.4 15.9

8.7 19 9.9 16.8

11.5 21.8 19.3 12.1

15.9 24.6 14.7 15.3

12.6 23.9 17.1 14.2

14.9 25 16.3 16.6

9.9 23.7 11.9 18.1

12.8 26.3 13.5 13.7

13.1 26.1 10.9 16.8

9.8 25.8 14.8 15

Z1 Z2

0.074196 0.239359

-1.51756 -0.21121

1.408477 -0.87591

6.298004 -3.67398

3.802027 -1.99584

6.490675 -2.73143

2.73883 -1.37617

4.95875 -3.9485

5.678095 -3.85838

3.369658 -2.10878

Variables Originales Z Scores


[94]PCA E -PCA PLS

E - PLS

Q Chart


[95]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase II


[96]PCA E -PCA PLS

E - PLS

Q Chart

PCA – Trajectory Plot – Fase II

Hotelling T2 – monitoreo multivariado

Pesos señal de fuera de control – obs. 23

David R. González Barreto Universidad de Puerto Rico

Documents

Transcript of David R. González Barreto Universidad de Puerto Rico