David R. González Barreto Universidad de Puerto Rico
-
Upload
kelsie-oneil -
Category
Documents
-
view
39 -
download
1
description
Transcript of David R. González Barreto Universidad de Puerto Rico
Análisis Multivariado de Datos (MVDA),un enfoque aplicado (gráfico-geométrico), y sus Aplicaciones en Umetrics
David R. González BarretoUniversidad de Puerto Rico
IntroMVDA - DRGB – Septiembre 2011
[2]PCA E -PCA PLS
E - PLS
Q Chart
Motivación
La habilidad de capturar datos hace tiempo le viene ganando la carrera a la habilidad de obtener información significativa de estos datos.
Es necesario hacer uso de herramientas analíticas adecuadas que extraigan información sustantiva de grandes bases de datos.
IntroMVDA - DRGB – Septiembre 2011
[3]PCA E -PCA PLS
E - PLS
Q Chart
Motivación
Existen muchas situaciones (típico de PAT) en donde es necesario la medición y/o monitoreo simultáneo de múltiples variables de proceso o de calidad.
El monitoreo independiente de estas características puede llevarnos a decisiones erróneas con respecto al estado del proceso o producto.
IntroMVDA - DRGB – Septiembre 2011
[4]PCA E -PCA PLS
E - PLS
Q Chart
Motivación
Si m pruebas independientes univariadas son realizadas, cada una con probabilidad α de cometer el Error Tipo I, la probabilidad global de cometer este error para todas las pruebas está dado por:αglogal = 1 – (1 – α )m
Ejemplo: 10 pruebas con α = 0.05
αglobal = 1 – (1 - 0.05)10
αglobal = 1 – 0.5987 = 0.4013
Estructura de Correlación
2x
1x
Univariados
1x
2x
Control para dos variables
IntroMVDA - DRGB – Septiembre 2011
[5]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[6]PCA E -PCA PLS
E - PLS
Q Chart
Estructura de Datos
VARIABLES
K
OB
SER
VA
CIO
NES,
OB
JETO
S,
MU
ESTR
AS
, C
ASO
S,
ÍTEM
S
N
Complejidad de los datos
Número de variables
Univariado K = 1
Bivariado K = 2
“Low Variate” K < 5
Multivariate K > 5
IntroMVDA - DRGB – Septiembre 2011
[7]PCA E -PCA PLS
E - PLS
Q Chart
Tipos de Problemas Básicos
Visión general de los datos (data overview)
Clasificación y/o discriminación entre grupos de observaciones
Regresión y modelaje entre dos bloques de datos (X y Y)
IntroMVDA - DRGB – Septiembre 2011
[8]PCA E -PCA PLS
E - PLS
Q Chart
Tipos de Problemas Básicos
X X YIIIIII
Visión general de los datos
Clasificación y/o
discriminación entre
grupos de observacione
s
Regresión y modelaje entre dos
bloques de datos (X y Y)
PCA
PCA
PLS
IntroMVDA - DRGB – Septiembre 2011
[9]PCA E -PCA PLS
E - PLS
Q Chart
Técnicas Multivariadas
Datos del
Proceso
X
Datos de Calidad,
Productividad
Y
Existen Técnicas para:
Explicar la variación en X ó Y (PCA)
- mientras maximiza la Varianza (X) ó (Y)
Explicar la variación en X e Y y la relación entre X e Y (PLS)
- mientras maximiza la Covarianza (X ,Y)
Temperatura, Presión, Velocidad,Nivel de fluido, Ph, concentración, rendimiento, ……,
Peso, Dureza, Grosor, Potencia, Presión, Velocidad, Content Uniformity, Disolución, ……
IntroMVDA - DRGB – Septiembre 2011
[10]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
Las bases de MVDA pueden ser delineadas en términos de la geometría de espacios multidimensionales.
Los datos multivariados y sus modelos pueden representarse como puntos, líneas, planos e hiperplanos en éstos espacios multidimensionales.
IntroMVDA - DRGB – Septiembre 2011
[11]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
Suponga que K = 3, esto es existen 3 variables. Cada observación puede ser representada en un conjunto de ejes, un espacio tridimensional
IntroMVDA - DRGB – Septiembre 2011
[12]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
El principio de representar cada observación como un punto en el espacio multidimensional hace posible convertir una tabla de datos en una representación gráfica. Todas las observaciones de X se desplegan en el espacio de dimensión K, como una nube de puntos. En esta gráfica se presentan 20 observaciones.
IntroMVDA - DRGB – Septiembre 2011
[13]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
El análisis de datos corresponde a formular una descripción cuantitativa de la forma de la nube de puntos. Este modelo puede verse como una ventana en el espacio tridimensional. Esta ventana se orienta de forma tal que provee una visión general de los datos y permite su interpretación. El principio detrás de esta converisón se conoce como proyección. La proyección logra disminuir el espacio tridimensional original en un espacio bidimensional (la ventana). Examinando la posición de cada observación en la ventana obetenemos una visión general de los datos.
IntroMVDA - DRGB – Septiembre 2011
[14]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones El principio de proyecciones puede ser
matemáticamente extendedido a cualquier número de variables en el espacio K.
Ejemplo: el archivo FOODS, suministrado por Umetrics, es un ejemplo donde tenemos 16 observaciones (N) para cada una de 20 variables (K, K > N, imposible usar regresión). El objetivo del estudio es el de investigar patrones de consumo alimenticio en paises europeos.
IntroMVDA - DRGB – Septiembre 2011
[15]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
Base de Datos – FOODS.xls
IntroMVDA - DRGB – Septiembre 2011
[16]PCA E -PCA PLS
E - PLS
Q Chart
Principio de Proyecciones
K (20) > N (16) Cada una de las 16 observaciones (países) se convierte en un punto de la nube de puntos en el espacio de veinte dimensiones. Este espacio puede reducirse a muchas menos dimensiones extrayendo la información sustancial de los datos, proyectando cada observación en la ventana. Note como los países nórdicos se agrupan en la parte superior. Esta es la escencia de la metodología de PCA.
IntroMVDA - DRGB – Septiembre 2011
[17]PCA E -PCA PLS
E - PLS
Q Chart
Ejemplo FOODS
Ejemplo Foods: Score Plot
Ejemplo Foods: Loadings Plot
IntroMVDA - DRGB – Septiembre 2011
[18]PCA E -PCA PLS
E - PLS
Q Chart
Ejemplo FOODSEjemplo Foods: Distance to Model: DMODX
No se observan outliers, todos los países se ajustan bien al modelo
Principal Component AnalysisPCA
IntroMVDA - DRGB – Septiembre 2011
[20]PCA E -PCA PLS
E - PLS
Q Chart
Componentes Principales-PCA
PCA es un método para crear combinaciones lineales de las características originales que son ortogonales; a estas combinaciones se le llama los componentes principales (PC).
Los PCs, a través de las combinaciones lineales independientes intentan contienen la mayoría de la variabilidad de las características originales.
IntroMVDA - DRGB – Septiembre 2011
[21]PCA E -PCA PLS
E - PLS
Q Chart
PCA
PCA se utiliza para encontrar las estructuras de correlación entre las múltiples variables.
La idea es encontrar un puñado de variables no correlacionadas, que son combinaciones lineales de las variables originales, que contengan la mayoría de la variabilidad de éstas. Por esta razón, se le conoce como una técnica de reducción de dimensiones.
IntroMVDA - DRGB – Septiembre 2011
[22]PCA E -PCA PLS
E - PLS
Q Chart
Datos Multivariados
Matriz de Datos:
• Las filas corresponden a las unidades experimentales y las columnas a las características
• p: número de características consideradas
• n: número de unidades experimentales
• Xrj: valor de la característica j en la unidad experimental r donde r = 1,2,…,n and j = 1,2,…,p.
IntroMVDA - DRGB – Septiembre 2011
[23]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Si p variables son consideradas, existen p PCs:
PC1= α11X1 + α12X2 + … + α1pXp
PC2= α21X1 + α22X2 + … + α2pXp
::
PCp= αp1X1 + αp2X2 + … + αppXp
IntroMVDA - DRGB – Septiembre 2011
[24]PCA E -PCA PLS
E - PLS
Q Chart
PCA
El primer PC contiene la mayor proporción de la variabilidad.
El segundo PC contiene la segunda mayor proporción de la variabilidad, así sucesivamente….
IntroMVDA - DRGB – Septiembre 2011
[25]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Dos Componentes Principales
-4 -3 -2 -1 0 1 2 3 4-4
-3
-2
-1
0
1
2
3
X1
X2
PC2
PC1
IntroMVDA - DRGB – Septiembre 2011
[26]PCA E -PCA PLS
E - PLS
Q Chart
Matriz de Covarianza:
σii = Var(Xi) para i = 1,2,…,pσij = Cov(Xi,Xj) para i ≠ j = 1,2,…,p
PCA
IntroMVDA - DRGB – Septiembre 2011
[27]PCA E -PCA PLS
E - PLS
Q Chart
Coeficiente de Correlación:
ρij = coeficiente de correlación entre Xi and Xj para i ≠ j = 1,2,…,p. -1 ≤ ρij ≤ 1 para cada i ≠ j
PCA
IntroMVDA - DRGB – Septiembre 2011
[28]PCA E -PCA PLS
E - PLS
Q Chart
Matriz de Correlación:
ρij = coeficiente de correlación entre Xi and Xj for i ≠ j = 1,2,…,p.
PCA
IntroMVDA - DRGB – Septiembre 2011
[29]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Interpretación de CentralizaciónTomado de: IBS Caribe, Presentation on Chemometrics and Multivariate
Model Development.
Centralización y Varianza UnitariaTomado de: IBS Caribe,Inc. presentation on
Chemometrics
Simca – realiza este pretratamiento por default
IntroMVDA - DRGB – Septiembre 2011
[30]PCA E -PCA PLS
E - PLS
Q Chart
Estandarización de los datos: necesaria para tener las variables en unidades comparables (codificación).
A esta estandarización se le conoce como “Standard Normal Variate Transformation” o “SNV correction” en pre-tratamiento espectral.
PCA
IntroMVDA - DRGB – Septiembre 2011
[31]PCA E -PCA PLS
E - PLS
Q Chart
Datos Estandarizados:
son el promedio y desviación estándar de cada variable para todas las observaciones.
PCA
IntroMVDA - DRGB – Septiembre 2011
[32]PCA E -PCA PLS
E - PLS
Q Chart
Matrix de Datos Estandarizados:
Las filas corresponden a las unidades experimentales y las columnas a las características
PCA
IntroMVDA - DRGB – Septiembre 2011
[33]PCA E -PCA PLS
E - PLS
Q Chart
Las variables deben ser estandarizadas si son medidas en escalas muy diferentes o si sus varianzas difieren siginificativamente.
Usar la matriz de correlación para calcular los componentes principales PC’s es equivalente a estandarizar los datos.
La matriz de covarianza se utiliza cuando no es necesario estandarizar los datos.
PCA
IntroMVDA - DRGB – Septiembre 2011
[34]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Los componentes principales de un conjunto de variables del proceso x1, x2, ….., xp, son unas combinaciones lineales particulares de estas variables.
z1 = c11x1 + c12x2 + … + c1pxp
z2 = c21x1 + c22x2 + … + c2pxp
: : :
zp = cp1x1 + cp2x2 + … + cppxp
IntroMVDA - DRGB – Septiembre 2011
[35]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Cij’s son constantes que se obtienen de los vectores propios (eigenvectors).
Las variables de los componentes principales z1, z2, …., zp son los ejes de un nuevo sistema de coordenadas que se obtienen de rotar el sistema original de ejes (basado en las x’s).
Los nuevos ejes representan las direcciones de máxima variabilidad.
IntroMVDA - DRGB – Septiembre 2011
[36]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un vector
x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.
Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.
La varianza del componente principal i es el “eigenvalue” i, λi.
La proporción de la variabilidad explicada por el componente principal i está dado por:
PCA
Encontrar los cij’s es relativamente fácil. Si las variables x1, x2, …, xp se representan con un
vector x con matriz de covarianza Σ y los valores propios (eigenvalues) de Σ son λ1> λ2> …. λp > 0.
Entonces las constantes cij’s son los elementos del “eigenvector” i asociados con el “eigenvalue” i.
La varianza del componente principal i es el “eigenvalue” i, λi.
La proporción de la variabilidad explicada por el componente principal i está dado por:
p
i
....21
IntroMVDA - DRGB – Septiembre 2011
[37]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[38]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Los vectores propios (eigenvectors) proveen los coeficientes para los PC’s: PC1 = α11Z1 + α12Z2 + … + α1pZp
Los valores propios (eigenvalues) corresponden a las varianzas de los PC’s. λ1, λ2, …, λp
La suma de las varianzas de las variables originales es igual a la suma de las varianzas de los PC’s.
p
ii
p
ii
1
2
1
IntroMVDA - DRGB – Septiembre 2011
[39]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PCA
IntroMVDA - DRGB – Septiembre 2011
[40]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PCA
IntroMVDA - DRGB – Septiembre 2011
[41]PCA E -PCA PLS
E - PLS
Q Chart
PCA
¿Cuantos PC’s? “Scree Plot” – “estado estable” Porcentaje de la Varianza Criterio: Eigenvalues > 1 – Matriz de Correlación
IntroMVDA - DRGB – Septiembre 2011
[42]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Figure 7: “Scree Plot” (Matriz de Covarianza)
IntroMVDA - DRGB – Septiembre 2011
[43]PCA E -PCA PLS
E - PLS
Q Chart
PCA
¿Cuantos PC’s? Porcentaje de la varianza
Puede decidir mantener los PCs que expliquen el 85% de la varianza, por ejemplo.
IntroMVDA - DRGB – Septiembre 2011
[44]PCA E -PCA PLS
E - PLS
Q Chart
PCA
¿Cuántos PC’s?Criterio Eigenvalue > 1: los eigenvalues son las varianzas de los PCs; por lo tanto , cuando usamos variables estandarizadas (matriz de correlación), se pueden considerar todos los PCs cuyo eigenvalue sea mayor de 1.
Scree Plot (Matriz de Correlacion)
IntroMVDA - DRGB – Septiembre 2011
[45]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Tradeoff entre el número de componentes y el “overfitting”
R2 – goodness of fitQ2 – goodness of prediction
IntroMVDA - DRGB – Septiembre 2011
[46]PCA E -PCA PLS
E - PLS
Q Chart
Pasos en PCA
Seleccione las variables para el análisis. Decida si utilizara datos estandarizados, o,
Seleccione la matriz a utilizarse: matriz de covarianza ∑ o matriz de correlación P.
Determine el numero de PCs significativos. Interprete los PCs (cuando sea posible). Use los PCs estudios futuros.
IntroMVDA - DRGB – Septiembre 2011
[47]PCA E -PCA PLS
E - PLS
Q Chart
PCA
“Scores plots”: Muestra las observationes proyectadas en el hiper-plano
creado por los PCs. Muestra un resumen de la relacion entre las observaciones.
Score Plot
IntroMVDA - DRGB – Septiembre 2011
[48]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Loadings plots: Muestra la relación entre distintas variables. Los “loadings” son los pesos que combinan las
variables originales para obtener los scores. Geométricamente, representan la dirección de
los PCs. La dirección del plano de proyección provee
información sobre la importancia de las variables.
IntroMVDA - DRGB – Septiembre 2011
[49]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Loading Plot
IntroMVDA - DRGB – Septiembre 2011
[50]PCA E -PCA PLS
E - PLS
Q Chart
PCA - Ejemplo
Escuela % de Retención GPA_ESP GPA-ING GPA-MAT T_PromedioProportionA 0.909091 3.03502 3.06276 2.10736 5.113 0.714571B 0.869010 3.02640 2.93806 1.99109 5.335 0.678788D 0.864078 2.85926 2.78610 1.79392 5.345 0.674847E 0.849829 3.23867 3.11757 2.23159 5.525 0.689655F 0.824074 2.81570 2.71528 1.81269 5.742 0.603896H 0.819788 3.24921 3.36993 2.42833 4.822 0.743590A 0.818750 2.66353 2.58026 1.81161 5.523 0.542857I 0.786806 2.71901 2.59216 1.63373 5.625 0.536278J 0.786301 2.70699 2.89389 1.72668 5.566 0.515789K 0.737864 2.80734 3.12958 2.01135 5.636 0.578947L 0.644776 2.34304 2.28070 1.36698 5.954 0.393939
IntroMVDA - DRGB – Septiembre 2011
[51]PCA E -PCA PLS
E - PLS
Q Chart
PCA - Ejemplo
Eigenanalysis of the Correlation Matrix
Eigenvalue 4.9869 0.5929 0.2739 0.0803 0.0404 0.0257Proportion 0.831 0.099 0.046 0.013 0.007 0.004Cumulative 0.831 0.930 0.976 0.989 0.996 1.000
Variable PC1 PC2 PC3 PC4 PC5 PC6% de Retención 0.352 0.774 -0.188 -0.401 0.278 0.053GPA_ESP 0.433 -0.074 -0.342 0.449 -0.059 0.696GPA-ING 0.403 -0.492 -0.113 -0.713 -0.261 0.080GPA-MAT 0.425 -0.337 -0.135 0.198 0.677 -0.437Tiempo_Promedio -0.395 -0.040 -0.900 -0.055 -0.044 -0.168Proportion 0.435 0.194 -0.087 0.294 -0.626 -0.536
IntroMVDA - DRGB – Septiembre 2011
[52]PCA E -PCA PLS
E - PLS
Q Chart
PCA - Ejemplo
Ejemplo Escuelas: Model Overview
IntroMVDA - DRGB – Septiembre 2011
[53]PCA E -PCA PLS
E - PLS
Q Chart
PCA - Ejemplo
Ejemplo Escuelas: Scores Plot
IntroMVDA - DRGB – Septiembre 2011
[54]PCA E -PCA PLS
E - PLS
Q Chart
PCA - Ejemplo
Ejemplo Escuelas: Loadings Plot
Partial Least SquaresPLS
IntroMVDA - DRGB – Septiembre 2011
[56]PCA E -PCA PLS
E - PLS
Q Chart
PLS
PLS es un método para construir modelos de predicción cuando existen múltiples variables y una alta (relación) entre las mismas.
PLS es una extensión de regresión a PCA, que es utilizado para conectar la información de dos bloques de variables, X e Y.
IntroMVDA - DRGB – Septiembre 2011
[57]PCA E -PCA PLS
E - PLS
Q Chart
PLS
PLS intenta encontrar unos pocos factores fundamentales o latentes que explican la mayor parte de la variabilidad en las respuestas.
La idea es extraer estos factores latentes mientras se modela adecuadamente las respuestas.
IntroMVDA - DRGB – Septiembre 2011
[58]PCA E -PCA PLS
E - PLS
Q Chart
Estructura de Datos
X
FACTORES/PREDICTORES
K
OB
SER
VA
CIO
NES,
OB
JETO
S,
MU
ESTR
AS
, C
ASO
S,
ÍTEM
S
N
RESPUESTAS
M
OB
SER
VA
CIO
NES,
OB
JETO
S,
MU
ESTR
AS
, C
ASO
S,
ÍTEM
S
N
PLS Y
IntroMVDA - DRGB – Septiembre 2011
[59]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PLS
K = 3, M = 1, dos nubes de puntos
IntroMVDA - DRGB – Septiembre 2011
[60]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PLS
K = 3, M = 3, dos nubes de puntos
IntroMVDA - DRGB – Septiembre 2011
[61]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PLS
Primer Componente, ambos espacios
Score Vectors
IntroMVDA - DRGB – Septiembre 2011
[62]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PLSSegundo Componente, ambos espacios
Línea de segundo componente de XOrtogonal a la primera, esto no es necesariamente cierto para el espacio Y
IntroMVDA - DRGB – Septiembre 2011
[63]PCA E -PCA PLS
E - PLS
Q Chart
Geometría de PLS
Score vectors, otros componentes
El segundo par de “score vectors” (t2, u2), Correlacionan, pero regularmente menos que el primer componente
IntroMVDA - DRGB – Septiembre 2011
[64]PCA E -PCA PLS
E - PLS
Q Chart
PLS
Modelaje IndirectoTomado de: An Introduction to Partial Least Squares Regression by Randall D. Tobias
IntroMVDA - DRGB – Septiembre 2011
[65]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo
Ejemplo: el archivo LOWARP, suministrado por Umetrics, es un ejemplo donde tenemos 17 observaciones (mezclas) de una cubierta de plástico para un celular. Cuatro componentes son utilizados en la mezcla. El objetivo del estudio es el de conseguir cubiertas con poca deformación (warpage) y alto esfuerzo (strength). Catorce respuestas relacionadas a las deformaciones y el esfuerzo son medidas en la cubierta.
IntroMVDA - DRGB – Septiembre 2011
[66]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploBase de Datos – LOWARP
Respuestas - YFactores - X
IntroMVDA - DRGB – Septiembre 2011
[67]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo LOWARP – Weight Plot
IntroMVDA - DRGB – Septiembre 2011
[68]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo LOWARP – Observed vs Predicted
IntroMVDA - DRGB – Septiembre 2011
[69]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo
Tres Componentes Dos Componentes
IntroMVDA - DRGB – Septiembre 2011
[70]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo
t1/t2 - Score plot Biplot
-3.0
-2.0
-1.0
0.0
1.0
2.0
3.0
-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
t[2]
t[1]
lowarp.M1 (PLS)t[Comp. 1]/t[Comp. 2]
R2X[1] = 0.324195 R2X[2] = 0.24819 Ellipse: Hotelling T2 (0.95)
1
2
34
5
6
7
8
9
10
11
12
13141516
17
SIMCA-P+ 12.0.1 - 2011-09-12 22:32:13 (UTC-5)
-1.0
-0.8
-0.6
-0.4
-0.2
-0.0
0.2
0.4
0.6
0.8
1.0
-1.0 -0.8 -0.6 -0.4 -0.2 -0.0 0.2 0.4 0.6 0.8 1.0
pc(corr)[1], t(corr)[1]
lowarp.M1 (PLS)pc(corr)[Comp. 1]/pc(corr)[Comp. 2]
pc(corr)[2] (X)pc(corr)[2] (Y)t(corr)[2]
Var_1
glas
crtp
mica
amtpw rp1w rp2
w rp3
w rp4
w rp5w rp6
st1
st2
w rp7
st3
st4
w rp8
st5
st6
1
2
34
5
6
7
8
9
10
11
12
13141516
17
SIMCA-P+ 12.0.1 - 2011-09-12 22:28:09 (UTC-5)
IntroMVDA - DRGB – Septiembre 2011
[71]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploInterpretación de los
“weights”
IntroMVDA - DRGB – Septiembre 2011
[72]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploCoeficientes de variables correlacionadas
wrp1 y wrp2
IntroMVDA - DRGB – Septiembre 2011
[73]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploCoeficientes de variables no correlacionadas
wrp4 y st4
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
0.6
glas
crtp
mic
a
amtp
Coe
ffCS
[2](
wrp
4)
Var ID (Primary)
lowarp.M1 (PLS)CoeffCS[Last comp.](wrp4)Colored according to Var ID (Primary)
SIMCA-P+ 12.0.1 - 2011-09-13 00:29:21 (UTC-5)
IntroMVDA - DRGB – Septiembre 2011
[74]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploVIP – Variance Influence on
projection
IntroMVDA - DRGB – Septiembre 2011
[75]PCA E -PCA PLS
E - PLS
Q Chart
PLS – Ejemplo Diagnóstico de observaciones – “outliers” p
“non-linearities”
Una observación puede ser un outlier en X en Y y/o en la relación entre X e Y. Cuatro score Plots pueden ayudar: t1/u1, t2/u2, t1/t2 y u1/u2
La no-linearidad entre X e Y Puede ser observada en los scores tj/uj
IntroMVDA - DRGB – Septiembre 2011
[76]PCA E -PCA PLS
E - PLS
Q Chart
PLS - Ejemplo
t1/u1 - Score plot
Indica una correlación alta entreLos factores y las respuestas; no parecen existir “outliers”.
t2/u2 - Score plot
En general se observa una correlación alta entre los factores y las respuestas; puntos 6,11, 12 son como diferentes
IntroMVDA - DRGB – Septiembre 2011
[77]PCA E -PCA PLS
E - PLS
Q Chart
PLS – Resumen de gráficos t/t score útil para encontrar desviaciones
en X u/u plot – útil para encontrar desviaciones
en Y t/u plot – útil para encontrar desviaciones
de la correlación existente entre X e Y. Además es útil para desviaciones a la linearidad entre X e Y.
DmodX/DmodY, muestra la distancia de cada observación al modelo en el espacio X/Y y pueden ayudar a detectar “outliers” moderados
IntroMVDA - DRGB – Septiembre 2011
[78]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploDMOD- distancia al modelo – detect
“outliers”moderados
DMODX DMODY
IntroMVDA - DRGB – Septiembre 2011
[79]PCA E -PCA PLS
E - PLS
Q Chart
PLS - EjemploR2VX- variación explicada de los predictores X
Primer Componente
DMODY
Gráficos Multivariados - Monitoreo
Hotelling, PCA
Gráficos Multivariados
1x
2x
1x
2x Variables Independendientes
Variables Dendendientes
IntroMVDA - DRGB – Septiembre 2011
[81]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados
Hotelling T2
xxSxxnT 12 '
Fase I – uso de los gráficos de control para establecer control (obtener límites adecuados)
Fase II – monitoreo de observaciones futuras
m = # de muestras, n = tamaño de muestra
p = # de variables
0LCI 1
)1)(1(1,,
pmmnpFpmmn
nmpLCS
0LCI 1
)1)(1(1,,
pmmnpFpmmn
nmpLCS
IntroMVDA - DRGB – Septiembre 2011
[82]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados – Ejemplop = 2, n = 3
A
B
99 109 118 32 54 55
142 124 135 71 102 93
116 132 100 58 104 50
111 138 107 31 60 51
110 143 103 67 98 70
111 119 147 56 44 92
129 111 98 84 50 53
145 136 105 96 90 56
120 117 112 92 61 64
103 92 121 70 45 79
IntroMVDA - DRGB – Septiembre 2011
[83]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados - Ejemplo
A B Xbar A X Bar B Var A Var B Cov (A,B) Corr(A,B)
99 109 118 32 54 55 108.67 47.00 90.33 169.00 111.00 0.90
142 124 135 71 102 93 133.67 88.67 82.33 254.33 -135.17 -0.93
116 132 100 58 104 50 116.00 70.67 256.00 849.33 432.00 0.93
111 138 107 31 60 51 118.67 47.33 284.33 220.33 163.67 0.65
110 143 103 67 98 70 118.67 78.33 456.33 292.33 353.67 0.97
111 119 147 56 44 92 125.67 64.00 357.33 624.00 424.00 0.90
129 111 98 84 50 53 112.67 62.33 242.33 354.33 255.67 0.87
145 136 105 96 90 56 128.67 80.67 440.33 465.33 451.33 1.00
120 117 112 92 61 64 116.33 72.33 16.33 292.33 50.33 0.73
103 92 121 70 45 79 105.33 64.67 214.33 310.33 237.17 0.92
Average 118.43 67.60 244.00 383.17 234.37
Promedios
Varianzas Cov / Corr
IntroMVDA - DRGB – Septiembre 2011
[84]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[85]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados - Ejemplo
A
B
15014013012011010090
110
100
90
80
70
60
50
40
30
Scatterplot of B vs A
IntroMVDA - DRGB – Septiembre 2011
[86]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados - Ejemplo
Sample
Tsq
ua
red
10987654321
20
15
10
5
0Median=1.36
UCL=18.09
LCL=0.00
Tsquared Chart of A, BT Square
3.561833.639060.627097.970262.097002.755020.410271.486480.919153.87732
MEAN1MEAN2118.433 67.6COV244.000 234.367234.367 383.167
IntroMVDA - DRGB – Septiembre 2011
[87]PCA E -PCA PLS
E - PLS
Q Chart
Gráficos Multivariados - Ejemplo
Uno de los retos en estos gráficos cuando ocurre una señal de fuera de control es distinguir o diagnosticar cual o cuales de las variables son las que han cambiado su comportamiento. Entre los métodos sugeridos para el disgnóstico se encuentran:
Gráficos Univariados usando límites Bonferroni Usar Componentes Principales Descomposición de T2
di = T2 – T2(i)
donde T2(i) – la estadística T2 sin la variable I,
valores de di altos indican variables sospechosas
Otro reto con estas variables es la estinmación de la matriz de covarianza y el vector de promedios
IntroMVDA - DRGB – Septiembre 2011
[88]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Los gráficos de Control Multivariados son efectivos en la medida en que p, el número de variables del proceso a monitorearse no sea muy grande.
A medida que p aumenta el ARL de detectar un cambio particular también aumenta, porque el cambio se “diluye” en el espacio dimesional de las p variables del proceso.
Métodos para descubrir el subconjunto de variables que operan sobre el proceso se le conocen como “Latent Structure Methods”.
Uno de estos métodos es el de componentes principales PCA –
siglas en inglés).
PCA – Ejemplo – Fase IX1 X2 X3 X4
10 20.7 13.6 15.5
10.5 19.9 18.1 14.8
9.7 20 16.1 16.5
9.8 20.2 19.1 17.1
11.7 21.5 19.8 18.3
11 20.9 10.3 13.8
8.7 18.8 16.9 16.8
9.5 19.3 15.3 12.2
10.1 19.4 16.2 15.8
9.5 19.6 13.6 14.5
10.5 20.3 17 16.5
9.2 19 11.5 16.3
11.3 21.6 14 18.7
10 19.8 14 15.9
8.5 19.2 17.4 15.8
9.7 20.1 10 16.6
8.3 18.4 12.5 14.2
11.9 21.8 14.1 16.2
10.3 20.5 15.6 15.1
8.9 19 8.5 14.7
IntroMVDA - DRGB – Septiembre 2011
[89]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[90]PCA E -PCA PLS
E - PLS
Q Chart
PCA
X1
X3
X4
X2
222018 18151212
10
822
20
18 20
15
10
12108
18
15
12201510
Matrix Plot of X1, X2, X3, X4Correlations: X1, X2, X3, X4
X1 X2 X3X2 0.930X3 0.206 0.167X4 0.359 0.450 0.344
Type: PCA-X Observations (N)=20, Variables (K)=4 (X=4, Y=0)
IntroMVDA - DRGB – Septiembre 2011
[91]PCA E -PCA PLS
E - PLS
Q Chart
PCA
Principal Component Analysis: X1, X2, X3, X4
Eigenanalysis of the Correlation Matrix
Eigenvalue 2.3181 1.0118 0.6088 0.0613Proportion 0.580 0.253 0.152 0.015Cumulative 0.580 0.832 0.985 1.000
Variable PC1 PC2 PC3 PC4X1 0.594 -0.334 0.257 0.685X2 0.607 -0.330 0.083 -0.718X3 0.286 0.794 0.534 -0.061X4 0.444 0.387 -0.801 0.104
PCA – Z Scores – Fase I
Z1 Z2 Z3 Z4
0.29168 -0.6034 0.02496 -0.49092
0.29428 0.49153 1.23823 0.312272
0.19734 0.64094 -0.20787 -0.15148
0.83902 1.46958 0.03929 -0.25134
3.20488 0.87917 0.1242 0.139832
0.20327 -2.29514 0.62545 -0.01022
-0.99211 1.67046 -0.58815 0.070475
-1.70241 -0.36089 1.82157 -0.04443
-0.14246 0.56081 0.231 0.520987
-0.99498 -0.31493 0.33164 -0.07661
0.9447 0.50471 0.17976 0.151732
-1.2195 -0.09129 -1.11787 0.334585
2.60867 -0.42176 -1.19166 -0.06521
-0.12378 -0.08767 -0.19592 0.203499
-1.10423 1.47259 0.01299 -0.44495
-0.27825 -0.94763 -1.31445 -0.09828
-2.65608 0.13529 -0.11243 0.00515
2.36528 -1.30494 0.32286 0.019618
0.41131 -0.21893 0.6448 -0.20362
-2.14662 -1.17849 -0.86838 0.078903
IntroMVDA - DRGB – Septiembre 2011
[92]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[93]PCA E -PCA PLS
E - PLS
Q Chart
PCA – Trajectory Plot – Fase I
PCA – Ejemplo – Fase II
X1 X2 X3 X4
9.9 20 15.4 15.9
8.7 19 9.9 16.8
11.5 21.8 19.3 12.1
15.9 24.6 14.7 15.3
12.6 23.9 17.1 14.2
14.9 25 16.3 16.6
9.9 23.7 11.9 18.1
12.8 26.3 13.5 13.7
13.1 26.1 10.9 16.8
9.8 25.8 14.8 15
Z1 Z2
0.074196 0.239359
-1.51756 -0.21121
1.408477 -0.87591
6.298004 -3.67398
3.802027 -1.99584
6.490675 -2.73143
2.73883 -1.37617
4.95875 -3.9485
5.678095 -3.85838
3.369658 -2.10878
Variables Originales Z Scores
IntroMVDA - DRGB – Septiembre 2011
[94]PCA E -PCA PLS
E - PLS
Q Chart
IntroMVDA - DRGB – Septiembre 2011
[95]PCA E -PCA PLS
E - PLS
Q Chart
PCA – Trajectory Plot – Fase II
IntroMVDA - DRGB – Septiembre 2011
[96]PCA E -PCA PLS
E - PLS
Q Chart
PCA – Trajectory Plot – Fase II
Hotelling T2 – monitoreo multivariado
Pesos señal de fuera de control – obs. 23