3.2.1 Clasificaci´on mediante la distancia de Mahalanobis 1 ... · 3.2.1 Clasificaci´on...
Transcript of 3.2.1 Clasificaci´on mediante la distancia de Mahalanobis 1 ... · 3.2.1 Clasificaci´on...
3.2.1 Clasificacion mediante la distancia de Mahalanobis 1
Clasificacion mediante la distancia de Mahalanobis
Ejemplo I. n = 100 datos de P1, x1 ∈ N2(µ1; Σ1), y de P2 con x2 ∈ N2(µ2; Σ2)
µ1 = (0, 0)′, Σ1 = I, µ2 = (4, 0)′ y Σ2 =
[1 1/
√3
1/√
3 1
]≈
[1 0′58
0′58 1
].
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 2
Dada una nueva observacion x0 = (2, 0)′. ¿A que poblacion le asignamos?
dM1(x0, µ1) =((x0 − µ1)
′Σ1−1(x0 − µ1)
)1/2= dE(x0, µ1) = 2
dM2(x0, µ2) =((x0 − µ2)
′Σ2−1(x0 − µ2)
)1/2=√
6 ≈ 2′45
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 3
Regla de clasificacion
• dM1(x0, µ1) < dM2(x0, µ2) ⇒ x0 se clasifica en P1
• dM2(x0, µ2) < dM1(x0, µ1) ⇒ x0 se clasifica en P2
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 4
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 5
Regla de clasificacion
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 6
Σ1 = Σ2
Ejemplo II. n = 100 datos de P1, con x1 ∈ N2(µ1; Σ) y de P2 con x2 ∈ N2(µ2; Σ)
µ1 = (0, 0)′, µ2 = (6, 0)
′y Σ =
[1 1/
√3
1/√
3 1
]≈
[1 0′58
0′58 1
].
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 7
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 8
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 9
Ejemplo III. n = 100 datos de P1, con x1 ∈ N2(µ1; Σ) y de P2 con x2 ∈ N2(µ2; Σ)
µ1 = (0, 0)′, µ2 = (2, 0)
′y Σ =
[1 1/
√3
1/√
3 1
]≈
[1 0,58
0,58 1
].
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 10
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 11
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 12
Σ1 6= Σ2
µ1 = (1, 0)′, µ2 = (5, 0)′, Σ1 = I, Σ2 = 5I
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 13
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 14
Interpretacion geometrica
Analisis de Datos
3.2.1 Clasificacion mediante la distancia de Mahalanobis 15
Interpretacion geometrica
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 16
π1 = π2, c(1|2) = c(2|1)
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 17
π1 = 0′75, π2 = 0′25, c(1|2) = c(2|1) o π1 = π2, c(1|2) = 25, c(2|1) = 75
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 18
π1 = 0′95, π2 = 0′05, c(1|2) = c(2|1) o π1 = π2, c(1|2) = 5, c(2|1) = 95
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 19
Ejemplo 3. Datos de esclerosis multiple.
Los vectores de medias son:
x1 =
37, 99
147, 291, 56
195, 601, 62
,
Estadísticos descriptivosa
37,986 16,6623 69147,2899 10,59692 69
1,5623 1,34351 69195,6029 13,60988 69
1,6203 1,53475 69
EDADR1SUMAR1DIFR2SUMAR2DIF
MediaDesviación
típica N
PACIENTE = 0a.
x2 =
42, 07
178, 2712, 28
236, 9313, 08
,
Estadísticos descriptivosa
42,069 11,0063 29178,2690 29,06339 2912,2759 17,81191 29
236,9310 34,35160 2913,0828 18,73625 29
EDADR1SUMAR1DIFR2SUMAR2DIF
MediaDesviación
típica N
PACIENTE = 1a.
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 20
Las “matrices de covarianzas” son:
S1 =
277,632 95,398 5,361 103,724 3,24195,398 112,295 1,766 106,785 2,0425,361 1,766 1,805 2,235 ,501
103,724 106,785 2,235 185,229 2,3513,241 2,042 ,501 2,351 2,355
EDADR1SUMAR1DIFR2SUMAR2DIF
EDAD R1SUMA R1DIF R2SUMA R2DIF
PACIENTE = 0a.
S2 =
121,138 52,795 -20,220 68,133 -29,82052,795 844,681 244,463 912,415 106,764
-20,220 244,463 317,264 232,365 297,31968,133 912,415 232,365 1180,032 81,097
-29,820 106,764 297,319 81,097 351,047
EDADR1SUMAR1DIFR2SUMAR2DIF
EDAD R1SUMA R1DIF R2SUMA R2DIF
PACIENTE = 1a.
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 21
Matriz de varianzas dentro de los grupos:
Sw =69− 198− 2
S1+29− 198− 2
S2 =
231, 98 82, 97 −2, 10 93, 34 −6, 4082, 97 325, 90 72, 55 341, 76 32, 58−2, 10 72, 55 93, 81 69, 35 87, 0793, 34 341, 76 69, 35 475, 38 25, 31−6, 40 32, 58 87, 07 25, 31 104, 05
Matrices intra-grupo combinadas
231,988 82,972 -2,100 93,343 -6,40282,972 325,907 72,553 341,760 32,586-2,100 72,553 93,814 69,356 87,07393,343 341,760 69,356 475,380 25,319-6,402 32,586 87,073 25,319 104,057
EDADR1SUMAR1DIFR2SUMAR2DIF
CovarianzaEDAD R1SUMA R1DIF R2SUMA R2DIF
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 22
Vector w:
w = S−1w (x2−x1) =
−0,023
0,034−0,210
0,0840,253
.
No aparece explıcitamente en SPSS, perosi aparece el vector de coeficientes, ωωωque es proporcional a w, y ω0 se obtienede: ω0 = −ωωω′x, donde x es el vector demedias de toda la muestra.
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 23
Clasificacion de observaciones:
Se basa en comparar comparar el valor de w′x con w′ (x1+x22
)= 23,23.
X1 X2 X3 X4 X5 Paciente/Control w′x Clasificado18 152.0 1.6 198.4 0.0 0 21.13 019 138.0 0.4 180.8 1.6 0 19.80 020 144.0 0.0 186.4 0.8 0 20.34 020 143.6 3.2 194.8 0.0 0 20.15 020 148.8 0.0 217.6 0.0 0 22.92 023 148.0 0.8 205.4 0.6 1 23.50 125 195.2 3.2 262.8 0.4 1 21.78 025 158.0 8.0 209.8 12.2 1 27.62 128 134.4 0.0 198.4 3.2 1 23.88 129 190.2 14.2 243.8 10.6 1 21.44 0
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 24
Clasificacion de todas las observaciones:Resultados de la clasificaciónb
66 3 697 22 29
95,7 4,3 100,024,1 75,9 100,0
PACIENTE0101
Recuento
%
Original0 1
Grupo depertenenciapronosticado
Total
Clasificados correctamente el 89,8% de los casos agrupados originales.b.
El 95.7 % de los controles (66 de 69) se clasifica correctamente.
El 75.9 % de los casos (22 de 29) se clasifica correctamente.
La tasa de error aparente =Total de mal clasificadosTamano de la muestra
=1098
= 10.2%.
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 25
Clasificacion de todas las observaciones (validacion cruzada):
64 5 698 21 29
92,8 7,2 100,027,6 72,4 100,0
PACIENTE0101
Recuento
%
Validación cruzadaa0 1
Grupo depertenenciapronosticado
Total
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso seclasifica mediante las funciones derivadas a partir del resto de los casos.
a.
Clasificados correctamente el 86,7% de los casos agrupados validados mediante validación cruzada.c.
El 92.8 % de los controles (64 de 69) se clasifica correctamente.
El 72.4 % de los casos (21 de 29) se clasifica correctamente.
La tasa de error =Total de mal clasificadosTamano de la muestra
=1398
= 13.3 %.
Analisis de Datos
3.2.2 Clasificacion mediante la teorıa de la decision 26
Clasificacion de observaciones teniendo en cuenta los costes: Supongamos queel coste de clasificar a un individuo sano como enfermo es 1000 euros y que“coste” de clasificar a un individuo enfermo como sano es 10000 euros.
Ahora debemos comparar comparar el valor de w′x con w′ (x1+x22
)−
log(
c(1|2)π2c(2|1)π1
)= 23,23− log(10000/1000) = 23,23− 2,30 = 20,93.
X1 X2 X3 X4 X5 Paciente/Control w′x Nueva Clasificacion
18 152.0 1.6 198.4 0.0 0 21.13 1
19 138.0 0.4 180.8 1.6 0 19.80 0
20 144.0 0.0 186.4 0.8 0 20.34 0
20 143.6 3.2 194.8 0.0 0 20.15 0
20 148.8 0.0 217.6 0.0 0 22.92 1
23 148.0 0.8 205.4 0.6 1 23.50 1
25 195.2 3.2 262.8 0.4 1 21.78 1
25 158.0 8.0 209.8 12.2 1 27.62 1
28 134.4 0.0 198.4 3.2 1 23.88 1
29 190.2 14.2 243.8 10.6 1 21.44 1
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 27
Discriminacion entre mas de dos poblaciones normales - I
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 28
Discriminacion entre mas de dos poblaciones normales - II
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 29
Ejemplo 6. En su trabajo pionero sobre funciones discriminantes, Ronald A.Fisher estudio las siguientes variables medidas en 50 ejemplares de Iris setosa,Iris versicolor, e Iris virginica):
Codigo Descripcionsl Longitud del sepalosw Anchura del sepalopl Longitud del petalopw Anchura del petalo
Estadísticos descriptivosa
50 5,006 ,352550 3,418 ,381050 1,464 ,173550 ,244 ,107250
SLSWPLPWN válido (según lista)
N Media Desv. típ.
CLASS = setosaa.
Covarianzasa
,124 ,100 ,016 ,011,100 ,145 ,012 ,011,016 ,012 ,030 ,006,011 ,011 ,006 ,011
SLSWPLPW
SL SW PL PW
CLASS = setosaa.
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 30
Ejemplo 6.Estadísticos descriptivosa
50 5,936 ,516250 2,770 ,313850 4,260 ,469950 1,326 ,197850
SLSWPLPWN válido (según lista)
N Media Desv. típ.
CLASS = versicolora.
Covarianzasa
,266 ,085 ,183 ,056,085 ,098 ,083 ,041,183 ,083 ,221 ,073,056 ,041 ,073 ,039
SLSWPLPW
SL SW PL PW
CLASS = versicolora.
Estadísticos descriptivosa
50 6,588 ,635950 2,974 ,322550 5,552 ,551950 2,026 ,274750
SLSWPLPWN válido (según lista)
N Media Desv. típ.
CLASS = virginicaa.
Covarianzasa
,404 ,094 ,303 ,049,094 ,104 ,071 ,048,303 ,071 ,305 ,049,049 ,048 ,049 ,075
SLSWPLPW
SL SW PL PW
CLASS = virginicaa.
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 31
Ejemplo 6. Matriz de varianzas dentro de los grupos y vectores wij:
Sw =
0,265 0,093 0,167 0,0380,093 0,115 0,055 0,0330,167 0,055 0,185 0,0420,038 0,033 0,042 0,042
y
w12 =
−7,762−16,614
21,48724,323
, w13 =
−10,975−20,124
29,02539,088
, y w23 =
−3,212−3,510
7,53714,764
.
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 32
Ejemplo 6.
w′12(x1 + x2)/2 = −13,3
w′13(x1 + x3)/2 = 18,2
w′23(x2 + x3)/2 = 31,5:
Clase w′12x w′
13x w′23x Comparaciones Clasificacion
setosa -62.7 -77.9 -15.1 1 � 2 1 � 3 2 � 3 1setosa -52.9 -65.7 -12.7 1 � 2 1 � 3 2 � 3 1setosa -56.8 -70.4 -13.5 1 � 2 1 � 3 2 � 3 1versicolor 27.5 49.9 22.3 2 � 1 3 � 1 2 � 3 2versicolor 30.3 54.6 24.2 2 � 1 3 � 1 2 � 3 2versicolor 36.7 62.7 26.0 2 � 1 3 � 1 2 � 3 2virginica 86.0 136.3 50.3 2 � 1 3 � 1 3 � 2 3virginica 65.9 104.3 38.3 2 � 1 3 � 1 3 � 2 3virginica 72.8 115.0 42.1 2 � 1 3 � 1 3 � 2 3
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 33
Ejemplo 6.Resultados de la clasificaciónb,c
50 0 0 500 48 2 500 1 49 50
100,0 ,0 ,0 100,0,0 96,0 4,0 100,0,0 2,0 98,0 100,0
50 0 0 500 48 2 500 1 49 50
100,0 ,0 ,0 100,0,0 96,0 4,0 100,0,0 2,0 98,0 100,0
ESPECIE1,002,003,001,002,003,001,002,003,001,002,003,00
Recuento
%
Recuento
%
Original
Validación cruzadaa
1,00 2,00 3,00
Grupo de pertenenciapronosticado
Total
La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso seclasifica mediante las funciones derivadas a partir del resto de los casos.
a.
Clasificados correctamente el 98,0% de los casos agrupados originales.b.
Clasificados correctamente el 98,0% de los casos agrupados validados mediante validación cruzada.c.
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 34
Ejemplo 6.
SW
4,54,03,53,02,52,01,5
PL
7
6
5
4
3
2
1
0
virginica
versicolor
setosa
SW
4,54,03,53,02,52,01,5
SL
8
7
6
5
4
virginica
versicolor
setosa
Analisis de Datos
3.5 Generalizacion a varias poblaciones normales 35
Ejemplo 6.
Puntuaciones discriminantes 1
100-10
Puntu
acione
s disc
rimina
ntes 2
3
2
1
0
-1
-2
-3
virginica (*)
versicolor (*)
virginica
versicolor
setosa
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 36
Funcion discriminante lineal de Fisher
Encontrar una combinacion linealz = ααα′x tal que maximice la siguienteexpresion:
φ =(
ααα′x2 −ααα′x1
sz
)2
.
La varianza de z se estima pors2
z = ααα′Swααα′.
Derivando φ con respecto del vectorααα e igualando a 0, obtenemos:
ααα = S−1w (x2 − x1),
que coincide con el vector w.
0 5 10 15 20 25 30 35 40 45 500
5
10
15
20
25
30
35
40
45
50
µ1
µ2
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 37
Ejemplo 7. Supongamos que de-seamos un procedimiento automaticopara reconocer el codigo postal escritoen una carta. Para ello, se lee cadanumero y se codifica en una matrizde pixeles de 16 × 16. En el ficheronumeros.sav se encuentran los datosde este ejemplo: 257 variables y 7291observaciones.
Reducimos la dimension del problemaaplicando un analisis de componentesprincipales normado. Seleccionaremostodas las componentes con valor pro-pio mayor que 1: Resultado: 44 com-ponentes que explican el 83.05 % dela variabilidad total.
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
5 10 15
5
10
15
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 38
Ejemplo 7.Resultados de la clasificacióna
1157 0 7 1 4 14 10 0 1 0 11940 988 0 0 11 1 2 0 3 0 10051 0 685 5 18 5 3 1 13 0 7312 0 8 605 1 23 0 0 16 3 6580 2 9 0 602 3 7 1 4 24 6526 0 8 14 5 505 6 2 8 2 5567 1 14 0 1 11 629 0 1 0 6640 0 3 1 4 4 0 603 7 23 6450 1 11 12 9 10 5 3 490 1 5420 0 0 3 16 7 0 21 2 595 644
96,9 ,0 ,6 ,1 ,3 1,2 ,8 ,0 ,1 ,0 100,0,0 98,3 ,0 ,0 1,1 ,1 ,2 ,0 ,3 ,0 100,0,1 ,0 93,7 ,7 2,5 ,7 ,4 ,1 1,8 ,0 100,0,3 ,0 1,2 91,9 ,2 3,5 ,0 ,0 2,4 ,5 100,0,0 ,3 1,4 ,0 92,3 ,5 1,1 ,2 ,6 3,7 100,0
1,1 ,0 1,4 2,5 ,9 90,8 1,1 ,4 1,4 ,4 100,01,1 ,2 2,1 ,0 ,2 1,7 94,7 ,0 ,2 ,0 100,0,0 ,0 ,5 ,2 ,6 ,6 ,0 93,5 1,1 3,6 100,0,0 ,2 2,0 2,2 1,7 1,8 ,9 ,6 90,4 ,2 100,0,0 ,0 ,0 ,5 2,5 1,1 ,0 3,3 ,3 92,4 100,0
V1,001,002,003,004,005,006,007,008,009,00,001,002,003,004,005,006,007,008,009,00
Recuento
%
Original,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00
Grupo de pertenencia pronosticadoTotal
Clasificados correctamente el 94,1% de los casos agrupados originales.a.
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 39
Ejemplo 7.
Función discriminante 1
86420-2-4-6-8
Fu
nci
ón
dis
crim
ina
nte
2
6
4
2
0
-2
-4
-6
Número
9
8
7
6
5
4
3
2
1
0
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 40
Ejemplo 7.
Función discriminante 1
86420-2-4-6-8
Fu
nci
ón
dis
crim
ina
nte
3
6
4
2
0
-2
-4
-6
-8
-10
Número
9
8
7
6
5
4
3
2
1
0
Analisis de Datos
3.4 La funcion discriminante lineal de Fisher 41
Ejemplo 7.
Función discriminante 7
6420-2-4-6
Fu
nci
ón
dis
crim
ina
nte
6
6
4
2
0
-2
-4
-6
Número
9
8
7
6
5
4
3
2
1
0
Analisis de Datos