3.2.1 Clasificación mediante la distancia de Mahalanobis 1 ... · 3.2.1 Clasificación...

3.2.1 Clasificacion mediante la distancia de Mahalanobis 1

Clasificacion mediante la distancia de Mahalanobis

Ejemplo I. n = 100 datos de P1, x1 ∈ N2(µ1; Σ1), y de P2 con x2 ∈ N2(µ2; Σ2)

µ1 = (0, 0)′, Σ1 = I, µ2 = (4, 0)′ y Σ2 =

[1 1/

√3

1/√

3 1

]≈

[1 0′58

0′58 1

].

Analisis de Datos


Dada una nueva observacion x0 = (2, 0)′. ¿A que poblacion le asignamos?

dM1(x0, µ1) =((x0 − µ1)

′Σ1−1(x0 − µ1)

)1/2= dE(x0, µ1) = 2

dM2(x0, µ2) =((x0 − µ2)

′Σ2−1(x0 − µ2)

)1/2=√

6 ≈ 2′45

Analisis de Datos


Regla de clasificacion

• dM1(x0, µ1) < dM2(x0, µ2) ⇒ x0 se clasifica en P1

• dM2(x0, µ2) < dM1(x0, µ1) ⇒ x0 se clasifica en P2

Analisis de Datos


Analisis de Datos


Regla de clasificacion

Analisis de Datos


Σ1 = Σ2

Ejemplo II. n = 100 datos de P1, con x1 ∈ N2(µ1; Σ) y de P2 con x2 ∈ N2(µ2; Σ)

µ1 = (0, 0)′, µ2 = (6, 0)

′y Σ =

[1 1/

√3

1/√

3 1

]≈

[1 0′58

0′58 1

].

Analisis de Datos


Analisis de Datos


Ejemplo III. n = 100 datos de P1, con x1 ∈ N2(µ1; Σ) y de P2 con x2 ∈ N2(µ2; Σ)

µ1 = (0, 0)′, µ2 = (2, 0)

′y Σ =

[1 1/

√3

1/√

3 1

]≈

[1 0,58

0,58 1

].

Analisis de Datos


Analisis de Datos


Σ1 6= Σ2

µ1 = (1, 0)′, µ2 = (5, 0)′, Σ1 = I, Σ2 = 5I

Analisis de Datos


Analisis de Datos


Interpretacion geometrica

Analisis de Datos

3.2.2 Clasificacion mediante la teorıa de la decision 16

π1 = π2, c(1|2) = c(2|1)

Analisis de Datos


π1 = 0′75, π2 = 0′25, c(1|2) = c(2|1) o π1 = π2, c(1|2) = 25, c(2|1) = 75

Analisis de Datos


π1 = 0′95, π2 = 0′05, c(1|2) = c(2|1) o π1 = π2, c(1|2) = 5, c(2|1) = 95

Analisis de Datos


Ejemplo 3. Datos de esclerosis multiple.

Los vectores de medias son:

x1 =

37, 99

147, 291, 56

195, 601, 62

,

Estadísticos descriptivosa

37,986 16,6623 69147,2899 10,59692 69

1,5623 1,34351 69195,6029 13,60988 69

1,6203 1,53475 69

EDADR1SUMAR1DIFR2SUMAR2DIF

MediaDesviación

típica N

PACIENTE = 0a.

x2 =

42, 07

178, 2712, 28

236, 9313, 08

,


42,069 11,0063 29178,2690 29,06339 2912,2759 17,81191 29

236,9310 34,35160 2913,0828 18,73625 29


MediaDesviación

típica N

PACIENTE = 1a.

Analisis de Datos


Las “matrices de covarianzas” son:

S1 =

277,632 95,398 5,361 103,724 3,24195,398 112,295 1,766 106,785 2,0425,361 1,766 1,805 2,235 ,501

103,724 106,785 2,235 185,229 2,3513,241 2,042 ,501 2,351 2,355


EDAD R1SUMA R1DIF R2SUMA R2DIF

PACIENTE = 0a.

S2 =

121,138 52,795 -20,220 68,133 -29,82052,795 844,681 244,463 912,415 106,764

-20,220 244,463 317,264 232,365 297,31968,133 912,415 232,365 1180,032 81,097

-29,820 106,764 297,319 81,097 351,047


EDAD R1SUMA R1DIF R2SUMA R2DIF

PACIENTE = 1a.

Analisis de Datos


Matriz de varianzas dentro de los grupos:

Sw =69− 198− 2

S1+29− 198− 2

S2 =

231, 98 82, 97 −2, 10 93, 34 −6, 4082, 97 325, 90 72, 55 341, 76 32, 58−2, 10 72, 55 93, 81 69, 35 87, 0793, 34 341, 76 69, 35 475, 38 25, 31−6, 40 32, 58 87, 07 25, 31 104, 05

Matrices intra-grupo combinadas

231,988 82,972 -2,100 93,343 -6,40282,972 325,907 72,553 341,760 32,586-2,100 72,553 93,814 69,356 87,07393,343 341,760 69,356 475,380 25,319-6,402 32,586 87,073 25,319 104,057


CovarianzaEDAD R1SUMA R1DIF R2SUMA R2DIF

Analisis de Datos


Vector w:

w = S−1w (x2−x1) =

−0,023

0,034−0,210

0,0840,253

.

No aparece explıcitamente en SPSS, perosi aparece el vector de coeficientes, ωωωque es proporcional a w, y ω0 se obtienede: ω0 = −ωωω′x, donde x es el vector demedias de toda la muestra.

Analisis de Datos


Clasificacion de observaciones:

Se basa en comparar comparar el valor de w′x con w′ (x1+x22

)= 23,23.

X1 X2 X3 X4 X5 Paciente/Control w′x Clasificado18 152.0 1.6 198.4 0.0 0 21.13 019 138.0 0.4 180.8 1.6 0 19.80 020 144.0 0.0 186.4 0.8 0 20.34 020 143.6 3.2 194.8 0.0 0 20.15 020 148.8 0.0 217.6 0.0 0 22.92 023 148.0 0.8 205.4 0.6 1 23.50 125 195.2 3.2 262.8 0.4 1 21.78 025 158.0 8.0 209.8 12.2 1 27.62 128 134.4 0.0 198.4 3.2 1 23.88 129 190.2 14.2 243.8 10.6 1 21.44 0

Analisis de Datos


Clasificacion de todas las observaciones:Resultados de la clasificaciónb

66 3 697 22 29

95,7 4,3 100,024,1 75,9 100,0

PACIENTE0101

Recuento

%

Original0 1

Grupo depertenenciapronosticado

Total

Clasificados correctamente el 89,8% de los casos agrupados originales.b.

El 95.7 % de los controles (66 de 69) se clasifica correctamente.

El 75.9 % de los casos (22 de 29) se clasifica correctamente.

La tasa de error aparente =Total de mal clasificadosTamano de la muestra

=1098

= 10.2%.

Analisis de Datos


Clasificacion de todas las observaciones (validacion cruzada):

64 5 698 21 29

92,8 7,2 100,027,6 72,4 100,0

PACIENTE0101

Recuento

%

Validación cruzadaa0 1

Grupo depertenenciapronosticado

Total

La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso seclasifica mediante las funciones derivadas a partir del resto de los casos.

a.

Clasificados correctamente el 86,7% de los casos agrupados validados mediante validación cruzada.c.

El 92.8 % de los controles (64 de 69) se clasifica correctamente.

El 72.4 % de los casos (21 de 29) se clasifica correctamente.

La tasa de error =Total de mal clasificadosTamano de la muestra

=1398

= 13.3 %.

Analisis de Datos


Clasificacion de observaciones teniendo en cuenta los costes: Supongamos queel coste de clasificar a un individuo sano como enfermo es 1000 euros y que“coste” de clasificar a un individuo enfermo como sano es 10000 euros.

Ahora debemos comparar comparar el valor de w′x con w′ (x1+x22

)−

log(

c(1|2)π2c(2|1)π1

)= 23,23− log(10000/1000) = 23,23− 2,30 = 20,93.

X1 X2 X3 X4 X5 Paciente/Control w′x Nueva Clasificacion

18 152.0 1.6 198.4 0.0 0 21.13 1

19 138.0 0.4 180.8 1.6 0 19.80 0

20 144.0 0.0 186.4 0.8 0 20.34 0

20 143.6 3.2 194.8 0.0 0 20.15 0

20 148.8 0.0 217.6 0.0 0 22.92 1

23 148.0 0.8 205.4 0.6 1 23.50 1

25 195.2 3.2 262.8 0.4 1 21.78 1

25 158.0 8.0 209.8 12.2 1 27.62 1

28 134.4 0.0 198.4 3.2 1 23.88 1

29 190.2 14.2 243.8 10.6 1 21.44 1

Analisis de Datos

3.5 Generalizacion a varias poblaciones normales 27

Discriminacion entre mas de dos poblaciones normales - I

Analisis de Datos


Discriminacion entre mas de dos poblaciones normales - II

Analisis de Datos


Ejemplo 6. En su trabajo pionero sobre funciones discriminantes, Ronald A.Fisher estudio las siguientes variables medidas en 50 ejemplares de Iris setosa,Iris versicolor, e Iris virginica):

Codigo Descripcionsl Longitud del sepalosw Anchura del sepalopl Longitud del petalopw Anchura del petalo


50 5,006 ,352550 3,418 ,381050 1,464 ,173550 ,244 ,107250

SLSWPLPWN válido (según lista)

N Media Desv. típ.

CLASS = setosaa.

Covarianzasa

,124 ,100 ,016 ,011,100 ,145 ,012 ,011,016 ,012 ,030 ,006,011 ,011 ,006 ,011

SLSWPLPW

SL SW PL PW

CLASS = setosaa.

Analisis de Datos


Ejemplo 6.Estadísticos descriptivosa

50 5,936 ,516250 2,770 ,313850 4,260 ,469950 1,326 ,197850


N Media Desv. típ.

CLASS = versicolora.

Covarianzasa

,266 ,085 ,183 ,056,085 ,098 ,083 ,041,183 ,083 ,221 ,073,056 ,041 ,073 ,039

SLSWPLPW

SL SW PL PW

CLASS = versicolora.


50 6,588 ,635950 2,974 ,322550 5,552 ,551950 2,026 ,274750


N Media Desv. típ.

CLASS = virginicaa.

Covarianzasa

,404 ,094 ,303 ,049,094 ,104 ,071 ,048,303 ,071 ,305 ,049,049 ,048 ,049 ,075

SLSWPLPW

SL SW PL PW

CLASS = virginicaa.

Analisis de Datos


Ejemplo 6. Matriz de varianzas dentro de los grupos y vectores wij:

Sw =

0,265 0,093 0,167 0,0380,093 0,115 0,055 0,0330,167 0,055 0,185 0,0420,038 0,033 0,042 0,042

y

w12 =

−7,762−16,614

21,48724,323

, w13 =

−10,975−20,124

29,02539,088

, y w23 =

−3,212−3,510

7,53714,764

.

Analisis de Datos


Ejemplo 6.

w′12(x1 + x2)/2 = −13,3

w′13(x1 + x3)/2 = 18,2

w′23(x2 + x3)/2 = 31,5:

Clase w′12x w′

13x w′23x Comparaciones Clasificacion

setosa -62.7 -77.9 -15.1 1 � 2 1 � 3 2 � 3 1setosa -52.9 -65.7 -12.7 1 � 2 1 � 3 2 � 3 1setosa -56.8 -70.4 -13.5 1 � 2 1 � 3 2 � 3 1versicolor 27.5 49.9 22.3 2 � 1 3 � 1 2 � 3 2versicolor 30.3 54.6 24.2 2 � 1 3 � 1 2 � 3 2versicolor 36.7 62.7 26.0 2 � 1 3 � 1 2 � 3 2virginica 86.0 136.3 50.3 2 � 1 3 � 1 3 � 2 3virginica 65.9 104.3 38.3 2 � 1 3 � 1 3 � 2 3virginica 72.8 115.0 42.1 2 � 1 3 � 1 3 � 2 3

Analisis de Datos


Ejemplo 6.Resultados de la clasificaciónb,c

50 0 0 500 48 2 500 1 49 50

100,0 ,0 ,0 100,0,0 96,0 4,0 100,0,0 2,0 98,0 100,0

50 0 0 500 48 2 500 1 49 50

100,0 ,0 ,0 100,0,0 96,0 4,0 100,0,0 2,0 98,0 100,0

ESPECIE1,002,003,001,002,003,001,002,003,001,002,003,00

Recuento

%

Recuento

%

Original

Validación cruzadaa

1,00 2,00 3,00

Grupo de pertenenciapronosticado

Total

La validación cruzada sólo se aplica a los casos del análisis. En la validación cruzada, cada caso seclasifica mediante las funciones derivadas a partir del resto de los casos.

a.

Clasificados correctamente el 98,0% de los casos agrupados originales.b.

Clasificados correctamente el 98,0% de los casos agrupados validados mediante validación cruzada.c.

Analisis de Datos


Ejemplo 6.

SW

4,54,03,53,02,52,01,5

PL

7

6

5

4

3

2

1

0

virginica

versicolor

setosa

SW

4,54,03,53,02,52,01,5

SL

8

7

6

5

4

virginica

versicolor

setosa

Analisis de Datos


Ejemplo 6.

Puntuaciones discriminantes 1

100-10

Puntu

acione

s disc

rimina

ntes 2

3

2

1

0

-1

-2

-3

virginica (*)

versicolor (*)

virginica

versicolor

setosa

Analisis de Datos

3.4 La funcion discriminante lineal de Fisher 36

Funcion discriminante lineal de Fisher

Encontrar una combinacion linealz = ααα′x tal que maximice la siguienteexpresion:

φ =(

ααα′x2 −ααα′x1

sz

)2

.

La varianza de z se estima pors2

z = ααα′Swααα′.

Derivando φ con respecto del vectorααα e igualando a 0, obtenemos:

ααα = S−1w (x2 − x1),

que coincide con el vector w.

0 5 10 15 20 25 30 35 40 45 500

5

10

15

20

25

30

35

40

45

50

µ1

µ2

Analisis de Datos


Ejemplo 7. Supongamos que de-seamos un procedimiento automaticopara reconocer el codigo postal escritoen una carta. Para ello, se lee cadanumero y se codifica en una matrizde pixeles de 16 × 16. En el ficheronumeros.sav se encuentran los datosde este ejemplo: 257 variables y 7291observaciones.

Reducimos la dimension del problemaaplicando un analisis de componentesprincipales normado. Seleccionaremostodas las componentes con valor pro-pio mayor que 1: Resultado: 44 com-ponentes que explican el 83.05 % dela variabilidad total.

5 10 15

5

10

15

5 10 15

5

10

15

5 10 15

5

10

15

5 10 15

5

10

15

5 10 15

5

10

15

5 10 15

5

10

15

Analisis de Datos


Ejemplo 7.Resultados de la clasificacióna

1157 0 7 1 4 14 10 0 1 0 11940 988 0 0 11 1 2 0 3 0 10051 0 685 5 18 5 3 1 13 0 7312 0 8 605 1 23 0 0 16 3 6580 2 9 0 602 3 7 1 4 24 6526 0 8 14 5 505 6 2 8 2 5567 1 14 0 1 11 629 0 1 0 6640 0 3 1 4 4 0 603 7 23 6450 1 11 12 9 10 5 3 490 1 5420 0 0 3 16 7 0 21 2 595 644

96,9 ,0 ,6 ,1 ,3 1,2 ,8 ,0 ,1 ,0 100,0,0 98,3 ,0 ,0 1,1 ,1 ,2 ,0 ,3 ,0 100,0,1 ,0 93,7 ,7 2,5 ,7 ,4 ,1 1,8 ,0 100,0,3 ,0 1,2 91,9 ,2 3,5 ,0 ,0 2,4 ,5 100,0,0 ,3 1,4 ,0 92,3 ,5 1,1 ,2 ,6 3,7 100,0

1,1 ,0 1,4 2,5 ,9 90,8 1,1 ,4 1,4 ,4 100,01,1 ,2 2,1 ,0 ,2 1,7 94,7 ,0 ,2 ,0 100,0,0 ,0 ,5 ,2 ,6 ,6 ,0 93,5 1,1 3,6 100,0,0 ,2 2,0 2,2 1,7 1,8 ,9 ,6 90,4 ,2 100,0,0 ,0 ,0 ,5 2,5 1,1 ,0 3,3 ,3 92,4 100,0

V1,001,002,003,004,005,006,007,008,009,00,001,002,003,004,005,006,007,008,009,00

Recuento

%

Original,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00

Grupo de pertenencia pronosticadoTotal

Clasificados correctamente el 94,1% de los casos agrupados originales.a.

Analisis de Datos


Ejemplo 7.

Función discriminante 1

86420-2-4-6-8

Fu

nci

ón

dis

crim

ina

nte

2

6

4

2

0

-2

-4

-6

Número

9

8

7

6

5

4

3

2

1

0

Analisis de Datos


Ejemplo 7.


86420-2-4-6-8

Fu

nci

ón

dis

crim

ina

nte

3

6

4

2

0

-2

-4

-6

-8

-10

Número

9

8

7

6

5

4

3

2

1

0

Analisis de Datos


Ejemplo 7.


6420-2-4-6

Fu

nci

ón

dis

crim

ina

nte

6

6

4

2

0

-2

-4

-6

Número

9

8

7

6

5

4

3

2

1

0

Analisis de Datos

3.2.1 Clasificación mediante la distancia de Mahalanobis 1 ... · 3.2.1 Clasificación...

Documents

Transcript of 3.2.1 Clasificación mediante la distancia de Mahalanobis 1 ... · 3.2.1 Clasificación...