ANALISIS DISCRIMINANTE

1

[ESTADÍSTICA II]ANALISIS

DISCRIMINANTE

ANALISIS DISRIMINANTE LINEAL

PRESENTADO POR:

DIANA CALDERONNATHALIE GIL

SANDRA GONZALEZMAICOL MORENO C

PRESENTADO A

DOC. CESAR SERNA

UNIVERSIDAD CENTRALDEPARTAMENTO DE MATEMATICAS

ESTADISTICA IIBOGOTA D.C., MAYO 14 DE 2010

2


DISCRIMINANTE

INTRODUCCION

Este trabajo fue diseñado con el fin de poner en práctica nuestros conocimientos aprendidos a lo largo del semestre y con estas bases lograr entender un nuevo tema como lo es el Análisis Discriminante Lineal, el cual tiene como fin proporcionar una regla discriminante que permita asignar un nuevo individuo u objeto a una de varias poblaciones, clases o grupos previamente identificados.

La regla se obtiene a partir de una muestra, consistente en un conjunto de observaciones multivariantes, en que una de las variables es la población a la que pertenece cada observación. Existen varios métodos para obtener la regla discriminante entre los que se encuentra la clasificación de una nueva observación entre dos poblaciones, la clasificación de una muestra en la cual no se conocen los costos de decisión, entre otras.

De la misma forma se da una breve descripción respecto del discriminante lineal de Fisher ya que herramientas estadísticas computaciones, en nuestro caso puntual el statgraphics maneja este tipo de técnica para clasificar una nueva observación dentro de un grupo u otro.

ANALISIS DISCRIMINANTE

3


DISCRIMINANTE

El análisis discriminante está diseñado para ayudar a distinguir entre dos o más grupos de datos basados en un conjunto de P variables cuantitativas Observadas. Esto se hace construyendo funciones discriminantes que son combinaciones lineales de las variables el objeto de tal análisis es generalmente uno o ambos de los que siguen:

1. La habilidad de describir los datos observados matemáticamente de una manera que los separa en grupos tan bien como sea Posible.

2. La habilidad de clasificar nuevas observaciones como pertenecía a a uno o algunos de los grupos.

En construcción de funciones discriminantes, el procedimiento permite incluir a todas las variables o usar un procedimiento de selección paso a paso que incluye solo algunas variables que son estadísticamente significativas para discriminar sobre los grupos. Los resúmenes y pruebas estadísticas con significancia para el número de funciones discriminantes necesarias serán incluidos

Las Funciones discriminantes derivadas pueden utilizarse para clasificar nuevos casos dentro de los grupos. Las probabilidades A priori de pertenencia para cada grupo serán ingresadas o derivadas de los datos observados

ANÁLISIS DE BAYES.

Es un procedimiento para estimar las probabilidades de situaciones cuando un estudio o la información de la muestra están disponibles. Para describir el procedimiento, definamos la terminología siguiente y su notación:

Eventos: normalmente representa un posible evento o situación en el futuro. Por ejemplo, un estado de naturaleza para el fabricante de decisión puede ser nivel de la demanda, la opción de consumidor, el ingreso la condición nivelada, económica, rango de temperatura, actitud personal, y el gusto. Sea s(i) el estado de naturaleza i y i = 1,..., n.

Probabilidad a priori: representa la posibilidad que un estado de naturaleza ocurrirá en un sentido general. Representa a menudo, en promedio, la probabilidad de un estado de naturaleza sin saber cualquier información. Sea P(s(i)) la probabilidad anterior para el estado de naturaleza s(i).

Estudio o información de la muestra: normalmente es la información extra que nosotros podemos conseguir si un estudio, o prueba es realizada. Los resultados de un estudio o muestra pueden ser representados por indicadores diferentes. Sea I(j) el indicador j del estudio o resultados de la muestra y j = 1,... ,m.

4


DISCRIMINANTE

Probabilidad condicional: representa la posibilidad de un evento particular dado que otro evento ocurre. En análisis de Bayes o tabla de análisis de pagos, representa normalmente la probabilidad de un indicador del estudio (resultado) dado un estado particular de naturaleza. Sea P(I(j)/s(i)) la probabilidad condicional de I(j) dado s(i). La probabilidad condicional puede ser una indicación de la fiabilidad de la información de la muestra.

Probabilidad marginal (Probabilidad Total): nosotros definimos la probabilidad marginal como la probabilidad general de un indicador del estudio I(j), es decir, P(I(j)). Dado P(s(i)) y P(I(j)/s(i)),

P(I(j)) = S P(s(i)) P(I(j)/s(i)) Para i =1 a n.

Probabilidad de unión: representa la probabilidad de que eventos múltiples ocurran simultáneamente. En DA, la probabilidad de unión de ambos I(j) y s(i) ocurriendo es representado por P(I(j),s(i)), y

P(I(j),s(i)) = P(s(i)) P(I(j)/s(i))

Probabilidad Aposteriori: es una probabilidad condicional que representa la posibilidad de un estado de naturaleza dada el estudio o resultado de la muestra. Esto ofrece la probabilidad de lo que pasará si la información extra muestra una indicación. Sea P(s(i)/I(j)) represente la probabilidad aposteriori de s(i) dado I(j), entonces

P(s(i)/I(j)) = P(I(j),s(i)) / P(I(j))

DEMOSTRACION

Entonces

2.

Computando las ecuaciones 1 y 2 tenemos:

1

2

5


DISCRIMINANTE

Si ;

I. La probabilidad a Priori es más alta.

II. Verosimilitud que proviene de más alta.

III. Es costo de la equivalencia más baja.

Población Normal:

)

La manera de clasificar P2 óptimamente es si

Tomando hoy ambos lados

3

6


DISCRIMINANTE

7


DISCRIMINANTE

A

se le llama distancia de Mahalanobis entre el punto observado y la población; ahora sí:

C (1\2)=C (2\1) Costos iguales

Probabilidad A priori iguales

Entonces

Clasificación en 2 si:

Donde,

= y

=

Clasificación de dos poblaciones:

Para fijar las ideas, vamos a situaciones de lista en la que uno podría estar interesado en la separación de dos clases de objetos o la asignación de un nuevo objeto a una de las dos clases (o ambos). Es conveniente para etiquetar a las clases π1 y π2. Los objetos son normalmente separados o clasificados sobre la base de las mediciones relativas, por ejemplo, p asociado variables aleatorias X '= (x1, x2,..., xp). Los valores observados de X difieren en cierta medida de una clase a la otra. Podemos pensar en la totalidad de los valores de la clase segunda como la población de los valores de x (π1) y los de la segunda clase ya que la población de valores de x para (π2). Estas dos poblaciones pueden ser descritas por las funciones de densidad de probabilidad f1 (x) y f2 (x) y, en consecuencia, podemos hablar de la asignación de las observaciones a las poblaciones o los objetos a las clases de manera intercambiable.

8


DISCRIMINANTE

Poblaciones π1 y π2 Medidas de las variables X

1. Solvente y angustiadas compañías de seguros con la responsabilidad de las propiedades.

2. Dispepsia no ulcerosa (personas con problemas de malestar estomacal) y controles ("normales").

3. Artículos federalistas escritos por James Madison y los escritos por Alexander Hamilton.

4. Dos especies de pamplina.

5. Los compradores de un producto nuevo y los más rezagados ("lentos" de compra).

6. El éxito o el fracaso de estudiantes universitarios.

7. Machos y Mujeres.

8. Buenos y malos riesgos crediticios.

Los activos totales, costo de acciones y bonos, valor en el mercado de acciones y bonos, gastos por pérdida, excedentes, cantidad de primas emitidas.

Medidas de ansiedad, dependencia, culpa, y perfeccionismo.

Frecuencias de diferentes palabras y longitudes de las oraciones.

Longitudes de pétalos y sépalos, profundidad de fisura de pétalos, longitud de las brácteas, longitud de la punta escarioso, el diámetro del polen.

Educación, ingresos, tamaño de la familia, cantidad de la marca anterior de conmutación.

Calificaciones de los exámenes de ingreso, promedio de calificaciones de secundaria, el número de actividades de la escuela secundaria.

Mediciones antropológicas, como la circunferencia y el volumen de sus cráneos.

9


DISCRIMINANTE

9. Alcohólicos y no alcohólicos.

Ingresos, edad, número de tarjetas de crédito, tamaño de la familia.

Actividad de la enzima monoamino oxidasa, actividad de la enzima adenilato ciclasa.

Vemos en el punto 5, por ejemplo, que los objetos (consumidores) deben ser separados en dos clases de etiqueta ("compradores" y "rezagados") sobre la base de los valores observados de suponer variables relevantes (educación, ingresos, etc.). En la terminología de la observación y la población, queremos identificar una observación de la forma x '= (X1 (educación), x2 (ingresos), x3 (tamaño de la familia), x4 (cantidad de cambio de marca)) como la población π1, las compras, o la población π2, rezagados.

Se tienen dos poblaciones

F(x)= Función Densidad

Distribución mezclada

Condiciones para aplicar método de distribución lineal:

1. Las probabilidades a priori son conocidas.2. Los costos de errores de clasificación. 3. Maximizar las utilidades que es equivalente a minimizar costos.

10


DISCRIMINANTE

DISCIMINANTE LINEAL DE FISHER

Análisis lineal discriminante (LDA) y discriminante lineal relacionado Fisher son los métodos utilizados en las estadísticas y de aprendizaje automático para encontrar una combinación lineal de características que caracterizan o separar dos o más clases de objetos o acontecimientos. La combinación resultante puede ser utilizada como un clasificador lineal, o, más comúnmente, para la reducción de dimensionalidad antes de la clasificación después. LDA está estrechamente relacionado con ANOVA (análisis de la varianza) y el análisis de regresión, que también tratan de expresar una variable dependiente como una combinación lineal de otras características o mediciones. En los otros dos métodos sin embargo, la variable dependiente es una cantidad numérica, mientras que para LDA es una variable categórica (es decir, la etiqueta de clase). La regresión logística y regresión probit son más similares a LDA, ya que también explicar una variable categórica. Estos otros métodos son preferibles en aplicaciones donde no es razonable suponer que las variables independientes tienen una distribución normal, que es un supuesto fundamental del método LDA. LDA, está estrechamente vinculada al análisis de componentes principales (ACP) y el factor de análisis en que ambos buscan combinaciones lineales de las variables que mejor explican los datos. LDA explícita de los intentos de modelar la diferencia entre las clases de datos. ACC en cambio no tiene en cuenta cualquier diferencia en la clase y el análisis factorial construye las combinaciones de características basadas en las diferencias más que las similitudes. El análisis discriminante es también diferente del análisis factorial, ya que no es una técnica de interdependencia: una distinción entre variables independientes y variables dependientes (también llamadas variables criterio) debe ser hecho. LDA funciona cuando las mediciones efectuadas en las variables independientes para cada observación son cantidades continuas. Cuando se trata de variables independientes categóricas, la técnica de análisis de correspondencia es equivalente discriminante [1] [2] Ejemplo:

Regla de discriminación de Fisher

Sea = ( variables aleatorias en la población 1 con medias poblacionales y

covarianza V1; = (

Mientras la varianza a la población 2 sus medias poblacionales su ; u2 = (y covarianza v2

11


DISCRIMINANTE

Nota en estas poblaciones las covarianzas son iguales

EJEMPLO: Discriminante lineal Fisher (STATGRAPHICS)

Variables de vino

X2 X1 Grupo1065 14,23 11050 13,2 11185 13,16 11480 14,37 1735 13,24 1

1450 14,2 11290 14,39 11295 14,06 11045 14,83 11045 13,86 11510 14,1 11280 14,12 11320 13,75 11150 14,75 11547 14,38 11310 13,63 11280 14,3 11130 13,83 11680 14,19 1845 13,64 1520 12,37 2680 12,33 2450 12,64 2630 13,67 2420 12,37 2355 12,17 2678 12,37 2502 13,11 2510 12,37 2750 13,34 2718 12,21 2870 12,29 2410 13,86 2472 13,49 2

12


DISCRIMINANTE

985 12,99 2

RESULTADOS ESTADÍSTICOS:

Coeficientes de la Función de Clasificación para GRUPO1 2

x1 51,3464 47,8205x2 0,0010371

6-0,0110337

CONSTANTE

-361,053 -302,783

En esta tabla se encuentran las funciones usadas para la clasificación. Hay una función para cada uno de los 2 niveles de GRUPO. Por ejemplo, la función usada para el primer nivel de GRUPO es

-361,053 + 51,3464*x1 + 0,00103716*x2

Se utilizan estas funciones para predecir a qué nivel de GRUPO pertenecen las nuevas observaciones. Para mayores detalles.

Coeficientes de la Función Discriminante para GRUPO

A 1

Diagrama de Dispersión

12 12,5 13 13,5 14 14,5 15

x1

0

300

600

900

1200

1500

1800

x2

GRUPO1 2

13


DISCRIMINANTE

x1 0,529682x2 0,745952

Coeficientes Sin Estandarizar 1x1 1,01485x2 0,0034743

4CONSTANTE

-17,0199

Esta ventana muestra los coeficientes de las funciones usadas para discriminar entre los distintos niveles de GRUPO. De particular interés son los coeficientes estandarizados. La primera función discriminante estandarizada es

0,529682*x1 + 0,745952*x2

De la magnitud relativa de los coeficientes en la ecuación de arriba, se puede determinar cómo se están utilizando las variables independientes para discriminar entre los grupos.

Tabla de ClasificaciónActual Tamaño Predicho GRUPOGRUPO de Grupo 1 21 20 19 1 -95,00% -5,00%2 15 0 15 0,00% -100,00%

Porcentaje de casos correctamente clasificados: 97,14%

ProbabilidadGrupo Previa1 0,52 0,5

Grupo

Grupo2

Valor Distancia Columna3

2° Grupo

2° Valor Distancia4

Columna5

Actu Más Más Alto Cuadrada Prob. Más Más Cuadrad Prob.

14


DISCRIMINANTE

al Alto Alto Alto a1 1 1 370,71 0,135059 0,9915 2 365,952 9,65216 0,00852 1 1 317,808 2,14596 0,7203 2 316,862 4,03764 0,27973 1 1 315,894 1,07427 0,9194 2 313,46 5,94301 0,08064 1 1 378,329 1,47969 1 2 368,068 22,0029 05 1 *2 322,251 0,913103 0,9379 1 319,535 6,34401 0,06216 1 1 369,569 0,882981 0,9999 2 360,269 19,4831 0,00017 1 1 379,159 0,332464 0,9997 2 371,121 16,4097 0,00038 1 1 362,22 0,0671173 0,999 2 355,285 13,938 0,0019 1 1 401,497 0,0295553 0,9987 2 394,865 13,2949 0,001310 1 1 351,691 0,66013 0,9613 2 348,479 7,08525 0,038711 1 1 364,497 1,09547 0,9999 2 354,825 20,4389 0,000112 1 1 365,285 0,0717413 0,9991 2 358,319 14,0036 0,000913 1 1 346,329 0,0009813 0,9979 2 340,184 12,2894 0,002114 1 1 397,499 0,207511 0,9995 2 389,881 15,4436 0,000515 1 1 378,912 2,12971 1 2 367,807 24,3409 016 1 1 340,157 0,0156746 0,9963 2 334,556 11,2165 0,003717 1 1 374,528 0,202966 0,9995 2 366,927 15,4042 0,000518 1 1 350,239 0,299877 0,9842 2 346,106 8,56549 0,015819 1 1 369,294 2,98813 1 2 357,253 27,0703 020 1 1 340,188 2,99504 0,5057 2 340,165 3,04042 0,494321 2 2 283,019 0,454726 0,9998 1 274,641 17,2111 0,000222 2 2 279,341 0,0252916 0,9986 1 272,753 13,2011 0,001423 2 2 296,703 0,41413 0,9997 1 288,432 16,9565 0,000324 2 2 343,972 1,05502 0,9218 1 341,505 5,98856 0,078225 2 2 284,122 1,04401 0,9999 1 274,537 20,2146 0,000126 2 2 275,275 2,10415 1 1 264,2 24,2543 027 2 2 281,276 0,0157222 0,9985 1 274,805 12,9577 0,001528 2 2 318,605 0,0001991 0,9975 1 312,618 11,9729 0,002529 2 2 283,129 0,50279 0,9998 1 274,63 17,5006 0,000230 2 2 326,867 1,23024 0,8986 1 324,685 5,59385 0,101431 2 2 273,183 0,0221385 0,9986 1 266,631 13,1268 0,001432 2 2 275,332 0,212057 0,9883 1 270,896 9,08299 0,011733 2 2 355,485 0,207579 0,9885 1 351,033 9,11248 0,011534 2 2 337,108 0,0873349 0,9934 1 332,099 10,1046 0,006635 2 2 307,537 2,46627 0,6409 1 306,958 3,62468 0,359136 2 315,592 2,5940E-06 0,9976 1 309,551 12,0819 0,0024

* = incorrectamente clasificado.

15


DISCRIMINANTE

Esta tabla muestra los resultados de utilizar las funciones discriminantes derivadas para clasificar observaciones. Se enlistan las dos calificaciones más altas entre las funciones de clasificación para cada una de las 35 observaciones empleadas para ajustar el modelo, así como para cualquier nueva observación. Por ejemplo, la fila 1 tuvo la calificación más alta para GRUPO = 1 y la segunda más alta para GRUPO = 2. De hecho, el valor verdadero de GRUPO era 1. Entre las 35 observaciones empleadas para ajustar el modelo, 34, ó el 97,1429% fueron clasificadas correctamente. Puede predecir observaciones adicionales agregando nuevas filas al archivo de datos actual, llenar los valores para las variables independientes pero dejando la celda para GRUPO en blanco.

Centroides de Grupo para GRUPOGrupo 11 1,488982 -1,98531

Esta ventana muestra los valores promedio de cada una de las 1 funciones discriminantes para cada uno de los 2 valores de GRUPO. Los centroides están incluidos en la Gráfica de Funciones Discriminantes disponible de la lista de Opciones Gráficas.

Resumen Estadístico por Grupo

GRUPO 1 2 TOTALRECUENTO 20 15 35MEDIAS x1 14,0115 12,772 13,4803x2 1234,6 596,667 961,2DESVIACIONES ESTD.

x1 0,47183 0,583085 0,807292x2 236,08 181,714 383,844

Esta ventana muestra los promedios y desviaciones estándar de cada variable independiente para cada nivel de GRUPO.

Estadísticas agrupadas Dentro-de-Grupo para GRUPOMatriz de Covarianza Dentro-de-Grupo

Columna1 x1 x2

16


DISCRIMINANTE

x1 0,272415 23,1134x2 23,1134 46097,6

Matriz de Correlación Dentro-de-Grupo

Columna1 x1 x2x1 1 0,206257x2 0,206257 1

Esta ventana muestra las correlaciones estimadas entre las variables independientes dentro de cada grupo. Se conjuntado la información dentro de grupo de todos los grupos.

ANALISIS DISCRIMINANTE

Documents

Transcript of ANALISIS DISCRIMINANTE