Cluster by mixtures. The Trace criteria (K-means)
-
Upload
maria-nieves-gallego-gomez -
Category
Documents
-
view
221 -
download
0
Transcript of Cluster by mixtures. The Trace criteria (K-means)
Cluster by mixtures
The Trace criteria (K-means)
Equal variances: The determinant
General situation:
Mixture estimation
The EM algorithm
Métodos de Proyección(*)
• Idea central: buscar direcciones de proyección que muestren la heterogeneidad de una muestra.
• Proyectar los datos y buscar grupos sobre las proyecciones
* Peña, D. y Prieto, J. (2001). “Cluster Identification using Projections” “Cluster Identification using Projections” The Journal of American Statistical Association, 96, 456, 1433-1445, 2001The Journal of American Statistical Association, 96, 456, 1433-1445, 2001
Heterogeneidad
• ¿Cómo encontrar direcciones que muestren la heterogeneidad?
Heterogeneidad univariante
• Llamemos =
A la variabilidad de una variable (la j) respecto a su media
Kurtosis, para la normal =3
Coef. Kurtosis =12
Coef. Kurtosis= 1.38
Resultado principal
• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas, la dirección que minimiza la kurtosis es la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.
• Puede demostrarse que si queremos alta separación en la proyeccion de dos distribuciones arbitrarias, medida por
Conclusión
• Si los datos han sido generados por dos normales multivariantes con la misma matriz de varianzas minimizando la kurtosis obtenemos la dirección optima de Fisher para la discriminación cuando sabemos que hay dos poblaciones normales.
Metodo de Proyeccion (PP)
Exploracion de las direcciones
Ejemplo Ruspini
Comportamiento del procedimiento
Comportamiento del procedimiento
Algunas conclusiones
• Buscar clusters en proyecciones
1. Evita la maldición de la dimensión
2. Es muy eficiente en dimensión alta
3. Es óptimo para mezclas de normales con la misma varianza
4. Asegura alta capacidad de separación lineal para cualquier distribución
• Las direcciones mejores de separación son interesantes en si mismas para reducir el número de variables
Conclusiones generales
• Discriminación y cluster son problemas muy relacionados con la misma solución óptima en casos simples:
La mejor direccion de discriminación, en el sentido de Fisher, es la mejor dirección para hacer clusters, en el sentido de minimizar la kurtosis de los datos proyectados