Algoritmos de agrupamiento (Clustering)
description
Transcript of Algoritmos de agrupamiento (Clustering)
L/O/G/O www.themegallery.com
Clustering Algoritmos de agrupamiento
Clasificar
Clasificar
consiste en hacer una partición de un conjunto de objetos
en categorías
Clasificar
un objeto en un grupo es similar a cualquier otro del mismo grupo, y objetos en distintos grupos tienden a ser diferentes
Clasificar
Características Cada objeto es observado mediante un conjunto de variables cuantitativas que reflejan las cualidades fundamentales del mismo.
Clasificación supervisada
Clasificación no supervisada
1
2
Tipos de Clasificación
Tipos de Clasificación
Supervisada
No supervisada
se dispone de un conjunto de objetos, donde se desconoce tanto el número de clases en que es razonable particionarlo así como a qué clase pertenece cada objeto.
Ya existe un conjunto de objetos clasificados en un conjunto de clases dado, y se conoce la clase a la que cada objeto pertenece.
Clasificación no supervisada
Significativamente más complejo que el de la supervisada ya que se desconocen las clases naturales, y dependerá de la habilidad para seleccionar:
No supervisada
2. La metodología de clasificación
1. las características que representan al
objeto
Clasificación no supervisada
Agrupar un conjunto de n objetos, definidos por p variables (características), en c clases, donde en cada clase los elementos posean características afines y sean más similares entre sí que respecto a elementos pertenecientes a otras clases.
Clasificación no supervisada
La similitud entre observaciones se establece en términos de distancias.
El número c, de clases puede estar preestablecido o no, y depende del método elegido.
Algoritmos de agrupamiento (Clustering)
• La definicion de Clustering difiere según el punto de vista filosófico.
– Top-down: es la segmentación de una población heterogénea, en un número de grupos más homogéneos.
– Bottom-up: consiste en encontrar grupos en un conjunto de datos, según un criterio natural de similitud.
Algoritmos de agrupamiento (Clustering) Los objetos son agrupados basados en el principio de maximizar la similitud interna de la clase, y minimizar la similitud entre
clases.
Lo algoritmos jerárquicos introducen el principio de jerarquias entre custers, mientras que en los planos, todos los cluster son iguales.
Jerárquico o Plano
Iterativo
Duros o Suaves
El algoritmo parte de clusters iniciales y los va mejorando mediante la reasignación de instancias a los clusters
Los duros asignan cada instancia a un cluster. Los suaves asignan a cada instancia la probabilidad de pertenercer a un cluster
Los algoritmos de agrupamiento pueden tener varias propiedades:
Propiedades
Disyuntivo Las instancias pueden ser parte de mas de un cluster
Clasificación
Exclusivos Solapados
Jerárquicos Probabilísticos
Basado en la unión de clusters por su cercania. Ejemplo: Single-Linkage Clustering
Cada objeto pertenece a un único cluster Ejemplo: k-means
Cada objeto pertenece a dos o más clusters, con diferente
grado de pertenencia. Ejemplo: Fuzzy c-means
Presenta un enfoque probabilístico
Ejemplo: Mixture of Gaussians
K-means
Iterar hasta que los centros de los clusters no
cambien.
• Paso 2 Seleccionar de manera aleatoria k puntos como los centros (centroides) de los clusters.
• Paso 3 Asignar cada instancia al cluster cuyo centro es más cercano usando distancia euclidiana.
• Paso 4 Recalcular los centroides (media) para cada cluster, y usarlos como los nuevos centroides.
• Paso 5 Reasignar todas las instancias al cluster cuyo centro es más cercano. Iterar hasta que los centros de los clusters no cambien.
• Paso 1 Seleccionar de manera aleatoria k puntos como los centros (centroides) de los clusters.
L/O/G/O www.themegallery.com
Grac ias… G r a c i a s …