Análisis de Datoswgomez/diapositivas/RP/Clase01.pdf · • Según C. Bishop en su libro Pattern...
Transcript of Análisis de Datoswgomez/diapositivas/RP/Clase01.pdf · • Según C. Bishop en su libro Pattern...
Análisis de Datos Introducción al aprendizaje supervisado
Profesor: Dr. Wilfrido Gómez Flores
1
• Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas disciplinas.
• Según C. Bishop en su libro Pattern Recognition and Machine Learning se tienen las siguiente definiciones:
‣ Reconocimiento de patrones: trata del descubrimiento automático de regularidades en los datos mediante algoritmos computacionales y su uso en acciones como la clasificación de datos en diferentes categorías.
‣ Aprendizaje de máquina*: trata del desarrollo de algoritmos para la construcción de modelos a partir de datos de ejemplo (i.e., entrenamiento) para hacer predicciones o tomar decisiones.
2
Conceptos básicos
*También se le conoce como aprendizaje automático.
3
Conceptos básicos
Ejemplos de dígitos escritos a mano.
• Cada dígito corresponde a una imagen de 28×28 píxeles, que puede representarse por un vector x que contiene 784 números reales.
• El objetivo es crear una máquina cuya entrada sea el vector x y cuya salida sea la identidad del dígito 0,…,9, lo cual puede expresarse como una función y(x).
• La función y(x) se determina en una fase de aprendizaje (también conocida como entrenamiento) sobre la base de datos de entrenamiento.
• Una vez entrenado el modelo, se puede obtener la identidad de nuevos dígitos definidos en un conjunto de prueba.
Conceptos básicos
• De manera general, a los objetos físicos se les conoce con el término genérico de patrones.
• Un patrón se representa por un conjunto de medidas conocidas como características, las cuales describen a un objeto físico de manera única.
• En el caso más general, D características xi (con i=1,2,…,D) forman un vector de características D-dimensional denotado como
4
x = [x1,x2,…,x
D]T
donde T denota transposición.
• Una clase de patrones es un conjunto de objetos que poseen características similares, es decir, son de un mismo tipo o categoría.
(1)
Sistema de reconocimiento de patrones
5
Mundo real
Decisión
• termómetro, micrófono, cámara digital
• convierte medidas en características • un patrón está representado por un vector de
características • características invariantes y discriminantes
• aprende a partir de datos de entrenamiento • responde preguntas como: ¿Qué patrones se
parecen? o ¿Qué grupos se forman a partir del conjunto de patrones?
Sensor
Extracción de características
Clasificación
Ciclo de diseño
6
• ¿Qué se está midiendo? ¿Cuántos datos se necesitan?
• ¿Qué características proveen la mejor separabilidad entre clases?
• ¿Qué clasificador tiene el mejor desempeño?
• ¿Cómo debe ser medido el desempeño?
Recolección de datos
Selección de características
Diseño del clasificador
Evaluación del sistema
Inicio
Fin
Ciclo de diseño: selección de características
• Recolección de datos: generalmente se aplican técnicas de preprocesamiento y normalización:
‣ Ventajas: producir mejores características, rápido aprendizaje, mejora la generalización.
‣ Métodos: remoción de valores atípicos, normalización y escalamiento, análisis de componente principales.
• Selección de características: encontrar un subconjunto de características que maximicen el desempeño del clasificador.
‣ Mejorar la separabilidad, el valor numérico de una característica debe ser diferente para objetos de clases distintas.
‣ Minimización de la redundancia y maximización de la relevancia.
‣ Métodos: medidas de separabilidad de clases, medidas de dependencia, pruebas de hipótesis, etc.
7
Ciclo de diseño: clasificador
• Diferentes taxonomías de las metodologías de clasificación.
• Taxonomía por método de aprendizaje:
‣ Aprendizaje supervisado: - Las clases de los datos de entrenamiento se conocen. - Mapear el espacio de características a un espacio de clases con
el mínimo error. - Riesgo de perder capacidad de generalización por
sobreentrenamiento.
‣ Aprendizaje no supervisado: - Las clases de los datos de entrenamiento no se conocen. - Agrupar patrones con miníma diferencia intra-grupo y
máxima diferencia inter-grupo. - El número de grupos puede ser conocido o desconocido.
8
Ciclo de diseño: clasificador
9
Característica 1
Car
acte
rístic
a 2
Clase A Clase B
Característica 1
Car
acte
rístic
a 2
Datos sin etiquetar
Modelo supervisado: clasificación
Modelo no supervisado: agrupamiento
Dominio del problema
Sistema de aprendizaje
Maestro
Σ
Respuesta
Señal de error
Salida deseadaPatrón
+−
Dominio del problema
Regla de adaptación
Sistema de aprendizaje
Señal de error
RespuestaPatrón
Grupo A
Grupo B
Frontera de decisión
• En el paradigma de aprendizaje supervisado, el objetivo es inferir una función a partir de un conjunto de patrones de entrenamiento Z compuesto de N pares de puntos:
Ciclo de diseño: clasificador
10
Z = (x1,y1),…,(x
N,yN)( ) (2)
f : x ! y
• Típicamente , e y es discreto, de modo que para C clases y para problemas de clasificación binaria
y 2 Rx 2 RD
y 2 {1, 2 . . . , C}y 2 {−1,+1}.
Ciclo de diseño: clasificador
• Taxonomía metodológica:
‣ Estadística (o Bayesiana): - Las características son variables aleatorias con
propiedades estadísticas. - Reconocimiento basado en máxima probabilidad.
‣ Geométrica: - Las clases en el espacio de características son divididas
mediante hiperplanos o hipersuperficies. - Análisis lineal discriminante, máquinas de vectores de
soporte, etc.
‣ Red neuronal artificial: - Métodos de caja negra que transforman el espacio de
características al espacio de clases. - Perceptrón multicapa, función de base radial, etc.
‣ Basado en modelos: - Las clases se representan por patrones de referencia. - Reconocimiento basado en encontrar la referencia más
cercana.11
Ciclo de diseño: evaluación
• En la práctica, se tiene conjuntos de datos finitos, de modo que para evaluar el sistema de clasificación se deben generar conjuntos de entrenamiento y prueba.
• A mayor número de patrones de entrenamiento, mejor generalización.
• A mayor número de patrones de prueba, mejor estimación de la probabilidad del error de clasificación.
• Métodos de remuestreo: Resubstitución, hold-out, validación cruzada (VC), VC dejando uno fuera, bootstraps, etc.
• Métodos de evaluación: matriz de confusión, análisis ROC, coeficiente de correlación de Matthews, etc.
12
Ejemplo: Regresión polinomial• Supóngase una entrada xxxxx a partir de la cual se desea predecir el valor de
una variable objetivo (target)
• Supóngase un conjunto de entrenamiento con N observaciones de x, escrito como xxxxxxxxxxxxxxxx junto con sus respectivos valores de t, denotado como
• Considérese un conjunto x que está compuesto por N=10 observaciones tomadas aleatoriamente de una distribución uniforme en el rango [0,1], y que las variables objetivo t corresponden a la función sin(2πx) contaminada con ruido aleatorio tomado de una distribución Gaussiana
13
x ⌘ (x1, . . . , xN )T ,
t ⌘ (t1, . . . , tN )T .
x 2 Rt 2 R.
N (0, 3).
t
x
Conjunto de entrenamiento con N=10 puntos, mostrados con círculos negros, y la curva roja muestra la función sin(2πx) usada para generar los datos.
• El objetivo es explotar el conjunto de entrenamiento para hacer predicciones de el valor de la variable objetivo t para nuevos valores de x.
• Se debe descubrir la función subyacente sin(2πx) aún cuando se tiene datos contaminados con ruido.
• Se puede ajustar los datos usando una función polinomial de la forma:
14
Ejemplo: Regresión polinomial
t̂
x̂
y(x,w) = w0 + w1x+ w2x2 + . . .+ wMxM =
MX
j=0
wjxj (3)
donde M es el orden del polinomio.
• Los valores de los coeficientes w se determinan minimizando la suma de los cuadrados de los errores entre las predicciones xxxxxx y los correspondientes valores xx:
y(xn,w)
tn
E(w) =1
2
NX
n=1
{y(xn,w) tn}2 (4)
• El polinomio resultante está dado por la función xxxxxxx, donde xx denota una única solución que minimizó la función en (4).
• El problema ahora es seleccionar el orden del polinomio tal que se tenga un ajuste lo ‘más parecido’ a la función sin(2πx).
15
Ejemplo: Regresión polinomialy(xn,w
⇤)
w
⇤
M = 0 M = 1
M = 3
M = 9
Gráficas de polinomios de diferente orden M mos t radas por l a s curvas verdes.
• El sobreajuste (o sobreentrenamiento) cuando M=9 es debido a la falta de muestras de entrenamiento.
• Los coeficientes se ajustan finamente tal que la función polinomial coincide exactamente con cada punto del conjunto de datos.
• Estrategias para evitar el sobreajuste: 1. Aumentar el número de muestras de entrenamiento:
16
Ejemplo: Regresión polinomial
2. Estrategias de regularización que penalicen la función de error para evitar que los coeficientes adquieran valores muy grandes:
Polinomios de orden M=9 para diferentes tamaños de datos de entrenamiento.
N = 15 N = 100
E(w) =1
2
NX
n=1
{y(xn,w) tn}2 +
2||w||2E(w) =
1
2
NX
n=1
{y(xn,w) tn}2 +
2||w||2 (5)
Conclusión
• En este curso se estudiarán técnicas de aprendizaje supervisado para la generación de modelos de clasificación y regresión con alta capacidad de generalización.
17
Datos de entrenamiento
Aprendizaje de máquina
Modelo Salida con alta generalización
Datos nuevos (prueba)
Distintos