Análisis de Datoswgomez/diapositivas/RP/Clase01.pdf · • Según C. Bishop en su libro Pattern...

Análisis de Datos Introducción al aprendizaje supervisado

Profesor: Dr. Wilfrido Gómez Flores

1

• Desde la antigüedad, el problema de buscar patrones en datos es fundamental en diversas disciplinas.

• Según C. Bishop en su libro Pattern Recognition and Machine Learning se tienen las siguiente definiciones:

‣ Reconocimiento de patrones: trata del descubrimiento automático de regularidades en los datos mediante algoritmos computacionales y su uso en acciones como la clasificación de datos en diferentes categorías.

‣ Aprendizaje de máquina*: trata del desarrollo de algoritmos para la construcción de modelos a partir de datos de ejemplo (i.e., entrenamiento) para hacer predicciones o tomar decisiones.

2

Conceptos básicos

*También se le conoce como aprendizaje automático.

3

Conceptos básicos

Ejemplos de dígitos escritos a mano.

• Cada dígito corresponde a una imagen de 28×28 píxeles, que puede representarse por un vector x que contiene 784 números reales.

• El objetivo es crear una máquina cuya entrada sea el vector x y cuya salida sea la identidad del dígito 0,…,9, lo cual puede expresarse como una función y(x).

• La función y(x) se determina en una fase de aprendizaje (también conocida como entrenamiento) sobre la base de datos de entrenamiento.

• Una vez entrenado el modelo, se puede obtener la identidad de nuevos dígitos definidos en un conjunto de prueba.

Conceptos básicos

• De manera general, a los objetos físicos se les conoce con el término genérico de patrones.

• Un patrón se representa por un conjunto de medidas conocidas como características, las cuales describen a un objeto físico de manera única.

• En el caso más general, D características xi (con i=1,2,…,D) forman un vector de características D-dimensional denotado como

4

x = [x1,x2,…,x

D]T

donde T denota transposición.

• Una clase de patrones es un conjunto de objetos que poseen características similares, es decir, son de un mismo tipo o categoría.

(1)

Sistema de reconocimiento de patrones

5

Mundo real

Decisión

• termómetro, micrófono, cámara digital

• convierte medidas en características • un patrón está representado por un vector de

características • características invariantes y discriminantes

• aprende a partir de datos de entrenamiento • responde preguntas como: ¿Qué patrones se

parecen? o ¿Qué grupos se forman a partir del conjunto de patrones?

Sensor

Extracción de características

Clasificación

Ciclo de diseño

6

• ¿Qué se está midiendo? ¿Cuántos datos se necesitan?

• ¿Qué características proveen la mejor separabilidad entre clases?

• ¿Qué clasificador tiene el mejor desempeño?

• ¿Cómo debe ser medido el desempeño?

Recolección de datos

Selección de características

Diseño del clasificador

Evaluación del sistema

Inicio

Fin

Ciclo de diseño: selección de características

• Recolección de datos: generalmente se aplican técnicas de preprocesamiento y normalización:

‣ Ventajas: producir mejores características, rápido aprendizaje, mejora la generalización.

‣ Métodos: remoción de valores atípicos, normalización y escalamiento, análisis de componente principales.

• Selección de características: encontrar un subconjunto de características que maximicen el desempeño del clasificador.

‣ Mejorar la separabilidad, el valor numérico de una característica debe ser diferente para objetos de clases distintas.

‣ Minimización de la redundancia y maximización de la relevancia.

‣ Métodos: medidas de separabilidad de clases, medidas de dependencia, pruebas de hipótesis, etc.

7

Ciclo de diseño: clasificador

• Diferentes taxonomías de las metodologías de clasificación.

• Taxonomía por método de aprendizaje:

‣ Aprendizaje supervisado: - Las clases de los datos de entrenamiento se conocen. - Mapear el espacio de características a un espacio de clases con

el mínimo error. - Riesgo de perder capacidad de generalización por

sobreentrenamiento.

‣ Aprendizaje no supervisado: - Las clases de los datos de entrenamiento no se conocen. - Agrupar patrones con miníma diferencia intra-grupo y

máxima diferencia inter-grupo. - El número de grupos puede ser conocido o desconocido.

8


9

Característica 1

Car

acte

rístic

a 2

Clase A Clase B

Característica 1

Car

acte

rístic

a 2

Datos sin etiquetar

Modelo supervisado: clasificación

Modelo no supervisado: agrupamiento

Dominio del problema

Sistema de aprendizaje

Maestro

Σ

Respuesta

Señal de error

Salida deseadaPatrón

+−

Dominio del problema

Regla de adaptación

Sistema de aprendizaje

Señal de error

RespuestaPatrón

Grupo A

Grupo B

Frontera de decisión

• En el paradigma de aprendizaje supervisado, el objetivo es inferir una función a partir de un conjunto de patrones de entrenamiento Z compuesto de N pares de puntos:


10

Z = (x1,y1),…,(x

N,yN)( ) (2)

f : x ! y

• Típicamente , e y es discreto, de modo que para C clases y para problemas de clasificación binaria

y 2 Rx 2 RD

y 2 {1, 2 . . . , C}y 2 {−1,+1}.


• Taxonomía metodológica:

‣ Estadística (o Bayesiana): - Las características son variables aleatorias con

propiedades estadísticas. - Reconocimiento basado en máxima probabilidad.

‣ Geométrica: - Las clases en el espacio de características son divididas

mediante hiperplanos o hipersuperficies. - Análisis lineal discriminante, máquinas de vectores de

soporte, etc.

‣ Red neuronal artificial: - Métodos de caja negra que transforman el espacio de

características al espacio de clases. - Perceptrón multicapa, función de base radial, etc.

‣ Basado en modelos: - Las clases se representan por patrones de referencia. - Reconocimiento basado en encontrar la referencia más

cercana.11

Ciclo de diseño: evaluación

• En la práctica, se tiene conjuntos de datos finitos, de modo que para evaluar el sistema de clasificación se deben generar conjuntos de entrenamiento y prueba.

• A mayor número de patrones de entrenamiento, mejor generalización.

• A mayor número de patrones de prueba, mejor estimación de la probabilidad del error de clasificación.

• Métodos de remuestreo: Resubstitución, hold-out, validación cruzada (VC), VC dejando uno fuera, bootstraps, etc.

• Métodos de evaluación: matriz de confusión, análisis ROC, coeficiente de correlación de Matthews, etc.

12

Ejemplo: Regresión polinomial• Supóngase una entrada xxxxx a partir de la cual se desea predecir el valor de

una variable objetivo (target)

• Supóngase un conjunto de entrenamiento con N observaciones de x, escrito como xxxxxxxxxxxxxxxx junto con sus respectivos valores de t, denotado como

• Considérese un conjunto x que está compuesto por N=10 observaciones tomadas aleatoriamente de una distribución uniforme en el rango [0,1], y que las variables objetivo t corresponden a la función sin(2πx) contaminada con ruido aleatorio tomado de una distribución Gaussiana

13

x ⌘ (x1, . . . , xN )T ,

t ⌘ (t1, . . . , tN )T .

x 2 Rt 2 R.

N (0, 3).

t

x

Conjunto de entrenamiento con N=10 puntos, mostrados con círculos negros, y la curva roja muestra la función sin(2πx) usada para generar los datos.

• El objetivo es explotar el conjunto de entrenamiento para hacer predicciones de el valor de la variable objetivo t para nuevos valores de x.

• Se debe descubrir la función subyacente sin(2πx) aún cuando se tiene datos contaminados con ruido.

• Se puede ajustar los datos usando una función polinomial de la forma:

14

Ejemplo: Regresión polinomial

t̂

x̂

y(x,w) = w0 + w1x+ w2x2 + . . .+ wMxM =

MX

j=0

wjxj (3)

donde M es el orden del polinomio.

• Los valores de los coeficientes w se determinan minimizando la suma de los cuadrados de los errores entre las predicciones xxxxxx y los correspondientes valores xx:

y(xn,w)

tn

E(w) =1

2

NX

n=1

{y(xn,w) tn}2 (4)

• El polinomio resultante está dado por la función xxxxxxx, donde xx denota una única solución que minimizó la función en (4).

• El problema ahora es seleccionar el orden del polinomio tal que se tenga un ajuste lo ‘más parecido’ a la función sin(2πx).

15

Ejemplo: Regresión polinomialy(xn,w

⇤)

w

⇤

M = 0 M = 1

M = 3

M = 9

Gráficas de polinomios de diferente orden M mos t radas por l a s curvas verdes.

• El sobreajuste (o sobreentrenamiento) cuando M=9 es debido a la falta de muestras de entrenamiento.

• Los coeficientes se ajustan finamente tal que la función polinomial coincide exactamente con cada punto del conjunto de datos.

• Estrategias para evitar el sobreajuste: 1. Aumentar el número de muestras de entrenamiento:

16

Ejemplo: Regresión polinomial

2. Estrategias de regularización que penalicen la función de error para evitar que los coeficientes adquieran valores muy grandes:

Polinomios de orden M=9 para diferentes tamaños de datos de entrenamiento.

N = 15 N = 100

E(w) =1

2

NX

n=1

{y(xn,w) tn}2 +

2||w||2E(w) =

1

2

NX

n=1

{y(xn,w) tn}2 +

2||w||2 (5)

Conclusión

• En este curso se estudiarán técnicas de aprendizaje supervisado para la generación de modelos de clasificación y regresión con alta capacidad de generalización.

17

Datos de entrenamiento

Aprendizaje de máquina

Modelo Salida con alta generalización

Datos nuevos (prueba)

Distintos

Análisis de Datoswgomez/diapositivas/RP/Clase01.pdf · • Según C. Bishop en su libro Pattern...

Documents

Transcript of Análisis de Datoswgomez/diapositivas/RP/Clase01.pdf · • Según C. Bishop en su libro Pattern...