Regresi on Lineal. Arboles y Reglas de Regresi...

24
´ Arboles y Reglas de Decisi´on Regresi´on. ´ Arboles y Reglas de Regresi´on Aprendizaje Bayesiano IBL Redes de Neuronas id3 id3 como b´ usqueda Cuestiones Adicionales Regresi´ on Lineal. ´ Arboles y Reglas de Regresi´ on Aprendizaje Autom´ atico Ingenier´ ıa Inform´ atica Fernando Fern´ andez Rebollo y Daniel Borrajo Mill´ an Grupo de Planificaci´on y Aprendizaje (PLG) Departamento de Inform´ atica Escuela Polit´ ecnica Superior Universidad Carlos III de Madrid 27 de febrero de 2009 Fernando Fern´ andez y Daniel Borrajo Aprendizaje Autom´ atico

Transcript of Regresi on Lineal. Arboles y Reglas de Regresi...

Page 1: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

id3id3 como busquedaCuestiones Adicionales

Regresion Lineal. Arboles y Reglas de Regresion

Aprendizaje AutomaticoIngenierıa Informatica

Fernando Fernandez Rebollo y Daniel Borrajo Millan

Grupo de Planificacion y Aprendizaje (PLG)Departamento de InformaticaEscuela Politecnica Superior

Universidad Carlos III de Madrid

27 de febrero de 2009

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 2: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

En Esta Seccion:3 Arboles y Reglas de Decision

id3id3 como busquedaCuestiones Adicionales

4 Regresion. Arboles y Reglas de RegresionRegresion Lineal: Descenso de GradienteArboles de Regresion: M5

5 Aprendizaje BayesianoIntroduccionEl Teorema de BayesFronteras de DecisionEstimacion de ParametrosClasificadores Bayesianos

6 Aprendizaje Basado en Instancias (IBL)IBLK-NNReduccion del Conjunto de InstanciasPonderacion y Seleccion de CaracterısticasMetodos Relacionados

7 Redes de Neuronas ArtificialesIntroduccionPerceptron SimplePerceptron MulticapaAplicaciones

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 3: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Regresion

Un proceso de regresion lineal es aquel en el que se intentaaproximar una funcion f (x) (supuestamente lineal) con unafuncion lineal f (x).

f (~x) = w0 + w1a1(~x) + w2a2(~x) + · · ·+ wnan(~x) (1)

donde ai (~x) denota el atributo i-esimo del ejemplo ~x

El objetivo de la regresion es minimizar el error entre lafuncion aproximada y el valor de la aproximacion

Una posible medida de error es la suma del error cuadraticosobre el conjunto de entrenamiento total, D:

E =1

2

∑x∈D

(f (x)− f (x))2 (2)

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 4: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Minimizando el Error

El problema de definir la funcion

f (~x) = w0 + w1a1(~x) + w2a2(~x) + · · ·+ wnan(~x)

se traslada a un problema de definir el vector de pesos ~w

Distintos vectores de pesos dan distintos valores en la funcionde error

Se debe encontrar el vector ~w que minimice la funcion deerror: problema de busqueda en el espacio de pesos

Aproximacion: descenso de gradiente

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 5: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

La funcion de Error

Función de Error

−10

−5

0

5

10

w0

−10

−5

0

5

10

w1

0

100

200

300

400

500

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 6: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Algoritmo de Descenso de Gradiente

Gradiente del error respecto a ~w :

∇E [~w ] ≡[∂E

∂w0,∂E

∂w1, · · · ∂E

∂wn

]Regla de entrenamiento:

∆~w = −η∇E [~w ]

i.e.,

∆wi = −η ∂E

∂wi

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 7: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Derivada del Error

∂E

∂wi=

∂wi

1

2

∑d

(td − od)2

=1

2

∑d

∂wi(td − od)2

=1

2

∑d

2(td − od)∂

∂wi(td − od)

=∑d

(td − od)∂

∂wi(td − ~w · ~xd)

∂E

∂wi=

∑d

(td − od)(−xi ,d)

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 8: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Algoritmo de Descenso de Gradiente

Descenso de Gradiente(ejemplos entrenamiento, η)

Cada ejemplo de entrenamiento es un par de la forma〈~x , t〉, donde ~x es el vector de valores de entrada, y t esel valor de salida objetivo. η es el ratio de aprendizaje.

Inicializar cada wi a algun valor aleatorio pequenoHasta que la condicion de fin sea alcanzada, hacer

Inicializar cada ∆wi a cero.Para cada 〈~x , t〉 en ejemplos entrenamiento, hacer

Calcular el valor o = f (~x) para la instancia de entrada ~xPara cada peso wi , hacer

∆wi ← ∆wi + η(t − o)xi

Para cada peso, wi , hacer

wi ← wi + ∆wi

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 9: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Bibliografıa

Machine Learning, Tom Mitchell. Capıtulos 4 y 8

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 10: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

m5 (Quinlan, 93)

Muchas veces las clases son numericas y continuas

Tradicionalmente, se ha utilizado la regresion cuando estoocurrıa, pero los modelos obtenidos eran numericos

m5 genera arboles de decision similares a los producidos porid3

m5 es una variacion de cart (Breiman et al., 84)

Las hojas en cart son valores numericos en lugar de modeloslinealescart elige aquel atributo que maximice la reduccion esperadaen varianza o en desviacion absoluta

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 11: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Algoritmo

1 Construir el modelo (arbol de decision con modelos lineales declases)

2 Estimar el error

3 Construir modelos lineales en cada nodo intermedio del arbol

4 Simplificar los modelos lineales

5 Podar nodos

6 Suavizar

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 12: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Caracterısticas de m5

Heurıstica: minimizar la variacion interna de los valores de laclase dentro de cada subconjunto

Medida concreta: elegir aquel atributo que maximice lareduccion del error, de acuerdo a la siguiente formula:

∆error = sd(E )−∑

i

| Ei || E |

× sd(Ei )

E es el conjunto de ejemplos en el nodo a dividir,Ei son los ejemplos con valor i del atributo a considerar, ysd(C ) es la desviacion tıpica de los valores de la clase para losejemplos en C

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 13: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Caracterısticas de m5

Heurıstica: minimizar la variacion interna de los valores de laclase dentro de cada subconjunto

Medida concreta: elegir aquel atributo que maximice lareduccion del error, de acuerdo a la siguiente formula:

∆error = sd(E )−∑

i

| Ei || E |

× sd(Ei )

E es el conjunto de ejemplos en el nodo a dividir,Ei son los ejemplos con valor i del atributo a considerar, ysd(C ) es la desviacion tıpica de los valores de la clase para losejemplos en C

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 14: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Caracterısticas de m5

Hojas: se calcula un modelo lineal utilizando regresionestandar en funcion de los valores de los atributos, queproporciona un valor numerico (clase predecida)

Criterio de parada en cada nodo: pocos ejemplos, o pocavariacion de los valores de la clase

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 15: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Caracterısticas de m5

Hojas: se calcula un modelo lineal utilizando regresionestandar en funcion de los valores de los atributos, queproporciona un valor numerico (clase predecida)

Criterio de parada en cada nodo: pocos ejemplos, o pocavariacion de los valores de la clase

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 16: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Estimacion del error

Para estimar el error en posteriores instancias, calcula lamedia del error residual producido al clasificar con el modelocreado, m, cada instancia del conjunto de test I :

e(I ,m) =1

n

∑i∈I

‖c(i)− c(m, i)‖

n =| I |,c(i) es la clase de la instancia i , yc(m, i) es la clasificacion con el modelo m de la instancia i

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 17: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Estimacion del error

Como esto subestima el error en posteriores instancias, semultiplica por (ν es el numero de atributos en el modelo m):

n + ν

n − νEsto consigue incrementar el error en modelos construidos conmuchos parametros y pocas instancias.

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 18: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Siguientes pasos

Construccion de modelos lineales: se calculan para cada nododel arbol, considerando solo los atributos que aparecen en susubarbol como test o en modelos lineales

Simplificacion de los modelos lineales: en cada modelo linealse eliminan atributos, utilizando escalada, para reducir el errorestimado. Esto, normalmente, hace que aumente el errorresidual, pero tambien reduce el factor por el que luego semultiplica. Puede llegar a dejar solo una constante

Poda: cada nodo interno del arbol tiene ahora un modelosimplificado lineal y un modelo subarbol. Se elige aquel queminimice el error. Si es el modelo lineal, el subarbol se quedareducido a ese nodo

Suavizar el arbol: se tienen en cuenta los demas modelosdesde el nodo hoja al nodo raız

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 19: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Siguientes pasos

Construccion de modelos lineales: se calculan para cada nododel arbol, considerando solo los atributos que aparecen en susubarbol como test o en modelos lineales

Simplificacion de los modelos lineales: en cada modelo linealse eliminan atributos, utilizando escalada, para reducir el errorestimado. Esto, normalmente, hace que aumente el errorresidual, pero tambien reduce el factor por el que luego semultiplica. Puede llegar a dejar solo una constante

Poda: cada nodo interno del arbol tiene ahora un modelosimplificado lineal y un modelo subarbol. Se elige aquel queminimice el error. Si es el modelo lineal, el subarbol se quedareducido a ese nodo

Suavizar el arbol: se tienen en cuenta los demas modelosdesde el nodo hoja al nodo raız

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 20: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Siguientes pasos

Construccion de modelos lineales: se calculan para cada nododel arbol, considerando solo los atributos que aparecen en susubarbol como test o en modelos lineales

Simplificacion de los modelos lineales: en cada modelo linealse eliminan atributos, utilizando escalada, para reducir el errorestimado. Esto, normalmente, hace que aumente el errorresidual, pero tambien reduce el factor por el que luego semultiplica. Puede llegar a dejar solo una constante

Poda: cada nodo interno del arbol tiene ahora un modelosimplificado lineal y un modelo subarbol. Se elige aquel queminimice el error. Si es el modelo lineal, el subarbol se quedareducido a ese nodo

Suavizar el arbol: se tienen en cuenta los demas modelosdesde el nodo hoja al nodo raız

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 21: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Siguientes pasos

Construccion de modelos lineales: se calculan para cada nododel arbol, considerando solo los atributos que aparecen en susubarbol como test o en modelos lineales

Simplificacion de los modelos lineales: en cada modelo linealse eliminan atributos, utilizando escalada, para reducir el errorestimado. Esto, normalmente, hace que aumente el errorresidual, pero tambien reduce el factor por el que luego semultiplica. Puede llegar a dejar solo una constante

Poda: cada nodo interno del arbol tiene ahora un modelosimplificado lineal y un modelo subarbol. Se elige aquel queminimice el error. Si es el modelo lineal, el subarbol se quedareducido a ese nodo

Suavizar el arbol: se tienen en cuenta los demas modelosdesde el nodo hoja al nodo raız

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 22: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Ejemplo de salida

...

...

...

...

...

4,52,39,51,2

...

34275129

...

1223

Salario Cliente Edad Hijos Crédito

...

12,314,44,621,7

Cart

M5

... ...

1001

Crédito=0,9*Edad+0,2*Salario−0,3

Crédito=0,2*Edad−0,4*Salario−0,4

Sí No

Salario<4,1?

Crédito=0,8*Salario−0,7Edad<30?

No

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 23: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Resumen

Arboles de Decision

Criterio de division de hojas basada en la entropıa

Generacion de reglas de decision a partir de los arboles

Aspectos metodologicos

Arboles de regresion

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico

Page 24: Regresi on Lineal. Arboles y Reglas de Regresi onocw.uc3m.es/.../material-de-clase-1/aa-ocw-regresion.pdf · 2012. 12. 12. · Redes de Neuronas id3 id3 como busqueda Cuestiones Adicionales

Arboles y Reglas de DecisionRegresion. Arboles y Reglas de Regresion

Aprendizaje BayesianoIBL

Redes de Neuronas

Regresion Lineal: Descenso de GradienteArboles de Regresion: M5

Bibliografıa

Machine Learning, Tom Mitchell. Capıtulo 3

Data Mining: Practical Machine Learning Tools andTechniques. Ian H. Witten, Eibe Frank. Capıtulo 6

Fernando Fernandez y Daniel Borrajo Aprendizaje Automatico