Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

23
Aplicaciones Difusas: UNIDAD 2: MODELOS DE APLICACIONES DE APRENDIZAJE SUPERVISADO: 1. 2. Problemas de clasificación: uso de regresión logística y redes neuronales Autor(es ): Mtr. Luis Fernando Aguas

Transcript of Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Page 1: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Aplicaciones Difusas:UNIDAD 2: MODELOS DE APLICACIONES DE

APRENDIZAJE SUPERVISADO:1. 2. Problemas de clasificación: uso de regresión

logística y redes neuronales

Autor(es):

• Mtr. Luis Fernando Aguas

Page 2: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

METODOS de Clasificación

Se pueden construir distintos tipos de clasificadores:

Modelos Interpretables:• Árboles de decisión• Reglas (p.ej. listas de decisión)

Modelos no interpretables:• Clasificadores basados en casos (k-NN)• Redes neuronales• Redes bayesianas• SVMs (Support Vector Machines)• …

Page 3: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

EJEMPLO DE CONJUNTO DE ENTRENAMIENTO

COLOR TAMANO PELAMBRE PELIGROSO

Negro Grande largo +

Carmelita Grande corto +

Carmelita Medio largo -

Negro Pequeño largo -

Carmelita Medio corto +

Negro Grande corto +

Carmelita Pequeño largo +

Carmelita Pequeño corto -

Carmelita Grande largo +

Negro Medio largo -

Negro Medio corto -

Negro Pequeño corto -

Page 4: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Un árbol de Decisión

Country

Colouryes

yes no

Germany Japan

red blue

nobluediesel3-6Japan3.yesreddiesel6-10Japan2.yeswhitediesel3-6Germany1.Easy to sellColourEngineAgeCountry Se quiere predecir la propiedad de Easy to

sell para nuevos ejemplos basado en los rasgos’ Country, Age, Engine and Colour.

Page 5: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

MEJOR: cada camino del AD una regla

Usando los AD• Cada fila de la matriz una regla

Author Thread

Length

Reads

1 known new short true2 unkno

wnnew long true

IF (Author = known) and (Thread = new) and (Length = short)THEN (Reads = true)IF (Author = unknown) and (Thread = new) and (Length = long)THEN (Reads = true)…

IF (Author = known)THEN (Reads = true)IF (Author = unknown) and (Thread = new) THEN (Reads = true)

IF (Author = unknown) and (Thread = old) THEN (Reads = false)

Page 6: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Esencia del aprendizaje perezoso• Un nuevo problema se puede resolver

• Recuperando problemas similares• adaptando las soluciones recuperadas

• Problemas similares tienen soluciones similares

© The Robert Gordon University, Aberdeen 6

?

SSS

SS S

SS S

PP

PPPPP

PP

X

Page 7: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Ejemplo de Clasificador: k-NN

k = 3

Page 8: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Solución de problemas usando prototipos

P1: Calcular la similaridad entre el nuevo problema y cada objeto.

P2: Encontrar el conjunto de objetos más similares al problema.

P3: Calcular el valor de salida utilizando los valores del rasgo objetivo de los objetos recuperados.

Page 9: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Construcción de prototipos

Procedimiento para construir prototipos (se puede clasificar como de remplazo, reducción, y no-determinístico)

¿Cómo construir clases de similaridad?

Clasede

Similaridad

Relaciones de

Similaridadprototipos

Page 10: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Nuevos modelos de aprendizaje: según rasgo objetivo

•Clasificación multi-etiqueta.•Clasificación jerárquica.•Clasificación ordinal.

Page 11: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Nuevos modelos de aprendizaje: según rasgos predictores

• Dominios discretos.• Datos mezclados.

Nuevos enfoques:

• Multi-way.• Datos desbalanceados.• Multi-instances learning.• Texto.

Page 12: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Aprendizaje no supervisado:No hay conocimiento a priori sobre el problema, no hay instancias etiquetadas, no hay supervisión sobre el procedimiento. (Ejemplo, clustering: Encuentra un agrupamiento de instancias “natural” dado un conjunto de instancias no etiquetadas)

Aprendizaje Supervisado vs No Supervisado

Page 13: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Agrupamiento

Hay problemas en los que deseamos agrupar las instancias creando clusters de similares características

Ej. Segmentación de clientes de una empresa

Page 14: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Agrupamiento

ObjetivoEncontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos [clusters].

Page 15: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Agrupamiento. Niveles

k = 2

k = 6 k = 4

La decisión del número de clusters es uno de los retos en agrupamiento

Page 16: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Descubrimiento de Asociaciones

• Descubrimiento de reglas de asociación:

• Búsqueda de patrones frecuentes, asociaciones, correlaciones, o estructuras causales entre conjuntos de artículos u objetos (datos) a partir de bases de datos transaccionales, relacionales y otros conjuntos de datos

• Búsqueda de secuencias o patrones temporales

• Aplicaciones: • análisis de cestas de la compra (Market Basket analysis)• diseño de catálogos,…

• ¿Qué hay en la cesta? Libros de Jazz• ¿Qué podría haber en la cesta? El último CD de Jazz• ¿Cómo motivar al cliente a comprar los artículos que es probable que le gusten?

Page 17: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

TID Items

1 Bread, Coke, Milk2 Beer, Bread3 Beer, Coke, Diaper, Milk4 Beer, Bread, Diaper, Milk5 Coke, Diaper, Milk

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Descubrimiento de asociacionesMarket Basket Analysis

Page 18: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Sumarización lingüística de datos (Linguistic Data Summaries, LDS )LDS: propuesta por Yager y desarrollada por Kacprzyk-Yager.

Esencia de LDS: Datos numéricos (salarios, costos, edad,…) pueden ser resumidos lingüísticamente con respecto a un conjunto de atributos seleccionados mediante proposiciones.

Ejemplo: La mayoría de los jóvenes y altamente calificados empleados son bien

pagados.

Yager, R.R.: A new approach to the summarization of data. Information Sciences28, 69–86 1982.

R.R. Yager R.R.: On linguistic summaries of data. InW. Frawley and G. Piatetsky-Shapiro (Eds.): Knowledge Discovery in Databases. AAAI/MIT Press, pp. 347 -363, 1991.

J. Kacprzyk and R.R. Yager. Linguistic summaries of data using fuzzy logic. International

Journal of General Systems, 30, 33 - 154, 2001.

18

Page 19: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Sumarización lingüística de datos EJEMPLO 1Datos sobre la gestión de una empresa.

19

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9

CP: Costo de producción (en miles de pesos).VI: Volumen de inventarios (en miles de pesos)VP: Valor de la producción (en millones de pesos)PH: Productividad por hombre (pesos por hombre/día)

El director: Que hacer para mejorar la productividad de la empresa?

Page 20: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Sumarización lingüística de datos EJEMPLO 1. Continuación.

Datos sobre la gestión de una empresa:

20

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9 CP: Costo de producción; VI: Volumen de inventarios; VP: 3: Valor de la producción;PH: Productividad por hombre.

Sumarización lingüística:

La mayoría de las empresas con un alto inventario tienen una baja productividad.

Page 21: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

https://www.knime.org/

KNIME (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. KNIME está desarrollado sobre la plataforma Eclipse y programado, esencialmente, en java.

Fue desarrollado originalmente en el departamento de bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo la supervisión del profesor Michael Berthold. En la actualidad, la empresa KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de prestar servicios de formación y consultoría.

Herramientas, Lenguajes, Kaggle

Page 22: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Weka

• The University of Waikato, New Zealand

• Machine learning software in Java implementation

http://www.cs.waikato.ac.nz/ml/weka/

Herramientas, Lenguajes, Kaggle

Page 23: Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

KEEL

• University of Granada• Machine learning

software in Java implementation

http://www.keel.es/

Herramientas, Lenguajes, Kaggle