Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Post on 10-Jan-2017

127 views 0 download

Transcript of Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación

Aplicaciones Difusas:UNIDAD 2: MODELOS DE APLICACIONES DE

APRENDIZAJE SUPERVISADO:1. 2. Problemas de clasificación: uso de regresión

logística y redes neuronales

Autor(es):

• Mtr. Luis Fernando Aguas

METODOS de Clasificación

Se pueden construir distintos tipos de clasificadores:

Modelos Interpretables:• Árboles de decisión• Reglas (p.ej. listas de decisión)

Modelos no interpretables:• Clasificadores basados en casos (k-NN)• Redes neuronales• Redes bayesianas• SVMs (Support Vector Machines)• …

EJEMPLO DE CONJUNTO DE ENTRENAMIENTO

COLOR TAMANO PELAMBRE PELIGROSO

Negro Grande largo +

Carmelita Grande corto +

Carmelita Medio largo -

Negro Pequeño largo -

Carmelita Medio corto +

Negro Grande corto +

Carmelita Pequeño largo +

Carmelita Pequeño corto -

Carmelita Grande largo +

Negro Medio largo -

Negro Medio corto -

Negro Pequeño corto -

Un árbol de Decisión

Country

Colouryes

yes no

Germany Japan

red blue

nobluediesel3-6Japan3.yesreddiesel6-10Japan2.yeswhitediesel3-6Germany1.Easy to sellColourEngineAgeCountry Se quiere predecir la propiedad de Easy to

sell para nuevos ejemplos basado en los rasgos’ Country, Age, Engine and Colour.

MEJOR: cada camino del AD una regla

Usando los AD• Cada fila de la matriz una regla

Author Thread

Length

Reads

1 known new short true2 unkno

wnnew long true

IF (Author = known) and (Thread = new) and (Length = short)THEN (Reads = true)IF (Author = unknown) and (Thread = new) and (Length = long)THEN (Reads = true)…

IF (Author = known)THEN (Reads = true)IF (Author = unknown) and (Thread = new) THEN (Reads = true)

IF (Author = unknown) and (Thread = old) THEN (Reads = false)

Esencia del aprendizaje perezoso• Un nuevo problema se puede resolver

• Recuperando problemas similares• adaptando las soluciones recuperadas

• Problemas similares tienen soluciones similares

© The Robert Gordon University, Aberdeen 6

?

SSS

SS S

SS S

PP

PPPPP

PP

X

Ejemplo de Clasificador: k-NN

k = 3

Solución de problemas usando prototipos

P1: Calcular la similaridad entre el nuevo problema y cada objeto.

P2: Encontrar el conjunto de objetos más similares al problema.

P3: Calcular el valor de salida utilizando los valores del rasgo objetivo de los objetos recuperados.

Construcción de prototipos

Procedimiento para construir prototipos (se puede clasificar como de remplazo, reducción, y no-determinístico)

¿Cómo construir clases de similaridad?

Clasede

Similaridad

Relaciones de

Similaridadprototipos

Nuevos modelos de aprendizaje: según rasgo objetivo

•Clasificación multi-etiqueta.•Clasificación jerárquica.•Clasificación ordinal.

Nuevos modelos de aprendizaje: según rasgos predictores

• Dominios discretos.• Datos mezclados.

Nuevos enfoques:

• Multi-way.• Datos desbalanceados.• Multi-instances learning.• Texto.

Aprendizaje no supervisado:No hay conocimiento a priori sobre el problema, no hay instancias etiquetadas, no hay supervisión sobre el procedimiento. (Ejemplo, clustering: Encuentra un agrupamiento de instancias “natural” dado un conjunto de instancias no etiquetadas)

Aprendizaje Supervisado vs No Supervisado

Agrupamiento

Hay problemas en los que deseamos agrupar las instancias creando clusters de similares características

Ej. Segmentación de clientes de una empresa

Agrupamiento

ObjetivoEncontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos [clusters].

Agrupamiento. Niveles

k = 2

k = 6 k = 4

La decisión del número de clusters es uno de los retos en agrupamiento

Descubrimiento de Asociaciones

• Descubrimiento de reglas de asociación:

• Búsqueda de patrones frecuentes, asociaciones, correlaciones, o estructuras causales entre conjuntos de artículos u objetos (datos) a partir de bases de datos transaccionales, relacionales y otros conjuntos de datos

• Búsqueda de secuencias o patrones temporales

• Aplicaciones: • análisis de cestas de la compra (Market Basket analysis)• diseño de catálogos,…

• ¿Qué hay en la cesta? Libros de Jazz• ¿Qué podría haber en la cesta? El último CD de Jazz• ¿Cómo motivar al cliente a comprar los artículos que es probable que le gusten?

TID Items

1 Bread, Coke, Milk2 Beer, Bread3 Beer, Coke, Diaper, Milk4 Beer, Bread, Diaper, Milk5 Coke, Diaper, Milk

Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Descubrimiento de asociacionesMarket Basket Analysis

Sumarización lingüística de datos (Linguistic Data Summaries, LDS )LDS: propuesta por Yager y desarrollada por Kacprzyk-Yager.

Esencia de LDS: Datos numéricos (salarios, costos, edad,…) pueden ser resumidos lingüísticamente con respecto a un conjunto de atributos seleccionados mediante proposiciones.

Ejemplo: La mayoría de los jóvenes y altamente calificados empleados son bien

pagados.

Yager, R.R.: A new approach to the summarization of data. Information Sciences28, 69–86 1982.

R.R. Yager R.R.: On linguistic summaries of data. InW. Frawley and G. Piatetsky-Shapiro (Eds.): Knowledge Discovery in Databases. AAAI/MIT Press, pp. 347 -363, 1991.

J. Kacprzyk and R.R. Yager. Linguistic summaries of data using fuzzy logic. International

Journal of General Systems, 30, 33 - 154, 2001.

18

Sumarización lingüística de datos EJEMPLO 1Datos sobre la gestión de una empresa.

19

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9

CP: Costo de producción (en miles de pesos).VI: Volumen de inventarios (en miles de pesos)VP: Valor de la producción (en millones de pesos)PH: Productividad por hombre (pesos por hombre/día)

El director: Que hacer para mejorar la productividad de la empresa?

Sumarización lingüística de datos EJEMPLO 1. Continuación.

Datos sobre la gestión de una empresa:

20

empresa CP VI VP PH empresa CP VI VP PH 1 120 10 101,1 60 10 123 45,6 231,2 11.23 2 39,75 35 98,12 12.20 11 78,60 66,1 89,78 14.50 3 45,60 43 112,1 9.9 12 111,9 55,33 107,9 88.76 4 89 34,67 78,8 67.90 13 67 13,56 98,34 98.9 5 134 45 56,78 7.8 14 98 37,9 76,12 7.69 6 27,45 39,98 89,9 9.78 15 33,9 23,24 123,1 9.88 7 231 12,6 201,1 89 16 105 17 231,3 79.89 8 234 13,4 134,7 101 17 67,8 34,56 89,3 18.16 9 45,90 39,99 134 8.9 18 189,78 9,89 103,56 93.9 CP: Costo de producción; VI: Volumen de inventarios; VP: 3: Valor de la producción;PH: Productividad por hombre.

Sumarización lingüística:

La mayoría de las empresas con un alto inventario tienen una baja productividad.

https://www.knime.org/

KNIME (o Konstanz Information Miner) es una plataforma de minería de datos que permite el desarrollo de modelos en un entorno visual. KNIME está desarrollado sobre la plataforma Eclipse y programado, esencialmente, en java.

Fue desarrollado originalmente en el departamento de bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo la supervisión del profesor Michael Berthold. En la actualidad, la empresa KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de prestar servicios de formación y consultoría.

Herramientas, Lenguajes, Kaggle

Weka

• The University of Waikato, New Zealand

• Machine learning software in Java implementation

http://www.cs.waikato.ac.nz/ml/weka/

Herramientas, Lenguajes, Kaggle

KEEL

• University of Granada• Machine learning

software in Java implementation

http://www.keel.es/

Herramientas, Lenguajes, Kaggle