Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de...

35
Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Universidad Tecnológica Metropolitana Metropolitana . . Escuela de Informática. Escuela de Informática. Alumno Alumno : : Víctor Heughes Escobar Víctor Heughes Escobar Jeria. Jeria. Santiago, Agosto 2003 Santiago, Agosto 2003

Transcript of Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de...

Page 1: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining, La Búsqueda delConocimiento

Universidad Tecnológica MetropolitanaUniversidad Tecnológica Metropolitana..

Escuela de Informática.Escuela de Informática.

AlumnoAlumno:: Víctor Heughes Escobar Jeria.Víctor Heughes Escobar Jeria.

Santiago, Agosto 2003Santiago, Agosto 2003

Page 2: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Contenido

Motivación.Motivación. Estado del Arte.Estado del Arte. Data Mining.Data Mining. Métodos y Técnicas de Data Mining.Métodos y Técnicas de Data Mining. Ejemplo Práctico.Ejemplo Práctico. Conclusiones.Conclusiones.

Page 3: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Motivación.

Page 4: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Motivación.

• Existen estimaciones de que la cantidad de información en el mundo se duplica a cada 20 meses y de la misma manera elnúmero de base de datos están creciendo considerablemente.

• Es por esta razón, que la velocidad en que se almacenanlos datos es muy superior a la velocidad en que se analizan.

Page 5: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Motivación.

• En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y recolectar datos, debido básicamente a 3 factores:

- Los avances de la tecnología ofrecen almacenar yprocesar grandes cantidades de datos.

-La acumulación de datos con mucha rapidez.

-La introducción de nuevos grupos de métodos de desarrollo por el área de la informática.

Page 6: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.

Page 7: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.

• El Data Mining representa hoy uno de los ejes fundamentales del desarrollo en la competitividad de las Empresas.

• Históricamente, el desarrollo de la estadística nos ha proporcionado métodos para analizar los datos y encontrar correlaciones y dependencias entre ellas.

• La definición de Data Mining utiliza términos claves paradeterminar el rendimiento de un sistema de adquisición deconocimiento.

- Precisión.- Interés.- Lenguaje de Alto Nivel.

Page 8: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.• Historia.Historia.

- Los 4 pasos listados fueron revolucionarios, porque daban respuestas correcta y rápida a nuevas inquietudes del negocio.

1.- Data Collection (1960’s)Pregunta del Negocio: ¿Cuál fue el promedio del total de

ganancia en los últimos 5 años?Entrega de Datos: Estáticos

Page 9: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.2.- Data Access (1980’s).

Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado?

Entrega de Datos: Dinámicos a nivel de registro.

3.-Data Navigation (1990’s).Pregunta del Negocio: ¿Cuáles fueron las unidades de

venta en Nueva Inglaterra en Marzo pasado? “ Drill Down” a Boston.

Entrega de Datos: Dinámicos a muchos niveles.

Page 10: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.4.- Data Mining (2000)

Pregunta del Negocio:¿ Qué puede sucederle a las unidades de venta de Boston el próximo mes?¿Por qué?

Entrega de Datos: Proactivas.

- Si nos remontamos a 1974, en el Departamento de Tecnología de la Escuela de Informática de la Universidad de Giorgia y en conjunto con la Escuela de Medicina de la Universidad de Emory, recibieron una oferta de investigación de la Biblioteca Nacional Medicina.

Page 11: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.- Uno de los sistemas más famosos podemos destacar el AM (Lenat, 79) en donde simula el proceso que hace un matemático para descubrir nuevos conceptos y relaciones entre conceptos usando heurística.

• El Conocimiento.El Conocimiento.

- Los elementos caracterizados del conocimineto son los Datos, la Información, la Inteligencia, el Aprendizaje y él mismo.

DATOS INFORMACION INTELIGENCIA APRENDIZAJE CONOCIMIENTO

Page 12: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Estado del Arte.

Ej.• 3...... es un dato.

• 3 perros..... es un dato.

• 3 perros guardianes..... es un dato.

• 3 perros guardianes cuidando una casa en verano...... es información

• 3 perros guardianes cuidando una casa en verano, implica que no hay moradores....... esto es conocimiento

Page 13: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining

Page 14: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining

• Definición:Definición:

“ La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos ”.

Page 15: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining• Tareas de Data Mining.Tareas de Data Mining.

Los algoritmo de Data Mining realizan en general tareas como:

- Descripción. - Predicción.- Segmentación.- Análisis de Dependencia.- Detección de Desviación, casos extremos y anomalías.

Page 16: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining• Proceso de Descubrimiento del Conocimiento en BaseProceso de Descubrimiento del Conocimiento en Basede Datos (KDD).de Datos (KDD).

Dominio Específico

Recoleción de información

Datos

Selección

Conjunto de Datos

Preparación de Datos

Datos limpios Preparados

Transformación de Datos

Minería de Datos

Patrones Encontrados

Evaluación, Interpretación

de patrones

Conocimiento Aplicaciones del Conocimiento

Información formateada y estructurada

Page 17: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining• Aprendizaje.Aprendizaje.

- El Data Mining es un proceso que interviene la dinámica del método científico, en donde son los datos que dicen o hablan de que es lo que se quiere postular. - Aprendizaje se define como la capacidad de un sistema para experimentar. Un programa de computadora se dice que aprende de experiencia E con respecto a una clase de tarea T y medida de desempeño D, si su desempeño en las tareas T, medidas con D, mejoran con experiencia E.

Page 18: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Data Mining•Tipos Aprendizaje.Tipos Aprendizaje.

• Supervisado:Supervisado: el aprendizaje inductivo mediante la generalización a partir de una serie de ejemplos y contraejemplos. También conocido como adquisición de concepto o aprendizaje con ejemplos.

• No - supervisado: No - supervisado: el sistema de aprendizaje analiza una serie de entidades y determina características comunes, que pueden ser agrupadas formando un concepto previamente desconocido. También conocido como formación de concepto o aprendizaje por observación y descubrimiento.

Page 19: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Page 20: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Método de Asociación.Método de Asociación.

- Regla de Asociación.Regla de Asociación.

Las reglas de Asociación intentan descubrir asociaciones o conexiones entre objetos. Una regla de asociación es de laforma: A1 .......Ai B1 ....... BJ , que significa que los objetos B1.... BJ tienden a aparecer con los objetos A1..... Ai

dentro de un conjunto de datos.

Page 21: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Ej. DNI Renta Familia Ciudad Profesión Edad Hijos Obeso Casado

11251545 5.000.000 Santiago Ejecutivo 45 3 S S 30512526 1.000.000 Calama Abogado 25 0 S N 22451616 3.000.000 Concepción Ejecutivo 35 2 S S 25152516 2.000.000 Valparaíso Camarero 30 0 S S 23525251 1.500.000 Coquimbo Animador 30 0 N N

ASOCIACIONES:Casado e (Hijos > 0) están asociado (80%, 4 casos).Obeso y Casado están asociados (80%, 4 casos).

Reglas: (Hijos>0) Casado (100%, 2 casos) Casado Obeso (100%, 3 casos)

Page 22: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Método de Clasificación.Método de Clasificación.

• Este método agrupa a los datos según similitudes o clases, también puede ser definido como una etiqueta, rótulo o categoría de un dato en un conjunto de clases conocidas.

• El uso de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnica de regresión.

• Dentro de los métodos de clasificación, se destacan los Arboles de Decisión, en donde los resultados pueden expresarse en reglas, el problema puede ser que le número de reglas puede ser enorme.

Page 23: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Ej Arbol de Decisión.

Ejemplo Acción Autor Tema Longitud sitioE1 Saltar Conocido Nuevo Largo CasaE2 Leer Desconocido Nuevo Corto TrabajoE3 Saltar Desconocido Viejo Largo TrabajoE4 Saltar Conocido Viejo Largo CasaE5 Leer Conocido Nuevo Corto CasaE6 Saltar Conocido Viejo Largo TrabajoE7 Saltar Desconocido Viejo Corto TrabajoE8 Leer Desconocido Nuevo Corto TrabajoE9 Saltar Conocido Viejo Largo CasaE10 Saltar Conocido Nuevo Largo TrabajoE11 Saltar Desconocido Viejo Corto CasaE12 Saltar Conocido Nuevo Largo TrabajoE13 Leer Conocido Viejo Corto CasaE14 Leer Conocido Nuevo Corto TrabajoE15 Leer Conocido Nuevo Corto CasaE16 Leer Conocido Viejo Corto TrabajoE17 Leer Conocido Nuevo Corto CasaE18 Leer Desconocido Nuevo Corto Trabajo

Page 24: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Longitud

Largocorto

TemaSaltar

Nuevo Viejo

Leer Autor

Leer Saltar

DesconocidoConocido

Las hojas representan las posibles clasificaciones (Saltar o Leer).Los nodos internos representan los distintos atributos (longitud, tema y autor)Las etiquetas de los arcos representan los posibles valores de los atributos (largo,corto, nuevo, viejo, conocido,desconocido)

Las ramas del árbol representa las diferentes decisiones, por ejemplo, la segunda rama significa que si la longitud es corta y el tema es nuevo, la acción que realiza es leer.

Page 25: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Método de Agrupamiento o Clustering.Método de Agrupamiento o Clustering.

• Es el proceso de agrupar los datos en clases o clusters, de tal forma que los objetos de un clusters tenga similitud alta entre ellos y baja con objetos de otros clusters.

• La medida de similaridad se define usualmente por proximidaden un espacio mutidimensional.

• Existe una gran cantidad de algoritmo:- Métodos basados en particiones- Método Aglomerativo o Bootom-up- Método Divisorio o Top-Down

Page 26: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

- Método basado en densidad.- Método basado en modelos.

Ej.Un conjunto de nuevas enfermedades pueden ser agrupadasen varias categorías basadas en similaridades de sus síntomasy los síntomas comunes de las enfermedades pueden ser usadospara describir un grupo de enfermedades.

Page 27: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Método Predictivo.Método Predictivo.

• Conocer a priori como evolucionará una determinada variable en el futuro constituye una ventaja competitiva. A partir de los datos históricos almacenados y utilizando una técnica de DataMining pueden desarrollarse un modelo que permita estimar con precisión la evolución de una variable en el futuro y tomar las medidas correctas necesarias.

• Hay numerosos métodos de predicción, que incluyen técnicas de regresión de series temporales y redes neuronales.

Page 28: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Redes Neuronales.Redes Neuronales.

• Ofrecen cualidades como:

- Búsqueda automática de todas las correlaciones posibles entre los hechos claves.- Un modelado automático de problemas complejos sin el conocimiento “a priori” del nivel de la complejidad.- Capacidad de extraer los resultados claves mucho más rápidamente que otras herramientas.

• Las redes Neuronales son un grupo de neuronas interconectadascon distinta influencia mutua (peso), su memoria se basa en los pesos.

Page 29: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

Estructura de una Red NeuronalEstructura de una Red Neuronal

Conexiones con pesos

Neurona

Entrada Salida

Page 30: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Métodos y Técnicas de Data Mining.

WebMiningWebMining

• Puede definirse como la aplicación de las técnicas de DataMining en Internet para el descubrimiento y análisis de información potencialmente útil.

• Existen 3 clases de WebMining:-Web Content Mining:Web Content Mining: es extraer la información del contenidode los documentos en la web.-Web Structure Mining: -Web Structure Mining: se intenta descubrir un modelo a partir de la topología de enlaces de la red.-Web Usage Mining:-Web Usage Mining: se refiere al descubrimiento y análisis de modelos de acceso de usuarios desde uno o más servidores dela web, mediante la extracción de patrones e información implícita en la actividad de los usuarios de Internet.

Page 31: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Ejemplo Práctico de Data Mining

Page 32: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Ejemplo Práctico de Data Mining

• Este ejemplo se desarrolló con datos obtenidos del SESMA, sobre las partículas contaminantes de la Región Metropolitana, registrados por la Red MACAM (Red de MonitoreoAutomático Calidad de Aire y Meteorología).

• El Software ocupado fue el WEKA, que es una herramienta que fue desarrollada por la Universidad de Waikato, NuevaZelanda. La atención de este software se centra en los algoritmosde clasificación, pero también incluyen implementación de algoritmos para el aprendizaje de reglas de asociaciones y deagrupamiento.

Page 33: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Ejemplo Práctico de Data Mining• Al Aplicar el Software WEKA se obtuvo los siguientes resultados:

• Datos Estadísticos. CO (Monóxido de Carbono) media aritmética: 0.2567043010752693

desviación estándar: 0.40533252484091393

O3 (Ozono Troposférico) media aritmética: 23.27016129032258 desviación estándar: 20.516306667480016

MP10 (Material Particulado menores a 10 micrones) media aritmética: 54.44327956981247 desviación estándar: 29.955731501587827.

Page 34: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Ejemplo Práctico de Data Mining• Aplicando el método de Clasificación de Regresión Lineal se obtuvo los siguientes resultados.

CO = -0.0073 * O3 + 0.0041 * MP10 + 0.2025 con un coeficiente de correlación igual al 40.53%;

O3 = -17.8486 * CO + 0.241 * MP10 + 14.7219 con una coeficiente de correlación que es igual a 44.57%

MP10 = 22.3916 * CO + 0.5361 * O3 + 36.2703 con un coeficiente de correlación igual a 40.46%

Page 35: Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Conclusiones.

• Tema Poco difundido en chile y muy desarrollado en otros paises del mundo

• “No todo lo que brilla es oro”

• La Minería de Datos permite descubrir conocimiento o extraer conocimiento desde enormes volúmenes de datos almacenados en las organizaciones.