mineria de datos

54
El Proceso de la Minería de Datos Ing. Samuel Oporto Díaz (Mag) [email protected]

description

dataminin process

Transcript of mineria de datos

Page 1: mineria de datos

El Proceso de la Minería de Datos

Ing. Samuel Oporto Díaz (Mag)[email protected]

Page 2: mineria de datos

Mapa del Curso

Modelos de Clasificación

Fundamentos de Minería de Datos

Metodología CRIPS

Modelos de Predicción

Entendimiento de los datos

Preparación de los datos

Modelado

Page 3: mineria de datos

Tabla de Contenido

• Metodologías para la minería de datos– CRIPS– SEMMA

• El Proceso de la minería de datos

• CRISP– Entendimiento del negocio– Preparación y compresión de los datos– Transformación y control de datos– Modelos de la minería de datos– Evaluación del desempeño.– Despliegue.

Page 4: mineria de datos

METODOLOGIAS PARA LA MINERIA DE DATOS

Page 5: mineria de datos

CRIPS

Page 6: mineria de datos

CRIPS - DM

• CRoss-Industry Standard Process for Data Mining.

• Metodología para el proceso de la MD.• Valida el proceso, dispone de modelos de referencia

(plantillas), ayuda a planear y administrar proyectos.

• Sin propietario. Desarrollado por algunos líderes de la industria: IBM, SAS, SPSS/ISL, NCR, Daimler-Benz, OHRA

• Alienta la inter-operatividad de herramientas.• Neutral para la Industria y para la herramienta• Enfocado al negocio y al análisis técnico

Page 7: mineria de datos

Visión general

Comprensión del negocio

Comprensión de los datos

Preparación de los datos

Modelación

Evaluación

Despliegue de resultados

DATOS

Page 8: mineria de datos

FasesDeterminación de los objetivos. Definición de Criterios de Éxito. Calificación de la Situación. Determinación de las metas de la Minería de datos

Recolectar los datos iniciales. Descripción de los datos. Exploración de los Datos. Verificación de la Calidad de los datos.

Selección de Datos. Limpieza de los Datos. Construcción de Nuevos Datos. Formateo de los Datos.

Selección de la Técnica de Modelación. Generación de Pruebas para el Modelo. Construcción del Modelo. Calificación del Modelo.

Aplicación del modelo a la rutina diaria. Monitoreo y mantenimiento. Reporte Final

Evaluación del modelo con respecto a los objetivos del proyecto. Evaluación costo-beneficio. Evaluar su aplicación en la realidad

Comprensión de negocio

Entendimiento de datos

Preparación de datos

Modelado

Evaluación

Despliegue de resultados

Page 9: mineria de datos

SEMMA

Page 10: mineria de datos

SEMMA

• Es una metodología propuesta por SAS que significa:• (Sample, Explore, Modify, Model, Assess)• Muestrea, Explora, Modifica, Modela, Evalúa

Page 11: mineria de datos

SEMMA

Muestreo.• Extrae muestras desde la población, para aplicar el análisis.• Selecciona una muestra representativa del problema en estudio.• Muestreo aleatorio simple. Muestreo aleatorio con reposición.• Establece un nivel de confianza para la muestra.

Exploración.• Para simplificar el problema y optimizar la eficiencia del modelo.• Usa herramientas de visualización y técnicas de estadísticas

descriptiva.• Determina las variables explicativas (entradas al modelo)

Page 12: mineria de datos

SEMMA

Modifica• Formatea los datos, para ser utilizado por el modelo.

Modela• Establece una relación [variables explicativas y variables objetivo]• Trabaja con un nivel de confianza determinado. • Las técnicas son: análisis discriminante, métodos de agrupamiento, y

análisis de regresión, redes neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.

Evalúa.• Valora los resultados mediante el análisis de bondad del modelo.• Contrasta con otros métodos estadísticos o con nuevas muestras.

Page 13: mineria de datos

Uso de la metodologías

http://www.kdnuggets.com

Page 14: mineria de datos

Comparación

SEMMA CRISP

Orientado al desarrollo del proceso de MD

Orientado a los objetivos empresariales

Se inicia analizando los datos

Se inicia analizando los objetivos del negocio

Ligada a productos SAS Metodología abierta y gratuita

Orientado a una metodología de gestión de proyectos

Page 15: mineria de datos

EL PROCESO DE LA MINERÍA DE DATOS

Page 16: mineria de datos

El Proceso de la Minería de Datos

Data

Selección

ConocimientoConocimiento

Patrones

Minería de Datos

Interpretación/Evaluación

Preparación de Datos

Data

Pre-procesada

Datos

Modelos

Despliegue

inducción deducción

Explotación

Page 17: mineria de datos

El Proceso de la Minería de Datos

• Recopilación. Desde BDMS, datamarts, texto, imágenes, video, sonido, etc.

• Selección de Datos. Selección de atributos relevantes. Selección de muestras.

• Preparación de Datos (Pre-procesamiento). Mejora de la calidad de los datos, eliminación de atributos irrelevantes, eliminación de datos extremos, datos faltantes.

• Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de modelos.

• Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo.

Page 18: mineria de datos

El Proceso de la Minería de Datos

DataObjetivo

DataPre-procesada

DataTransformada Patrones

Fuentes de datos Pre-procesamientoExploración y

transformaciónReconocimiento de

PatronesEvaluación e Interpretación

DatacrudaDHW

DBMS

Texto

Evaluación y Entendimiento

Muestreo y Selección• Muestreo • Selección

Limpieza de Datos• Datos que no existen• Datos no clasificados• Identificación de

extremos• Eliminación de Ruido

Transformación de Datos• Reducción de

Dimensionalidad• Creación de

Características• Normalización de Datos• Variables

Correlacionadas• Discretización

Reportes y VisualizaciónModelado• Clasificación• Regresión• Agrupamiento• Asociación• Secuenciación

Page 19: mineria de datos

CRIPS

Page 20: mineria de datos

Jerarquía

Page 21: mineria de datos

Fases

Page 22: mineria de datos

Tareas Genéricas y Resultados

Page 23: mineria de datos

Comprensión de negocio.• Declaración del objetivo

de negocio• Declaración de los

criterios de éxito• Declaración del objetivo

de la minería de datos• Preparar el plan de trabajo• Preparar la estrategia para

lograr el éxito.

Fases en el proceso de MD ( 1 )

Page 24: mineria de datos

Comprensión de negocio

Page 25: mineria de datos

Entendimiento de datos• Coleccionar los datos.• Describir los datos• Exploración de los datos.• Evaluar la calidad de

datos• Búsqueda de valores

atípicos

Fases en el proceso de MD ( 2 )

Page 26: mineria de datos

Entendimiento de los Datos

Page 27: mineria de datos

Entendimiento de los Datos

Recolección de datos iníciales

Descripción de los datos

Exploración de los datos

Verificación de la calidad de los datos

univariadamultivariadaseries de datos

Page 28: mineria de datos

Preparación de datos.• Preparar la data inicial

para ser usado en el proceso de MD.

• Seleccionar casos y variables que queremos analizar y que son apropiados.

• Ejecutar transformaciones sobre datos

• Limpiar la data para que sea leído por las herramientas.

Fases en el proceso de MD ( 3 )

60% del tiempo

Page 29: mineria de datos

Preparación de los Datos

Page 30: mineria de datos

Preparación de los Datos

Limpieza de datos

Integración de Datos

Transformación de datos

Reducción de datos

Valores extremos Valores null Valores con ruido Valores inconsistentes Valores mal clasificados

Problemas de semántica ¿significa lo mismo?Problemas de temporalidad ¿cuándo fue registrado?Problemas de codificación y formato.Problemas de idioma.Problemas de duplicidad ¿cuál vale?Problema de medio de almacenamiento.

Filas: suma y agregación de datos Columnas: log, sin, exp, tan, etc…Funciones entre columnas.

Page 31: mineria de datos

Construcción del modelo• ¿Qué técnicas de

modelado usar para el proyecto?

• Usar experiencias de otros• Calibrar los parámetros

del modelo.

Fases en el proceso de MD( 4)

DP• El modelado es un proceso iterativo.• Es un proceso de prueba y error.• Es diferente del aprendizaje

supervisado y no supervisado• Se modela para describir o predecir.

Modelos de predicción para regresión y clasificación

Algoritmos de regresión, predecir resultado numérico.

Modelos descriptivos para agrupamiento y búsqueda de asociacionesAlgoritmos de Clustering y asociación y secuenciación

Page 32: mineria de datos

Modelado

Page 33: mineria de datos

Modelos de Minería de Datos

• Clasificación.Clasificar objetos en clases (categórico)

• Regresión. Mapeo de variables (continuo)

Pronóstico. Series de tiempo.

• Agrupamiento. Identificar grupos en los datos

• Reglas de Buscar relaciones en los datos

Asociación.

• Secuenciación Identificar el siguiente de la secuencia.

P

D

D

D

P

Page 34: mineria de datos

Evaluación.• Evalúa la calidad y la

efectividad del modelo antes de ser usado en la realidad.

• Se mide en función de los objetivos planteados en la primera etapa.

• Estable qué factores del negocio o problema de la investigación no se ha considerado suficientemente.

Fases en el proceso de MD( 5)

Page 35: mineria de datos

Evaluación del Modelo

Page 36: mineria de datos

Evaluación de Modelos

Matriz de confusión

Curva ROCLift charts

Page 37: mineria de datos

Despliegue.• ¿Cómo se usaran los

resultados obtenidos?• ¿Quién necesita usarlos?’• ¿Con qué frecuencia se

usaran?• Aplicado por el área

responsable.

Fases en el proceso de MD( 6)

Tipo de despliegue:• Simple. generar un reporte• Complejo. implementar un

proceso de MD para una empresa

Page 38: mineria de datos

Explotación de Resultados

Page 39: mineria de datos

ESTÁNDARES PARA LA MINERIA DE DATOS

Page 40: mineria de datos

Estándares

OLE DB for DM.• Especifica la interfaz común entre un DM Consumer y DM Provider. • Es auspiciado por Microsoft para usar algoritmos de ≠ proveedores.• Define un lenguaje para MD, para crear, entrenar y predecir con modelos. • Define un modelo de datos para los métodos y algoritmos de MD.

CREATE MINING MODEL

[Heart_Health Prediction]

[ID] Int Key,

[Age] Int,

[Smoker] Int,

[Salary] Double discretized,

[HeartAttack] Int PREDICT,

USING [Decision_Trees_101]

INSERT INTO

[Heart_Health Prediction]

([ID], [Age], [Smoker], [Salary])

SELECT [ID],[Age], [Smoker], [Salary]

FROM Patient_Medical M, Patient_Financial F

WHERE M.ID = F.ID

SELECT t.[ID],[Heart_Health

Prediction].[HeartAttack]FROM [Heart_Health Prediction]PREDICTION JOIN (SELECT [ID],[Age],[Smoker],[Salary]FROM Patient_Medical M,

Patient_Financial FWHERE M.ID = F.ID) as tON [Heart_Health Prediction].Age =

t.Age AND [Heath_Health Prediction].Smoker = t.Smoker AND [Heart_Health Prediction].Salary = t.Salary

Identifica las columnas de entrenamiento, la columna a predecir y

el algoritmo de minería de datos

El INSERT representa los datos usados para el entrenamiento del modelo

Usa el modelo entrenado y los datos actuales para hacer predicciones

Page 41: mineria de datos

Estándares

SQL MM/DM• SQL/ Multimedia for Data Mining) fue propuesto por IBM.• Trabaja con texto, datos espaciales, imágenes y algoritmos de MD.• Trabaja con tipos de datos definidos por los usuarios y métodos en

una base de datos para MD.

XML for Analysis: • Es un estándar de la industria propuesto por el “XML / A Council”.• Crea el lenguaje de consultas “query language Data Mining

eXtensions” (DMX)• Permite consultas basadas en XML a los servidores de MD.

Java Data Mining API. • Es un paquete JAVA para MD propuesto por ORACLE. • El objetivo es permitir a las aplicaciones JAVA usar motores de MD.

Page 42: mineria de datos

Estándares

PMML.• Es un lenguaje de marcas basado en XML.

• Describe modelos estadísticos y de MD.

• Define datos de entrada, transformaciones y parámetros del modelo.

• Existe un esquema XML para cada tipo de modelo de MD.

Page 43: mineria de datos

HERRAMIENTAS DE SOFTWARE PARA MINERÍA

DE DATOS

Page 44: mineria de datos

SAS System

Page 45: mineria de datos

SQL Server Data Mining

Page 46: mineria de datos

ORACLE DATA MINING

Page 47: mineria de datos

IBM - DB2 Intelligent Miner

Page 48: mineria de datos

SPSS Data Mining Pack

Page 49: mineria de datos

Clementine

Page 50: mineria de datos

Weka

Page 51: mineria de datos

XLMiner

Page 52: mineria de datos

Bibliografía

• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.

• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).

• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.

• Introducción a la minería de datos. J. Hernández, J. Ramírez.

Page 53: mineria de datos

PREGUNTAS

Page 54: mineria de datos

Mg. Samuel Oporto Díaz

[email protected]

http://www.wiphala.net/oporto