Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
-
Upload
suelo-ayon -
Category
Documents
-
view
17 -
download
2
Transcript of Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
![Page 1: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/1.jpg)
Dr. Francisco J. MataDr. Francisco J. Mata 11
Metodologías para Metodologías para Minería de DatosMinería de Datos
Tema 4Tema 4
![Page 2: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/2.jpg)
Temario Temario
► IntroducciónIntroducción►Metodología CRISPMetodología CRISP►Metodología de Berry y LinoffMetodología de Berry y Linoff►Metodología SEMMAMetodología SEMMA
Dr. Francisco J. Mata 2
![Page 3: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/3.jpg)
IntroducciónIntroducción
►Minería de datos es una forma de Minería de datos es una forma de aprender del pasado para hacer aprender del pasado para hacer mejores decisiones en el futuromejores decisiones en el futuro
►Una metodología está basada en Una metodología está basada en mejores prácticasmejores prácticas
Dr. Francisco J. Mata 3
![Page 4: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/4.jpg)
Metodologías de minería de Metodologías de minería de datosdatos
►Tratan de evitar dos resultados Tratan de evitar dos resultados indeseables en el proceso de indeseables en el proceso de aprendizajeaprendizaje Aprender cosas que no son ciertasAprender cosas que no son ciertas Aprender cosas que aunque ciertas no son Aprender cosas que aunque ciertas no son
útilesútiles
Dr. Francisco J. Mata 4
![Page 5: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/5.jpg)
Aprender cosas que no son Aprender cosas que no son ciertasciertas
►Más peligroso que aprender cosas que Más peligroso que aprender cosas que no son útilesno son útiles Decisiones importantes pueden estar Decisiones importantes pueden estar
basadas en información o conocimiento basadas en información o conocimiento incorrectoincorrecto
Dr. Francisco J. Mata 5
![Page 6: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/6.jpg)
Problemas que llevan a Problemas que llevan a conclusiones falsasconclusiones falsas
►Patrones en los datos pueden no Patrones en los datos pueden no representar reglasrepresentar reglas
►El modelo desarrollado puede no El modelo desarrollado puede no reflejar la población relevantereflejar la población relevante
►Los datos pueden estar en un nivel Los datos pueden estar en un nivel equivocado de detalleequivocado de detalle
Dr. Francisco J. Mata 6
![Page 7: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/7.jpg)
Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas
► Los seres humanos dependen tanto de Los seres humanos dependen tanto de patrones en sus vidas que tienden a verlos patrones en sus vidas que tienden a verlos aunque no existanaunque no existan Ejemplos de patronesEjemplos de patrones
► Alternancia de día y nocheAlternancia de día y noche► EstacionesEstaciones► Horas y días de programas en la TVHoras y días de programas en la TV
Dr. Francisco J. Mata 7
![Page 8: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/8.jpg)
Patrones en los datos pueden Patrones en los datos pueden no reflejar reglasno reflejar reglas
► El desafío de la minería de datos es encontrar El desafío de la minería de datos es encontrar patrones que tengan valor predictivopatrones que tengan valor predictivo El partido que no tiene la presidencia tiende a ganar más El partido que no tiene la presidencia tiende a ganar más
puestos en el Congreso durante las elecciones de medio puestos en el Congreso durante las elecciones de medio periodoperiodo
► Razones políticasRazones políticas Cuando la Liga Americana gana la Serie Mundial, los Cuando la Liga Americana gana la Serie Mundial, los
Republicanos ganan la Casa BlancaRepublicanos ganan la Casa Blanca► No hay razón aparenteNo hay razón aparente
En las elecciones presidenciales, el hombre más alto ganaEn las elecciones presidenciales, el hombre más alto gana► Desde 1945Desde 1945
Carter versus FordCarter versus Ford Gore versus Bush Gore versus Bush
Dr. Francisco J. Mata 8
![Page 9: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/9.jpg)
El modelo desarrollado El modelo desarrollado puede no reflejar la puede no reflejar la población relevantepoblación relevante
►Para hacer alguna predicción se crea Para hacer alguna predicción se crea un modelo de la situaciónun modelo de la situación
►Este modelo se desarrolla a partir de Este modelo se desarrolla a partir de una muestra de la poblaciónuna muestra de la población Muestras sesgadasMuestras sesgadas
Dr. Francisco J. Mata 9
![Page 10: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/10.jpg)
Los datos pueden estar en un Los datos pueden estar en un nivel equivocado de detalle nivel equivocado de detalle
Dr. Francisco J. Mata 10
¿Cayeron las ventas en octubre?
![Page 11: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/11.jpg)
Aprender cosas que aunque Aprender cosas que aunque ciertas no son útilesciertas no son útiles
►Aprender cosas que ya son conocidasAprender cosas que ya son conocidas►Aprender cosas que no pueden ser Aprender cosas que no pueden ser
utilizadasutilizadas
Dr. Francisco J. Mata 11
![Page 12: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/12.jpg)
Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas
►Muchos de los patrones en los datos Muchos de los patrones en los datos representan cosas que ya conocemosrepresentan cosas que ya conocemos Personas retiradas no responden a ofertas Personas retiradas no responden a ofertas
para planes de retiropara planes de retiro Personas que viven donde no hay torres Personas que viven donde no hay torres
de celular tienden a no comprar téléfonos de celular tienden a no comprar téléfonos celularescelulares
Dr. Francisco J. Mata 12
![Page 13: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/13.jpg)
Aprender cosas que ya son Aprender cosas que ya son conocidasconocidas
►Aprender cosas que ya conocemos Aprender cosas que ya conocemos tiene sin embargo un propósito útiltiene sin embargo un propósito útil Demuestra que la minería de datos está Demuestra que la minería de datos está
funcionando y que los datos son funcionando y que los datos son razonablemente precisosrazonablemente precisos
Dr. Francisco J. Mata 13
![Page 14: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/14.jpg)
Aprender cosas que no Aprender cosas que no pueden ser utilizadaspueden ser utilizadas
► La minería de datos puede descubrir La minería de datos puede descubrir relaciones que son tanto ciertas como relaciones que son tanto ciertas como desconocidas per difíciles de utilizardesconocidas per difíciles de utilizar Problemas regulatoriosProblemas regulatorios
► Historia de crédito de un cliente puede predecir futuros Historia de crédito de un cliente puede predecir futuros reclamos de seguro, pero la ley no permite discriminar a reclamos de seguro, pero la ley no permite discriminar a los clienteslos clientes
No se puede cambiar el ambiente en que se operaNo se puede cambiar el ambiente en que se opera► Un producto puede ser más apropiado para ciertos Un producto puede ser más apropiado para ciertos
climas que otros pero no se puede cambiar el climaclimas que otros pero no se puede cambiar el clima► Un servicio puede ser peor en ciertas condiciones Un servicio puede ser peor en ciertas condiciones
topografía pero no se puede cambiar estas condicionestopografía pero no se puede cambiar estas condiciones
Dr. Francisco J. Mata 14
![Page 15: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/15.jpg)
Dr. Francisco J. Mata 15
CRISP-DMCRISP-DM
►Cross Industry Standard Process for Cross Industry Standard Process for Data MiningData Mining Desarrollada en 1996 porDesarrollada en 1996 por
► Daimler Benz (ahora Daimler Chrysler)Daimler Benz (ahora Daimler Chrysler)► ISL (ahora parte de SPSS), que lanzara en 1994 ISL (ahora parte de SPSS), que lanzara en 1994
Clementine (software para minería de datos)Clementine (software para minería de datos)► NCR creador de Teradata (software para bodega de datos)NCR creador de Teradata (software para bodega de datos)
Independiente de la herramientas de minería de Independiente de la herramientas de minería de datos utilizadosdatos utilizados
Guía CRISP-DM Versión 1.0 (Guía CRISP-DM Versión 1.0 (http://www.crisp-dm.org/CRISPWP-0800.pdf))
![Page 16: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/16.jpg)
Dr. Francisco J. Mata 16
Divisiones de CRISP-DMDivisiones de CRISP-DM
![Page 17: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/17.jpg)
Dr. Francisco J. Mata 17
Fases de CRISP-DMFases de CRISP-DM
![Page 18: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/18.jpg)
Dr. Francisco J. Mata 18
Fases de CRISP-DMFases de CRISP-DM
►Entendimiento del negocioEntendimiento del negocio Comprender los objetivos y Comprender los objetivos y
requerimientos del proyecto desde la requerimientos del proyecto desde la perspectiva del negocioperspectiva del negocio
Este conocimiento es luego convertido en Este conocimiento es luego convertido en la definición de un problema de minería la definición de un problema de minería de datos y un plan preliminar es de datos y un plan preliminar es desarrollado para alcanzar estos objetivosdesarrollado para alcanzar estos objetivos
![Page 19: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/19.jpg)
Dr. Francisco J. Mata 19
Fases de CRISP-DMFases de CRISP-DM
►Entendimiento de los datosEntendimiento de los datos Recolección inicial de datosRecolección inicial de datos Continúa con actividades paraContinúa con actividades para
►Familiarizarse con los datosFamiliarizarse con los datos►Identificar problemas con la calidad de los Identificar problemas con la calidad de los
datosdatos►Descubrir percepciones de su naturaleza Descubrir percepciones de su naturaleza
interna o detectar subconjuntos interesantes interna o detectar subconjuntos interesantes para formar hipótesispara formar hipótesis
![Page 20: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/20.jpg)
Dr. Francisco J. Mata 20
Fases de CRISP-DMFases de CRISP-DM
►Preparación de datosPreparación de datos Actividades para construir el conjunto de Actividades para construir el conjunto de
datos final, el cual será utilizado como datos final, el cual será utilizado como entrada a las herramientas de modelajeentrada a las herramientas de modelaje
Las tareas se pueden aplicar múltiples Las tareas se pueden aplicar múltiples veces y sin un orden pre-establecidoveces y sin un orden pre-establecido
►Incluyen extracción, transformación y carga Incluyen extracción, transformación y carga (ETL)(ETL)
![Page 21: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/21.jpg)
Dr. Francisco J. Mata 21
Fases de CRISP-DMFases de CRISP-DM
►ModeladoModelado Varias técnicas de modelado son Varias técnicas de modelado son
seleccionadas y aplicadas y sus seleccionadas y aplicadas y sus parámetros calibrados a valores óptimosparámetros calibrados a valores óptimos
►Existen varias técnicas de minería de datos Existen varias técnicas de minería de datos que se pueden aplicar a un mismo problemaque se pueden aplicar a un mismo problema
Dichas técnicas tienen diferentes requerimientos de Dichas técnicas tienen diferentes requerimientos de datos haciendo en muchas ocasiones necesario datos haciendo en muchas ocasiones necesario volver a la etapa de preparación de datosvolver a la etapa de preparación de datos
![Page 22: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/22.jpg)
Fases de CRISP-DMFases de CRISP-DMModeladoModelado
Dr. Francisco J. Mata 22
![Page 23: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/23.jpg)
Dr. Francisco J. Mata 23
Fases de CRISP-DMFases de CRISP-DM
►EvaluaciónEvaluación Determina si el modelo construido Determina si el modelo construido
satisface los objetivos del negociosatisface los objetivos del negocio►¿Existen aspectos del negocio que no hayan
sido considerados suficientemente?
Evaluar resultados►Resultados=Modelos+Descrubimientos
![Page 24: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/24.jpg)
Dr. Francisco J. Mata 24
Fases de CRISP-DMFases de CRISP-DM
►Aplicación del modelo o sus resultadosAplicación del modelo o sus resultados Tan simple como generar un reporte o tan Tan simple como generar un reporte o tan
complejo como implementar un proceso complejo como implementar un proceso continuo de minería de datos a través de continuo de minería de datos a través de la empresala empresa
![Page 25: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/25.jpg)
Dr. Francisco J. Mata 25
Tareas genéricasTareas genéricas
![Page 26: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/26.jpg)
Dr. Francisco J. Mata 26
Tareas genéricas y salidas para Tareas genéricas y salidas para entender el negocioentender el negocio
![Page 27: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/27.jpg)
Dr. Francisco J. Mata 27
Tareas genéricas y salidas para Tareas genéricas y salidas para entender los datosentender los datos
![Page 28: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/28.jpg)
Dr. Francisco J. Mata 28
Tareas genéricas y salidas para Tareas genéricas y salidas para preparación de datospreparación de datos
![Page 29: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/29.jpg)
Dr. Francisco J. Mata 29
Tareas genéricas y salidas para Tareas genéricas y salidas para modeladomodelado
![Page 30: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/30.jpg)
Dr. Francisco J. Mata 30
Tareas genéricas y salidas para Tareas genéricas y salidas para evaluaciónevaluación
![Page 31: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/31.jpg)
Dr. Francisco J. Mata 31
Tareas genéricas y salidas para Tareas genéricas y salidas para aplicación del modelo o sus aplicación del modelo o sus
resultadosresultados
![Page 32: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/32.jpg)
Dr. Francisco J. Mata 32
Fases, tareas, salidas, Fases, tareas, salidas, actividadesactividades
►Guía del usuario para CRISP-DM Guía del usuario para CRISP-DM (página 35)(página 35)
![Page 33: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/33.jpg)
Metodología de Berry y LinoffMetodología de Berry y Linoff
Dr. Francisco J. Mata 33
![Page 34: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/34.jpg)
Metodología SEMMAMetodología SEMMA
►Desarrollada por SASDesarrollada por SAS SSample: Muestreoample: Muestreo EExplore: Exploraciónxplore: Exploración MModify: Modificarodify: Modificar MModel: Modelajeodel: Modelaje AAssess: Evaluarssess: Evaluar
►Apoyada por el Enterprise Data MinerApoyada por el Enterprise Data Miner
Dr. Francisco J. Mata 34
![Page 35: Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.](https://reader033.fdocuments.net/reader033/viewer/2022061303/54f68b934a7959274d8b4c34/html5/thumbnails/35.jpg)
Comparación metodologíasComparación metodologías
Dr. Francisco J. Mata 35
Entendimiento del negocio
Entendimiento de los datos
Preparación de datos
Modelaje
Evaluación (objetivos del
negocio)
Puesta en operación
Traducir probl. negocio en probl.
minería
Seleccionar datos
Arreglar problema datos
Transformar datos
Puesta en operación
Evaluar resultados
Construir modelo
Evaluar modelo
Muestro
Exploración
Modelaje
Evaluación
Modificación
Berry y Linoff
CRISP
SEMMA