Universidad Nacional de La Pampa Facultad de …€¦ · ¿Un algoritmo debe buscar todos los...

43
Introducción a la minería de datos. Necesidades asociadas Introducción a la minería de datos. Necesidades asociadas Mg. Ing. Mario José Diván [email protected] Mg. Ing. Mario José Diván [email protected] Universidad Nacional de La Pampa Facultad de Ciencias Económicas y Jurídicas

Transcript of Universidad Nacional de La Pampa Facultad de …€¦ · ¿Un algoritmo debe buscar todos los...

Introducción a la minería de datos. Necesidades asociadasIntroducción a la minería de datos. Necesidades asociadas

Mg. Ing. Mario José Divá[email protected]

Mg. Ing. Mario José Divá[email protected]

Universidad Nacional de La PampaFacultad de Ciencias Económicas y Jurídicas

30/10/2006 Total de diapositivas: 43 2

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 3

TemarioTemario

1. ¿Qué es data mining?

2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?

2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 4

¿Qué es data mining? [1/6]¿Qué es data mining? [1/6]

“La aplicación de técnicas en grandes volúmenes de datos para descubrir información interesante, útil,

aplicable y no trivial”

1. Características fundamentales de la definición:1. Very large databases (VLDB)2. Descubrir3. Información4. Interesante5. Útil6. Aplicable7. No trivial

“La aplicación de técnicas en grandes volúmenes de datos para descubrir información interesante, útil,

aplicable y no trivial”

1. Características fundamentales de la definición:1. Very large databases (VLDB)2. Descubrir3. Información4. Interesante5. Útil6. Aplicable7. No trivial

30/10/2006 Total de diapositivas: 43 5

¿Qué es data mining? [2/6]¿Qué es data mining? [2/6]

1. ¿Qué es un patrón?“Síntesis o representación del conocimiento obtenido desde una base

de datos”

2. ¿Cuándo un patrón es interesante?1. Interés 2. Oportuno3. Aplicable4. No trivial5. Nuevo6. Fácil de entender

3. ¿Un algoritmo debe buscar todos los patrones interesantes?

4. Importancia del conocimiento del dominio del negocio donde se aplicará data mining

1. ¿Qué es un patrón?“Síntesis o representación del conocimiento obtenido desde una base

de datos”

2. ¿Cuándo un patrón es interesante?1. Interés 2. Oportuno3. Aplicable4. No trivial5. Nuevo6. Fácil de entender

3. ¿Un algoritmo debe buscar todos los patrones interesantes?

4. Importancia del conocimiento del dominio del negocio donde se aplicará data mining

30/10/2006 Total de diapositivas: 43 6

¿Qué es data mining? [3/6]¿Qué es data mining? [3/6]

� Importancia del conocimiento del dominio del negocio donde se aplicará data mining

� Detección de los procesos de negocios centrales (Core Business)

� Detección de los procesos de negocios de soporte� Trazabilidad del dato hasta la fuente de generación

� Importancia del conocimiento del dominio del negocio donde se aplicará data mining

� Detección de los procesos de negocios centrales (Core Business)

� Detección de los procesos de negocios de soporte� Trazabilidad del dato hasta la fuente de generación

Nivel Estratégico

Nivel Táctico

Nivel Operativo

Procesos de NegociosSistemas de Información

información

30/10/2006 Total de diapositivas: 43 7

¿Qué es data mining? [4/6]¿Qué es data mining? [4/6]

1. Información versus dato� Características:

� Interés� Oportuna� Veraz� Consistente

2. Concepto de modelo, adaptación del modelo y error

1. Información versus dato� Características:

� Interés� Oportuna� Veraz� Consistente

2. Concepto de modelo, adaptación del modelo y error

30/10/2006 Total de diapositivas: 43 8

¿Qué es data mining? [5/6]¿Qué es data mining? [5/6]

“[…] Most data mining algorithms can be viewed as compositions of a fewbasics techniques and principles […], consist largely of some specific mix of

three components:� The model: There are two relevants factors:

� Function of the model: Eg. Classification and clustering and the� Representational form: linear function of multiple variables and a gaussian

probability density function. A model contains parameters that are to be determinated from the data. […]

� The preference criterion: […]� The search algorithm: The specification of an algorithm for finding particular

models and parameters, given data, model and a preference criterion.[…]

A parituclar data mining algorithm is usually a instantiation of themodel/preference/search components”(*)

(*) Usama Fayyad & Ramazamy Uthurusamy; “Data mining and Knowledge Discovery in Databases”; Communications of ACM, vol 39 Nro. 11, Noviembre de 1996

“[…] Most data mining algorithms can be viewed as compositions of a fewbasics techniques and principles […], consist largely of some specific mix of

three components:� The model: There are two relevants factors:

� Function of the model: Eg. Classification and clustering and the� Representational form: linear function of multiple variables and a gaussian

probability density function. A model contains parameters that are to be determinated from the data. […]

� The preference criterion: […]� The search algorithm: The specification of an algorithm for finding particular

models and parameters, given data, model and a preference criterion.[…]

A parituclar data mining algorithm is usually a instantiation of themodel/preference/search components”(*)

(*) Usama Fayyad & Ramazamy Uthurusamy; “Data mining and Knowledge Discovery in Databases”; Communications of ACM, vol 39 Nro. 11, Noviembre de 1996

30/10/2006 Total de diapositivas: 43 9

¿Qué es data mining? [6/6]¿Qué es data mining? [6/6]

¿Siempre es necesario utilizar data mining?

¿Siempre es necesario utilizar data mining?

(*) Chris Rogers; “Database Desgins for Data Warehouse Solutions”; Sysbase, 2000.

• SQL• Reporting• OLAP• Planillas de cálculo• Entre otras

30/10/2006 Total de diapositivas: 43 10

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?

3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?

3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 11

¿Qué no es data mining?¿Qué no es data mining?

1. No es un software estadístico2. No es un sistema experto3. No es consulta sobre bases de datos

1. No es un software estadístico2. No es un sistema experto3. No es consulta sobre bases de datos

30/10/2006 Total de diapositivas: 43 12

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining

4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining

4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 13

Causas del surgimiento del DM&KDDCausas del surgimiento del DM&KDD

1. Crecimiento del volumen de datos• Costos de almacenamiento en decrecimiento• Poca información ejecutiva, demasiados datos operativos• Poco aprovechamiento de los datos históricos

2. Problemas en la exposición de información

3. Surgimiento e implementación del concepto de data warehouse, data marts, corporate informatio factory (CIF)

1. Crecimiento del volumen de datos• Costos de almacenamiento en decrecimiento• Poca información ejecutiva, demasiados datos operativos• Poco aprovechamiento de los datos históricos

2. Problemas en la exposición de información

3. Surgimiento e implementación del concepto de data warehouse, data marts, corporate informatio factory (CIF)

30/10/2006 Total de diapositivas: 43 14

Causas del surgimiento del DM&KDDCausas del surgimiento del DM&KDD

1. Componentes del Corporate Information Factory (CIF)1. Componentes del Corporate Information Factory (CIF)

30/10/2006 Total de diapositivas: 43 15

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)

5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)

5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 16

Knowledge Discovery in Databases(KDD)Knowledge Discovery in Databases(KDD)

Fuentes de datos

Selección

Conocimiento del negocio

Conjunto de datos objetivo

Preprocesamientode datos

Datos trabajados

Escoger la función de data mining

Escoger el algoritmo de data mining

Interpretación

Ejecutar el algoritmo

Uso del conocimiento

30/10/2006 Total de diapositivas: 43 17

KDD -> Conocimiento del NegocioKDD -> Conocimiento del Negocio

� ¿Qué es conocer el negocio?� Identificar los procesos centrales de la empresa (Core Business)� Identificar los procesos de soporte de la empresa� Identificar el proceso de generación de datos a través de los procesos

empresariales

� ¿Qué es conocer el negocio?� Identificar los procesos centrales de la empresa (Core Business)� Identificar los procesos de soporte de la empresa� Identificar el proceso de generación de datos a través de los procesos

empresariales

Esquema conceptual de los procesos funcionales del

laboratorio de análisis de la Administración Provincial del

Agua (APA) –La Pampa, Argentina-

30/10/2006 Total de diapositivas: 43 18

KDD -> Fuentes de datosKDD -> Fuentes de datos

� Identificar las fuentes de datos de los sistemas de información� Identificar las fuentes de datos transaccionales

� Obtener la estructura de las fuentes de datos� Analizar si existe redundancia intra e inter fuentes de datos� Analizar si existe riesgos de pérdida de información en la estructura� Analizar la semántica de la estructura de datos (Precaución con las unidades

de medida de los datos)

� Identificar las fuentes de datos orientadas a las consultas� Obtener el modelado del esquema de bases de datos orientado a consultas� Hechos versus métricas� Identificar hechos y métricas de la estructura multidimensional

� Identificar las fuentes de datos de los sistemas de información� Identificar las fuentes de datos transaccionales

� Obtener la estructura de las fuentes de datos� Analizar si existe redundancia intra e inter fuentes de datos� Analizar si existe riesgos de pérdida de información en la estructura� Analizar la semántica de la estructura de datos (Precaución con las unidades

de medida de los datos)

� Identificar las fuentes de datos orientadas a las consultas� Obtener el modelado del esquema de bases de datos orientado a consultas� Hechos versus métricas� Identificar hechos y métricas de la estructura multidimensional

Ver esquema relacional

Ver esquema multidimensional

� ¿Sobre qué datos puede aplicarse minería de datos?� ¿Sobre qué datos puede aplicarse minería de datos?

30/10/2006 Total de diapositivas: 43 19

KDD -> Fuentes de datos -Selección-KDD -> Fuentes de datos -Selección-

OLTP

Data warehouseData Mart

OLAP

Sistemas legados y otras fuentes …

Conjunto de datos objetivo

SelecciónProblemas comunes de la

integración y transformación

Redundancia directa e indirecta

Inconsistencia (debe decidirse)

Unidades de medida para el mismo atributo en diferentes BD

30/10/2006 Total de diapositivas: 43 20

KDD -> Datos trabajados -Preprocesamiento-KDD -> Datos trabajados -Preprocesamiento-

Conjunto de datos objetivo

Preprocesamiento� Depurar la fuente de datos,

problemas comunes:� Ruido en los datos &

Análisis de Outliers� Inconsistencias� Incompleto� Valores faltantes

� Agregar información complementaria al conjunto de datos (dataset)

� Ejemplo: Medidas descriptivas y/o de tendencia, datos contextuales al dato como paridades cambiarias si son divisas, etc.

Preprocesamiento� Depurar la fuente de datos,

problemas comunes:� Ruido en los datos &

Análisis de Outliers� Inconsistencias� Incompleto� Valores faltantes

� Agregar información complementaria al conjunto de datos (dataset)

� Ejemplo: Medidas descriptivas y/o de tendencia, datos contextuales al dato como paridades cambiarias si son divisas, etc.

Datos trabajados

30/10/2006 Total de diapositivas: 43 21

KDD -> Escoger el algoritmo de data miningKDD -> Escoger el algoritmo de data mining

Elegir la función de data mining:

� Agrupamiento (Clustering)� Reglas de asociación

(Association Rules)� Patrones secuenciales

(Sequential Patterns)� Series temporales� Clasificación� Predicción

Elegir la función de data mining:

� Agrupamiento (Clustering)� Reglas de asociación

(Association Rules)� Patrones secuenciales

(Sequential Patterns)� Series temporales� Clasificación� Predicción

Datos trabajados

Función seleccionada

Ejemplo: Clasificación, Algoritmos disponibles:

CHAID

CART

C4.5

J48

ID3

Naive Bayes

Entre otros

CART

30/10/2006 Total de diapositivas: 43 22

KDD -> InterpretaciónKDD -> Interpretación

� CART� CART

30/10/2006 Total de diapositivas: 43 23

KDD -> Uso del conocimientoKDD -> Uso del conocimiento

� Uso del conocimiento� Uso del conocimiento

if (cliente_antiguedad <= 10,12 AND mcaja_ahorro_paquete<=611,85 AND mcajeros_propiso_descuentos<=2,36)

{

Prob(No)=0,558

}

(*) No: El cliente del banco no va a comprar una nueva tarjeta de crédito

30/10/2006 Total de diapositivas: 43 24

KDD -> Metodologías de data miningKDD -> Metodologías de data mining

� CRISP-DM

� CRoss Industry Standard Process for Data Mining

� (http://www.crisp-dm.org)� Basado en el proceso KDD� Iniciativa de la industria patrocinada

por SPSS, Teradata, DaimlerChrysler& Ohra.

� Etapas:� Business understanding� Data understanding� Data preparation� Modeling� Evaluation� Deployment

� CRISP-DM

� CRoss Industry Standard Process for Data Mining

� (http://www.crisp-dm.org)� Basado en el proceso KDD� Iniciativa de la industria patrocinada

por SPSS, Teradata, DaimlerChrysler& Ohra.

� Etapas:� Business understanding� Data understanding� Data preparation� Modeling� Evaluation� Deployment

30/10/2006 Total de diapositivas: 43 25

KDD -> Metodologías de data miningKDD -> Metodologías de data mining

� SEMMA

� Sample, Explore, Modify, Model, Asses� http://www.sas.com� Acercamiento que combina un proceso

estructurado con la organización lógica de las herramientas necesarias para soportar cada uno de los pasos

� Propiedad de SAS Institute� Etapas:

� Sample

� Explore

� Modify

� Model

� Asses

� SEMMA

� Sample, Explore, Modify, Model, Asses� http://www.sas.com� Acercamiento que combina un proceso

estructurado con la organización lógica de las herramientas necesarias para soportar cada uno de los pasos

� Propiedad de SAS Institute� Etapas:

� Sample

� Explore

� Modify

� Model

� Asses

30/10/2006 Total de diapositivas: 43 26

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining

6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining

6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 27

Contexto de las bases de datos frente al data miningContexto de las bases de datos frente al data mining

� Heterogeneidad en las fuentes de datos

� Tipología de las fuentes de datos:� Estructuradas:

� Sistemas legados� Archivos de texto� BD relacionales� BD orientadas a objetos� BD temporales� BD espaciales� BD orientadas a consultas� Entre otras

� Semi estructuradas:� HTML� XML� Entre otras

� Heterogeneidad en las fuentes de datos

� Tipología de las fuentes de datos:� Estructuradas:

� Sistemas legados� Archivos de texto� BD relacionales� BD orientadas a objetos� BD temporales� BD espaciales� BD orientadas a consultas� Entre otras

� Semi estructuradas:� HTML� XML� Entre otras

30/10/2006 Total de diapositivas: 43 28

Contexto de las bases de datos frente al data miningContexto de las bases de datos frente al data mining

� Fuertemente recomendable: No desarrollar actividades asociadas a data mining sobre la misma plataforma (Hardware) que utilizan los sistemas transaccionales de la empresa.

� Razones:� Los algoritmos de data mining son en general intensivos en

procesamiento

� Los algoritmos hacen uso intensivo de memoria

� Data mining trabaja sobre VLDB, por lo que el tiempo de ejecución de los algoritmos puede ser elevado

� Fuertemente recomendable: No desarrollar actividades asociadas a data mining sobre la misma plataforma (Hardware) que utilizan los sistemas transaccionales de la empresa.

� Razones:� Los algoritmos de data mining son en general intensivos en

procesamiento

� Los algoritmos hacen uso intensivo de memoria

� Data mining trabaja sobre VLDB, por lo que el tiempo de ejecución de los algoritmos puede ser elevado

30/10/2006 Total de diapositivas: 43 29

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining

7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining

7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 30

Principales funciones del data mining: Reglas de asociación (Association rules)Principales funciones del data mining: Reglas de asociación (Association rules)

� Dado I = {i1, i2, i3, … , in}� Sea D un conjunto de datos relevantes a la tarea� Sea T un conjunto de ítems /

� Cada transacción T es identificado por un atributo al que denominamos TID

� Una regla de asociación es una regla de la forma:

� Soporte (s): % de transacciones en D que contienen A U B, en términos estadísticos es la P(AUB)

� Confianza(s): % de transacciones en D que contienen , en términos estadísticos es la

� Dado I = {i1, i2, i3, … , in}� Sea D un conjunto de datos relevantes a la tarea� Sea T un conjunto de ítems /

� Cada transacción T es identificado por un atributo al que denominamos TID

� Una regla de asociación es una regla de la forma:

� Soporte (s): % de transacciones en D que contienen A U B, en términos estadísticos es la P(AUB)

� Confianza(s): % de transacciones en D que contienen , en términos estadísticos es la

IT ⊆

φ≠∩∧⊆∧⊆⇒ BAIBIABA /

BA∩)( BAP ∩

30/10/2006 Total de diapositivas: 43 31

Principales funciones del data mining: Reglas de asociación (Association rules)Principales funciones del data mining: Reglas de asociación (Association rules)

� Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte mínimo (min_sup) y una confianza o confidencia mínima (min_conf).

� Frecuencia de ocurrencia de un itemset (conjunto de ítems): es el número de transacciones que contienen el itemset.

� Un itemset satisface un soporte mínimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al número de transacciones en D.

� Si el itemset satisface el soporte mínimo entonces se lo denomina ‘itemset frecuente’

� Principio ‘A priori’: Cualquier subconjunto no vacío de un itemsetfrecuente debe ser frecuente.

� Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte mínimo (min_sup) y una confianza o confidencia mínima (min_conf).

� Frecuencia de ocurrencia de un itemset (conjunto de ítems): es el número de transacciones que contienen el itemset.

� Un itemset satisface un soporte mínimo si y solo si su frecuencia de ocurrencia es superior o igual a min_sup e inferior o igual al número de transacciones en D.

� Si el itemset satisface el soporte mínimo entonces se lo denomina ‘itemset frecuente’

� Principio ‘A priori’: Cualquier subconjunto no vacío de un itemsetfrecuente debe ser frecuente.

30/10/2006 Total de diapositivas: 43 32

Principales funciones del data mining: Reglas de asociación (Association rules)Principales funciones del data mining: Reglas de asociación (Association rules)

� Ejemplos de reglas de asociación:

� Basadas en un tipo de valor:

Compra(X,’CD’) y Compra(X,’Reproductor de CD’) => Compra(X,’Reproductor MP3’)

� Basadas en la dimensión del dato asociado:

edad(X,’25…40’) e Ingreso(X,’24k…48k’) => Compra(X,’Palm’)

� Basadas en niveles de abstracción:

edad(X,’25…40’) => Compra(X,’Notebooks’)edad(X,’25…40’) => Compra(X,’Computadoras’)

� Se tiene diferentes niveles de granularidad en las reglas� Se dispone de una jerarquía de conceptos (productos para el ejemplo)� Los ítems de niveles inferiores dispondrán de menos soporte

� Ejemplos de reglas de asociación:

� Basadas en un tipo de valor:

Compra(X,’CD’) y Compra(X,’Reproductor de CD’) => Compra(X,’Reproductor MP3’)

� Basadas en la dimensión del dato asociado:

edad(X,’25…40’) e Ingreso(X,’24k…48k’) => Compra(X,’Palm’)

� Basadas en niveles de abstracción:

edad(X,’25…40’) => Compra(X,’Notebooks’)edad(X,’25…40’) => Compra(X,’Computadoras’)

� Se tiene diferentes niveles de granularidad en las reglas� Se dispone de una jerarquía de conceptos (productos para el ejemplo)� Los ítems de niveles inferiores dispondrán de menos soporte

30/10/2006 Total de diapositivas: 43 33

Principales funciones del data mining: Reglas de asociación (Association rules)Principales funciones del data mining: Reglas de asociación (Association rules)

� Si exige que las reglas expuestas posean igual soporte en todos los niveles:

� Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto implica que perder algunas reglas pero aquellas que cumplan lascondiciones valdrían en un contexto general.

� Si cede a menores soportes en los niveles inferiores:� Se corre el riesgo de que la regla no sirva para el contexto general.

� Una regla es redundante si su soporte está cercano a un valor esperado basado en la regla de un ancestro. En otras palabras, si bien desciende en el nivel de granularidad de la información, ésta no se traduce en el incremento del conocimiento.

� Si exige que las reglas expuestas posean igual soporte en todos los niveles:

� Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto implica que perder algunas reglas pero aquellas que cumplan lascondiciones valdrían en un contexto general.

� Si cede a menores soportes en los niveles inferiores:� Se corre el riesgo de que la regla no sirva para el contexto general.

� Una regla es redundante si su soporte está cercano a un valor esperado basado en la regla de un ancestro. En otras palabras, si bien desciende en el nivel de granularidad de la información, ésta no se traduce en el incremento del conocimiento.

Ver ejemplo con WEKA

30/10/2006 Total de diapositivas: 43 34

Principales funciones del data mining: Concepto de patrones secuenciales (Sequential patterns)Principales funciones del data mining: Concepto de patrones secuenciales (Sequential patterns)

� Una secuencia es una lista ordenada de itemsets

� Una secuencia es maximal si no es contenida por otra

� Cada secuencia maximal es un patrón secuencial

� Series temporales son un caso particular de los patrones secuenciales. La secuencia está dada por algún parámetros asociado al tiempo.

� Aplicaciones específicas:� Retención de clientes� Marketing focalizado

� Una secuencia es una lista ordenada de itemsets

� Una secuencia es maximal si no es contenida por otra

� Cada secuencia maximal es un patrón secuencial

� Series temporales son un caso particular de los patrones secuenciales. La secuencia está dada por algún parámetros asociado al tiempo.

� Aplicaciones específicas:� Retención de clientes� Marketing focalizado

30/10/2006 Total de diapositivas: 43 35

Principales funciones del data mining: Clasificación y predicciónPrincipales funciones del data mining: Clasificación y predicción

� Clasificación versus Predicción: Predice etiquetas de clases categóricas mientras que la predicción se basa en modelos de funciones valuadas-continua.

� Clasificación:� Método supervisado� Se compone de 2 etapas:

1. Construcción (Entrenamiento)2. Poda (Pruning).

1. Overfitting2. Objetivo del pruning

� Función de splitting� Frena la construcción del árbol si:

� No existen más atributos que analizar o

� No existen más ejemplos que procesar o

� Todos los ejemplos para un nodo determinado poseen igual clase

� Clasificación versus Predicción: Predice etiquetas de clases categóricas mientras que la predicción se basa en modelos de funciones valuadas-continua.

� Clasificación:� Método supervisado� Se compone de 2 etapas:

1. Construcción (Entrenamiento)2. Poda (Pruning).

1. Overfitting2. Objetivo del pruning

� Función de splitting� Frena la construcción del árbol si:

� No existen más atributos que analizar o

� No existen más ejemplos que procesar o

� Todos los ejemplos para un nodo determinado poseen igual clase

30/10/2006 Total de diapositivas: 43 36

Principales funciones del data mining: Clasificación y predicciónPrincipales funciones del data mining: Clasificación y predicción

� Clasificación

� Predicción� Predice el valor para una variable continua� Modelos de funciones valuadas continua� Ejemplos:

� Regresión lineal simple [Y= Bo + B1*X]� Regresión lineal múltiple [Y= Bo + B1*x1+ B2*x2 + … + Bn*Xn]� Entre otros

� Particionamiento del conjunto de datos para evitar el overfitting

� Clasificación

� Predicción� Predice el valor para una variable continua� Modelos de funciones valuadas continua� Ejemplos:

� Regresión lineal simple [Y= Bo + B1*X]� Regresión lineal múltiple [Y= Bo + B1*x1+ B2*x2 + … + Bn*Xn]� Entre otros

� Particionamiento del conjunto de datos para evitar el overfitting

Ver ejemplo con Infostat

Ver ejemplo en SPSS

30/10/2006 Total de diapositivas: 43 37

Principales funciones del data mining: Agrupamiento (Clustering)Principales funciones del data mining: Agrupamiento (Clustering)

� “Conjunto de datos u objetos reunidos bajo una misma agrupación en función de alguna medida de similaridad que maximiza la varianza entre grupos y la minimiza dentro del mismo”

� No supervisado

� Tipo de acercamientos� Orientados al particionamiento:

� K-means:� Relativamente eficiente� Necesita que se especifique el ‘k’ (cantidad de grupos a armar)� No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética)

� K-medoids� No escala bien� Buen desempeño en grupos de datos relativamente pequeños

� “Conjunto de datos u objetos reunidos bajo una misma agrupación en función de alguna medida de similaridad que maximiza la varianza entre grupos y la minimiza dentro del mismo”

� No supervisado

� Tipo de acercamientos� Orientados al particionamiento:

� K-means:� Relativamente eficiente� Necesita que se especifique el ‘k’ (cantidad de grupos a armar)� No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética)

� K-medoids� No escala bien� Buen desempeño en grupos de datos relativamente pequeños

Ver ejemplo con Infostat

30/10/2006 Total de diapositivas: 43 38

Principales funciones del data mining: Agrupamiento (Clustering)Principales funciones del data mining: Agrupamiento (Clustering)

� Tipo de acercamientos� Continua Orientados al particionamiento:

� La principal diferencia entre K-means y k-medoids, es que en el primero el centro del cluster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo.

� Jerárquico� Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar� Emplea una matriz de distancia entre los registros, para ‘n’ datos genera una

matriz nxn que contiene dichas distancias y cuya diagonal principal es ‘0’� Existen dos variantes:

� Aglomerativo: Va reuniendo elementos desde lo más particular hasta obtener el conjunto de datos completo

� Divisivo: Va particionando el conjunto de datos completo hasta llegar a la división mínima de los mismos

� Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc.

� Tipo de acercamientos� Continua Orientados al particionamiento:

� La principal diferencia entre K-means y k-medoids, es que en el primero el centro del cluster no necesariamente es un elemento, mientras que el segundo requiere que el centro sea un elemento representativo del grupo.

� Jerárquico� Tiene la ventaja de no necesitar especificar la cantidad de grupos a generar� Emplea una matriz de distancia entre los registros, para ‘n’ datos genera una

matriz nxn que contiene dichas distancias y cuya diagonal principal es ‘0’� Existen dos variantes:

� Aglomerativo: Va reuniendo elementos desde lo más particular hasta obtener el conjunto de datos completo

� Divisivo: Va particionando el conjunto de datos completo hasta llegar a la división mínima de los mismos

� Otros acercamientos: Basados en densidad, basados en grilla (detalles a diferentes niveles de granularidad), etc.

Ver ejemplo con Infostat

30/10/2006 Total de diapositivas: 43 39

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales

8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales

8. Tendencias

30/10/2006 Total de diapositivas: 43 40

Algunas aplicacionesAlgunas aplicaciones

1. Minería de datos aplicado al audio, por ejemplo: Detector de mentiras, Patrones secuenciales aplicados a seguridad, etc.

2. Minería de datos aplicado a la calidad de datos

3. Minería de datos como parte del proceso ETL (Extraction, Trasnformation & Load en Data Warehousing)

4. Minería de datos aplicado a la exploración de cuencas petroleras

5. Minería de datos aplicado al tráfico de comunicaciones (Detección de fraudes)

6. Web mining (Entorno semiestructurado):1. Web usage mining: Análisis de logs de servidores para análisis del patrón de

recorrido y consumo del cybernauta [Ej: Amazon]2. Web content mining: hincapie en el contenido de los documentos3. Web structure mining: se enfoca la web como grafo dirigido (Page rank,

comunidades, etc)7. Entre otras…

1. Minería de datos aplicado al audio, por ejemplo: Detector de mentiras, Patrones secuenciales aplicados a seguridad, etc.

2. Minería de datos aplicado a la calidad de datos

3. Minería de datos como parte del proceso ETL (Extraction, Trasnformation & Load en Data Warehousing)

4. Minería de datos aplicado a la exploración de cuencas petroleras

5. Minería de datos aplicado al tráfico de comunicaciones (Detección de fraudes)

6. Web mining (Entorno semiestructurado):1. Web usage mining: Análisis de logs de servidores para análisis del patrón de

recorrido y consumo del cybernauta [Ej: Amazon]2. Web content mining: hincapie en el contenido de los documentos3. Web structure mining: se enfoca la web como grafo dirigido (Page rank,

comunidades, etc)7. Entre otras…

30/10/2006 Total de diapositivas: 43 41

TemarioTemario

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

1. ¿Qué es data mining?2. ¿Que no es data mining?3. Causas del surgimiento del data mining4. El proceso Knowledge Discovery in Databases (KDD)5. Contexto de las bases de datos frente al data mining6. Principales funciones del data mining7. Aplicaciones actuales8. Tendencias

30/10/2006 Total de diapositivas: 43 42

Alguna de las líneas en desarrolloAlguna de las líneas en desarrollo

1. Web mining:1. Algoritmos2. Semantic web

2. Minería de datos sobre data streams:1. Data streams propiamente dicho dentro del área de bases de datos2. Adecuación de funciones y algoritmos de data mining para data streams

considerando respuestas on line y off line

3. Text Mining:1. Problemática asociada al procesamiento del lenguaje natural2. Adecuación y desarrollo de algoritmos para entornos semiestructurados

1. Web mining:1. Algoritmos2. Semantic web

2. Minería de datos sobre data streams:1. Data streams propiamente dicho dentro del área de bases de datos2. Adecuación de funciones y algoritmos de data mining para data streams

considerando respuestas on line y off line

3. Text Mining:1. Problemática asociada al procesamiento del lenguaje natural2. Adecuación y desarrollo de algoritmos para entornos semiestructurados

30/10/2006 Total de diapositivas: 43 43

Muchas gracias por su atenciónMuchas gracias por su atención

Es solo el inicio…Es solo el inicio…