Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion...
Transcript of Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion...
![Page 1: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/1.jpg)
MINERÍA DE DATOS
weblidi.info.unlp.edu.ar/catedras/MD_SI/
Prof. Laura Lanzarini
![Page 2: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/2.jpg)
Extracción de conocimiento en BBDD 2
A fines de los ‘80 apareció un nuevo campo de investigación llamado KDD (Knowledge Discovery in Databases)
KDD es el proceso no trivial de identificar patrones
a partir de los datos con las siguientes características:
Válidos
Novedosos
Potencialmente útiles
Comprensibles
![Page 3: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/3.jpg)
Cómo obtener conocimiento?
PATRONES
y MODELOS
![Page 4: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/4.jpg)
Aplicaciones 4
Análisis de bases de datos y soporte de decisiones
Análisis y gestión de mercado
Detección de Fraudes
Análisis de riesgo crediticio
Otras Aplicaciones
Minería de Texto
Minería de Datos en educación
Data Stream Mining
![Page 5: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/5.jpg)
Minería de Datos vs otras disciplinas
Los sistemas tradicionales de explotación de datos están basados en la existencia de hipótesis o modelos previos.
Problemas
Quien formula la hipótesis debe saber cuál es la información que necesita.
La complejidad de los datos almacenados y sus interrelaciones dificulta la verificación del modelo.
La Minería de Datos busca el descubrimiento del conocimiento sin una hipótesis preconcebida.
![Page 6: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/6.jpg)
Tipo de conocimiento a extraer 6
Descriptivo
Muestran nuevas relaciones entre las variables.
Pueden ser utilizadas para mejorar el modelo.
Ej: Reglas de asociación, correlaciones, etc.
Predictivo
En base al modelo que gobierna el sistema es posible predecir hechos futuros.
Soluciones basadas en Redes Neuronales y Algoritmos Genéticos ofrecen mejores resultados que los enfoques estadísticos.
Ej: Clasificación, Agrupamiento (clustering), etc.
![Page 7: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/7.jpg)
Ej.1 : Análisis de créditos bancarios
Reglas obtenidas
Si cuentas-Morosas > 0 entonces Devuelve-credito = no
Si Cuentas-Morosas=0 Y
[(Salario>2500) O (D-credito>10)] entonces
Devuelve-credito= si
IDC D-créditos
(años)
C-créditos
(pesos)
Salario
(pesos)
Casa
propia
Cuentas
Morosas
… Devuelve
crédito
101 15 60000 2200 Si 2 … no
102 2 30000 3500 Si 0 … Si
103 9 9000 1700 Si 1 … No
104 15 18000 1900 No 0 … Si
105 10 24000 2100 no 0 … No
… … … … … … … …
7
![Page 8: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/8.jpg)
Ejemplo 2
Se busca predecir si el tipo de fármaco que se
debe administrar a un paciente afectado de rinitis
alérgica es el habitual o no.
8
DrugY DrugC DrugX DrugA DrugB
![Page 9: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/9.jpg)
Ejemplo 2
Para ello se hará uso de la información disponible en los historiales
clínicos de pacientes atendidos previamente. Las variables que se
recogen son:
Age: Edad
Sex: Sexo
BP (Blood Pressure): Tensión sanguínea.
Cholesterol: nivel de colesterol.
Na: Nivel de sodio en la sangre.
K: Nivel de potasio en la sangre.
Cada paciente ha sido medicado con un único fármaco de entre
cinco posibles: DrugA, DrugB, DrugC, DrugX, DrugY.
9
![Page 10: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/10.jpg)
Ejemplo 2
Nro. Age Sex BP Colesterol Na K Drug
1 23 F HIGH HIGH 0,792535 0,031258 drugY
2 47 M LOW HIGH 0,739309 0,056468 drugC
3 47 M LOW HIGH 0,697269 0,068944 drugC
4 28 F NORMAL HIGH 0,563682 0,072289 drugX
5 61 F LOW HIGH 0,559294 0,030998 drugY
… … … … … … … …
… … … … … … … …
… … … … … … … …
197 16 M LOW HIGH 0,743021 0,061886 drugC
198 52 M NORMAL HIGH 0,549945 0,055581 drugX
199 23 M NORMAL NORMAL 0,78452 0,055959 drugX
200 40 F LOW NORMAL 0,683503 0,060226 drugX
10
El archivo contiene 200 muestras de pacientes atendidos previamente.
![Page 11: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/11.jpg)
Ej.2. Arbol de Clasificación
![Page 12: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/12.jpg)
Ej.2. Arbol simplificado
![Page 13: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/13.jpg)
Ejemplo: Seguridad en redes
Ataque Cantidad back. 300 guess_passwd. 8 imap. 1 ipsweep. 80 land. 1 loadmodule. 1 neptune. 2793 nmap. 21 normal. 4058 phf. 1 pod. 10 portsweep. 15 smurf. 2689 teardrop. 20
0
500
1000
1500
2000
2500
3000
3500
4000
4500
![Page 14: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/14.jpg)
Fases del proceso de KDD 14
![Page 15: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/15.jpg)
Fases del proceso de KDD
Depende del objetivo fijado
![Page 16: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/16.jpg)
Fases del proceso de KDD
Por qué es necesaria?
![Page 17: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/17.jpg)
Fase de Preparación de los Datos
La información almacenada siempre tiene
Datos faltantes
Valores extremos
Inconsistencias
Ruido
Tareas a realizar
Limpieza (ej: resolver outliers e inconsistencias)
Transformación (ej:discretización)
![Page 18: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/18.jpg)
Limpieza de los datos
En primer lugar, debe tenerse en cuenta que hay
distintos tipos de variables o atributos.
Para cada tipo se deberá realizar un análisis de
sus valores.
Luego, se procederá a limpiarlos
Eliminando los valores con ruido
Determinando que hacer con los valores nulos.
Eliminando inconsistencias
![Page 19: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/19.jpg)
Tipos de variables
Cuantitativas o numéricas
DISCRETAS (cant. de empleados, cant. de alumnos, etc)
CONTINUAS (sueldo, metros cuadrados, beneficios, etc)
Cualitativas o categóricas
NOMINALES: nombran al objeto al que se refieren sin poder establecer un orden (estado civil, raza, idioma, etc.)
ORDINALES: se puede establecer un orden entre sus valores (alto, medio, bajo, etc)
![Page 20: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/20.jpg)
Analizando los datos disponibles
Se busca determinar una primera medida de
calidad de los datos
Variables Categóricas
Análisis de frecuencia mediante histogramas o gráficos de
sectores permitirán detectar valores nulos o fuera de rango.
Variables Cuantitativas
Utilizar medidas tales como: mínimo, máximo, media,
varianza, moda, mediana, etc.
También pueden usarse gráficos como los diagramas de
cajas o los histogramas.
![Page 21: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/21.jpg)
Ejercicio Whisky.xls
Se ha relevado la siguiente información de 35
marcas de whisky
PRECIO: es el precio de una botella de whisky en
francos.
MALTA : es la graduación de malta en porcentaje
CATEGORIA : categoría comercial del whisky
AÑEJAMIENTO : Tiempo de añejamiento en meses
APRECIACION: Calificación de cada whisky por un
jurado de expertos catadores.
weblidi.info.unlp.edu.ar/catedras/MD_SI/
![Page 22: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/22.jpg)
Ejercicio Whisky.xls
¿Cuáles son las variables a analizar y cómo
clasificaría a c/u?
Indique al menos dos formas de graficar la
información de cada variable.
weblidi.info.unlp.edu.ar/catedras/MD_SI/
![Page 23: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/23.jpg)
Histograma Whisky.xls
Atributo PRECIO
Centro del Intervalo
Frecuencia
63,75 7
81,25 19
98,75 5
116,25 2
133,75 1
151,25 1
![Page 24: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/24.jpg)
Diagrama de Barras Whisky.xls
Atributo CALIDAD
![Page 25: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/25.jpg)
Diagrama de Caja Whisky.xls
Atributo PRECIO
Hay valores fuera
de rango?
RIC 18,5
min 45,25
max 119,25
Minimo 55
1er.Cuartil 73
2do.Cuartil 83
3er.Cuartil 91,5
Maximo 160
![Page 26: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/26.jpg)
¿Qué es un diagrama de cajas?
Es un gráfico que permite visualizar un conjunto
de valores.
Brinda información sobre los valores mínimo y
máximo y los cuartiles.
Permite determinar la existencia de valores
atípicos y la simetría de la distribución.
![Page 27: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/27.jpg)
¿Cómo se obtiene el diagrama de cajas?
Paso 1: Calcular la mediana
La mediana de una muestra es un valor numérico que
divide la muestra en dos partes con la misma cantidad
de elementos.
Cómo se calcula?
Primero hay que ordenar los valores de la muestra.
Luego, si la cantidad de elementos es impar, la mediana es
el elemento central de la muestra.
Si la cantidad de elementos es par, la mediana es el
promedio de los dos valores centrales.
![Page 28: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/28.jpg)
Ejemplo
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Calcular la mediana
![Page 29: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/29.jpg)
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Calcular la mediana
Ordenar la lista de valores
2 7 12 14 14 15 18 20 40
La cantidad de elementos es 9 (impar) por lo tanto el
valor que se encuentra en el centro de la muestra
ordenada es la mediana
![Page 30: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/30.jpg)
Ejemplo 2
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 18, 2, 20, 12
Calcular la mediana
Ordenar la lista de valores
2 7 12 14 15 18 20 40
La cantidad de elementos es 8 (par) por lo tanto la
mediana es el promedio de los dos valores centrales
es decir que su valor es (14+15)/2=14.5
![Page 31: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/31.jpg)
¿Cómo se obtiene el diagrama de cajas?
Paso 2: Calcular el 1er. y el 3er. cuartil
Los cuartiles son valores que dividen a la muestra en 4
partes con la misma cantidad de elementos.
Cómo se calcula el primer cuartil?
Tomar el primer segmento incluyendo la mediana si la
cantidad de elementos de la muestra original es impar, es
decir, si la mediana coincide con un valor de la muestra.
Repetir el mismo proceso utilizado para la calcular la
mediana.
Para el 3er.cuartil repetir el proceso con el 2do.
segmento
![Page 32: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/32.jpg)
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Antes calculamos la mediana
Lista de valores ordenados
2 7 12 14 14 15 18 20 40
MEDIANA
Como la mediana es uno de los valores de la
muestra se incluye este valor en el segmento a
dividir.
![Page 33: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/33.jpg)
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Antes calculamos la mediana
Lista de valores ordenados
2 7 12 14 14 15 18 20 40
MEDIANA
Como la mediana es uno de los valores de la
muestra se incluye este valor en el segmento a
dividir.
![Page 34: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/34.jpg)
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Calcular el primer cuartil
2 7 12 14 14 15 18 20 40
1er.cuartil
![Page 35: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/35.jpg)
Ejemplo 1
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 14, 18, 2, 20, 12
Calcular el primer cuartil
2 7 12 14 14 15 18 20 40
3er.cuartil
![Page 36: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/36.jpg)
Ejemplo 2
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 18, 2, 20, 12
Antes calculamos la mediana
Lista de valores ordenados
2 7 12 14 15 18 20 40
MEDIANA = 14.5
Como la mediana NO es uno de los valores de la
muestra cada segmento tiene sólo 4 elementos.
![Page 37: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/37.jpg)
Ejemplo 2
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 18, 2, 20, 12
Calcular el primer cuartil
2 7 12 14 15 18 20 40
1er.cuartil = (7+12)/2 = 9,5
![Page 38: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/38.jpg)
Ejemplo 2
Se dispone de los siguientes valores de cierto
atributo 15, 14, 40, 7, 18, 2, 20, 12
Calcular el primer cuartil
2 7 12 14 15 18 20 40
3er.cuartil = (18+20)/2 = 19
![Page 39: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/39.jpg)
Diagrama de Caja
Calcular el diagrama de caja correspondientes a
los siguientes valores de cierto atributo
15, 14, 40, 7, 14, 18, 2, 20, 12
3er.cuartil 1er.cuartil
Mediana = 2do.cuartil
3er cuartil 18.00
Mediana 14.00
1er. cuartil 12.00
![Page 40: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/40.jpg)
Cómo se calculan los bigotes?
Calcular el Rango Intercuartil (RI)
RI = 3er.cuartil – 1er.cuartil
Los bigotes indican el rango de los valores de la
muestra comprendidos en el intervalo
[1er.cuartil – 1.5 * RI ; 3er.cuartil + 1.5 * RI]
![Page 41: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/41.jpg)
Diagrama de Caja
Dada la muestra 15, 14, 40, 7, 14, 18, 2, 20, 12
Luego RI = 18-12 = 6. Los bigotes cubren los
valores de la muestra entre 12-1.5*6=3 y
18+1.5*6=27.
El primer valor mayor que 3 es 7.
El primer valor inferior a 27 es 20.
3er cuartil 18.00
Mediana 14.00
1er. cuartil 12.00
![Page 42: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/42.jpg)
Diagrama de Caja
Calcular el diagrama de caja correspondientes a
los siguientes valores de cierto atributo
15, 14, 40, 7, 14, 18, 2, 20, 12
3er.cuartil 1er.cuartil
Mediana = 2do.cuartil
3er cuartil 18.00
Mediana 14.00
1er. cuartil 12.00
7 20
![Page 43: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/43.jpg)
Diagrama de Caja
Calcular el diagrama de caja correspondientes a
los siguientes valores de cierto atributo
15, 14, 40, 7, 14, 18, 2, 20, 12
3er.cuartil 1er.cuartil
Mediana = 2do.cuartil
3er cuartil 18.00
Mediana 14.00
1er. cuartil 12.00
7 20
Fuera de
rango
Fuera de
rango
![Page 44: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/44.jpg)
Ejemplo 2
Calcule el diagrama de caja de la muestra
15, 14, 40, 7, 18, 2, 20, 12
Antes vimos que
3er cuartil 19.00
Mediana 14.50
1er. cuartil 9.50
http://boxplot.tyerslab.com/
![Page 45: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/45.jpg)
BoxPlotR
http://boxplot.tyerslab.com/
![Page 46: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/46.jpg)
BoxPlotR
http://boxplot.tyerslab.com/
![Page 47: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/47.jpg)
BoxPlotR
http://boxplot.tyerslab.com/
![Page 48: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/48.jpg)
Limpieza - Variables con ruido
Las variables con ruido tendrán valores que caen
fuera del rango de sus valores esperados llamados
outliers.
Por qué se originan?
Error humano en la carga de datos (ej: una persona
puede aparecer con una altura de 5 metros).
Determinados cambios operacionales no han sido
registrados en el proceso.
Es preciso analizar los metadatos
![Page 49: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/49.jpg)
http://rapid-i.com
RAPID MINER HERRAMIENTA DE MINERÍA DE DATOS
![Page 50: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/50.jpg)
RAPID MINER
• Es un entorno para experimentación de análisis de
datos que posee implementadas distintas
estrategias de Minería de Datos.
• Es de distribución libre.
• Opera a través de la conexión de componentes
visuales.
![Page 51: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/51.jpg)
EJEMPLO : WHISKY.XLS
• Utilicemos Rapid Miner para analizar la información disponible.
• Antes de comenzar, asegúrese de que dispone del archivo WhiskyConFaltantes.xls.
• De no ser así, puede descargarlo de siguiente URL
weblidi.info.unlp.edu.ar/catedras/MD_SI/
![Page 52: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/52.jpg)
![Page 53: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/53.jpg)
![Page 54: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/54.jpg)
Read Excel
![Page 55: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/55.jpg)
Arrastrar y soltar
sobre el área Main
Process
![Page 56: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/56.jpg)
![Page 57: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/57.jpg)
whiskyConFaltantes.xls
![Page 58: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/58.jpg)
![Page 59: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/59.jpg)
![Page 60: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/60.jpg)
El paso 2 permite elegir la hoja con
los datos cargar dentro del archivo
Excel.
Como es la correcta, no es
necesario indiciar nada aquí
![Page 61: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/61.jpg)
Seleccione Name
![Page 62: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/62.jpg)
Cada variable tiene
su tipo identificado.
Verifique que aquí
aparecen los nombres de
los atributos
![Page 63: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/63.jpg)
Para armar algunos
modelos es preciso
indicar cual es el
atributo que identifica
la clase
Quite el tilde Cambiar a
Polynominal
![Page 64: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/64.jpg)
![Page 65: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/65.jpg)
Conectar y ejecutar
Permiten alternar entre los
datos y el proceso
![Page 66: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/66.jpg)
![Page 67: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/67.jpg)
Limpieza - Valores faltantes
Qué hacer con los valores nulos?
Ignorar la tupla.
Rellenar la tupla manualmente.
Usar una constante global para rellenar el valor nulo.
Utilizar el valor de la media u otra medida de centralidad para rellenar el valor.
Utilizar el valor de la media u otra medida de centralidad de los objetos que pertenecen la misma clase.
Utilizar alguna herramienta de Minería de Datos para calcular el valor más probable.
![Page 68: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/68.jpg)
Reemplazando los valores faltantes
![Page 69: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/69.jpg)
Reemplazando los valores faltantes
Falta configurarlo
![Page 70: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/70.jpg)
Reemplazando los valores faltantes
Operación a realizar
![Page 71: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/71.jpg)
Reemplazando los valores faltantes
Verifique que no hay datos faltantes
![Page 72: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/72.jpg)
Diagrama de Cajas (Quartile Color)
¿Puede afirmarse
que la Calidad 3
tiene más
ejemplos que la
Calidad 2?
![Page 73: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/73.jpg)
Atributo CATEGORIA
Utilice el operador
MAP
![Page 74: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/74.jpg)
Atributo CATEGORIA
Falta configurar
![Page 75: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/75.jpg)
Atributo CATEGORIA
![Page 76: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/76.jpg)
Atributo CATEGORIA
Verifique los resultados
![Page 77: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/77.jpg)
Transformación de atributos
Es una de las etapas más importantes porque de
ella depende el éxito del proceso.
Los atributos serán transformados según las
necesidades del algoritmo a aplicar.
Es probable que deban derivarse variables nuevas.
También es posible que se reduzcan variables
convirtiéndolas en información más significativa.
![Page 78: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/78.jpg)
Transformación de atributos
Reducción de dimensionalidad
Cambia el espacio de entrada por otro que tiene
menor dimensión.
Se busca mejorar la relación entre la cantidad de
ejemplos y la cantidad de atributos.
Ejemplos
Análisis de componentes principales (PCA)
Red SOM (self-organizing maps)
![Page 79: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/79.jpg)
Transformación de atributos
Aumento de la dimensionalidad a través de la
creación de características
Atributos numéricos : se utiliza suma, resta, producto,
división, máximo, mínimo, media, cuadrado, raíz cuadrada,
seno, coseno, etc.
Fechas: brindan poca información si se las usa directamente.
«Fecha»
03/09/2012
«Mes» : 9
«DiaSem» : lunes
«DiaHabil» : TRUE
![Page 80: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/80.jpg)
Transformación de atributos
Aumento de la dimensionalidad a través de la
creación de características
Atributos nominales:
Se utilizan las operaciones lógicas, igualdad o
desigualdad, condiciones M-de-N (TRUE si al menos M
de las N condiciones son verdaderas).
Se puede generar un valor numérico a partir de
valores nominales, por ejemplo, las variables X-de-N
(retorna el entero X de las N condiciones que son
ciertas)
![Page 81: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/81.jpg)
Ejemplo de creación de atributos
Atributo derivado Fórmula
Indice de obesidad Altura2 / peso
Hombre familiar Casado, varón e (hijos > 0)
Síntomas SARS 3-de-5 (fiebre alta, vómitos, tos, diarrea, dolor de
cabeza)
Riesgo de póliza X-de-N (edad<25, varón, años que conduce<2, vehículo
deportivo)
Beneficios Brutos Ingresos – Gastos
Beneficios netos Ingresos – Gastos – Impuestos
Desplazamiento Pasajeros * kilómetro
Duración media Segundos de llamada / número de llamadas
Densidad Población / Area
Retardo compra Fecha compra – Fecha campaña
![Page 82: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/82.jpg)
Generando un nuevo atributo
Generemos un nuevo atributo
utilizando el componente
Generate Attributes
![Page 83: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/83.jpg)
Operador Generate Attributes
Antes de
ejecutarlo haga
click aquí para
configurarlo
Generando un nuevo atributo
![Page 84: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/84.jpg)
Generación de un nuevo atributo
Nombre del
nuevo atributo
definición
![Page 85: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/85.jpg)
Generación de un nuevo atributo
if (Precio<=100,"NO","SI")
![Page 86: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/86.jpg)
Histograma del atributo generado
![Page 87: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/87.jpg)
Ejercicio
El atributo Precio presenta valores fuera de rango
extremos.
Genere un nuevo atributo VALOR que contenga los
mismos valores que el atributo Precio salvo que en
caso de ser un valor extremo cambiará su valor por
el más cercano dentro de la muestra que no se
encuentre fuera de rango.
![Page 88: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/88.jpg)
Transformación de atributos
Discretización
Convierte un valor numérico en un nominal ordenado
(que representa un intervalo o "bin")
Ejemplo: Podemos transformar
la edad de la persona en categorías: [0,12] niño,
(12-21) joven, [21,65] adulto y >65 anciano.
La calificación de un alumno en: [4,10] aprobado o
[0,4) desaprobado
![Page 89: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/89.jpg)
Transformación de atributos
Discretización
Puede discretizarse en un número fijo de intervalos. El
ancho del intervalo se calcula
Dividiendo el rango en partes iguales
Dividiendo la cantidad de ejemplos en partes iguales
(igual frecuencia)
También puede definirse la cantidad de elementos por
intervalo
![Page 90: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/90.jpg)
Discretización en Rapid Miner
Discretización por
intervalos (bins)
iguales
![Page 91: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/91.jpg)
Discretización en 4 intervalos
Discretize by binning (number of bins = 4)
![Page 92: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/92.jpg)
Discretización en 4 intervalos
Discretize by binning (number of bins = 4)
![Page 93: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/93.jpg)
Discretización en Rapid Miner
Discretización por
frecuencia
![Page 94: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/94.jpg)
Discretización en 4 intervalos
Discretize by frequency (number of bins = 4)
![Page 95: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/95.jpg)
Discretización en 4 intervalos
Discretize by frequency (number of bins = 4)
![Page 96: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/96.jpg)
Discretización en Rapid Miner
Discretización
indicada por el
usuario
![Page 97: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/97.jpg)
Discretize by User Specification
![Page 98: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/98.jpg)
Discretize by User Specification
![Page 99: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/99.jpg)
Discretización en 3 intervalos
Discretize by User Specification
![Page 100: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/100.jpg)
Discretización en 3 intervalos
![Page 101: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/101.jpg)
Transformación de atributos
Numerización
En ocasiones los atributos nominales u ordinales deben
convertirse en números.
Para los nominales suele utilizarse una representación
binaria y para los ordinales suele utilizarse una
representación entera.
Es importante considerar que si se numeran en forma
correlativa los valores de un atributo nominal se
agrega un orden que originalmente no está presente
en la información disponible.
![Page 102: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/102.jpg)
Conversión de tipos con RM
![Page 103: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/103.jpg)
Nominal de Numérico
Indica el tipo de
codificación a utilizar
![Page 104: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/104.jpg)
Transformación de atributos
Normalización
Se aplica según el modelo que se va a construir.
La más común es la normalización lineal uniforme
Es muy sensible a valores fuera de rango (outliers).
Si se recortan los extremos se obtiene valor negativos
y/o mayores a 1.
![Page 105: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/105.jpg)
Transformación de atributos
Normalización
Existen otras transformaciones. Por ejemplo, si los datos
tienen distribución normal se pueden tipificar
De esta forma los datos se distribuyen normalmente
alrededor de 0 con desviación 1.
![Page 106: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/106.jpg)
Normalización
![Page 107: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/107.jpg)
Normalización usando RM
Indica el método a
aplicar
![Page 108: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/108.jpg)
Relación de Atributos
Puede utilizarse el operador Correlation Matrix
para calcular la matriz de correlación.
![Page 109: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/109.jpg)
Matriz de Correlación
Antes de utilizarlo numerizamos el atributo
CATEGORIA utilizando una representación de
entero único.
![Page 110: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/110.jpg)
Matriz de correlación
Qué significa?
Para obtener esta matriz todos los atributos deben ser
numéricos y ninguno debe estar seleccionado como label
![Page 111: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/111.jpg)
Correlación con el atributo label
Una forma alternativa de obtener el coeficiente de
correlación con el atributo que indica la clase
![Page 112: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/112.jpg)
Correlación con el atributo label
Whisky.xls
![Page 113: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/113.jpg)
Correlación con el atributo label
El atributo CALIDAD fue el seleccionado como label
![Page 114: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/114.jpg)
Coeficiente de correlación lineal
![Page 115: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/115.jpg)
Covarianza y desvío estandar
![Page 116: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/116.jpg)
![Page 117: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/117.jpg)
Coeficiente Chi cuadrado
Permite comparar dos variables cualitativas
![Page 118: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/118.jpg)
Caso Whisky – Coef. Chi2
Valores OBSERVADOS
Categ \ Calidad 0 1 2 3 4 CATEG
Estandard 0 2 7 5 3 17
Lujo 4 0 5 2 0 11
Pura_Malta 1 0 1 3 2 7
CALIDAD 5 2 13 10 5 35
![Page 119: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/119.jpg)
Caso Whisky – Coef. Chi2
Valores ESPERADOS
Categ \ Calidad 0 1 2 3 4 CATEG
Estandard 2.43 0.97 6.31 4.86 2.43 17
Lujo 1.57 0.63 4.09 3.14 1.57 11
Pura_Malta 1 0.40 2.60 2 1 7
CALIDAD 5 2 13 10 5 35
![Page 120: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/120.jpg)
Caso Whisky – Coef. Chi2
Valores ESPERADOS
Categ \ Calidad 0 1 2 3 4 CATEG
Estandard 2.43 0.97 6.31 4.86 2.43 17
Lujo 1.57 0.63 4.09 3.14 1.57 11
Pura_Malta 1 0.40 2.60 2 1 7
CALIDAD 5 2 13 10 5 35
13*17/35 = 6.31
10*11/35 = 3.14 2*7/35 = 0.40
![Page 121: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/121.jpg)
Caso Whisky – Coef. Chi2
![Page 122: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/122.jpg)
Coeficiente Chi2 en RP
![Page 123: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/123.jpg)
Caso Whisky – Coef. Chi2 con RP
Verifique que la
etiqueta (label)
CALIDAD sea
cualitativa
![Page 124: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/124.jpg)
Caso Whisky – Coef. Chi2 con RP
Ejecute y verifique
![Page 125: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/125.jpg)
Caso Whisky – Coef. Chi2 con RP
Ejecute y verifique
![Page 126: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/126.jpg)
Fases del proceso de KDD
Pasemos a la fase de modelado
![Page 127: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/127.jpg)
Fase de Modelado
Es la fase central del descubrimiento del
conocimiento.
Se usan los datos procesados previamente y se les
aplican los algoritmos de búsqueda del
conocimiento.
Hay distintos tipos de algoritmos según el modelo
que se desee obtener.
La elección del algoritmo a aplicar depende del
tipo de problema de resolver.
![Page 128: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/128.jpg)
Ej.de problemas de Data Mining
Predecir el nivel de morosidad de un cliente.
Saber quienes son mis clientes.
Encontrar el perfil del comprador del producto A.
Encontrar los síntomas de enfermedades que suelen aparecen juntos.
Encontrar las características de la población fumadora.
Detectar alumnos en escuelas con alto riesgo de fracaso escolar.
![Page 129: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/129.jpg)
Clasificación de problemas
Problemas descriptivos: Aquellos cuya meta es
encontrar una descripción de los datos en estudio
Ejemplos: cuales son los clientes de una organización,
qué productos habitualmente se compran juntos.
Problemas Predictivos : Aquellos que buscan
obtener un modelo que en un futuro pueda ser
aplicado para predecir comportamiento
Ejemplo: poder predecir si un cliente nuevo que llega al
banco pidiendo un préstamo va a devolverlo o no.
![Page 130: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/130.jpg)
Tipos de problemas descriptivos
Problemas de Clustering
Buscan agrupar los datos de manera de formar grupos
lo más homogéneos que sea posible.
Ejemplo: Hallar el perfil de los clientes del producto A.
Problemas de asociación
Buscan obtener relaciones entre los valores de los
atributos de una base de datos.
Ejemplo: Qué productos se compran juntos?
![Page 131: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/131.jpg)
Tipos de problemas predictivos
Problemas de clasificación
Aquellos en los que la variable a predecir tiene un número finito de valores (variable categórica).
Ejemplo: se busca obtener un modelo que dado un nuevo cliente pueda clasificarlo como “bueno”, “regular” o “malo”.
Problemas de predicción de valores
Aquellos en los que la variable a predecir es numérica.
Ejemplo: Obtener un modelo que dado un paciente nuevo determine la probabilidad de que tenga cierta enfermedad.
![Page 132: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/132.jpg)
Técnicas para problemas descriptivos
Problemas de Clustering
K – Medias
Redes Neuronales SOM (self-organizing maps)
Problemas de asociación
Reglas de Asociación
Arboles de decisión
![Page 133: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/133.jpg)
Técnicas para problemas predictivos
Problemas de clasificación
Arboles de clasificación
Reglas de clasificación
Redes Neuronales
Problemas de predicción de valores
Redes Neuronales con entrenamiento por
gradiente.
![Page 134: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/134.jpg)
134
Técnicas de Minería de Datos
Analizaremos
Arboles de decisión
Reglas de clasificación y asociación
Redes Neuronales
Técnicas de clustering
![Page 135: Minería de Datos Inteligente - III-LIDIweblidi.info.unlp.edu.ar/catedras/MD_SI/01_Extraccion de... · Extracción de conocimiento en BBDD 2 A fines de los ‘80 apareció un nuevo](https://reader031.fdocuments.net/reader031/viewer/2022022516/5b01386a7f8b9a6a2e8df041/html5/thumbnails/135.jpg)
Fases del proceso de KDD
Es un proceso iterativo que puede
llevar a repetir las fases anteriores