Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag) [email protected].

Entendimiento de los Datos

Ing. Samuel Oporto Díaz (Mag)[email protected]

Mapa del Curso

Modelos de Clasificación

Fundamentos de Minería de Datos

Metodología CRIPS

Modelos de Predicción

Entendimiento de los datos

Preparación de los datos

Modelado

Tabla de Contenido

• Recolección de datos iníciales.

• Descripción de los datos. – Estadísticas descriptiva univariada– Estadísticas descriptiva multivariada– Relaciones entre series de datos

• Exploración de los datos.

• Verificación de la calidad de los datos.

Comprensión del negocio

Entendimiento de los datos

Preparación de los datos

Modelado

Evaluación

Despliegue de resultados

DATOS

Entendimiento de los Datos

Recolección de datos iníciales

Descripción de los datos

Exploración de los datos

Verificación de la _ calidad de los datos

univariadamultivariadaseries de datos

A

B

C

D

RECOLECCIÓN DE DATOS

1. Recolección de Datos

Tarea:• Los datos se recolectan en función a los objetivos del

problema de minería de datos.• Se recolectan los datos que están disponibles o son

accesibles por el equipo de proyecto.

Resultado:• Listado de datos que se puede usar el proyecto.• Estructura de los datos• Atributos considerados importantes.• Datos multimedia.

A B C D

Repositorio de datos

• Todos los datos deben ser recopilados, trasformados y almacenados para tenerlos en un medio uniforme.

textotexto

imagenimagen

sonidosonido

espacialespacial

Conocimiento no registrado

Conocimiento no registrado

Repositorio

cubos

tablas

Pre-procesamiento

ExtracciónRepresentación

Codificación

Recolección de Datos

• Sistemas transaccionales generan gran cantidad de datos• Múltiples fuentes de datos que no garantizan uniformidad.

• Datos generados en diferentes formatos (video, imagen, ..)• Datos generados en diferentes dominios del conocimiento• Datos no registrados

• Los datos no son analizados debido a: gran volumen, escasez de especialistas, baja productividad individual.

• Problemas con datos que no existen, no exactos o afectados por ruido.

Tipos de Datos

Tablas transaccionales. Imágenes

videoSeries de tiempo.

Texto

Voz

Data espacial (GIS)

Web Mining

Fuentes de Datos

OLTP tablas

OLAP cubos

texto

imagen

sonido

espacial

conocimiento

Datos Multimedia

Datos no estructurados

Datos Estructurados

DESCRIPCIÓN DE LOS DATOS

2. Descripción de los Datos

Tarea• Examinar las propiedades gruesas de los datos,

Resultados• Visualización de los datos, correlaciones (estadística)• Fuente de los datos y frecuencia de adquisición.• Si se trata de series de tiempos o datos seriados.• Formato de registro de los datos.

• Influencia de la medición (precisión, frecuencia)• Cantidad de datos (atributos y registros).• Valores no disponibles.

A B C D

ESTADÍSTICA DESCRIPTIVAUNIVARIADA

La forma.• Histogramas

• Caja de Puntos (Dot Plot)

• Gráfica de tallo y hojas (Stem & Leaf)

Estadísticos.• Medidas de tendencia

central (media, mediana, moda, suma)

• Medidas de dispersión (Varianza, STD, Máximo, Mínimo, Rango)

• Medidas de Posición (cuartiles)

• Medidas de Forma o distribución (Skewness, Kurtosis)

Descripción de los datos

Histogramas

• Representación pictórica de la distribución de frecuencias donde el número de casos por tipo se representa en el eje vertical (se llama gráfico de barras o diagrama de bloques).

• Los valores de las frecuencias de una cantidad son representados en rectángulos verticales. El ancho de los rectángulos es proporcional a la clase de intervalo que esta siendo considerado. El área de los rectángulos es proporcional a la frecuencia de ocurrencia.

Notas en el examen final

Caja de Puntos (Dot Plot)

• Un Dotplot es una alternativa al Histograma para mostrar datos continuos. Cada valor de los datos en mostrado como un punto en el eje horizontal.

• Cuando dos valores se separan por menos de un cierto espacio se apilan en una columna. Si el incremento es muy pequeño es imposible ver la forma de la distribución. Si el incremento es muy grande entonces sólo se obtiene una columna de puntos.

Peso de los alumnos

Gráfica de tallo y hojas (Stem & Leaf)

• Es un gráfico de puntos en el que el símbolo del punto es reemplazado por los valores de los datos

• En el gráfico un dato está separado en dos componentes - el tallo y las hojas. El tallo es escrito una vez, mientras que las hojas se repiten a lo largo del lugar según van apareciendo.

• Es igual que el histograma, pero se pueden recuperar los datos muestrales. Del histograma no se pueden recuperar.

Pesos de 15 varones adultos.165 178 185 169 152 180 175 189 195 200 183 191 197 208 179

Tallo: 2 primeros dígitos.Hoja: últimos dígitos.

Estadísticos

Medidas de Tendencia Central

Dan una idea del centro de la distribución de los datos, se pueden obtener desde el histograma.

• La media. Se suman los datos y se divide entre el número de ellos. Es el valor promedio de los datos.

• La media podada. Se calcula la media pero sin considerar un porcentaje de datos en cada extremo de la distribución.

n

xx

n

ii

1

Medidas de Tendencia Central

• La mediana. es el valor que separa por la mitad las observaciones ordenadas de menor a mayor. Si el número de datos es par se toma la media aritmética de los dos valores centrales.

• La moda. Es el valor que más veces se repite, aquella cuya frecuencia absoluta es mayor. Pueden ser varios.

Medidas de Dispersión

• Expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución.

• La varianza. Da una idea del grado de concentración de los datos con respecto a la media. Es el promedio de las desviaciones con respecto a la media:

• La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s.

n

xxn

ii

1

)(

Medidas de Dispersión

• Máximo. Es el máximo valor de la serie de datos.

• Mínimo. Es el mínimo valor de la serie de datos.

• El rango o amplitud. es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango mayor será la variabilidad.

0

10

20

30

40

50

60

70

0.3 1.3 2.3 3.3 4.3 5.3 6.3 7.3 8.3 9.3

0%

25%

50%

75%

100%

Medidas de Posición

Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales.

• Primer cuartil (Q1). El 25% de los datos.• Segundo cuartil (Q2), es la mediana.• Tercer cuartil (Q3). El 75 % de los datos.• Intervalo intercuartil: Q2 – Q3

Frecuencia relativa acumulada

Q1

Q2

Q3

Medidas de Posición

• Los Deciles: Son valores que dividen a la muestra en 10 partes iguales

• Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil.

• En particular, la mediana y los cuartiles son percentiles.• El primer cuartil es el percentil de 25%, la mediana es el

percentil del 50% y el tercer cuartil es el percentil del 75%.

Medidas de Forma

Informan acerca de la forma de la distribución.

• Skewness (Asimetría). Mide el nivel de asimetría que presenta el histograma. Indica si la cola más larga del histograma se encuentra desviada hacia la derecha (+), centrada o desviada hacia la izquierda (-).

Asimetría (-) Simétrica Asimetría (+)

Medidas de Forma

• Kurtosis (Apuntamiento). Indica si las colas del histograma tienen una altura superior, igual o inferior a la de una distribución normal.

Platicúrtica (K-) Mesocúrtica Leptocúrtica (K+)

ESTADÍSTICA DESCRIPTIVA MULTI-VARIADA

Datos Multi-variados

• Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas.

• Tablas de validación cruzada• Boxplot (Diagrama de Caja)• Scatterplot (Diagrama de Dispersión)

Tabla de validación cruzada

• Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Genero del entrevistado y su opinión con respecto a una ley del Gobierno.

• ¿Qué % de los entrevistados son mujeres que se abstienen de opinar?• De los entrevistados varones. ¿Qué % está en contra de la ley?• De los entrevistados que están a favor de la ley. ¿Qué % son varones?• De los que no se abstienen de opinar ¿Qué % son varones?

Tabla de validación cruzada

Variables cualitativas y cuantitativas

• La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa.

• El objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza.

• Cualitativa y Cuantitativa Boxplot (Diagrama de Caja)• 2 Cuantitativas Scatterplot (Diagrama de Dispersión)

Boxplot (Diagrama de Caja)

• Es el resumen de una distribución empírica, se representa por una caja rectangular sobre el intervalo inter-cuartil, prolongada por líneas hasta el primer y el noveno decil. Se dibuja también la mediana y a veces los valores extremos.

Scatterplot (Diagrama de Dispersión)

• Se usa para intentar reconocer si existe alguna relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Mid

e 1

87

cm

.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Mid

e 1

87

cm

.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Altura en cm.

Peso en Kg.

162 61

154 60

180 78

158 62

171 66

169 60

166 54

176 84

163 68

... ...

Diamond Plot (Diagrama de Diamante)

• Es similar a un boxplot, pero en lugar de presentar el intervalo intercuartil presente un intervalo de confianza.

• Cubre los datos entre el más y menos una desviación de estándar.

• Se usa para evaluar la eficacia de tratamientos (t-pruebas y F-pruebas)

• Media de la muestra. Línea horizontal en el diagrama.• Media de cada grupo. Es la línea horizontal en cada diamante.• Intervalo de confianza. Es el diamante por cada grupo.• Intervalo Intercuartil. Se puede adicionar la información del

intervalo intercuartil, representado por líneas verticales.

Comparación de diagramas

RELACIONES ENTRE SERIES DE DATOS

Coeficiente de Correlación

• El coeficiente de correlación de Pearson (rr), es una medida que representa el grado de asociación lineal entre dos variables cuantitativas X e Y.

• Sxx es la Suma de Cuadrados corregida de X• Syy es la Suma de Cuadrados corregida de Y• Sxy es la Suma de Productos de X e Y.• Tanto Sxx como Syy no pueden ser negativas, Sxy si puede

ser (+) o (-).• rr varia entre -1 y 1.

Modelo de Regresión Lineal

• Es un modelo de regresión mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales.

• Donde la variable Y es considerada como la variable dependiente y la variable X es considerada la variable independiente o predictora.

• α es el intercepto con Y, y β es la pendiente de la línea.• Los estimadores α y β son hallados usando el método de

mínimos cuadrados.

Modelo de Regresión Lineal

Interpretación de los coeficientes de regresión:• La pendiente β se interpreta como el cambio promedio en

la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional.

• El intercepto α indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0.

Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación de α.

Ejemplo

• El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden.

• Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa.

• Calcule al curva de regresión e interprete.

X(años) Y(ventas)3 94 126 167 198 23

12 2715 3420 3722 4026 45

Ejemplo

y = 1.5072x + 7.6614

R2 = 0.9675

0

5

10

15

20

25

30

35

40

45

50

0 5 10 15 20 25X(años)

Y(v

en

tas

)

EXPLORACIÓN DE DATOS

3. Exploración de los datos

• Visualizar los datos mediante, consultas y reportes.• El análisis se orienta a los objetivos del proyecto.• Se puede refinar los reportes y la descripción de los datos.• Se puede orientan las tareas posteriores de transformación

de datos.• Verificar si los datos son numéricos o categóricos.

A B C D

VERIFICAR LA CALIDAD DE LOS DATOS

4. Calidad de los Datos

Tarea.• Examinar la calidad de los datos, preguntando:

– Los datos son completos (cubren todos los casos requeridos)

– Existen valores perdidos, ¿cómo se representan?, ¿cuan frecuentes son?

– Existe ruido en los datos (¿qué atributos?)• Cuando los datos provienen de diferentes fuentes.

– ¿Los significados de los datos son iguales?– Tienen la misma unidad de medida.– Existen datos redundantes– Los datos son consistentes

A B C D

¿Cómo medimos la calidad de los datos?

• Exactitud (accuracy). La data fue registrada correctamente.

• Completo (completeness). Todos los datos relevantes fueron registrados.

• Unicidad (Uniqueness). No existe duplicidad.

• Puntualidad (timeliness). La información se encuentra actualizada.

• Integridad (integrity). Los datos son estructuralmente confiables.

• Consistencia (consistency). Los datos son consistente a través de diferentes fuentes de datos.

¿Dónde se originan los problemas?

• Los datos se ingresaron manualmente.• Entrada de datos en paralelo (duplicidad de datos).• Sincronización en el tiempo. ¿Los datos se relacionan con

la misma medida de tiempo?.• No se dispone del dato en el momento de registro.

• Datos heterogéneos. ¿Los estándares de formato y contenido no son uniformes?

• Datos por defecto. Registros por Internet, hojas de cálculo.• Definiciones diferentes. ¿Qué es un cliente, una cuenta, un

individuo, una familia?

• Errores de medida.

Problemas de calidad de datos

• Datos perdidos (null).• Datos con ruido.• Datos extremos.• Datos inconsistentes.

• Datos correlacionados (atributos).

• Datos duplicados (registros).

¿Cómo se hace para detectar estos casos?

Bibliografía

• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.

• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).

• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.

• Introducción a la minería de datos. J. Hernández, J. Ramírez.

PREGUNTAS

Mg. Samuel Oporto Díaz

[email protected]

http://www.wiphala.net/oporto

Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag) [email protected].

Documents

Transcript of Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag) [email protected].