Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag) [email protected].
-
Upload
robertina-tobia -
Category
Documents
-
view
19 -
download
5
Transcript of Entendimiento de los Datos Ing. Samuel Oporto Díaz (Mag) [email protected].
Entendimiento de los Datos
Ing. Samuel Oporto Díaz (Mag)[email protected]
Mapa del Curso
Modelos de Clasificación
Fundamentos de Minería de Datos
Metodología CRIPS
Modelos de Predicción
Entendimiento de los datos
Preparación de los datos
Modelado
Tabla de Contenido
• Recolección de datos iníciales.
• Descripción de los datos. – Estadísticas descriptiva univariada– Estadísticas descriptiva multivariada– Relaciones entre series de datos
• Exploración de los datos.
• Verificación de la calidad de los datos.
Comprensión del negocio
Entendimiento de los datos
Preparación de los datos
Modelado
Evaluación
Despliegue de resultados
DATOS
Entendimiento de los Datos
Recolección de datos iníciales
Descripción de los datos
Exploración de los datos
Verificación de la _ calidad de los datos
univariadamultivariadaseries de datos
A
B
C
D
RECOLECCIÓN DE DATOS
1. Recolección de Datos
Tarea:• Los datos se recolectan en función a los objetivos del
problema de minería de datos.• Se recolectan los datos que están disponibles o son
accesibles por el equipo de proyecto.
Resultado:• Listado de datos que se puede usar el proyecto.• Estructura de los datos• Atributos considerados importantes.• Datos multimedia.
A B C D
Repositorio de datos
• Todos los datos deben ser recopilados, trasformados y almacenados para tenerlos en un medio uniforme.
textotexto
imagenimagen
sonidosonido
espacialespacial
Conocimiento no registrado
Conocimiento no registrado
Repositorio
cubos
tablas
Pre-procesamiento
ExtracciónRepresentación
Codificación
Recolección de Datos
• Sistemas transaccionales generan gran cantidad de datos• Múltiples fuentes de datos que no garantizan uniformidad.
• Datos generados en diferentes formatos (video, imagen, ..)• Datos generados en diferentes dominios del conocimiento• Datos no registrados
• Los datos no son analizados debido a: gran volumen, escasez de especialistas, baja productividad individual.
• Problemas con datos que no existen, no exactos o afectados por ruido.
Tipos de Datos
Tablas transaccionales. Imágenes
videoSeries de tiempo.
Texto
Voz
Data espacial (GIS)
Web Mining
Fuentes de Datos
OLTP tablas
OLAP cubos
texto
imagen
sonido
espacial
conocimiento
Datos Multimedia
Datos no estructurados
Datos Estructurados
DESCRIPCIÓN DE LOS DATOS
2. Descripción de los Datos
Tarea• Examinar las propiedades gruesas de los datos,
Resultados• Visualización de los datos, correlaciones (estadística)• Fuente de los datos y frecuencia de adquisición.• Si se trata de series de tiempos o datos seriados.• Formato de registro de los datos.
• Influencia de la medición (precisión, frecuencia)• Cantidad de datos (atributos y registros).• Valores no disponibles.
A B C D
ESTADÍSTICA DESCRIPTIVAUNIVARIADA
La forma.• Histogramas
• Caja de Puntos (Dot Plot)
• Gráfica de tallo y hojas (Stem & Leaf)
Estadísticos.• Medidas de tendencia
central (media, mediana, moda, suma)
• Medidas de dispersión (Varianza, STD, Máximo, Mínimo, Rango)
• Medidas de Posición (cuartiles)
• Medidas de Forma o distribución (Skewness, Kurtosis)
Descripción de los datos
Histogramas
• Representación pictórica de la distribución de frecuencias donde el número de casos por tipo se representa en el eje vertical (se llama gráfico de barras o diagrama de bloques).
• Los valores de las frecuencias de una cantidad son representados en rectángulos verticales. El ancho de los rectángulos es proporcional a la clase de intervalo que esta siendo considerado. El área de los rectángulos es proporcional a la frecuencia de ocurrencia.
Notas en el examen final
Caja de Puntos (Dot Plot)
• Un Dotplot es una alternativa al Histograma para mostrar datos continuos. Cada valor de los datos en mostrado como un punto en el eje horizontal.
• Cuando dos valores se separan por menos de un cierto espacio se apilan en una columna. Si el incremento es muy pequeño es imposible ver la forma de la distribución. Si el incremento es muy grande entonces sólo se obtiene una columna de puntos.
Peso de los alumnos
Gráfica de tallo y hojas (Stem & Leaf)
• Es un gráfico de puntos en el que el símbolo del punto es reemplazado por los valores de los datos
• En el gráfico un dato está separado en dos componentes - el tallo y las hojas. El tallo es escrito una vez, mientras que las hojas se repiten a lo largo del lugar según van apareciendo.
• Es igual que el histograma, pero se pueden recuperar los datos muestrales. Del histograma no se pueden recuperar.
Pesos de 15 varones adultos.165 178 185 169 152 180 175 189 195 200 183 191 197 208 179
Tallo: 2 primeros dígitos.Hoja: últimos dígitos.
Estadísticos
Medidas de Tendencia Central
Dan una idea del centro de la distribución de los datos, se pueden obtener desde el histograma.
• La media. Se suman los datos y se divide entre el número de ellos. Es el valor promedio de los datos.
• La media podada. Se calcula la media pero sin considerar un porcentaje de datos en cada extremo de la distribución.
n
xx
n
ii
1
Medidas de Tendencia Central
• La mediana. es el valor que separa por la mitad las observaciones ordenadas de menor a mayor. Si el número de datos es par se toma la media aritmética de los dos valores centrales.
• La moda. Es el valor que más veces se repite, aquella cuya frecuencia absoluta es mayor. Pueden ser varios.
Medidas de Dispersión
• Expresan el grado de concentración o dispersión de los datos con respecto al centro de la distribución.
• La varianza. Da una idea del grado de concentración de los datos con respecto a la media. Es el promedio de las desviaciones con respecto a la media:
• La desviación estándar es la raíz cuadrada positiva de la varianza y tiene la ventaja que está en las mismas unidades de medida que los datos. Se representa por s.
n
xxn
ii
1
)(
Medidas de Dispersión
• Máximo. Es el máximo valor de la serie de datos.
• Mínimo. Es el mínimo valor de la serie de datos.
• El rango o amplitud. es la diferencia entre el mayor y menor valor de la muestra. Mientras mayor sea el rango mayor será la variabilidad.
0
10
20
30
40
50
60
70
0.3 1.3 2.3 3.3 4.3 5.3 6.3 7.3 8.3 9.3
0%
25%
50%
75%
100%
Medidas de Posición
Los Cuartiles: Son valores que dividen a la muestra en 4 partes aproximadamente iguales.
• Primer cuartil (Q1). El 25% de los datos.• Segundo cuartil (Q2), es la mediana.• Tercer cuartil (Q3). El 75 % de los datos.• Intervalo intercuartil: Q2 – Q3
Frecuencia relativa acumulada
Q1
Q2
Q3
Medidas de Posición
• Los Deciles: Son valores que dividen a la muestra en 10 partes iguales
• Los Percentiles: Dado un cierto porcentaje 100p, donde p varía entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil.
• En particular, la mediana y los cuartiles son percentiles.• El primer cuartil es el percentil de 25%, la mediana es el
percentil del 50% y el tercer cuartil es el percentil del 75%.
Medidas de Forma
Informan acerca de la forma de la distribución.
• Skewness (Asimetría). Mide el nivel de asimetría que presenta el histograma. Indica si la cola más larga del histograma se encuentra desviada hacia la derecha (+), centrada o desviada hacia la izquierda (-).
Asimetría (-) Simétrica Asimetría (+)
Medidas de Forma
• Kurtosis (Apuntamiento). Indica si las colas del histograma tienen una altura superior, igual o inferior a la de una distribución normal.
Platicúrtica (K-) Mesocúrtica Leptocúrtica (K+)
ESTADÍSTICA DESCRIPTIVA MULTI-VARIADA
Datos Multi-variados
• Para organizar datos de dos variables categóricas o cualitativas se usan tablas de doble entrada. Los valores de una variable van en columnas y los valores de la otra variable van en filas.
• Tablas de validación cruzada• Boxplot (Diagrama de Caja)• Scatterplot (Diagrama de Dispersión)
Tabla de validación cruzada
• Los siguientes datos se han recopilados para tratar de establecer si hay relación entre el Genero del entrevistado y su opinión con respecto a una ley del Gobierno.
• ¿Qué % de los entrevistados son mujeres que se abstienen de opinar?• De los entrevistados varones. ¿Qué % está en contra de la ley?• De los entrevistados que están a favor de la ley. ¿Qué % son varones?• De los que no se abstienen de opinar ¿Qué % son varones?
Tabla de validación cruzada
Variables cualitativas y cuantitativas
• La forma estándar de presentar los datos es en columnas donde cada columna representa un valor de la variable cualitativa y los valores dentro de cada columna representan valores de la variable cuantitativa.
• El objetivo es comparar los valores de la variable cualitativa según los valores de la variable cuantitativa, esto se lleva a cabo con una técnica llamada análisis de varianza.
• Cualitativa y Cuantitativa Boxplot (Diagrama de Caja)• 2 Cuantitativas Scatterplot (Diagrama de Dispersión)
Boxplot (Diagrama de Caja)
• Es el resumen de una distribución empírica, se representa por una caja rectangular sobre el intervalo inter-cuartil, prolongada por líneas hasta el primer y el noveno decil. Se dibuja también la mediana y a veces los valores extremos.
Scatterplot (Diagrama de Dispersión)
• Se usa para intentar reconocer si existe alguna relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Mid
e 1
87
cm
.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
30
40
50
60
70
80
90
100
140 150 160 170 180 190 200
Mid
e 1
87
cm
.
Mide 161 cm.
Pesa 76 kg.
Pesa 50 kg.
Altura en cm.
Peso en Kg.
162 61
154 60
180 78
158 62
171 66
169 60
166 54
176 84
163 68
... ...
Diamond Plot (Diagrama de Diamante)
• Es similar a un boxplot, pero en lugar de presentar el intervalo intercuartil presente un intervalo de confianza.
• Cubre los datos entre el más y menos una desviación de estándar.
• Se usa para evaluar la eficacia de tratamientos (t-pruebas y F-pruebas)
• Media de la muestra. Línea horizontal en el diagrama.• Media de cada grupo. Es la línea horizontal en cada diamante.• Intervalo de confianza. Es el diamante por cada grupo.• Intervalo Intercuartil. Se puede adicionar la información del
intervalo intercuartil, representado por líneas verticales.
Comparación de diagramas
RELACIONES ENTRE SERIES DE DATOS
Coeficiente de Correlación
• El coeficiente de correlación de Pearson (rr), es una medida que representa el grado de asociación lineal entre dos variables cuantitativas X e Y.
• Sxx es la Suma de Cuadrados corregida de X• Syy es la Suma de Cuadrados corregida de Y• Sxy es la Suma de Productos de X e Y.• Tanto Sxx como Syy no pueden ser negativas, Sxy si puede
ser (+) o (-).• rr varia entre -1 y 1.
Modelo de Regresión Lineal
• Es un modelo de regresión mediante el cual es posible inferir datos acerca de una población. Se conoce como regresión lineal ya que usa parámetros lineales.
• Donde la variable Y es considerada como la variable dependiente y la variable X es considerada la variable independiente o predictora.
• α es el intercepto con Y, y β es la pendiente de la línea.• Los estimadores α y β son hallados usando el método de
mínimos cuadrados.
Modelo de Regresión Lineal
Interpretación de los coeficientes de regresión:• La pendiente β se interpreta como el cambio promedio en
la variable de respuesta Y cuando la variable predictora X se incrementa en una unidad adicional.
• El intercepto α indica el valor promedio de la variable de respuesta Y cuando la variable predictora X vale 0.
Si hay suficiente evidencia de que X no puede ser 0 entonces no tendría sentido la interpretación de α.
Ejemplo
• El dueño de una empresa que vende carros desea determinar si hay relación lineal entre los años de experiencia de sus vendedores y la cantidad de carros que venden.
• Los siguientes datos representan los años de experiencia (X) y las unidades de carros vendidas al año (Y), de 10 vendedores de la empresa.
• Calcule al curva de regresión e interprete.
X(años) Y(ventas)3 94 126 167 198 23
12 2715 3420 3722 4026 45
Ejemplo
y = 1.5072x + 7.6614
R2 = 0.9675
0
5
10
15
20
25
30
35
40
45
50
0 5 10 15 20 25X(años)
Y(v
en
tas
)
EXPLORACIÓN DE DATOS
3. Exploración de los datos
• Visualizar los datos mediante, consultas y reportes.• El análisis se orienta a los objetivos del proyecto.• Se puede refinar los reportes y la descripción de los datos.• Se puede orientan las tareas posteriores de transformación
de datos.• Verificar si los datos son numéricos o categóricos.
A B C D
VERIFICAR LA CALIDAD DE LOS DATOS
4. Calidad de los Datos
Tarea.• Examinar la calidad de los datos, preguntando:
– Los datos son completos (cubren todos los casos requeridos)
– Existen valores perdidos, ¿cómo se representan?, ¿cuan frecuentes son?
– Existe ruido en los datos (¿qué atributos?)• Cuando los datos provienen de diferentes fuentes.
– ¿Los significados de los datos son iguales?– Tienen la misma unidad de medida.– Existen datos redundantes– Los datos son consistentes
A B C D
¿Cómo medimos la calidad de los datos?
• Exactitud (accuracy). La data fue registrada correctamente.
• Completo (completeness). Todos los datos relevantes fueron registrados.
• Unicidad (Uniqueness). No existe duplicidad.
• Puntualidad (timeliness). La información se encuentra actualizada.
• Integridad (integrity). Los datos son estructuralmente confiables.
• Consistencia (consistency). Los datos son consistente a través de diferentes fuentes de datos.
¿Dónde se originan los problemas?
• Los datos se ingresaron manualmente.• Entrada de datos en paralelo (duplicidad de datos).• Sincronización en el tiempo. ¿Los datos se relacionan con
la misma medida de tiempo?.• No se dispone del dato en el momento de registro.
• Datos heterogéneos. ¿Los estándares de formato y contenido no son uniformes?
• Datos por defecto. Registros por Internet, hojas de cálculo.• Definiciones diferentes. ¿Qué es un cliente, una cuenta, un
individuo, una familia?
• Errores de medida.
Problemas de calidad de datos
• Datos perdidos (null).• Datos con ruido.• Datos extremos.• Datos inconsistentes.
• Datos correlacionados (atributos).
• Datos duplicados (registros).
¿Cómo se hace para detectar estos casos?
Bibliografía
• Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp.
• Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004).
• Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp.
• Introducción a la minería de datos. J. Hernández, J. Ramírez.
PREGUNTAS