Limpieza de datos.
-
Upload
phi-requiem -
Category
Data & Analytics
-
view
473 -
download
0
Transcript of Limpieza de datos.
![Page 1: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/1.jpg)
Limpieza de datos la etapa previa al interrogatorio
![Page 2: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/2.jpg)
Según wikipedia
Limpieza de datos: es el acto de descubrimiento, corrección o eliminación de
datos erróneos de una base de datos.
Transformación de datos: En estadística, la transformación de datos se efectúa
para asegurarse así de que tienen una distribución normal (un remedio para los
valores atípicos, fallas de la normalidad, la linealidad, y homocedasticidad).
![Page 3: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/3.jpg)
Un excel sucio no causa
desastres...¿o sí?
![Page 4: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/4.jpg)
http://www.cnnexpansion.com/finanzas-personales/2012/01/04/londres-2012-sobrevende-10000-entradas
![Page 5: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/5.jpg)
Historias de horror
Los errores en los datos y en el
manejo de herramientas son tan
comunes que incluso existe una
organización llamada Grupo europeo
de evaluación de riesgos para hojas
de cálculo (ESRIG, por sus siglas en
inglés) y que hace recomendaciones
al usuario para evitar errores cuando
se usa una hoja de cálculo.
La ESRIG se encarga de rastrear
historias trágicas en el manejo de
datos. Si quieres saber más, visita
data errors in spreadsheets have led
to real consequences.
http://www.eusprig.org
![Page 6: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/6.jpg)
“Dirty Data”Generalmente es necesario realizar alguna limpieza a los
datos para obtener materia prima adecuada.
![Page 7: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/7.jpg)
Reconocimiento
Consiste en realizar un resumen de las características y observar el
modelo para verificar errores.
● Algunos aspectos pueden salir a simple vista
○ Cinco valores para el sexo
● Otros aspectos son más difíciles de encontrar, para ellos se usan
otras herramientas:
○ Histogramas, gráficas de dispersión
![Page 8: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/8.jpg)
![Page 9: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/9.jpg)
Valores faltantes
Causas:
Faltan valores relevantes porque no se
pudieron obtener
No existen los valores
Datos incompletos (varios orígenes)
Tratamiento
Ignorarlos
Eliminar toda la columna
Reemplazar el valor
Segmentar
Limpieza, integración y transformación
Evitar problemas ocasionados por datos faltantes, valores duplicados y datos incorrectos
Valores erróneos
Algunas veces no es un proceso trivial,
clasificar y agrupar pueden ayudar
Tratamiento:
Ignorar
Eliminar
Filtrar
Reemplazar
Discretizar
![Page 10: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/10.jpg)
Integración
Se puede dar de dos maneras:
Unificar dos o más objetos
Separar un objeto en dos o más
Ejemplos
Separar (nombres, apellidos)
Unificar formatos de fechas, sexo, estado
civil
Limpieza, integración y transformaciónTransformación
Es cualquier proceso que modifique la forma
de los datos
Crear nuevos atributos
Cambiar tipo de dato
Cambiar total o parcialmente una tabla
Ejemplos
convertir columna en tipo número o fecha
agregar columna edad basado en fecha de
nacimiento
nivel de estudio de una persona (sin estudio,
primaria, secundaria, universidad) se
![Page 11: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/11.jpg)
Tipos de datos
Carácter
por ejemplo para definir sexo (F,M)
Texto
el más común de todos
Boolean
(si, no), (verdadero, falso), (0,1)
Control de flujo
según la opción se toman unos u otros datos
Número
se puede hacer operaciones con ellos
Fecha
no siempre es lo que parece
![Page 12: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/12.jpg)
Siempre lleva una bitácora con todos los
cambios mantén una copia del archivo original
![Page 13: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/13.jpg)
Pero Phi… mi base tiene miles de
registros... ¿y ahora qué hago?
![Page 14: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/14.jpg)
Hora de ensuciarse las manosVeamos algunos ejemplos
![Page 15: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/15.jpg)
OpenRefinela lavadora de los datos
![Page 17: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/17.jpg)
Ahora sí a torturar esos datoshasta que nos digan la verdad
![Page 18: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/18.jpg)
Conclusiones¿qué opinas? ¿alguna duda?
![Page 19: Limpieza de datos.](https://reader035.fdocuments.net/reader035/viewer/2022081900/5a6d71d17f8b9ab3418b73b1/html5/thumbnails/19.jpg)
Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.
http://goo.gl/qupgNz