Los informes son la capa visible …• Integración Datos no sólo en entornos
analíticos• Importancia de la Calidad
Extracción
Limpieza de Datos
Servidores
Red
Herramientas de OLAP / Business Intelligence / Cuadro de Mando
Transformación
Carga de Datos
Bases de Datos
Middleware
Data Marts Estructurados: Visión Completa
Aplicaciones: ERP,...
BBDD
Tiempo Real, WS, Http
Legacy
Ficheros: FF, XML
Integración + Calidad de
Datos
DWH
DM Compras
DM Financiero
DM Ventas
Diseño MapeosPerfilado de
Datos
ETL, Estandarización, Desduplicación
Almacenamiento:Agregación,
Indexación,...
ReplicaciónDistribución
AnálisisReporting
Cuadros Mando
Metadatos: Análisis Impacto, Linaje de datos, Auditoría, Monitorización, etc
Técnicas de Optimización Estructural y Física
Data Marts Staging Area
Data Warehouse Relacional Dimensional
Actualidad de Datos Agrupaciones basadas en tiempo
Tiem
po
Retención de Histórico Seguridad
EST
RU
CT
UR
AL
Posi
ción
Distribución
Acceso Navegación
Uso
Herramientas Rendimiento
Tamaño
Disponibilidad
Recuperación
FÍSI
CO
Impl
emen
taci
ón
DBMS
¿Cómo debe optimizarse cada almacén de datos en la
Implementación?
Mapeo de Datos Mapeo LÓGICO -
describe cómo ir desde donde se encuentra hasta donde quiere ir
Mapeo FÍSICO - Indica las rutas, baches, desvíos atajos de la
carretera TRANSPORTE -
Decida si está conduciendo un coche deportivo o un camión de recogida de chatarra
PLANIFICACIÓN - Indica cuándo saldrá y cuánto espera que le
lleve llegar al destino
Procesos y Estrategias de Carga del DWH
Soluciones de Extracción, Transformación y Carga de Datos (ETL)
Aproximación de primera generación (o crecimiento ‘casero’)
Mapean origen a destino con capacidades variables de transformación y limpieza
Generan código o directamente deben programarse
Suelen controlar metadatos limitados
FUENTE: Doug Hackney, 1998
Plataformas de Integración de Datos
Soluciones integradas Capacidad de implantación a nivel corporativo Metadatos completos, abiertos y extensibles Abanico de transformaciones y reglas de negocio Análisis, entrega y planificación integradas Gestión Ad-hoc de agregaciones Monitorización y Auditoría integradas Funciones avanzadas de Calidad de Datos Versionados, despliegues inteligentes
Def Origen
2. IMPORTACIÓN DE DEFICIONES DE ORÍGENES
Def Destino3. CREACIÓN DE ESQUEMADESTINO
Mapeo
4. CREACIÓN DE MAPPINGS
Proceso de Diseño
1. CREACIÓN DE REPOSITORIO
Transformaciones Más Comunes Creación de valores por defecto para los nulos Gestión de fechas Selección o filtrado de datos origen Unión de orígenes heterogéneos
(SAP+Ficheros+Tablas+…) Normalización de los ficheros de datos Generación de esquemas en estrella Creación de estrategias de actualización Creación y actualización de agregaciones Creación de dimensiones ‘slowly-changing’
Algunas TransformacionesSelección de datos del Origen representa la consulta o primer filtrado/ordenación de los datos origen
Normalización convierte registros de orígenes relacionales o VSAM a registros normalizados (cláusulas OCCURS, REDEFINES)
Cálculo de Expresiones/Nuevos Campos realiza cálculos a nivel de campoFiltro funciona como un filtro condicional de los registros procesadosAgregación realiza cálculos agregados (totales o incrementales)Rango limita los registros a los primeros o últimos de un rangoEstrategia de Actualización para marcar cada registro como inserción, actualización, borrado, o registro rechazadoLookup busca valores complementarios y los pasa a otros objetosProcedimientos Externos/Almacenados llama a programas desarrollados en otros lenguajes o en la base de datosGenerador de Secuencia genera nuevos identificadores únicos
Trabajo con Transformaciones
DESTINOESTRATEGIA DE ACTUALIZACIÓNBasado en la coincidencia de Job_IDs,
LOOKUPBusca Job_IDs en el destinoT_JOBS
ORIGENEXTRACCIÓNDEL ORIGEN
Ejemplo: Estrategia de Actualización
Diseño de Cargas
Ordene los datos por secuencias específicas de carga
Fuerce a reglas limitadas de integridad de datos Busque la carga correcta de cada paso Construya estadísticas de carga y mensajes de
error Cree el plan para cargas fallidas – qué debe ocurrir Produzca la notificación inmediata y automática
en caso de fallos (y/o éxitos) en las cargas
FUENTE: O’Neil, 1997
Consejos sobre Planificación de Cargas Orden de carga – cargue primero las tablas independientes Determine la ventana necesaria de carga – use las horas de
inicio y final para determinar el tiempo necesario para las cargas
Ejecute cargas en paralelo Ejecución concurrente Uso de threads, desarrollos multiproceso, paralelización de
base de datos No sobrecargue los sistemas origen o destino
Carque en paralelo un mismo destino Datos de sistemas independientes que van al mismo destino
Cargue múltiples destinos en paralelo Datos del mismo origen que vayan a diferentes destinos –
ahorre accesos de lectura
Plan de Carga de Destinos
Primero, tablas independientes Después, tablas que no contienen claves foráneas
a otras tablas Por último, las tablas que contienen claves
foráneas a otras tablas Tenga cuidado con transacciones de base de
datos e intervalos de commit: los datos pueden estar cargados pero no validados
Timing
Ejecución manual Ejecución periódica
cada n minutos/horas/días un máximo de veces/ para siempre
Ejecución concreta En un momento determinado Cada primer martes de mes a las
21:43 Ejecución basada en eventos
Disponibilidad del fichero origen Sólo si la carga anterior acabó
bien/mal
Planificación de Cargas
Planificación Planificación propio de la herramienta
Planificador genérico Control^M, Tareas Programadas de Windows
Scripts de carga (.bat, .sh, JCL)
El mantenimiento de un data mart es una revisión constante de los procesos para optimizar valores de datos, pasos, tiempos, recursos utilizados, accesos a sistemas origen o destino … debido a los constantes requerimientos nuevos de los usuarios finales y el crecimiento en funcionalidad y volumen de datos que eso conlleva
Monitorización de Cargas
La Creación de un Data Warehouse Sostenible y sus Data Marts
Incrementales Requiere la Automatización
de los Procesos de Carga
Integración de Datos, más allá del BI
El ETL se ha quedado relegado a entornos analíticos
Aparecen necesidades de Integración de datos para otro tipo de proyectos Externalización Migraciones Integración de Aplicaciones, BBDD Sincronización etc
¿Un proceso simple?
ETL
Top Related