ETL – E xtract , T ransform , L oad nástroje .
description
Transcript of ETL – E xtract , T ransform , L oad nástroje .
ETL – Extract, Transform, Load nástroje.
Dušan MAĎAR | [email protected]
GN2GIF01
Mobilné geoinformačné technológie
Osnova prezentácie
• Úvod do problematiky
• Proces ETL
• Realizácia ETL
• ETL nástroje
• Informatica + Data Integrator
• CloverETL + Kettle
• GeoETL
• FME + GeoKettle
• Zhodnotenie
Úvod do problematiky
• ETL je na scéne už 20 rokov
• Extract – Clean – Transform – Load
• ETL = integračne transformačná vrstva
• periodické získavanie dát
Extrakcia dát
• identifikácia a získanie požadovaných dát
• extrakcia redundantných dát
• získanie dát z rôznych strategických
systémov
• nesmie ovplyvniť zdrojové systémy
• typy extrakcie
• notifikácia zmien
• extrakcia prírastkov
• úplná extrakcia
Čistenie dát
• najdôležitejšia fáza – zaisťuje kvalitu dát
• dáta sú „znečistené“ chybami, duplicitami,
...
• problematické odhalenie nepresností
• základné unifikačné pravidlá
• odstránenie rovnakých dát
• unikátne identifikátory
• štandardizácia chýbajúcich hodnôt
• validácia telefónnych čísiel, emailov,
adries, ...
• spätná väzba do zdrojových systémov
Transformácia dát
• iteračný proces spracovania
• súbor transformačných pravidiel
• konverzie jednotiek, matematické operácie,
denormalizácia, multidimenzionálne
štruktúry, ...
• výsledkom sú korektné a konsolidované dáta
s
maximálnou informačnou hodnotou
Načítanie dát
• naplnenie spracovaných dát do cieľového
systému
• dátový sklad
• databáza
• súbory (XSL, XML, CSV, ...)
• minimálne systémové nároky
• dávkové alebo jednotlivé načítanie
Realizácia ETL
• Skripty
• SQL, C++, Python
• minimálne počiatočné investície
• zložitá údržba
• Pokročilé GUI aplikácie
• forma CASE nástrojov
• rýchle a pohodlné
• drahé
ETL nástroje
• produktivita
• CASE
• flexibilita
• modularita
• výkon
• využitie HW a SW
• otvorenosť
• podpora širokého spektra formátov
• podpora metadát
Iformatica + Data Integrator• celopodniková
platforma
• ne/štruktúrované
dáta
• škálovateľnosť
• tímová práca
• E-LT architektúra
• deklaratívny návrh
• best practices
• real-time prenosy
CloverETL + Kettle
• Java, Eclipse™
• paralelné
spracovanie
• podpora formátov
• debugger a validátor
• 100% Java
• Big Data
• Administrácia
• cena
GeoETL = ETL + geografické dáta• tradičný ETL prístup so zameraním na
geodáta
• dátová a sémantická transformácia
• priama transformácia vs využitie pomocného
súboru
• najčastejšie operácie
• zmena projekcie, geometrie
• geokódovanie
• porovnávanie dátových zdrojov
• cieľom je interoperabilita geodát
FME + GeoKettle
• 250+ konvertorov
• CAD/GIS výmena
• ArcGIS
• transformácia
modelov
• 35+ databáz
• OGC štandardy
• možnosti filtrácie
• webové služby
Zhodnotenie
• overenie kvalitného ETL prináša čas
• pohodlný prístup k dátam
• vyhľadanie potrebných informácií
• integrácia GeoETL do súčasných GIS
• napr. ArcGIS Data Interoperability
• eliminácia podpory formátov
• Nedostupnosť príkladov využitia spatial ETL
• maximálne užívateľské dotazy na fórach
Záver
Ďakujem za pozornosť.