ETL – E xtract , T ransform , L oad nástroje .

15
ETL Extract, Transform, Load nástroje. Dušan MAĎAR | [email protected] GN2GIF01 Mobilné geoinformačné technológie

description

ETL – E xtract , T ransform , L oad nástroje. Mobilné geoinformačné technológie. Dušan MAĎAR | [email protected]. GN2GIF01. Ú vod do problematiky Proces ETL Realizácia ETL ETL nástroje Informatica + Data Integrator CloverETL + Kettle GeoETL FME + GeoKettle Zhodnotenie. - PowerPoint PPT Presentation

Transcript of ETL – E xtract , T ransform , L oad nástroje .

Page 1: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

ETL – Extract, Transform, Load nástroje.

Dušan MAĎAR | [email protected]

GN2GIF01

Mobilné geoinformačné technológie

Page 2: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Osnova prezentácie

• Úvod do problematiky

• Proces ETL

• Realizácia ETL

• ETL nástroje

• Informatica + Data Integrator

• CloverETL + Kettle

• GeoETL

• FME + GeoKettle

• Zhodnotenie

Page 3: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Úvod do problematiky

• ETL je na scéne už 20 rokov

• Extract – Clean – Transform – Load

• ETL = integračne transformačná vrstva

• periodické získavanie dát

Page 4: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Extrakcia dát

• identifikácia a získanie požadovaných dát

• extrakcia redundantných dát

• získanie dát z rôznych strategických

systémov

• nesmie ovplyvniť zdrojové systémy

• typy extrakcie

• notifikácia zmien

• extrakcia prírastkov

• úplná extrakcia

Page 5: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Čistenie dát

• najdôležitejšia fáza – zaisťuje kvalitu dát

• dáta sú „znečistené“ chybami, duplicitami,

...

• problematické odhalenie nepresností

• základné unifikačné pravidlá

• odstránenie rovnakých dát

• unikátne identifikátory

• štandardizácia chýbajúcich hodnôt

• validácia telefónnych čísiel, emailov,

adries, ...

• spätná väzba do zdrojových systémov

Page 6: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Transformácia dát

• iteračný proces spracovania

• súbor transformačných pravidiel

• konverzie jednotiek, matematické operácie,

denormalizácia, multidimenzionálne

štruktúry, ...

• výsledkom sú korektné a konsolidované dáta

s

maximálnou informačnou hodnotou

Page 7: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Načítanie dát

• naplnenie spracovaných dát do cieľového

systému

• dátový sklad

• databáza

• súbory (XSL, XML, CSV, ...)

• minimálne systémové nároky

• dávkové alebo jednotlivé načítanie

Page 8: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Realizácia ETL

• Skripty

• SQL, C++, Python

• minimálne počiatočné investície

• zložitá údržba

• Pokročilé GUI aplikácie

• forma CASE nástrojov

• rýchle a pohodlné

• drahé

Page 9: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

ETL nástroje

• produktivita

• CASE

• flexibilita

• modularita

• výkon

• využitie HW a SW

• otvorenosť

• podpora širokého spektra formátov

• podpora metadát

Page 10: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Iformatica + Data Integrator• celopodniková

platforma

• ne/štruktúrované

dáta

• škálovateľnosť

• tímová práca

• E-LT architektúra

• deklaratívny návrh

• best practices

• real-time prenosy

Page 11: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

CloverETL + Kettle

• Java, Eclipse™

• paralelné

spracovanie

• podpora formátov

• debugger a validátor

• 100% Java

• Big Data

• Administrácia

• cena

Page 12: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

GeoETL = ETL + geografické dáta• tradičný ETL prístup so zameraním na

geodáta

• dátová a sémantická transformácia

• priama transformácia vs využitie pomocného

súboru

• najčastejšie operácie

• zmena projekcie, geometrie

• geokódovanie

• porovnávanie dátových zdrojov

• cieľom je interoperabilita geodát

Page 13: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

FME + GeoKettle

• 250+ konvertorov

• CAD/GIS výmena

• ArcGIS

• transformácia

modelov

• 35+ databáz

• OGC štandardy

• možnosti filtrácie

• webové služby

Page 14: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Zhodnotenie

• overenie kvalitného ETL prináša čas

• pohodlný prístup k dátam

• vyhľadanie potrebných informácií

• integrácia GeoETL do súčasných GIS

• napr. ArcGIS Data Interoperability

• eliminácia podpory formátov

• Nedostupnosť príkladov využitia spatial ETL

• maximálne užívateľské dotazy na fórach

Page 15: ETL  –  E xtract ,  T ransform ,  L oad  nástroje .

Záver

Ďakujem za pozornosť.