Talend Open Studio for Data Integration

Post on 28-Jun-2015

918 views 3 download

description

Presentazione delle caratteristiche di Talend Opend Studio

Transcript of Talend Open Studio for Data Integration

Talend Open Studio for Data Integration

Corso di Data Mining

Alessandro Gonella

ETLExtract, Transform, Load

● Selezionare solo dati di interesse per il sistema

● Normalizzare i dati (eliminando i duplicati)

● Tradurre dati codificati

● Derivare nuovi dati calcolati

● Eseguire accoppiamenti (join) tra dati da differenti

tabelle

Termini ricorrenti

Repository - locazione di storage

Progetto - collezione strutturata di oggetti

Workspace - directory dove vengono salvate tutte le cartelle del progetto

Job - rappresentazione grafica di componenti connessi assieme

Termini ricorrenti (2)

Oggetto - unità di base in un progetto

Componente - connettore preconfigurato usato per realizzare una specifica operazione di data integration

GUI

Job Design

● Rappresentazione grafica

● Creazione di processi di gestione del dataflow

● Gestione delle sorgenti dati

● Gestione degli output

● Gestione dei componenti

Sorgenti di dati

Palette o Repository?

● Database○ Parametri di connessione, schema○ SQL Builder (Dati estrapolati)

● File delimitato (CSV)○ Percorso del file○ Struttura (caratteri separatori, header)

Connessioni

● Row

○ Main, lookup, filter, rejects, errorReject, output

● Iterate

○ Iterazione su files o righe database

● Trigger

○ Nessun dato

○ Creazione di dipendenze tra Jobs

Componente tMap

● Gestione di Input/Output multipli

● Operazioni di trasformazione, concatenazione,

filtraggio...

● Utilizza le connessioni in entrata per stabilire gli schemi

dei dati

Componente tMap (2)

Componente tMap (3)● Join

○ Explicit Join, Inner Join

● Filtri

● Variabili

● Editor delle espressioni

○ Expression Builder

● Output

○ Schema da connessioni

○ Schema in tMap

Output

● Repository

● Palette

● Debug

○ tLogRow