Talend Open Studio for Data Integration

13
Talend Open Studio for Data Integration Corso di Data Mining Alessandro Gonella

description

Presentazione delle caratteristiche di Talend Opend Studio

Transcript of Talend Open Studio for Data Integration

Page 1: Talend Open Studio for Data Integration

Talend Open Studio for Data Integration

Corso di Data Mining

Alessandro Gonella

Page 2: Talend Open Studio for Data Integration

ETLExtract, Transform, Load

● Selezionare solo dati di interesse per il sistema

● Normalizzare i dati (eliminando i duplicati)

● Tradurre dati codificati

● Derivare nuovi dati calcolati

● Eseguire accoppiamenti (join) tra dati da differenti

tabelle

Page 3: Talend Open Studio for Data Integration

Termini ricorrenti

Repository - locazione di storage

Progetto - collezione strutturata di oggetti

Workspace - directory dove vengono salvate tutte le cartelle del progetto

Job - rappresentazione grafica di componenti connessi assieme

Page 4: Talend Open Studio for Data Integration

Termini ricorrenti (2)

Oggetto - unità di base in un progetto

Componente - connettore preconfigurato usato per realizzare una specifica operazione di data integration

Page 5: Talend Open Studio for Data Integration

GUI

Page 6: Talend Open Studio for Data Integration

Job Design

● Rappresentazione grafica

● Creazione di processi di gestione del dataflow

● Gestione delle sorgenti dati

● Gestione degli output

● Gestione dei componenti

Page 7: Talend Open Studio for Data Integration

Sorgenti di dati

Palette o Repository?

● Database○ Parametri di connessione, schema○ SQL Builder (Dati estrapolati)

● File delimitato (CSV)○ Percorso del file○ Struttura (caratteri separatori, header)

Page 8: Talend Open Studio for Data Integration

Connessioni

● Row

○ Main, lookup, filter, rejects, errorReject, output

● Iterate

○ Iterazione su files o righe database

● Trigger

○ Nessun dato

○ Creazione di dipendenze tra Jobs

Page 9: Talend Open Studio for Data Integration

Componente tMap

● Gestione di Input/Output multipli

● Operazioni di trasformazione, concatenazione,

filtraggio...

● Utilizza le connessioni in entrata per stabilire gli schemi

dei dati

Page 10: Talend Open Studio for Data Integration

Componente tMap (2)

Page 11: Talend Open Studio for Data Integration

Componente tMap (3)● Join

○ Explicit Join, Inner Join

● Filtri

● Variabili

● Editor delle espressioni

○ Expression Builder

● Output

○ Schema da connessioni

○ Schema in tMap

Page 12: Talend Open Studio for Data Integration

Output

● Repository

● Palette

● Debug

○ tLogRow

Page 13: Talend Open Studio for Data Integration