Le processus ETL (Extraction, Transformation, Chargement)

11
BENTALBA Salah Eddine « Consultant IT » ETL (Extract,Transform and Load) Extraction, Transformation et Chargement

description

Présentation général des étapes du processus ETL (Extract,Transform, Load) d'un projet décisionnel. ETL, acronyme de Extraction, Transformation, Loading, est un système de chargement de données depuis les différentes sources d'information de l'entreprise (hétérogènes) jusqu'à l'entrepôt de données (modèles multidimensionnels).

Transcript of Le processus ETL (Extraction, Transformation, Chargement)

Page 1: Le processus ETL (Extraction, Transformation, Chargement)

BENTALBA Salah Eddine

« Consultant IT »

ETL (Extract,Transform and Load)

Extraction, Transformation et Chargement

Page 2: Le processus ETL (Extraction, Transformation, Chargement)

Staging

Source de données

ETLEntrepôt de

données

Le Process

us DataWareHouse

DataMarts

Page 3: Le processus ETL (Extraction, Transformation, Chargement)

Extraction

Méthodes de Chargement : Chargement initial (Full) et les chargements incrémentiels (Delta).

Full Load

Delta Load

Données Sources Données dans le staging

Page 4: Le processus ETL (Extraction, Transformation, Chargement)

Staging

Source de données ETL

Pull

Push

Push- Pull

Extraction

Etudier les sources pour définir sa stratégie de chargement.

Page 5: Le processus ETL (Extraction, Transformation, Chargement)

Extraction

Les questions à se poser selon la stratégie choisie pour définir les caractéristiques de votre système :

Quelle est la disponibilité de mes sources de données ?

Comment y accéder ?

Comment faire des chargements incrémentiels ?

Quel est le temps d'un chargement incrémentiel moyen, ai-je la possibilité de recharger des données dans le cas où mon processus de chargement échoue ?

Quelle politique vais-je utiliser dans le cas d'échec de chargement ?

Page 6: Le processus ETL (Extraction, Transformation, Chargement)

Transformation

Les questions à se poser avant de commencer cette étape :

Quels sont les champs les plus sujets à erreurs ?

Ai-je les moyens de corriger les erreurs automatiquement ?

Comment permettre à un utilisateur de corriger les erreurs ?

Quelle politique vais-je utiliser pour le traitement des erreurs (fichier log, table dans BD) ?

Comment montrer à l'utilisateur final que des données n'ont pas été totalement chargées à cause d'erreurs ?

Page 7: Le processus ETL (Extraction, Transformation, Chargement)

Transformation

Les données d’entrepôt doivent être :

Dé-normalisées Nettoyées

Contextualisées

Chargées en DW

Page 8: Le processus ETL (Extraction, Transformation, Chargement)

Load

Etape Critique.

Chargement des données dans l’entrepôt cible.

Utiliser une requête Insert SQL ou bien une insertion en bloc massif (bulk insert).

Des questions qu'il faut se poser lors de cette étape : Que faire si un chargement échoue ? Ai-je les moyens de revenir à l'état avant le

chargement ? Puis-je revenir dans le temps d'un chargement donné ? Comment valider mon chargement, comment détecter

les erreurs ?

Page 9: Le processus ETL (Extraction, Transformation, Chargement)

Métadonnées

Données décrivant l’environnement décisionnel.

Clé de réussite de tout projet décisionnel.

Assurent l'interopérabilité entre les systèmes.

Page 10: Le processus ETL (Extraction, Transformation, Chargement)

Quel Outil ?

Taille de l'entreprise

Taille de la structure

informatique

Culture d'entreprise

Maturité des solutions

Les éléments à prendre en compte dans le choix de votre ETL :

Page 11: Le processus ETL (Extraction, Transformation, Chargement)

Me Suivre Twitter.com/salahBentalba

Facebook.com/bentalba.Salaheddine

About.me/salaheddine.bentalba

slideshare.com/salahBentalba

Ma.linkedin.com/in/salaheddinebentalba