Informatique décisionnelle

Post on 20-Jan-2016

110 views 9 download

description

Informatique décisionnelle. Introduction à l’informatique décisionnelle. MOHAMED HAMOU. mohamed.hamou@gmail.com. L’information. • Nouvelle ressource des entreprises du XXIème siècle • Avec le temps, les entreprises produisent et manipulent de très importants volumes de données - PowerPoint PPT Presentation

Transcript of Informatique décisionnelle

Page : 1

Informatique décisionnelleInformatique décisionnelle

Introduction à l’informatique Introduction à l’informatique décisionnelledécisionnelle

mohamed.hamou@gmail.commohamed.hamou@gmail.com

MOHAMED HAMOUMOHAMED HAMOU

Page : 2

L’informationL’information

• Nouvelle ressource des entreprises du XXIème siècle

• Avec le temps, les entreprises produisent et manipulent de très importants volumes de données

• Ces données sont stockées dans les systèmes opérationnels de l’entreprise au sein de bases de données

Page : 3

Motivations des entreprisesMotivations des entreprises

• Besoin des entreprises

– accéder à toutes les données de l’entreprise – regrouper les informations disséminées

– analyser et prendre des décisions rapidement

• Exemples d’applications concernées

– Grande distribution : marketing, maintenance, … – Bancaire : suivi des clients, gestion de portefeuilles – Télécommunications : pannes, fraudes, mobiles, …

Page : 4

La prise de décision en entrepriseLa prise de décision en entreprise

• Une décision est le résultat d'un processus comportant le choix conscient entre plusieurs solutions, en vue d'atteindre un objectif.

• L'efficacité des services d'une entreprise dépend de la qualité de ses décisions.

– Améliorer l'habilité à prendre des décisions, c'est faire usage des ressources dont dispose l'entreprise.

Page : 5

Processus décisionnelProcessus décisionnel

Peut être découpé en cinq étapes

• 1) Définir le problème

• 2) Rassembler les faits et données

• 3) Evaluer et interpréter les faits et données

• 4) Etablir plusieurs solutions

• 5) Décider (choisir une solution)

Page : 6

Informatique décisionnelleInformatique décisionnelle

• La mise en place d’un système informatique décisionnelle a pour objectif de faciliter le décideur dans son processus de prise de décision.

• L’informatique permet d’accélérer drastiquement le temps de rassemblement des faits et données et leur interprétation

• C’est un ensemble d’outils qui ne remplace en aucun cas le décideur.

Page : 7

Système d’aide à la décisionSystème d’aide à la décision

• L’objectif est toujours d’automatiser/fiabiliser les tâches répétitives

Page : 8

Architecture des systèmes décisionnelsArchitecture des systèmes décisionnels

Sources Décideurs

Entrepôt de données

Referentiel

Extracteur

ExtracteurIn

tegr

ateu

r

Extracteur

Page : 9

Entrepôt de données : définitionEntrepôt de données : définition

Définition 1 (Goglin) : un entrepôt de données est un stockage intermédiaire de données issues des applications de production, dans lequel les utilisateurs finaux puisent avec des outils de restitution et d’analyse.

Définition 2 (Bill Inmon) : Un entrepôt de données est une collection de données thématiques, intégrées, non volatiles et historisées organisées pour la prise de décision.

Inmon et Codd sont considérés comme les auteurs du concept dans le début des années 90.

Page : 10

« Thématiques »« Thématiques »

• Thématique = "Orienté sujet " .

• Orienté par thème et non plus par fonction.

• Exemples :• Dans les bases de données opérationnelles : assurance vie, assurance automobile, paye, facturation.

• Dans les bases de données décisionnelles : client, produit, réseau de distribution, médicament, marché, absences, réussite.

• Ce côté est renforcé dans les magasins.

Page : 11

« Intégrées »« Intégrées »

• L’entrepôt n’est pas une concaténation des sources, les données sont sémantiquement intégrées.

• Exemples :

• Reconnaître qu’il s’agit de la même personne malgré un déménagement

• Reconnaître qu’il s’agit du même produit malgré des codes barres différents

• Remarque : très difficile, mais indispensable.

Page : 12

« Non volatiles, historisées »« Non volatiles, historisées »

• Pas de suppressions.

• Nécessité d’un référentiel de temps.

• L’historisation permet

• l’extrapolation,

• la mesure de l’impact d’une décision par comparaison de la situation avant et après la mise en application de cette décision.

• Exemple :

• Suivi des évolutions des comportements des clients.

Page : 13

« Agrégées »« Agrégées »

• Niveau de granularité.

•Exemple :

• Stockage de tous les appels téléphoniques pour un client

APPEL_TELEPHONIQUE (n° client, horo-date, durée, correspondant, étranger, etc...)

(300 clients, 200 tuples par client, 60000 tuples d’appels).

• Stockage agrégé par client sur 1 mois

APPEL_TELEPHONIQUE (n° client, mois, nombre d’appel, durée moyenne, nombres d’appels vers l’étranger)

(300 tuples d’appels).

Page : 14

« Prise de décision »« Prise de décision »

• Les systèmes " opérationnels " (ou de " production ", ou de " gestion "  ) sont dédiés aux métiers de l’entreprise pour les assister dans leurs tâches de gestion quotidiennes (et directement opérationnels).

ERP

• Les systèmes " décisionnels "   sont dédiés au management de l’entreprise pour l’aider au pilotage de l’activité (et indirectement opérationnels).

Ils offrent au décideur une vision transversale de l’entreprise.

DW

Page : 15

ExemplesExemples

• Suivi du comportement de la clientèle dans les télécommunications

• Nombre moyen d’heures par mois et par région,

• répartition des appels clients sur la semaine,

• Répartition des appels clients sur la journée,

• nombre moyen d’appels représentant 20% d’une facture,

• Durée moyenne d’une communication urbaine,

• Durée moyenne d’une communication internationale.

• Suivi du marché (lignes installées, désinstallées, services choisis, répartition géographique)

• Comportement du réseau (pannes)

Page : 16

ExemplesExemples

• Quel est le volume des ventes par produit, par région, pour le 3ième trimestre 2009 ?

• Quel est le volume des ventes de produits laitiers, pour la région parisienne, par an, pour les 5 dernières années ?

• Quel est le type de produits dont les ventes baissent constamment dans les 6 derniers mois de l’année en cours ?

• Est-ce qu’une baisse de 10% ferait redémarrer les ventes de disques ?

Page : 17

Différences transactionnel / décisionnelDifférences transactionnel / décisionnel

Transactionnel Décisionnel

Données - sur une période courte - historisées

- détaillées - agrégées

- personnelles - peuvent être anonymes

- mises à jour - recalculées

- temps de validité, de transaction

- temps de validité, de transaction, d’extraction

Traitements - requêtes simples - requêtes complexes

- répétitives - variées

- très sensible aux performances

- échelle de performance différente

Page : 18

Différences transactionnel / décisionnelDifférences transactionnel / décisionnel

Transactionnel Décisionnel

Conception - orientée fonction - orientée sujet

- relativement statique

- évolutif

Utilisateurs - agents opérationnels - manager

Nbres :

. utilisateurs - milliers - centaines

. tuples accédés - dizaines/centaines - millions

. base de données

- centaines de MB/GB

- centaines de GB/TB

Page : 19

Les sources de donnéesLes sources de données

• En général les "legacy systems", c'est-à-dire principalement les bases de données de production.

• exemples : factures, fichier des nouveaux clients.

• On extrait justement les données pour ne pas travailler directement sur les sources.

- "Décisionnel et transactionnel ne font pas bon ménage ",

- perturbations,

- supports physiques différents,

- outils et utilisateurs différents.

Page : 20

Les sources de donnéesLes sources de données

• Mais aussi des sources extérieures :

• météo,

• calendrier des jours fériés,

• cours de la bourse,

• Géographie (études épidémiologiques, accidents de la route),

• études INSEE.

• Vieilles sources.

Page : 21

L’extraction des donnéesL’extraction des données

• a pour but d'extraire les données et de les mettre dans un format commun.

• choisit d'extraire ce qui est nécessaire

• on n'importe pas la totalité des sources,

• satisfaire les "vues utilisateurs".

• applique une stratégie de rafraîchissement

• périodicité,

• ou déclenchement.

Page : 22

L’extraction des donnéesL’extraction des données

3 principales techniques :

• Ecrire des interfaces entre les sources et l'entrepôt,

• Exploiter les fonctionnalités de réplication offertes par les SGBD,

• loader, triggers, passerelles, copies, logs, vues, etc …

• Utiliser un outil ETL

• génère les programmes d'alimentation,

• peut gérer leur déroulement,

• intégration de données.

Page : 23

L’intégration des donnéesL’intégration des données

• Intégration des données dans l'entrepôt en résolvant les conflits entre les différentes sources d'information

• codages, fautes d'orthographe, etc…

• tables de conversion, etc …

ETUDIANTS nom sexe adresseFigue 1 ParisFraise 2 Toulouse

PROF nom sexe adresseFigue M 4, av. Foch ParisFraise F 4, av. Foch Paris

Page : 24

L’intégration des donnéesL’intégration des données

•Différence de codage:• sexe = M/F sexe = 1/2

•Différence d’unité• poids = 4000poids = 4• taille = 38 taille = 7

•Différence de granularité • heures travaillées = 35 heures travaillées = 150

•Différence de fraîcheur :• âge = 20 âge = 21

•Imprécision• poids = 54,2 poids = 54

•Erreur :• nom = « Clémentine » nom = « Clémentinne »

Page : 25

L’intégration des donnéesL’intégration des données

• Différence de contenu dans les textes libres :• adresse = « Père Noël, cercle polaire, Rovaniemi, Finlande »

adresse = « cercle polaire, Rovaniemi, Finlande »

• Différence d’expression dans les textes libres :• adresse = « 4 av. du gal Leclerc »   

adresse = « 4 avenue du général Leclerc »

• Différence linguistique de niveau de perception dans les textes libres :

• couleur = « rouge » couleur = « vermillon »

• prescription = « antibiotique » prescription = «pénicilline » 

Page : 26

L’intégration des donnéesL’intégration des données

• Exercice 1

VOITURE NUM COULEUR

1 AZUR

2 VIOLET

4 VERT

VOITURE NUM COULEUR

1 BLEU

2 BLEU

3 ROUGE

4 VERT

Intégration ?

Source 1

Source 2

Page : 27

L’intégration des donnéesL’intégration des données

• Exercice 2

Intégration ?

ETUDIANT NUM NOM SEXE POIDS

1 JEAN 1 54,2

2 LAURA 2 65,6

3 HENRI 1 48,4

ETUDIANT NUM NOM SEXE POIDS

1 JEAN M 54

2 LAURA F 66

3 HENRY M 48

4 FRED M 70

Source 1

Source 2

Page : 28

L’intégration des donnéesL’intégration des données

• Exercice 3ETUDIANT NUM NOM ADRESSE

1 JEAN 4 AV GAL DE GAULLE

2 SOPHIE 13 AV DES TILLEULS

3 PAUL

ETUDIANT NUM NOM ADRESSE1 JEAN 4 AVENUE DU

GENERAL DE GAULLE

2 PAUL

3 SOPHIE 13 AVENUE DES TILLEULS

4 FRED

Page : 29

Les méta-donnéesLes méta-données

• Les méta-données regroupent l'ensemble des informations concernant l'entrepôt et les processus associés.

Destinées

Aux équipes et outils responsables du processus de transformation des données de production vers l'entrepôt.

Aux utilisateurs SGBD

Page : 30

Les méta-donnéesLes méta-données

2 principales utilités

Pour les algorithmes d'extraction, intégration, nettoyage, rafraîchissement, historisation, qualité.(localisation, règles de transformation, flux)

Responsables des processus (équipes, outils)

Carte routière pour l'interrogation

Utilisateurs

+ méta-données habituelles (types, autorisations)

SGBD

Page : 31

Les magasinsLes magasins

• sous-ensemble de l’entrepôt,

• temps d’accès réduits, volume réduit, coût réduit,

• orienté vers un sujet particulier,

• les données sont adaptées à une classe de décideurs ou à un usage particulier (ex: fortement agrégées, DM)

généralement modélisé sous forme multidimensionnelle,

• nécessité de définir une stratégie d’extraction de l’entrepôt,

• on peut avoir des sous-magasins.

Page : 32

Outils de restitutionOutils de restitution

• sur les magasins, ou directement sur l’entrepôt,

• requêtes SQL, SQL/OLAP

• tableurs,

• outils requêteurs spécialisés (outils de reporting),

• progiciels spécialisés,

• sortie web,

• logiciels de datamining,

• sortie système expert.

Page : 33

OLTP - OLAPOLTP - OLAP

OLTP : On-Line Transaction Processing

Dans une base de données de type relationnelle, les données sont stockées sous formes de tables décomposées en colonnes et en lignes, chaque ligne représente un enregistrement de la base de données.

OLAP : On-Line Analytic Processing

OLAP est un terme pour décrire l'approche dimensionnelle de l'aide à la décision.

Page : 34

OLTP - OLAPOLTP - OLAP

• Le traitement des données en mode transactionnel

(OLTP) est totalement différent du domaine des

systèmes dimensionnels (OLAP).

• Les systèmes diffèrent pour :

– Les utilisateurs

– Le contenu des données

– Les structures,

– L ’administration

Page : 35

Analyse multidimensionnelleAnalyse multidimensionnelle

• On rencontre plusieurs techniques d’analyse de données, l’analyse multi-dimensionnelle est particulièrement utilisée en informatique décisionnelle.

• L’analyse multi-dimensionnelle permet d’analyser des mesures selon différents paramètres (multiples) qui peuvent avoir un effet sur celles-ci

Page : 36

ExempleExemple

• Une société désire construire une base de données pour suivre l'évolution de ses ventes par mois et par catégories de produits de ses différents magasins.

• Pour chaque magasin, elle dispose d ’une table qui contient les ventes

Page : 37

ExempleExemple

• Pour analyser ces données, on peut par exemple placer les mois en ligne et les catégories en colonne.

• Si l ’on veut comparer les ventes par rapport aux catégories, par magasin et par mois. Il devient difficile de dessiner un simple tableau.

– On parle alors de cube

Page : 38

Représentation graphique Représentation graphique multidimensionnellemultidimensionnelle

Page : 39

Toutes les ventes pour un magasinToutes les ventes pour un magasin

Page : 40

Toutes les ventes d’une catégorie d’articleToutes les ventes d’une catégorie d’article

Page : 41

Toutes les ventes d’un moisToutes les ventes d’un mois

Page : 42

Les ventes d’un mois pour une catégorie Les ventes d’un mois pour une catégorie dans un magasindans un magasin

Page : 43

Le modèle multidimensionnelLe modèle multidimensionnel

• Souvent appelé modèle OLAP (On Line Analytical Processing) (Codd, 1993).

• Présenté comme une alternative au modèle relationnel.

• Correspond mieux aux besoins du décideur.

• "Orienté sujet".

• " Cube" centré sur une activité.

• Exemple : vente.

Page : 44

Les faitsLes faits

• Un cube relate un fait. L’activité est caractérisée par des faits qui se produisent (événements).

• Exemples :

• fait de vente,

• fait de notation,

• fait de passage de transaction boursière,

• fait de consultation médicale,

• fait de dépense dans un hôpital,

• fait d’absence de cours,

• fait de marquage de but,

• fait de fréquentation d’un cinéma.

Page : 45

Les indicateursLes indicateurs

• Les faits sont quantifiés par des indicateurs, également appelés "métriques", ou "mesures", ou "variables". Par exemple le fait de vente se caractérise par la quantité vendue et le montant de la vente.

• Ce sont les cellules du cube. Les indicateurs représentent une quantité mesurable, un fait observé.

• Chaque indicateur a une fonction d’agrégat (on peut les additionner, ou calculer le minimum, ou la moyenne).

• Ils sont généralement numériques et additifs :

Le montant des vente est additif (se somme sur toutes les dimensions), le niveau du stock est semi-additif (se somme sur les produits, mais pas sur le temps), la moyenne de fréquentation est non additive.

Page : 46

Les indicateursLes indicateurs

• Exemples :

• CA par produit/agence/dans le temps,

• coût moyen d’une hospitalisation par pathologie,

• le nombre de visiteurs moyens dans un établissement,

• taux d’occupation des lits,

• nombre d’articles en stock,

• satisfaction,

• taux de remplissage des avions par vol,

• temps d’attente moyen au supermarché,

• nombre de connexions sur un site web,

• durée des communications sur un site web.

Page : 47

Les indicateursLes indicateurs

• Formule : On appelle "formule"   une mesure non stockée, obtenue à partir des mesures stockées.

• Exemples : prix moyen = total ventes / nombre vendu

• Remarque : il existe des faits sans mesures, les "dummy measures"

• Exemple : location d'une voiture, consultation à hôpital, réservation d'un livre.

• L'agrégation sera le comptage des faits.

Page : 48

Les dimensionsLes dimensions

• Les "dimensions" sont les axes d'analyse.

• Exemples : produits, temps, région, promotion, fournisseur, joueur, élève, hôpital.

• Chaque dimension est associée à une hiérarchie.

• Exemples :

• continent -> pays -> région -> ville -> magasin

• année -> trimestre -> mois -> jour

• catégorie-> sous-catégorie -> produit

Page : 49

Modélisation en étoilesModélisation en étoiles

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Magasin

clé_magasinadressevilledépartementsecteur_ventesurface

Produit

clé_produitdescriptionmarquecatégoriesous_catégoriecouleurtaille

Page : 50

Modélisation en floconsModélisation en flocons

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Magasin

clé_magasinclé_localisationsecteur_ventesurface

Produit

clé_produitdescriptionmarqueclé_sous_catégoriecouleurtaille

Sous_catégorie

clé_sous_catégoriesous_catégoriecatégorie

Localisation

clé_localisationadressevilledépartement

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Les tables de dimension sont normalisées

Page : 51

Modélisation en constellationsModélisation en constellations

Temps

clé_tempsheurejoursemainemoisannéefériéévénement

Fait de Vente

clé_tempsclé_produitclé_magasin

montant_ventesquantité_vendue

Magasin

clé_magasinclé_localisationsecteur_ventesurface

Produit

clé_produitdescriptionmarqueclé_sous_catégoriecouleurtaille

Les tables de dimensions sont partagées par plusieurs tables de faits

Page : 52

Opérateurs multidimensionnelsOpérateurs multidimensionnels

• Roll-up, ou agrégation, ou consolidation, ou drill-up, ou scale-up, ou forage vers le haut.

Agréger selon une dimension : Semaine Mois

• Drill-down, ou désagrégation, ou segmentation, ou roll_down, ou drill-trough, ou forage vers le bas.

Détailler selon une dimension : Mois Semaine

• Slice, ou projection. Projeter(Région, Produit)

• Dice, ou selection, ou filtering, ou screening. Mois = 01/01/2009

• Pivot, ou rotation. Tourne le cube pour visualiser une face.

(Région, produit) (Région, Mois)

Page : 53

ExercicesExercices

T1 2009 T2 2009 T3 2009 T4 2009

Appareil

Photo

numérique

Paris 10 12 15 23

Marseille 12 15 14 18

Lyon 7 12 9 13

Créteil 5 9 21 8

Lecteur

DVD

Paris 12 9 17 25

Marseille 18 16 19 17

Lyon 13 16 17 14

Créteil 6 12 18 21

Home

Cinéma

Paris 29 23 25 24

Marseille 19 18 23 19

Lyon 17 17 20 22

Créteil 14 17 18 17

Ecrans

plats

Paris 16 18 19 20

Marseille 15 14 17 18

Lyon 21 28 26 29

Créteil 9 8 10 9

Soit le tableau multidimensionnel suivant (Produits, Villes, Temps) :

Page : 54

ExercicesExercices

• Modèle en étoile « Fait de vente »

• Cube

• Opérateurs multidimensionnels (Roll up, Dice,…)