Theorie Du Decisionnel Chaine
Transcript of Theorie Du Decisionnel Chaine
-
7/31/2019 Theorie Du Decisionnel Chaine
1/30
Auteur : Marie Fesneau, Fabien Ducher (Stagiaires lEISTI)
Date : Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
2/30
Linformatique dcisionnelle
.I CHAINE DECISIONNELLE ...............................................................................................................................................................................................4
.I.1 Schma Complet de la chane ......................................................................................................................................................................................4
.I.2 Phase de MODELISATION :......................................................................................................................................................................................6.I.2.1 Schma ..................................................................................................................................................................................................................6
.I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs ....................................................................................................................7
Avant linterview : ...................................................................................................................................................................................................7
Pendant linterview ...................................................................................................................................................................................................7
Aprs linterview ................................................................................................................................................................................................... ....8
.I.2.3 2me tape : Modlisation du DataWareHouse ...................................................................................................................................................8
Types dobjets : ........................................................................................................................................................................................................9
.I.2.4 3me tape : Constitution des Data Mart...........................................................................................................................................................10
.I.2.5 Avantages des DataWareHouses ........................................................................................................................................................................10
.I.2.6 Les Outils :..........................................................................................................................................................................................................11.I.3 Phase dALIMENTATION .......................................................................................................................................................................................12
.I.3.1 Schma ................................................................................................................................................................................................................12
.I.3.2 Sources de donnes :...........................................................................................................................................................................................12
.I.3.3 Alimentation ETL : ..........................................................................................................................................................................................12
.I.3.4 Problmes rencontrs :........................................................................................................................................................................................13
.I.3.5 Les outils :...........................................................................................................................................................................................................13
.I.4 Phase de RESTITUTION et de PILOTAGE .............................................................................................................................................................16
.I.4.1 Schma ................................................................................................................................................................................................................16
.I.4.2 Moyens de restitution .........................................................................................................................................................................................16
.I.4.3 Moyens de pilotage .............................................................................................................................................................................................19
.I.4.4 Les Outils ............................................................................................................................................................................................................21Requteur :..............................................................................................................................................................................................................21
Pilotage :..................................................................................................................................................................................................................21
Pilotage :..................................................................................................................................................................................................................22
.I.5 Phase dANALYSE :.................................................................................................................................................................................................23
.I.5.1 Schma ................................................................................................................................................................................................................23
.I.5.2 Principe gnral du Data Mining :......................................................................................................................................................................23
Page 2 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
3/30
Linformatique dcisionnelle
.I.5.3 A quoi sert le Data Mining ? ..............................................................................................................................................................................24
.I.5.4 Les tches du datamining ...................................................................................................................................................................................24La classification ......................................................................................................................................................................................................24
Lestimation ............................................................................................................................................................................................................25
La prdiction ...........................................................................................................................................................................................................25
Le groupement par similitude .................................................................................................................................................................................26Lanalyse des clusters .............................................................................................................................................................................................26
La description ..........................................................................................................................................................................................................26
.I.5.5 Mthodes du datamining ....................................................................................................................................................................................26
Infrences statistiques :...........................................................................................................................................................................................26
Analyse de donnes :...............................................................................................................................................................................................27
Panier de la mnagre :...........................................................................................................................................................................................27
Raisonnement bas sur la mmoire RBM :.........................................................................................................................................................27
Dtection de clusters :.............................................................................................................................................................................................28Arbre de Dcision :.................................................................................................................................................................................................28
Rseau de Neurones :..............................................................................................................................................................................................28.I.5.6 Tableau des appariements des techniques aux tches ........................................................................................................................................30
.I.5.7 Les outils .............................................................................................................................................................................................................30
Page 3 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
4/30
Linformatique dcisionnelle
.I CHAINE DECISIONNELLE
.I.1 SchmaComplet de la chaneSources de Donnes
Page 4 Avril 2002
Phase dAlimentation Phase dAnalyse
Extract
Transform
Load
Cube
DataWareHouse
DWH
DM
DM
DataMartBases de donnes
ORACLE
Excel
SYBASE
Cubes
Requteur
Pilotage
Data Mining
Phase de Modlisation
Outil
dalimentation Entrepts de donnes Bases ddies
Outils de
Restitution,de pilotage
et danalyse
Phase de Restitution
-
7/31/2019 Theorie Du Decisionnel Chaine
5/30
Linformatique dcisionnelle
La chane dcisionnelle est compose de plusieurs parties :
Alimentation du DataWareHouse,
DataWareHouse,
Restitution des donnes : Pilotage ou Requtage,
Analyse des Donnes.
Le DataWareHouse est le centre de la chane dcisionnelle. Les utilisateurs nauront accs quaux outils de requtage, de pilotage et/ou danalyse.
Toute la partie alimentation et celle de restitution des donnes sont gres par une quipe informatique, interne ou externe lentreprise, spcialise en
gestion de base de donnes et en dcisionnel.
Gestion de Projet :
Il ny a pas deux projets dcisionnels identiques car les entreprises ont des besoins, des demandes, des structures informatiques diffrents. Pour chaque
projet dcisionnel, on ne doit pas ncessairement mettre en place toutes les parties de la chane. On pourra avoir mettre en place simplement un outil
de requtage ou de pilotage, sans concevoir un DataWareHouse ( car les sources de lentreprise sont bien structures), ou restructurer les sources en
crant un DataWareHouse. Les sujets sont multiples et distincts.
Si on a toute la chane concevoir, on commencera par la phase de modlisation du DataWareHouse. Par la suite, on peut raliser lAlimentation ou les
phases de Restitution et dAnalyse de Donnes. Mais il faut imprativement entamer son projet par la phase de Modlisation qui entraine la
agencement des deux autres.
Page 5 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
6/30
Linformatique dcisionnelle
.I.2 Phase de MODELISATION :
.I.2.1 Schma
Page 6 Avril 2002
Phase de Modlisation
Extract
Transform
Load
Cube
DataWareHouse
DWH
DM
DM
DataMartBases de donnes
ORACLE
Excel
SYBASE
Cubes
Requteur
Pilotage
Data Mining
-
7/31/2019 Theorie Du Decisionnel Chaine
7/30
Linformatique dcisionnelle
Dfinition : Un DataWareHouse est une collection de donnes thmatiques, intgres ( au niveau qui intresse les utilisateurs), non volatiles (on ne
peut pas les modifier) et histories (on garde un historique des donnes) pour la prise de dcision.
Le DataWareHouse est lentrept de donnes qui va permettre la mise en place dun systme de Reporting et dAnalyse. Il ne contient donc que les
donnes tudier. Il faut procder par tape pour mettre en place correctement le DataWareHouse.
.I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs
Le DataWareHouse est au centre de la chane dcisionnelle, il faut donc le concevoir avec prcaution. Une phase pralable dinterviews
auprs des utilisateurs est ncessaire, mme si un cahier des charges a t rdig, afin de mettre en vidence les donnes qui leur sont
vraiment utiles.
On rencontre 3 types dutilisateurs :
ceux qui ne veulent pas un systme trop compliqu : il faut les conseiller donc connatre leur langage mtier
ceux qui veulent un systme trop compliqu : il faut les freiner
ceux qui connaissent le domaine du dcisionnel avec qui il est facile de communiquer.Dans tous les cas, comprendre le langage mtier de son interlocuteur est essentiel.
Avant linterview :
Lors dune interview utilisateur, il faut arriver :
avec les tableaux de bords prdfinis dans le cahier des charges
en connaissant le mtier et le quotidien de lutilisateur
avec de nouveaux tableaux de bord susceptibles dintresser lutilisateur ou qui permettront de lancer dautres ides ( regrouper
tel et tel tableau, ).
Pendant linterview
Pendant lentretien, il faut poser des questions ouvertes pour laisser lutilisateur parler le plus possible et rcolter un maximum
dinformations. De plus, pour tout indicateur, il faut expliciter le calcul car parfois un mme nom dindicateur peut correspondre plusieurs
formules ( par exemple, diffrents Chiffres dAffaires selon les services ).
Page 7 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
8/30
Linformatique dcisionnelle
On peut tre amener auditer dans diffrents services, on doit alors grer les demandes contradictoires, les donnes qui se recoupent pour
structurer au mieux le DataWareHouse.
Aprs linterview
Une fois les divers entretiens achevs, on doit rassembler les besoins et les analyser afin de conserver les donnes utiles au systmedcisionnel mettre en place.
.I.2.3 2me tape : Modlisation du DataWareHouse
Aprs, les interviews auprs des utilisateurs, les donnes ncessaires sont connues. Il faut les organiser de manire obtenir des modles, detype toile ou double toile ( cf. PARTIE III ) afin de pouvoir y accder facilement. On dfinit les objets que lutilisateur va pourvoir utiliser
pour crer ses requtes et ses tableaux.
BusinessObjects :
On dfinit les diffrentes classes qui composent un univers. Souvent on retrouve une classe gographique, une temporelle, une ou plusieursconcernant certains postes particuliers de lentreprise. Il y a quasiment tout le temps une classe contenant les indicateurs. On trouve environ
une bonne dizaine de classes dans un univers. Par ncessit de clart et de fonctionnalit, on trouve rarement plus de 30 classes dans un
univers.
De plus, on met en place les cubes, systmes de modlisation des donnes multidimensionnel pour pouvoir grer les agrgats. On dfinit les
axes danalyse qui peuvent tre, entre autre, laxe temporel (anne, trimestre, mois, semaine), laxe gographique (continent, pays, rgion,
dpartement, ville), et les indicateurs. Lanalyse multidimensionnelle permet d'tudier les indicateurs, comme le chiffre daffaire ou lamarge, en fonction des diffrents axes. Lavantage de ce systme est quon peut passer dun niveau un niveau plus dtaill : du chiffre
daffaire par pays au chiffre daffaire par rgion.
Remarque : souvent le DataWareHouse se compose comme suit : une ou plusieurs tables de faits ( table qui contient les indicateurs) aucentre do partent les diffrents axes danalyse.
Pour plus de dtails et dexemples sur les DataWareHouse et les cubes, voir la PARTIE III.
Page 8 Avril 2002
Faits
Axe Gographique
Axe Temporel
Mois
Trimestre
Anne
Ville Rgion Pays
Autre Axe
-
7/31/2019 Theorie Du Decisionnel Chaine
9/30
Linformatique dcisionnelle
Types dobjets :
Objet dimension : Ils reprsente le plus souvent une entit de la base de donne ou un objet date .Objet information : Ce sont des dtails sur les objets dimension auxquels ils sont rattachs.
Objet indicateur: ils restituent des donnes numriques, ce sont des oprations de comptage ou de moyenne sur des donnes de la base.
Page 9 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
10/30
Linformatique dcisionnelle
.I.2.4 3me tape : Constitution des Data Mart
Une fois le DataWareHouse cr, on peut mettre en place un systme de Reporting et dAnalyse pour diffrents services : un pour le service
Financier, un pour le service Marketing, un pour le service Client, On va construire alors par service un mini DataWareHouse quicontiendra uniquement les donnes utilises au sein du service ( on ne garde que les tables ncessaires ). Ce mini DataWareHouse estappel DataMart qui donne une vision dpartementale ou mtier des donnes. On le construit de la mme faon quon met en place un
DataWareHouse, cest--dire quun DataMart se compose de plusieurs tables organises le plus simplement possible. On retrouvera une ou
plusieurs tables de faits au centre do partent diffrents axes danalyse.
.I.2.5 Avantages des DataWareHouses
Les DataWareHouse permettent une vision mtier transversale.
Lavantage majeur est quils sont volutifs, cest dire quon peut inclure de nouvelles sources de donnes, ajouter de nouveaux indicateurs,
modifier la volumtrie tout en conservant une visibilit claire et prcise. De plus, ils nous permettent davoir une vision historise dans letemps.
La conception dun DataWareHouse dbouche naturellement vers une approche multidimensionnelle, donc sur la mise en place de cube qui
va plus loin, encore, dans lanalyse des donnes.
Pour finir, cela permet que les donnes restitues soient :
normalises
de meilleure qualit
homognes.
Page 10 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
11/30
Linformatique dcisionnelle
.I.2.6 Les Outils :
BusinessObjects le Module Designer permet la cration dun univers ( dun modle ) manuellement ou partir de tables de
diffrentes bases de donnes.
Cognos Module PowerPlay Transformer est un outil de modlisation qui sert construire des modles multidimensionnels partir desources de donnes.
Cognos Module PowerCube
Informatica Module PowerCenter permet la cration dun modle manuellement ou partir de diffrentes tables : on cre et alimente
les diffrentes tables qui composent le DataWareHouse.
SAS Module DataWareHouse Administrator permet la cration dun modle manuellement ou partir de diffrentes tables: on cre et
alimente les diffrentes tables qui composent le DataWareHouse.
Page 11 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
12/30
Linformatique dcisionnelle
.I.3 Phase dALIMENTATION
.I.3.1 Schma
Cette partie de la chane dcisionnelle concerne lalimentation du DataWareHouse cr dans la phase de MODELISATION.
.I.3.2 Sources de donnes :
Le DataWareHouse est compos de diffrentes tables quil va falloir remplir. Dans une entreprise, les informations peuvent tre stockes
sous diffrentes formes : dans une base de donnes, dans un fichier, dans un tableau, etc. Ils existent plus de 90 sources diffrentes possibles
pour alimenter un DataWareHouse.
.I.3.3 Alimentation ETL :
Pour alimenter le DataWareHouse, on utilise un ETL ( Extract, Transform and Load ), outil bas sur le principe de mtabases. Il dcrit lesdonnes, leur provenance et les transformations effectues. Il permet dagrger, de classifier, de normaliser, de qualifier, de nettoyer et de
consolider les donnes extraites. De plus, les concepteurs doivent mettre en place une stratgie de mise jour pour lhistorisation et prvoir
la volumtrie. Lalimentation peut tre en batch ou file de leau. Les ETL peuvent tre intgrs aux outils de modlisations ou de restitution.
Les ETL peuvent se concevoir de 2 manires :
manuellement : en lanant des scripts ( PL/SQL, )
avec des logiciels ( qui sont chers : ~100kF ) cf. paragraphe suivant.
Le chargement des donnes correspond 60-70 % du projet : analyser dcrire expliquer exposer
Identifier les sources
O ? Mainframe, fichiers, SGBDR, ERP, Internet,
Comment ? Rseau local, WAN, transferts des fichiers.
Quand ? Cohrence, normalisation.
Construire le rfrentiel
Dfinir la frquence des chargements
Dcrire le niveau dhistorisation
Page 12 Avril 2002
Extract
Transform
Load
Cube
DataWareHouse
DWH
DM
DataMartBases de donnes
ORACLE
Excel
SYBASE
Cubes
Phase dAlimentation
Requteur
Pilotage
Data Mining
-
7/31/2019 Theorie Du Decisionnel Chaine
13/30
Linformatique dcisionnelle
Expliquer la volumtrie
Analyser la qualit des donnes
Exposer la complexit des transformations
Considrer la reprise des donnes
Grer les rejets Mettre en place les sauvegardes/restaurations
.I.3.4 Problmes rencontrs :
Souvent peu dentreprises ont des logiciels qui permettent la cration dETL, car ce sont des outils coteux. Il faut souvent raliser
lalimentation la main.
La frquence de mise jour du DataWareHouse ( quotidiennement, hebdomadairement, mensuellement, ) peut influencer sa
structure. De plus, une volumtrie des flux trop importante peut entraner un problme dexploitation.
En concevant le modle du DataWareHouse, il faut penser la volumtrie des sources de donnes et la frquence de mise jour.
Faire attention aux environnements trop mouvants, cest dire aux mises jour trop frquentes : il faut le prvoir dans lETL.
Synchroniser lalimentation des diffrents Data Mart qui composent son outil dcisionnel sinon on peut obtenir des rapports dans la
phase de RESTITUTION fausss.
Sassurer que les diffrentes mta bases soient cohrentes.
.I.3.5 Les outils :
Eti * Extract: pour de grandes bases de donnes ( grande distribution )
INFORMATICA Module PowerCenter permet la cration dun modle quon alimente en dcrivant les diffrents flux partir de
diffrentes sources de donnes.
SAGENT Module Sagent
HUMMINGBIND Module Gnio : plutt dans le domaine pharmaceutique.
INFORMIX Module DataStage
Page 13 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
14/30
Linformatique dcisionnelle
Page 14 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
15/30
Linformatique dcisionnelle
Interface avec laquelle on cr les flux et les transformations appliqus aux donnes
Page 15 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
16/30
Linformatique dcisionnelle
.I.4 Phase de RESTITUTION et de PILOTAGE
.I.4.1 Schma
Les outils de restitution ou de pilotage sont la finalit de la chane dcisionnelle, ils sont utiliss par les utilisateurs qui ne connaissent pas forcment
linformatique dcisionnelle. Ce sont donc des outils de Reporting assez facile prendre en main et manipuler.
.I.4.2 Moyens de restitution
Les outils de Requtage sont des gnrateurs de code SQL : Analyse then Query .
Il y a deux types dutilisateurs :
o Les utilisateurs qui crent les rapports : ils peuvent, ou pas, connatre linformatique dcisionnelle. Ils ont accs aux univers
et aux cubes. Ils manipulent, partir de linterface du requteur, les objets contenus dans les classes pour crer diverstableaux. Ils composent des rapports quils peuvent diffuser, par la suite, aux personnes concernes.
o Les utilisateurs, qui rafrachissent priodiquement les rapports, nont alors pas accs lunivers et ne manipulent aucunedonne. Ils analysent les informations que leur prsentent les rapports. Souvent ces utilisateurs ne connaissent pas
linformatique dcisionnelle.
Il est possible de lire des rapports via le Net avec des outils adapts ( comme Webby pour BusinessObjects). Avec ces outils, on ne peut que
lire des rapports mais pas en crer.
Les rapports sont composs dun ou plusieurs lments :
de tableaux,
de diagrammes (courbes, camembert, ) en 2D ou 3D,
de zones de texte,
dimages.
Page 16 Avril 2002
Extract
Transform
Load
Cube
DataWareHouse
DWH
DM
DM
DataMartBases de donnes
ORACLE
Excel
SYBASE
Cubes
Phase de Restitutionet de Pilotage
Data Mining
Requteur
Pilotage
-
7/31/2019 Theorie Du Decisionnel Chaine
17/30
Linformatique dcisionnelle
Interface de lEditeur de requtes Univers qui concerne une entreprise de la mode.
Page 17 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
18/30
Linformatique dcisionnelle
Exemple de rapport cr par un outil de requtage :
Tableau plusieurs entres sur lactivit de la Socit ASTEK S.A.
Page 18 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
19/30
Linformatique dcisionnelle
.I.4.3 Moyens de pilotage
Les outils de Pilotage sont du type : Query then Analyse , cest dire que lutilisateur va pourvoir zoomer par axes pour comprendre les
donnes du tableau. Il pourra ainsi analyser lactivit de lentreprise.
On retrouve pour ces moyens les mmes types dutilisateurs que pour les moyens de restitution.
Si lutilisateur dispose dun outil multidimensionnel (et que le rapport le permet), il peut dtailler les donnes quil visualise, est dire
avoir diffrents niveaux de dtails.
A ETTOFFER !!!!!!
Page 19 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
20/30
Linformatique dcisionnelle
Exemple de rapport cr par un outil de pilotage :
Diagramme en 3D sur lactivit de la Socit Vacances et Aventures
Page 20 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
21/30
Linformatique dcisionnelle
.I.4.4 Les Outils
Requteur :
BusinessObjects Module REPORTER : lutilisateur dispose dun univers composes de classes contenant des objets. Il peut alors crer
des rapports en gnrant les requtes voulues en croisant diffrents objets et en crant des conditions.
Cognos Module IMPROMPTU
BrioTech Module Brio
Pilotage :
R OLAP : Relational On line Analytical Processing
BusinessObjects Module REPORTER, EXPLORER ?
Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs aux
donnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .
Avantages : plus rapide mettre en place, moins cher.
Inconvnient: temps de rponse plus long
M OLAP : Multidimensional On Line Analytical Processing
ORACLE Module EXPRESS
HYPERION Module ESSBASE
Avantages : performant
Inconvnients : plus cher, assez dur mettre en place.
Page 21 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
22/30
Linformatique dcisionnelle
Pilotage :
R OLAP : Relational On line Analytical Processing
BusinessObjects Module REPORTER, EXPLORER ?
Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs auxdonnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .
Avantages : plus rapide mettre en place, moins cher.
Inconvnient: temps de rponse plus long
M OLAP : Multidimensional On Line Analytical Processing
ORACLE Module EXPRESS
HYPERION Module ESSBASE
Avantages : performant
Inconvnients : plus cher, assez dur mettre en place.
Page 22 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
23/30
Linformatique dcisionnelle
.I.5 Phase dANALYSE :
.I.5.1 Schma
.I.5.2 Principe gnral du Data Mining :
Les entreprises stockent une quantit importante de donnes mais on peut constater que celles-ci ne constituent pas pour autant un
connaissance sur lactivit de lentreprise. Les outils du Data Mining permettent dextraire des informations forte valeur ajoute partir
des donnes.
Page 23 Avril 2002
Extract
Transform
Load
Cube
DataWareHouse
DWH
DM
DM
DataMartBases de donnes
ORACLE
Excel
SYBASE
Cubes
Phase dAnalyse
Des Donnes
Requteur
Pilotage
Data Mining
Transformer linformation
en connaissances
Le DATA MINING
Identifier lopportunit
commerciale ou autre Agir sur les informations
Mesurer les rsultats des actions
-
7/31/2019 Theorie Du Decisionnel Chaine
24/30
Linformatique dcisionnelle
.I.5.3 A quoi sert le Data Mining ?
Lobjectif principal du Data Mining est dexploit les donnes de son systme afin den tirer des informations susceptibles de nous donner un
avantage face la concurrence.
Le Data Mining permet de :
Fidliser et satisfaire les clients
Mieux cibler les efforts commerciaux
Amliorer la qualit des perstations
Dtecter des comportements frauduleux
Analyser les donnes techniques.
Le Data Mining est un processus automatis, il permet le passage de la donne brute une information daide la prise de dcision. A chaque tape,
on a une plus value informationnelle.
.I.5.4 Les tches du datamining
La classification
La mthode de Classification dfinit, priori, une partition dun ensemble clairement identifi. Elle permet laffectation dun nouvel objet
lune des classes de la partition.
Page 24 Avril 2002
Le Cercle Dcisionnel
-
7/31/2019 Theorie Du Decisionnel Chaine
25/30
Linformatique dcisionnelle
Principes :
Dfinir prcisment les classes
Apprentissage avec une base dexemples pr classs
Mise au point dun modle pour classer les nouvelles donnes
Exemples :
Affectation de mots cls aux articles qui arrivent dans une rdaction de journal
Classification de demandeurs de crdit dans des classes de risque bas, de risque moyen et de risque haut
Lestimation
La mthode dEstimation se rfre des valeurs continues alors celle de Classification des vnements discrets.
Principe :Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes.
Exemples :
La dure de vie dun client
La probabilit de rponse un mailing
La prdiction
Principe :
La Prdiction est assimilable au classement ou lestimation mais les objets sont classs en fonction dun comportement futur prdit.
On ne peut vrifier la prcision de la Classification ou de lEstimation quaprs coup.
Exemples :
Prdiction des clients qui vont disparatre dans 6 mois
Prdiction dun volume de vente dun produit dans les mois venir
Page 25 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
26/30
Linformatique dcisionnelle
Le groupement par similitude
Principe :
La mthode du groupement par similitude est de regrouper des objets qui vont naturellement ensemble pour dfinir des rgles dassociation.
Exemples :
Dans un supermarch, dterminer les produits qui se retrouvent dans le mme caddie
Dans une base de donnes de cinphiles, trouver les associations entre les films
Lanalyse des clusters
Principe :
LAnalyse des Clusters permet de dcouper posteriori une population htrogne en classes homognes.
Exemples :
En fonction de critres dachats dune voiture, faire une segmentation des acheteurs En fonction des notes obtenues dans diffrentes matires, faire une segmentation des tudiants
La description
Principe :
Il sagit de dcrire les donnes pour essayer de dcouvrir et de comprendre le processus qui est lorigine de ces donnes. Il sagit souvent
du dmarrage dune tude, o on a peu de connaissances sur le phnomne tudi.
Cette description permet denchaner sur une ou plusieurs des tches prcdemment dcrites.
.I.5.5 Mthodes du datamining
Infrences statistiques :
Estimations de paramtres
Page 26 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
27/30
Linformatique dcisionnelle
Thories des tests
Analyse de donnes :
Analyse en composantes principales
Analyse des correspondances
Analyse discriminante
Panier de la mnagre :
Principe :
On liste toutes les transactions (ensemble dobjets pris par un individu)
On dresse un tableau de co-occurrences des objets
On dtermine des rgles de la forme Si condition alors rsultats avec des taux de confiances et damlioration P1 = P(condition) P2 = P(rsultat) P3 = P(condition et rsultat)
Confiance = P3 / P1Amlioration = P3 / ( P1 * P2 )
Raisonnement bas sur la mmoire RBM :
Principe :
Le principe du RBM est de trouver les voisins dun nouvel enregistrement dans une base denregistrements connus ( la mmoire) des
fins de Classement ou de Prdiction.
Deux fonctions :
La fonction de distance entre deux enregistrements
La fonction de combinaison pour donner la rponse partir des rsultats obtenus sur les voisins :
- faire voter les k voisins les plus proches avec le poids 1/k, k impair
- affecter un poids chaque voisin de faon inverse proportionnellement la distance avec le nouvel enregistrement et faire voter
ces voisins avec ce poids
Page 27 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
28/30
Linformatique dcisionnelle
- utiliser des techniques de rgression
Dtection de clusters :
Cette mthode sert uniquement trouver, posteriori, des classes homognes.
On peut utiliser diffrentes mthodes :
la mthode des K-moyennes
la mthode des nues dynamique de M. E. Diday
Classification par agglomration (classification ascendante)
Arbre de Dcision :
Cest un outil de Prdiction et de Classification bas sur des rgles identifies grce une base pr classe.
Principe :
Construction dune arborescence qui, chaque niveau, maximise lexpression
Diversit (avant division) ( diversit (fils gauche) + diversit ( fils droit) )
Chaque feuille de larbre est affecte une classe avec un taux derreur
Rseau de Neurones :
Cest une mthode pour Prdire ou Classer sans avoir besoin de comprendre le pourquoi de la Prdiction ou du Classement.
Principe :
Le rseau est construit par apprentissage sur une base pr prdite ou pr classe
Cette mthode permet une meilleure approche des problmes non linaires.
Un neurone = des entres couples avec des poids + fonction de combinaison C + fonction de transfert F
Page 28 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
29/30
Linformatique dcisionnelle
S = F( Cp1,,pk(e1,,ek) )
Page 29 Avril 2002
-
7/31/2019 Theorie Du Decisionnel Chaine
30/30
Linformatique dcisionnelle
.I.5.6 Tableau des appariements des techniques aux tches
On peut utiliser plusieurs techniques pour une mme tche. A nous de la choisir selon nos donnes de dpart et le rsultat attendu.
TchesTechniques
Classification Estimation Prdiction Groupe parSimilitudes
Analyse desClusters
Description
Statistiques
Normales
Panier de la
Mnagre
RBM Dtection des
Clusters
Arbres de
Dcision
Rseau de
Neurones
.I.5.7 Les outils
SAS Diffrents modules de SAS qui vont des statistiques gnrales aux tudes plus approfondies, telles que les diverses analyses ou les
rseaux de neurones.
Page 30 Avril 2002