Theorie Du Decisionnel Chaine

download Theorie Du Decisionnel Chaine

of 30

Transcript of Theorie Du Decisionnel Chaine

  • 7/31/2019 Theorie Du Decisionnel Chaine

    1/30

    Auteur : Marie Fesneau, Fabien Ducher (Stagiaires lEISTI)

    Date : Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    2/30

    Linformatique dcisionnelle

    .I CHAINE DECISIONNELLE ...............................................................................................................................................................................................4

    .I.1 Schma Complet de la chane ......................................................................................................................................................................................4

    .I.2 Phase de MODELISATION :......................................................................................................................................................................................6.I.2.1 Schma ..................................................................................................................................................................................................................6

    .I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs ....................................................................................................................7

    Avant linterview : ...................................................................................................................................................................................................7

    Pendant linterview ...................................................................................................................................................................................................7

    Aprs linterview ................................................................................................................................................................................................... ....8

    .I.2.3 2me tape : Modlisation du DataWareHouse ...................................................................................................................................................8

    Types dobjets : ........................................................................................................................................................................................................9

    .I.2.4 3me tape : Constitution des Data Mart...........................................................................................................................................................10

    .I.2.5 Avantages des DataWareHouses ........................................................................................................................................................................10

    .I.2.6 Les Outils :..........................................................................................................................................................................................................11.I.3 Phase dALIMENTATION .......................................................................................................................................................................................12

    .I.3.1 Schma ................................................................................................................................................................................................................12

    .I.3.2 Sources de donnes :...........................................................................................................................................................................................12

    .I.3.3 Alimentation ETL : ..........................................................................................................................................................................................12

    .I.3.4 Problmes rencontrs :........................................................................................................................................................................................13

    .I.3.5 Les outils :...........................................................................................................................................................................................................13

    .I.4 Phase de RESTITUTION et de PILOTAGE .............................................................................................................................................................16

    .I.4.1 Schma ................................................................................................................................................................................................................16

    .I.4.2 Moyens de restitution .........................................................................................................................................................................................16

    .I.4.3 Moyens de pilotage .............................................................................................................................................................................................19

    .I.4.4 Les Outils ............................................................................................................................................................................................................21Requteur :..............................................................................................................................................................................................................21

    Pilotage :..................................................................................................................................................................................................................21

    Pilotage :..................................................................................................................................................................................................................22

    .I.5 Phase dANALYSE :.................................................................................................................................................................................................23

    .I.5.1 Schma ................................................................................................................................................................................................................23

    .I.5.2 Principe gnral du Data Mining :......................................................................................................................................................................23

    Page 2 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    3/30

    Linformatique dcisionnelle

    .I.5.3 A quoi sert le Data Mining ? ..............................................................................................................................................................................24

    .I.5.4 Les tches du datamining ...................................................................................................................................................................................24La classification ......................................................................................................................................................................................................24

    Lestimation ............................................................................................................................................................................................................25

    La prdiction ...........................................................................................................................................................................................................25

    Le groupement par similitude .................................................................................................................................................................................26Lanalyse des clusters .............................................................................................................................................................................................26

    La description ..........................................................................................................................................................................................................26

    .I.5.5 Mthodes du datamining ....................................................................................................................................................................................26

    Infrences statistiques :...........................................................................................................................................................................................26

    Analyse de donnes :...............................................................................................................................................................................................27

    Panier de la mnagre :...........................................................................................................................................................................................27

    Raisonnement bas sur la mmoire RBM :.........................................................................................................................................................27

    Dtection de clusters :.............................................................................................................................................................................................28Arbre de Dcision :.................................................................................................................................................................................................28

    Rseau de Neurones :..............................................................................................................................................................................................28.I.5.6 Tableau des appariements des techniques aux tches ........................................................................................................................................30

    .I.5.7 Les outils .............................................................................................................................................................................................................30

    Page 3 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    4/30

    Linformatique dcisionnelle

    .I CHAINE DECISIONNELLE

    .I.1 SchmaComplet de la chaneSources de Donnes

    Page 4 Avril 2002

    Phase dAlimentation Phase dAnalyse

    Extract

    Transform

    Load

    Cube

    DataWareHouse

    DWH

    DM

    DM

    DataMartBases de donnes

    ORACLE

    Excel

    SYBASE

    Cubes

    Requteur

    Pilotage

    Data Mining

    Phase de Modlisation

    Outil

    dalimentation Entrepts de donnes Bases ddies

    Outils de

    Restitution,de pilotage

    et danalyse

    Phase de Restitution

  • 7/31/2019 Theorie Du Decisionnel Chaine

    5/30

    Linformatique dcisionnelle

    La chane dcisionnelle est compose de plusieurs parties :

    Alimentation du DataWareHouse,

    DataWareHouse,

    Restitution des donnes : Pilotage ou Requtage,

    Analyse des Donnes.

    Le DataWareHouse est le centre de la chane dcisionnelle. Les utilisateurs nauront accs quaux outils de requtage, de pilotage et/ou danalyse.

    Toute la partie alimentation et celle de restitution des donnes sont gres par une quipe informatique, interne ou externe lentreprise, spcialise en

    gestion de base de donnes et en dcisionnel.

    Gestion de Projet :

    Il ny a pas deux projets dcisionnels identiques car les entreprises ont des besoins, des demandes, des structures informatiques diffrents. Pour chaque

    projet dcisionnel, on ne doit pas ncessairement mettre en place toutes les parties de la chane. On pourra avoir mettre en place simplement un outil

    de requtage ou de pilotage, sans concevoir un DataWareHouse ( car les sources de lentreprise sont bien structures), ou restructurer les sources en

    crant un DataWareHouse. Les sujets sont multiples et distincts.

    Si on a toute la chane concevoir, on commencera par la phase de modlisation du DataWareHouse. Par la suite, on peut raliser lAlimentation ou les

    phases de Restitution et dAnalyse de Donnes. Mais il faut imprativement entamer son projet par la phase de Modlisation qui entraine la

    agencement des deux autres.

    Page 5 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    6/30

    Linformatique dcisionnelle

    .I.2 Phase de MODELISATION :

    .I.2.1 Schma

    Page 6 Avril 2002

    Phase de Modlisation

    Extract

    Transform

    Load

    Cube

    DataWareHouse

    DWH

    DM

    DM

    DataMartBases de donnes

    ORACLE

    Excel

    SYBASE

    Cubes

    Requteur

    Pilotage

    Data Mining

  • 7/31/2019 Theorie Du Decisionnel Chaine

    7/30

    Linformatique dcisionnelle

    Dfinition : Un DataWareHouse est une collection de donnes thmatiques, intgres ( au niveau qui intresse les utilisateurs), non volatiles (on ne

    peut pas les modifier) et histories (on garde un historique des donnes) pour la prise de dcision.

    Le DataWareHouse est lentrept de donnes qui va permettre la mise en place dun systme de Reporting et dAnalyse. Il ne contient donc que les

    donnes tudier. Il faut procder par tape pour mettre en place correctement le DataWareHouse.

    .I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs

    Le DataWareHouse est au centre de la chane dcisionnelle, il faut donc le concevoir avec prcaution. Une phase pralable dinterviews

    auprs des utilisateurs est ncessaire, mme si un cahier des charges a t rdig, afin de mettre en vidence les donnes qui leur sont

    vraiment utiles.

    On rencontre 3 types dutilisateurs :

    ceux qui ne veulent pas un systme trop compliqu : il faut les conseiller donc connatre leur langage mtier

    ceux qui veulent un systme trop compliqu : il faut les freiner

    ceux qui connaissent le domaine du dcisionnel avec qui il est facile de communiquer.Dans tous les cas, comprendre le langage mtier de son interlocuteur est essentiel.

    Avant linterview :

    Lors dune interview utilisateur, il faut arriver :

    avec les tableaux de bords prdfinis dans le cahier des charges

    en connaissant le mtier et le quotidien de lutilisateur

    avec de nouveaux tableaux de bord susceptibles dintresser lutilisateur ou qui permettront de lancer dautres ides ( regrouper

    tel et tel tableau, ).

    Pendant linterview

    Pendant lentretien, il faut poser des questions ouvertes pour laisser lutilisateur parler le plus possible et rcolter un maximum

    dinformations. De plus, pour tout indicateur, il faut expliciter le calcul car parfois un mme nom dindicateur peut correspondre plusieurs

    formules ( par exemple, diffrents Chiffres dAffaires selon les services ).

    Page 7 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    8/30

    Linformatique dcisionnelle

    On peut tre amener auditer dans diffrents services, on doit alors grer les demandes contradictoires, les donnes qui se recoupent pour

    structurer au mieux le DataWareHouse.

    Aprs linterview

    Une fois les divers entretiens achevs, on doit rassembler les besoins et les analyser afin de conserver les donnes utiles au systmedcisionnel mettre en place.

    .I.2.3 2me tape : Modlisation du DataWareHouse

    Aprs, les interviews auprs des utilisateurs, les donnes ncessaires sont connues. Il faut les organiser de manire obtenir des modles, detype toile ou double toile ( cf. PARTIE III ) afin de pouvoir y accder facilement. On dfinit les objets que lutilisateur va pourvoir utiliser

    pour crer ses requtes et ses tableaux.

    BusinessObjects :

    On dfinit les diffrentes classes qui composent un univers. Souvent on retrouve une classe gographique, une temporelle, une ou plusieursconcernant certains postes particuliers de lentreprise. Il y a quasiment tout le temps une classe contenant les indicateurs. On trouve environ

    une bonne dizaine de classes dans un univers. Par ncessit de clart et de fonctionnalit, on trouve rarement plus de 30 classes dans un

    univers.

    De plus, on met en place les cubes, systmes de modlisation des donnes multidimensionnel pour pouvoir grer les agrgats. On dfinit les

    axes danalyse qui peuvent tre, entre autre, laxe temporel (anne, trimestre, mois, semaine), laxe gographique (continent, pays, rgion,

    dpartement, ville), et les indicateurs. Lanalyse multidimensionnelle permet d'tudier les indicateurs, comme le chiffre daffaire ou lamarge, en fonction des diffrents axes. Lavantage de ce systme est quon peut passer dun niveau un niveau plus dtaill : du chiffre

    daffaire par pays au chiffre daffaire par rgion.

    Remarque : souvent le DataWareHouse se compose comme suit : une ou plusieurs tables de faits ( table qui contient les indicateurs) aucentre do partent les diffrents axes danalyse.

    Pour plus de dtails et dexemples sur les DataWareHouse et les cubes, voir la PARTIE III.

    Page 8 Avril 2002

    Faits

    Axe Gographique

    Axe Temporel

    Mois

    Trimestre

    Anne

    Ville Rgion Pays

    Autre Axe

  • 7/31/2019 Theorie Du Decisionnel Chaine

    9/30

    Linformatique dcisionnelle

    Types dobjets :

    Objet dimension : Ils reprsente le plus souvent une entit de la base de donne ou un objet date .Objet information : Ce sont des dtails sur les objets dimension auxquels ils sont rattachs.

    Objet indicateur: ils restituent des donnes numriques, ce sont des oprations de comptage ou de moyenne sur des donnes de la base.

    Page 9 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    10/30

    Linformatique dcisionnelle

    .I.2.4 3me tape : Constitution des Data Mart

    Une fois le DataWareHouse cr, on peut mettre en place un systme de Reporting et dAnalyse pour diffrents services : un pour le service

    Financier, un pour le service Marketing, un pour le service Client, On va construire alors par service un mini DataWareHouse quicontiendra uniquement les donnes utilises au sein du service ( on ne garde que les tables ncessaires ). Ce mini DataWareHouse estappel DataMart qui donne une vision dpartementale ou mtier des donnes. On le construit de la mme faon quon met en place un

    DataWareHouse, cest--dire quun DataMart se compose de plusieurs tables organises le plus simplement possible. On retrouvera une ou

    plusieurs tables de faits au centre do partent diffrents axes danalyse.

    .I.2.5 Avantages des DataWareHouses

    Les DataWareHouse permettent une vision mtier transversale.

    Lavantage majeur est quils sont volutifs, cest dire quon peut inclure de nouvelles sources de donnes, ajouter de nouveaux indicateurs,

    modifier la volumtrie tout en conservant une visibilit claire et prcise. De plus, ils nous permettent davoir une vision historise dans letemps.

    La conception dun DataWareHouse dbouche naturellement vers une approche multidimensionnelle, donc sur la mise en place de cube qui

    va plus loin, encore, dans lanalyse des donnes.

    Pour finir, cela permet que les donnes restitues soient :

    normalises

    de meilleure qualit

    homognes.

    Page 10 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    11/30

    Linformatique dcisionnelle

    .I.2.6 Les Outils :

    BusinessObjects le Module Designer permet la cration dun univers ( dun modle ) manuellement ou partir de tables de

    diffrentes bases de donnes.

    Cognos Module PowerPlay Transformer est un outil de modlisation qui sert construire des modles multidimensionnels partir desources de donnes.

    Cognos Module PowerCube

    Informatica Module PowerCenter permet la cration dun modle manuellement ou partir de diffrentes tables : on cre et alimente

    les diffrentes tables qui composent le DataWareHouse.

    SAS Module DataWareHouse Administrator permet la cration dun modle manuellement ou partir de diffrentes tables: on cre et

    alimente les diffrentes tables qui composent le DataWareHouse.

    Page 11 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    12/30

    Linformatique dcisionnelle

    .I.3 Phase dALIMENTATION

    .I.3.1 Schma

    Cette partie de la chane dcisionnelle concerne lalimentation du DataWareHouse cr dans la phase de MODELISATION.

    .I.3.2 Sources de donnes :

    Le DataWareHouse est compos de diffrentes tables quil va falloir remplir. Dans une entreprise, les informations peuvent tre stockes

    sous diffrentes formes : dans une base de donnes, dans un fichier, dans un tableau, etc. Ils existent plus de 90 sources diffrentes possibles

    pour alimenter un DataWareHouse.

    .I.3.3 Alimentation ETL :

    Pour alimenter le DataWareHouse, on utilise un ETL ( Extract, Transform and Load ), outil bas sur le principe de mtabases. Il dcrit lesdonnes, leur provenance et les transformations effectues. Il permet dagrger, de classifier, de normaliser, de qualifier, de nettoyer et de

    consolider les donnes extraites. De plus, les concepteurs doivent mettre en place une stratgie de mise jour pour lhistorisation et prvoir

    la volumtrie. Lalimentation peut tre en batch ou file de leau. Les ETL peuvent tre intgrs aux outils de modlisations ou de restitution.

    Les ETL peuvent se concevoir de 2 manires :

    manuellement : en lanant des scripts ( PL/SQL, )

    avec des logiciels ( qui sont chers : ~100kF ) cf. paragraphe suivant.

    Le chargement des donnes correspond 60-70 % du projet : analyser dcrire expliquer exposer

    Identifier les sources

    O ? Mainframe, fichiers, SGBDR, ERP, Internet,

    Comment ? Rseau local, WAN, transferts des fichiers.

    Quand ? Cohrence, normalisation.

    Construire le rfrentiel

    Dfinir la frquence des chargements

    Dcrire le niveau dhistorisation

    Page 12 Avril 2002

    Extract

    Transform

    Load

    Cube

    DataWareHouse

    DWH

    DM

    DataMartBases de donnes

    ORACLE

    Excel

    SYBASE

    Cubes

    Phase dAlimentation

    Requteur

    Pilotage

    Data Mining

  • 7/31/2019 Theorie Du Decisionnel Chaine

    13/30

    Linformatique dcisionnelle

    Expliquer la volumtrie

    Analyser la qualit des donnes

    Exposer la complexit des transformations

    Considrer la reprise des donnes

    Grer les rejets Mettre en place les sauvegardes/restaurations

    .I.3.4 Problmes rencontrs :

    Souvent peu dentreprises ont des logiciels qui permettent la cration dETL, car ce sont des outils coteux. Il faut souvent raliser

    lalimentation la main.

    La frquence de mise jour du DataWareHouse ( quotidiennement, hebdomadairement, mensuellement, ) peut influencer sa

    structure. De plus, une volumtrie des flux trop importante peut entraner un problme dexploitation.

    En concevant le modle du DataWareHouse, il faut penser la volumtrie des sources de donnes et la frquence de mise jour.

    Faire attention aux environnements trop mouvants, cest dire aux mises jour trop frquentes : il faut le prvoir dans lETL.

    Synchroniser lalimentation des diffrents Data Mart qui composent son outil dcisionnel sinon on peut obtenir des rapports dans la

    phase de RESTITUTION fausss.

    Sassurer que les diffrentes mta bases soient cohrentes.

    .I.3.5 Les outils :

    Eti * Extract: pour de grandes bases de donnes ( grande distribution )

    INFORMATICA Module PowerCenter permet la cration dun modle quon alimente en dcrivant les diffrents flux partir de

    diffrentes sources de donnes.

    SAGENT Module Sagent

    HUMMINGBIND Module Gnio : plutt dans le domaine pharmaceutique.

    INFORMIX Module DataStage

    Page 13 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    14/30

    Linformatique dcisionnelle

    Page 14 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    15/30

    Linformatique dcisionnelle

    Interface avec laquelle on cr les flux et les transformations appliqus aux donnes

    Page 15 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    16/30

    Linformatique dcisionnelle

    .I.4 Phase de RESTITUTION et de PILOTAGE

    .I.4.1 Schma

    Les outils de restitution ou de pilotage sont la finalit de la chane dcisionnelle, ils sont utiliss par les utilisateurs qui ne connaissent pas forcment

    linformatique dcisionnelle. Ce sont donc des outils de Reporting assez facile prendre en main et manipuler.

    .I.4.2 Moyens de restitution

    Les outils de Requtage sont des gnrateurs de code SQL : Analyse then Query .

    Il y a deux types dutilisateurs :

    o Les utilisateurs qui crent les rapports : ils peuvent, ou pas, connatre linformatique dcisionnelle. Ils ont accs aux univers

    et aux cubes. Ils manipulent, partir de linterface du requteur, les objets contenus dans les classes pour crer diverstableaux. Ils composent des rapports quils peuvent diffuser, par la suite, aux personnes concernes.

    o Les utilisateurs, qui rafrachissent priodiquement les rapports, nont alors pas accs lunivers et ne manipulent aucunedonne. Ils analysent les informations que leur prsentent les rapports. Souvent ces utilisateurs ne connaissent pas

    linformatique dcisionnelle.

    Il est possible de lire des rapports via le Net avec des outils adapts ( comme Webby pour BusinessObjects). Avec ces outils, on ne peut que

    lire des rapports mais pas en crer.

    Les rapports sont composs dun ou plusieurs lments :

    de tableaux,

    de diagrammes (courbes, camembert, ) en 2D ou 3D,

    de zones de texte,

    dimages.

    Page 16 Avril 2002

    Extract

    Transform

    Load

    Cube

    DataWareHouse

    DWH

    DM

    DM

    DataMartBases de donnes

    ORACLE

    Excel

    SYBASE

    Cubes

    Phase de Restitutionet de Pilotage

    Data Mining

    Requteur

    Pilotage

  • 7/31/2019 Theorie Du Decisionnel Chaine

    17/30

    Linformatique dcisionnelle

    Interface de lEditeur de requtes Univers qui concerne une entreprise de la mode.

    Page 17 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    18/30

    Linformatique dcisionnelle

    Exemple de rapport cr par un outil de requtage :

    Tableau plusieurs entres sur lactivit de la Socit ASTEK S.A.

    Page 18 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    19/30

    Linformatique dcisionnelle

    .I.4.3 Moyens de pilotage

    Les outils de Pilotage sont du type : Query then Analyse , cest dire que lutilisateur va pourvoir zoomer par axes pour comprendre les

    donnes du tableau. Il pourra ainsi analyser lactivit de lentreprise.

    On retrouve pour ces moyens les mmes types dutilisateurs que pour les moyens de restitution.

    Si lutilisateur dispose dun outil multidimensionnel (et que le rapport le permet), il peut dtailler les donnes quil visualise, est dire

    avoir diffrents niveaux de dtails.

    A ETTOFFER !!!!!!

    Page 19 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    20/30

    Linformatique dcisionnelle

    Exemple de rapport cr par un outil de pilotage :

    Diagramme en 3D sur lactivit de la Socit Vacances et Aventures

    Page 20 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    21/30

    Linformatique dcisionnelle

    .I.4.4 Les Outils

    Requteur :

    BusinessObjects Module REPORTER : lutilisateur dispose dun univers composes de classes contenant des objets. Il peut alors crer

    des rapports en gnrant les requtes voulues en croisant diffrents objets et en crant des conditions.

    Cognos Module IMPROMPTU

    BrioTech Module Brio

    Pilotage :

    R OLAP : Relational On line Analytical Processing

    BusinessObjects Module REPORTER, EXPLORER ?

    Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs aux

    donnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .

    Avantages : plus rapide mettre en place, moins cher.

    Inconvnient: temps de rponse plus long

    M OLAP : Multidimensional On Line Analytical Processing

    ORACLE Module EXPRESS

    HYPERION Module ESSBASE

    Avantages : performant

    Inconvnients : plus cher, assez dur mettre en place.

    Page 21 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    22/30

    Linformatique dcisionnelle

    Pilotage :

    R OLAP : Relational On line Analytical Processing

    BusinessObjects Module REPORTER, EXPLORER ?

    Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs auxdonnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .

    Avantages : plus rapide mettre en place, moins cher.

    Inconvnient: temps de rponse plus long

    M OLAP : Multidimensional On Line Analytical Processing

    ORACLE Module EXPRESS

    HYPERION Module ESSBASE

    Avantages : performant

    Inconvnients : plus cher, assez dur mettre en place.

    Page 22 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    23/30

    Linformatique dcisionnelle

    .I.5 Phase dANALYSE :

    .I.5.1 Schma

    .I.5.2 Principe gnral du Data Mining :

    Les entreprises stockent une quantit importante de donnes mais on peut constater que celles-ci ne constituent pas pour autant un

    connaissance sur lactivit de lentreprise. Les outils du Data Mining permettent dextraire des informations forte valeur ajoute partir

    des donnes.

    Page 23 Avril 2002

    Extract

    Transform

    Load

    Cube

    DataWareHouse

    DWH

    DM

    DM

    DataMartBases de donnes

    ORACLE

    Excel

    SYBASE

    Cubes

    Phase dAnalyse

    Des Donnes

    Requteur

    Pilotage

    Data Mining

    Transformer linformation

    en connaissances

    Le DATA MINING

    Identifier lopportunit

    commerciale ou autre Agir sur les informations

    Mesurer les rsultats des actions

  • 7/31/2019 Theorie Du Decisionnel Chaine

    24/30

    Linformatique dcisionnelle

    .I.5.3 A quoi sert le Data Mining ?

    Lobjectif principal du Data Mining est dexploit les donnes de son systme afin den tirer des informations susceptibles de nous donner un

    avantage face la concurrence.

    Le Data Mining permet de :

    Fidliser et satisfaire les clients

    Mieux cibler les efforts commerciaux

    Amliorer la qualit des perstations

    Dtecter des comportements frauduleux

    Analyser les donnes techniques.

    Le Data Mining est un processus automatis, il permet le passage de la donne brute une information daide la prise de dcision. A chaque tape,

    on a une plus value informationnelle.

    .I.5.4 Les tches du datamining

    La classification

    La mthode de Classification dfinit, priori, une partition dun ensemble clairement identifi. Elle permet laffectation dun nouvel objet

    lune des classes de la partition.

    Page 24 Avril 2002

    Le Cercle Dcisionnel

  • 7/31/2019 Theorie Du Decisionnel Chaine

    25/30

    Linformatique dcisionnelle

    Principes :

    Dfinir prcisment les classes

    Apprentissage avec une base dexemples pr classs

    Mise au point dun modle pour classer les nouvelles donnes

    Exemples :

    Affectation de mots cls aux articles qui arrivent dans une rdaction de journal

    Classification de demandeurs de crdit dans des classes de risque bas, de risque moyen et de risque haut

    Lestimation

    La mthode dEstimation se rfre des valeurs continues alors celle de Classification des vnements discrets.

    Principe :Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes.

    Exemples :

    La dure de vie dun client

    La probabilit de rponse un mailing

    La prdiction

    Principe :

    La Prdiction est assimilable au classement ou lestimation mais les objets sont classs en fonction dun comportement futur prdit.

    On ne peut vrifier la prcision de la Classification ou de lEstimation quaprs coup.

    Exemples :

    Prdiction des clients qui vont disparatre dans 6 mois

    Prdiction dun volume de vente dun produit dans les mois venir

    Page 25 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    26/30

    Linformatique dcisionnelle

    Le groupement par similitude

    Principe :

    La mthode du groupement par similitude est de regrouper des objets qui vont naturellement ensemble pour dfinir des rgles dassociation.

    Exemples :

    Dans un supermarch, dterminer les produits qui se retrouvent dans le mme caddie

    Dans une base de donnes de cinphiles, trouver les associations entre les films

    Lanalyse des clusters

    Principe :

    LAnalyse des Clusters permet de dcouper posteriori une population htrogne en classes homognes.

    Exemples :

    En fonction de critres dachats dune voiture, faire une segmentation des acheteurs En fonction des notes obtenues dans diffrentes matires, faire une segmentation des tudiants

    La description

    Principe :

    Il sagit de dcrire les donnes pour essayer de dcouvrir et de comprendre le processus qui est lorigine de ces donnes. Il sagit souvent

    du dmarrage dune tude, o on a peu de connaissances sur le phnomne tudi.

    Cette description permet denchaner sur une ou plusieurs des tches prcdemment dcrites.

    .I.5.5 Mthodes du datamining

    Infrences statistiques :

    Estimations de paramtres

    Page 26 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    27/30

    Linformatique dcisionnelle

    Thories des tests

    Analyse de donnes :

    Analyse en composantes principales

    Analyse des correspondances

    Analyse discriminante

    Panier de la mnagre :

    Principe :

    On liste toutes les transactions (ensemble dobjets pris par un individu)

    On dresse un tableau de co-occurrences des objets

    On dtermine des rgles de la forme Si condition alors rsultats avec des taux de confiances et damlioration P1 = P(condition) P2 = P(rsultat) P3 = P(condition et rsultat)

    Confiance = P3 / P1Amlioration = P3 / ( P1 * P2 )

    Raisonnement bas sur la mmoire RBM :

    Principe :

    Le principe du RBM est de trouver les voisins dun nouvel enregistrement dans une base denregistrements connus ( la mmoire) des

    fins de Classement ou de Prdiction.

    Deux fonctions :

    La fonction de distance entre deux enregistrements

    La fonction de combinaison pour donner la rponse partir des rsultats obtenus sur les voisins :

    - faire voter les k voisins les plus proches avec le poids 1/k, k impair

    - affecter un poids chaque voisin de faon inverse proportionnellement la distance avec le nouvel enregistrement et faire voter

    ces voisins avec ce poids

    Page 27 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    28/30

    Linformatique dcisionnelle

    - utiliser des techniques de rgression

    Dtection de clusters :

    Cette mthode sert uniquement trouver, posteriori, des classes homognes.

    On peut utiliser diffrentes mthodes :

    la mthode des K-moyennes

    la mthode des nues dynamique de M. E. Diday

    Classification par agglomration (classification ascendante)

    Arbre de Dcision :

    Cest un outil de Prdiction et de Classification bas sur des rgles identifies grce une base pr classe.

    Principe :

    Construction dune arborescence qui, chaque niveau, maximise lexpression

    Diversit (avant division) ( diversit (fils gauche) + diversit ( fils droit) )

    Chaque feuille de larbre est affecte une classe avec un taux derreur

    Rseau de Neurones :

    Cest une mthode pour Prdire ou Classer sans avoir besoin de comprendre le pourquoi de la Prdiction ou du Classement.

    Principe :

    Le rseau est construit par apprentissage sur une base pr prdite ou pr classe

    Cette mthode permet une meilleure approche des problmes non linaires.

    Un neurone = des entres couples avec des poids + fonction de combinaison C + fonction de transfert F

    Page 28 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    29/30

    Linformatique dcisionnelle

    S = F( Cp1,,pk(e1,,ek) )

    Page 29 Avril 2002

  • 7/31/2019 Theorie Du Decisionnel Chaine

    30/30

    Linformatique dcisionnelle

    .I.5.6 Tableau des appariements des techniques aux tches

    On peut utiliser plusieurs techniques pour une mme tche. A nous de la choisir selon nos donnes de dpart et le rsultat attendu.

    TchesTechniques

    Classification Estimation Prdiction Groupe parSimilitudes

    Analyse desClusters

    Description

    Statistiques

    Normales

    Panier de la

    Mnagre

    RBM Dtection des

    Clusters

    Arbres de

    Dcision

    Rseau de

    Neurones

    .I.5.7 Les outils

    SAS Diffrents modules de SAS qui vont des statistiques gnrales aux tudes plus approfondies, telles que les diverses analyses ou les

    rseaux de neurones.

    Page 30 Avril 2002