Integration Donnees - Construction Raffraichissement - 30p Guerrero

29

Transcript of Integration Donnees - Construction Raffraichissement - 30p Guerrero

Page 1: Integration Donnees - Construction Raffraichissement - 30p Guerrero

RAPPORT DE RECHERCHE

Entrep�ots de Donn�ees � Synth�ese et Analyse

Edgard Ben��tez�Guerrero� Christine Collet� Michel Adiba

RR �����I�LSR � Mai �

Page 2: Integration Donnees - Construction Raffraichissement - 30p Guerrero
Page 3: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Entrep�ots de Donn�ees � Synth�ese et Analyse

Edgard Ben��tez�Guerrero� Christine Collet� Michel Adiba

Laboratoire Logiciels� Syst�emes� R�eseaux � IMAG

BP ��� ��� Saint Martin d�H�eres Cedex

e�mail � fEdgard Benitez� Christine Collet� Michel Adibag�imag fr

R�esum�e

Nous pr�esentons les principaux aspects autour de la notion �� entrep�ot dedonn�ees �� dans le domaine des bases de donn�ees� Tout d�abord� nous introdui�sons les caract�eristiques d�un entrep�ot et les comparons avec celles pr�esent�eespar une base de donn�ees traditionnelle� Nous d�ecrivons ensuite le mod�ele concep�tuel et le mod�ele logique utilis�es pour concevoir un entrep�ot� Nous abordons leprocessus de construction et les techniques de rafra��chissement p�eriodique d�unentrep�ot avant de discuter les aspects relatifs �a son stockage et sa gestion� Nousparlons aussi des techniques d�analyse �l�OLAP� l�orpaillage et la visualisationqui peuvent �etre appliqu�ees sur l�entrep�ot� Enn� nous identions un ensemblede perspectives de recherche dans ce domaine�

Mots clef � Entrep�ot de Donn�ees� Cube de Donn�ees� Sch�ema en �Etoile� Rafra���chissement P�eriodique� SGBD Multidimensionnel� Vues Mat�erialis�ees� OLAP�Orpaillage� Visualisation�

� Introduction

Les Entrep�ots de Donn�ees sont indispensables �a la prise de d�ecisions et� pour cetteraison� ils sont devenus des �el�ements strat�egiques pour les entreprises� Le march�e es�tim�e pour les produits et les services autour des technologies des entrep�ots de donn�eesa eu une croissance �enorme � il est pass�e de � milliards de dollars en � �a � mil�liards de dollars en �� �CD �� Une �etude r�ealis�ee en �� par le Data WarehousingInstitute �DWI��� une organisation am�ericaine de professionnels� indique que sur les���� entreprises enqu�et�ees� plus de �� ont d�ebut�e la mise en place d�un entrep�otet plus de ��� ont pr�evu de le faire dans les � ans �Fra �� De plus� des entrep�otsont �et�e mis en place avec succ�es dans plusieurs industries telles que la fabrication� lecommerce� les services �nanciers� le transport� les t�el�ecommunications� la m�edecine�CD � et dans les universit�es �HGML����

Le th�eme des entrep�ots de donn�ees a donc donn�e lieu �a de nombreux travaux ded�eveloppement et de recherche sur une p�eriode de temps tr�es courte �MH�� �Gre���De nombreux concepts ont �et�e propos�es et il est parfois di�cile de s�y retrouver�Cet article tente de synth�etiser les principaux concepts associ�es aux entrep�ots dedonn�ees� Il est organis�e de la mani�ere suivante � la section � pr�esente la d�e�nition etla structure des entrep�ots et la section � d�ecrit le mod�ele d�organisation des donn�eesd�un entrep�ot� La construction et le rafra��chissemen d�un entrep�ot sont introduits dansla section � Le stockage et la gestion des donn�ees d�un entrep�ot sont pr�esent�es dans

Page 4: Integration Donnees - Construction Raffraichissement - 30p Guerrero

� Entrep�ots de Donn�ees � Synth�ese et Analyse

Caract�eristique Base de Donn�ees Entrep�ots de Donn�ees

Donn�ees Courantes HistoriquesUsage Support de l�op�eration Support de l�analyse

de l�entreprise de l�entrepriseUnit�e de travail Transaction Requ�eteNombre de donn�ees Dizaines Millionsacc�ed�eesMode d�acc�es Lecture��Ecriture Lecture

�principalement�Type d�utilisateur Employ�e D�ecideurNombre d�utilisateurs Mille Cent

Tab� � � Bases de Donn�ees vs Entrep�ots de Donn�ees

la section �� Les syst�emes OLAP� l�orpaillage et la visualisation sont abord�es dans lasection � et �nalement la section conclut cet article�

� Entrep�ots de Donn�ees et Bases de Donn�ees

Le concept Entrep�ot de Donn�ees surgit �a partir des besoins d�analyse des donn�eesd�une entreprise pour chercher des avantages comp�etitives sur la concurrence� Lesbases de donn�ees des syst�emes existants de type On�Line Transaction Processing�OLTP� ne sont pas appropi�ees comme support de ces analyses parce qu�elles ont �et�econ�cues pour des fonctions sp�eci�ques r�ealis�es dans l�entreprise� Donc� les donn�eespertinentes pour faire des analyses se trouvent diss�emin�ees entre plusieurs bases� Deplus� leur conception vise �a am�eliorer les performances des syst�emes OLTP par rapportau traitement d�un grand nombre de transactions �courtes et fr�equentes� de mise��a�jour� ce qui complique l�interrogation� Un entrep�ot de donn�ees� par contre� o�re desdonn�ees int�egr�ees� consolid�ees et historis�ees pour faire des analyses�

Il s�agit d�une collection de donn�ees pour le support d�un processus d�aide �a lad�ecision �Inm�� �Inm��� Les donn�ees d�un entrep�ot poss�edent les caract�eristiquessuivantes �

� Orientation sujet� Les donn�ees d�un entrep�ot s�organisent par sujets ou th�emes�Cette organisation permet de rassembler toutes les donn�ees� pertinentes �a unsujet et n�ecessaires aux besoins d�analyse� qui se trouvent r�epandues �a traversles structures fonctionnelles d�un entreprise�

� Int�egration� Les donn�ees d�un entrep�ot sont le r�esultat de l�int�egration dedonn�ees en provenance de multiples sources � ainsi� tous les donn�ees n�ecessairespour r�ealiser une analyse particuli�ere se trouvent dans l�entrep�ot� L�int�egrationest le r�esultat d�un processus qui peut devenir tr�es complexe du �a l�h�et�erog�en�eit�edes sources�

� Histoire� Les donn�ees d�un entrep�ot repr�esentent l�activit�e d�un entreprise pen�dant une longue p�eriode o�u il est important de g�erer les di��erentes valeurs qu�unedonn�ee prises au cours du temps� Cette caract�eristique donne la possibilit�e desuivre une donn�ee dans le temps pour analyser ses variations�

Page 5: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba �

� Non�volatilit�e� Les donn�ees charg�ees dans l�entrep�ot sont surtout utilis�ees eninterrogation et ne peuvent pas �etre modi��ees� sauf dans certains cas de rafra���chissement�

ExtractionEpurationChargement

OrpaillageVisualisation

OLAPDecisionnelsSystèmes

DonnéesEntrepôt de

SourcesExternes

Stockage

Bases deDonnées

AnalyseConstructionRafraîchissement

Fig� � � L�Entrep�ot de Donn�ees est la base des syst�emes decisionnels

L�entrep�ot de donn�ees �ED� joue un r�ole strat�egique dans une entreprise commele montre la �gure �� Il stocke des donn�ees int�eressantes en provenance des syst�emesOLTP de l�entreprise et d�autres sources externes� Avant d��etre charg�ees dans l�en�trep�ot� les donn�ees s�electionn�ees doivent �etre extraites des sources et soigneusement�epur�ees� pour �eliminer des erreurs et r�econcilier les di��erences s�emantiques� �A partirdes donn�ees d�un ED de nombreuses analyses peuvent avoir lieu� pour cela� il fautassocier aux syst�emes d�ecisionnels des techniques d�analyse tels que celles de typeOn�Line Analytical Processing �OLAP�� d�orpaillage et de visualisation� L�informa�tion et la connaissance obtenues par l�exploitation d�un entrep�ot sont directementtraduisibles en b�en�e�ces pour l�entreprise �augmentation des ventes au travers d�unmarketing mieux cibl�e� am�elioration des taux de rotation des stocks� etc�� �Fra ��

Comme exemple� consid�erons une cha��ne de magasins r�epartis g�eographiquementdans plusieurs pays� comme la France et le Mexique� L�analyse globale de la cha��neest une t�ache tr�es compliqu�ee� mais un entrep�ot de donn�ees fournit le cadre id�ealpour l�e�ectuer� L�entrep�ot s�organise autour des sujets les plus importants pour lacha��ne� c�est �a dire� les produits qui ont �et�e vendus dans les magasins au cours dutemps� Les donn�ees n�ecesaires pour e�ectuer des analyses sont extraites de di��erentsbases de donn�ees et �chiers �utilis�es par chaque magasin pour supporter ses acti�vit�es quotidiennes de ventes� et integr�ees dans l�entrep�ot� �A partir de cet entrep�ot�le gestionnaire de la cha��ne peut e�ectuer des analyses et prendre des d�ecisions quia�ecteront les activit�es futures de l�entreprise�

Les donn�ees d�un entrep�ot se structurent selon deux axes � synth�etique et historique�cf� �gure �� �Fra �� L�axe synth�etique �etablit une hi�erarchie d�agr�egation et com�prend les donn�ees d�etaill�ees �qui repr�esentent les �ev�enements les plus r�ecents au basde la hi�erarchie�� les donn�ees agr�eg�ees �qui synth�etisent les donn�ees d�etaill�ees� et lesdonn�ees fortement agr�eg�ees �qui synth�etisent �a un niveau sup�erieur les donn�ees agr�e�g�ees�� L�axe historique comprend les donn�ees d�etaill�ees historis�ees� qui repr�esententdes �ev�enements pass�es� Les meta donn�ees contiennent des informations concernantles donn�ees dans l�entrep�ot� telle que leur provenance et leur structure� ainsi que lesm�ethodes utilis�ees pour faire l�agr�egation�

L�entrep�ot de donn�ees se trouve souvent stock�e et g�er�e par un syst�eme de ges�tion de bases de donn�ees �SGBD� dans un ordinateur non li�e aux syst�emes OLTPde l�entreprise� La principale raison pour e�ectuer cette s�eparation est la d�egrada�tion �eventuelle des performances des syst�emes OLTP provoqu�e par l�execution des

Page 6: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Entrep�ots de Donn�ees � Synth�ese et Analyse

Donnéesdetaillées historisées

Axehistorique

Meta

Données

Donnéesfortement agregées

Données detaillées

Données agregéesAxesynthétique

Fig� � � La structure d�un Entrep�ot de Donn�ees

processus d�analyse sur les donn�ees de l�entrep�ot �Gup b�� La haute performancedu traitement des transactions et les courts temps de r�eponse sont tr�es importantsdans un syst�eme OLTP� Cependant ces caracteristiques ne sont pas critiques pour lesprocessus d�analyse de l�entrep�ot� o�u les chemins d�acc�es aux donn�ees sont di�ciles �ad�e�nir a priori et le temps de r�eponse n�est pas rigide�

Pour construire un entrep�ot� il faut adopter des techniques de conception et demise en oeuvre totalement di��erentes de celles utilis�ees pour construire un syst�emeOLTP� Dans la section suivante� nous abordons la probl�ematique de la mod�elisationd�un entrep�ot�

� Mod�elisation de l�Entrep�ot

La conception d�un entrep�ot de donn�ees est tr�es di��erente de celle des bases dedonn�ees des syst�emes OLTP� parce qu�il faut penser en termes de concepts plus ouvertset plus di�ciles �a d�e�nir� De plus� les besoins des utilisateurs de l�entrep�ot ne sontpas aussi clairs que ceux des utilisateurs des syst�emes OLTP� Dans la suite de cettesection� nous expliquons le mod�ele conceptuel des entrep�ots de donn�ees � le mod�elemultidimensionnel de donn�ees�

�� Mod�ele Multidimensionnel de Donn�ees

La conception des bases de donn�ees est en g�en�eral bas�ee sur le mod�ele Entit�e�Relation �E�R�� Ce mod�ele permet de faire la description des relations entre donn�ees�el�ementaires �entit�es� en cherchant l��elimination des redondances� ce qui provoque

Page 7: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba �

l�introduction d�un nombre important de nouvelles entit�es� Ainsi� l�acc�es aux donn�eesdevient compliqu�e et le diagramme g�en�er�e devient di�cile �a comprendre pour unepersonne� Pour cette raison� l�utilisation de la mod�elisation E�R pour la conceptiond�un ED n�est pas appropri�ee �Col�b��

Le mod�ele multidimensionnel de donn�ees �MMD� est une alternative mieux adap�t�ee aux besoins de l�analyse des donn�ees d�un entrep�ot �Kim��� Ce mod�ele permetd�observer les donn�ees selon plusieurs perspectives ou axes d�analyse� facilite l�acc�esaux donn�ees et en plus est facile �a comprendre y compris pour les personnes qui nesont pas expertes en informatique� Pour cette raison� ce mod�ele a �et�e adopt�e parles praticiens �Kim � �Inm�� et par les chercheurs des bases de donn�ees �AGS���TDV � pour organiser les donn�ees d�un entrep�ot�

1994

19951996

MAGASIN

PRODUIT

TEMPS

Lyon Grenoble Annecy

P2

P1

P3

1000

Fig� � � Un exemple de Cube de Donn�ees

����� Le Cube de Donn�ees

Le constructeur fondamental du mod�ele multidimensionnel est le Cube de Donn�ees�ou simplement cube �� �TDV �� Un cube organise les donn�ees en une ou plusieursdimensions qui d�eterminent une mesure d�int�er�et� Une dimension sp�eci�e la mani�eredont on regarde les donn�ees pour les analyser� alors qu�une mesure est un objet d�ana�lyse� Chaque dimension est form�ee par un ensemble d�attributs et chaque attributpeut prendre di��erentes valeurs� Les dimensions poss�edent en g�en�eral des hi�erarchiesassoci�ees qui organisent les attributs �a di��erents niveaux pour observer les donn�ees�a di��erentes granularit�es� Une dimension peut avoir plusieurs hi�erarchies associ�ees�chacune sp�eci�ant di��erentes relations d�ordre entre ses attributs�

Consid�erons un mod�ele multidimensionnel pour la cha��ne de magasins� Dans cecas� la mesure d�int�er�et est la Quantit�e d�un PRODUIT vendu dans un MAGASIN�repr�esent�e par la ville auquel il appartient� �a un instant du TEMPS� La �gure �pr�esente le cube VENTES� qui montre que ���� unit�es du produit P� ont �et�e vendusen � dans le magasin situ�e �a Annecy�

�� En g�eom�etrie� un cube d�esigne un corps solide �a six faces carr�ees de taille �egale� dans le mod�ele

multidimensionnel� un cube est une mani�ere d�organiser des donn�ees et� en realit�e� ce n�est pas un

cube� Cependant� ce terme est utile pour comprendre le mod�ele en utilisant une m�etaphoregraphique�

Pour cette raison� dans cet article nous continuerons �a utiliser ce terme�

Page 8: Integration Donnees - Construction Raffraichissement - 30p Guerrero

� Entrep�ots de Donn�ees � Synth�ese et Analyse

Les donn�ees multidimensionnelles sont de nature �eparse car il est possible queseulement un nombre tr�es faible des cellules d�un cube aient une valeur� Par exemple�les produits ne sont pas tous vendus dans tous le magasins pendant les m�emes p�eriodesde temps� Si l�on consid�ere que la cha��ne de magasins poss�ede �� magasins� vend ����produits et a op�er�e pendant � ann�ees ���� jours�� alors il y a plus de � millions decombinaisons possibles �au niveau jour�� chacune avec une vente potentielle� Si l�onsuppose que les donn�ees sont disponibles pour seulement �� de ventes �plus de ������on peut dire qu�il y a une dispersion de ��

P2

P1

P3

P

R

O

D

U

I

TTEMPS

MAGASIN

1994

1995

1996

Lyon Grenoble Annecy

100 80 91

1000 800 500

200 220 300

M

A

G

A

S

I

N1994

1995

1996

TEMPS

PRODUIT

P2

Lyon

Grenoble

Annecy

P3 P1

1001000

80

300

200

220 800

500 91

Fig� � Data Slice

�Etant donn�ee la repr�esentation sous forme de Cube d�un entrep�ot� plusieurs op�e�rations ont �et�e propos�ees �Sah���

� Slice ou Rotation

� Dice

� Roll�Up et Drill�Down

P2

P1

P3

1994

19951996

P1

P3PRODUIT

Grenoble AnnecyLyon

MAGASIN

TEMPS

PRODUIT

Lyon Annecy1994

1996

MAGASIN

TEMPS

Fig� � � Data Dice

Page 9: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba

La Rotation ou Slice permet d�avoir acc�es aux di��erentes vues de donn�ees sansles r�eordonner physiquement� Pour un cube �a � dimensions il existe six vues possibleset pour dimensions� ��� En g�en�eral� un cube de n dimensions a n � �n � �� vuespossibles� On d�enote l�op�erateur Slice par Slicedimension�CUBE�� La �gure pr�esentele r�esultat de l�application de l�operateur Slice sur le cube VENTES selon la dimensionMAGASIN et qui est d�enot�ee par �

SliceMAGASIN �V ENTES��

L�op�erateur Dice permet de restreindre les valeurs dans une ou plusieurs dimen�sions� On va d�enoter cet op�erateur par Dicerestriction�CUBE�� Ainsi� la �gure � pr�e�sente le r�esultat de l�application de Dice sur les cube VENTES pour s�electionner lesventes des produits P� et P� dans les magasins de Lyon et de Annecy pendant lesann�ees de � et de �� et qui est d�enot�ee par �

DicePRODUIT ��P��MAGASIN ��Grenoble�TEMPS �������V ENTES�

PRODUIT

France

TEMPS

19941995

P1

P2

P3

P4

P5

1996

19981997

PRODUIT

CreteilLyon AnnecyGrenoble Paris

Ile deFrance

PRODUIT

ROLL-UPDRILL-DOWN

TEMPS

19941995

P1

P2

P3

P4

P5

1996

19981997

MAGASIN

Lyon Grenoble Annecy CreteilParis

France

région

ville

pays

AlpesRhône

TEMPS

19941995

P1

P2

P3

P4

P5

1996

19981997

Ile deAlpes FranceRhône

Fig� � � Roll Up et Drill Down

Les op�erateurs Roll�Up et Drill�Down autorisent l�analyse de donn�ees �a di��erentsniveaux d�agr�egation en utilisant des hi�erarchies associ�ees �a chaque dimension� L�op�e�rateur Roll�Up e�ectue l�agr�egation des mesures allant d�un niveau particulier vers ung�en�eral� alors que Drill�Down r�ealise l�op�eration inverse� On d�enote l�op�erateur Roll�Up par RollUpniveau superieur

niveau inferieur�CUBE�� alors que l�op�erateur Drill�Down est d�enot�e

par DrillDownniveau inferieurniveau superieur�CUBE��

La �gure � montre l�application des op�erateurs Roll�Up et Drill�Down sur la dimen�sion MAGASIN� qui a associ�ee la hi�erarchie �ville�r�egion�pays � Cette hi�erarchied�etermine les relations qui existent entre villes et r�egions� et entre r�egions et pays� La�gure montre aussi une instance possible de cette hi�erarchie� qui regroupe les villes

Page 10: Integration Donnees - Construction Raffraichissement - 30p Guerrero

� Entrep�ots de Donn�ees � Synth�ese et Analyse

Formalisme Introduction Op�erateursdes hi�erarchies

Hypercube Fonctions Pull� Push� Destroy Dimension��Agrawal et� al�� ��� Restriction� Merge� JoinCube Relations Add Dimension� Transfer� RC�JoinMultidimensionnel Construct� Cube Aggregation��Li et Wang� ��� UnionTable Fonctions Unfold� Fold� SelectionN�Dimensionnelle Projection� Renaming� Union�Gyssens et Intersection� Di�erence�Lakshmanan� � � Sumarization� Classi�cationCube Ordre partiel Pull� Push� Partition�Thomas et� al�� � � entre attributs Aggregation� Cartesian Product�

Join� Union� Di�erenceF�table Ordre partiel Roll�Up�Cabibbo entre attributset Torlone����

Tab� � � Formalismes propos�es

de Paris et Cr�eteil dans la r�egion Ile�de�France et les r�egions Rh�one�Alpes et Ile�de�France dans le pays France� Pour d�eterminer le total de ventes au niveau r�egion� il fautappliquer l�op�erateur Roll�up sur la dimension MAGASIN� en sommant les totaux dechaque ville �

RollUpregion

ville �V ENTES�

Le m�eme m�ecanisme s�applique si on veut calculer le total de ventes au niveau Pays�en sommant les ventes totales de chaque r�egion� L�op�erateur Drill�Down e�ectue lesop�erations inverses �

DrillDownvilleregion�V ENTES�

����� Quelques Formalismes Propos�es

Le mod�ele multidimensionnel de donn�ees a attir�e l�attention de la communaut�eindustrielle et maintenant de nombreux produits bas�es sur ce mod�ele se trouvent surle march�e ��Ken �� �App��� �AS��� par exemple�� Les services propos�es par ces pro�duits visent �a couvrir les besoins des utilisateurs et chaque produit fournit sa proprevision du mod�ele et des op�erations associ�ees� Donc il n�existe pas �i� un formalismeind�ependant de la mise en oeuvre qui autorise la d�e�nition de dimensions structur�eesavec hi�erarchies multiples et mesures complexes� et �ii� un langage d�interrogationsous�jacent qui facilite l��ecriture de requ�etes complexes dont les agr�egations ad hocsoient autoris�ees �AGS�� �BSHD��� Pour pallier cette situation� la communaut�e derecherche a propos�e plusieurs formalismes �cf� table ���

Hypercube Agrawal et al� �AGS�� proposent un mod�ele bas�e sur la notion d�hy�percube� Un hypercube est d�etermin�e par k dimensions et ses �el�ements �cellules� sontd�e�nies par une fonction qui associe �a une combinaison de valeurs des dimensions �i�

Page 11: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba

la valeur �� si la combinaison n�existe pas dans la base de donn�ees� �ii� la valeur �� sila combinaison existe� ou �iii� un n�uplet� s�il existe de l�information suppl�ementaireassoci�ee aux �el�ements� la description des composants d�un n�uplet est stock�ee commeune m�eta donn�ee� Ce mod�ele utilise des fonctions pour la d�e�nition de hi�erarchiesmultiples et d�agr�egations ad�hoc�

1994

19951996

PR

DUIT

O

PR

DUIT

O

MAGASIN

Grenoble Annecy

P2

P1

P3 TEMPS

Lyon Grenoble Annecy

P2

P1

P3

1000

30002000

1

1

1

MAGASIN

1

Lyon

(a) (b)

<1000, ...><1000, ...>

<1000, ...>

<2000, ...>

<Quantité, ...>

QUANTITE

Fig� � L�HyperCube de Agrawal et al� Les �el�ements de l�hypercube �a� prennent desn�uplets ou � comme valeur alors que ceux de �b� prennent les valeurs ou �

Les op�erateurs �cf� table �� ont une s�emantique bien d�e�nie et forment un ensembleminimal �un op�erateur ne peut pas �etre �elimin�e sans perte des fonctionnalit�es� bienque leur d�e�nition soit complexe �a cause de l�introduction des fonctions pour repr�e�senter les hi�erarchies� Les op�erateurs propos�es peuvent �etre compos�es pour construired�autres op�erateurs de type relationnel tels que la Projection� l�Union� l�Intersectionet la Di��erence� ainsi que l�agr�egation comme Roll�Up et Drill�Down� Cette approchevise une mise en oeuvre sur un SGBD Relationnel et semble plut�ot pragmatique�

La �gure �a� pr�esente l�hypercube VENTES dont les dimensions sont PRODUIT�MAGASIN et TEMPS� et ses �el�ements sont des n�uplets �par exemple � ����� � � � �pour l��el�ement qui correspond �a PRODUIT ! P�� MAGASIN ! Lyon etTEMPS ! �� ou la valeur � �pour les �el�ements non represent�es dans la �gure�� Lam�eta donn�ee de description des �el�ements est une annotation de l�hypercube �dans cecas le n�uplet � Quantite� � � � ��� La �gure �b� pr�esente un autre hypercube avec lesdimensions PRODUIT� MAGASIN et QUANTITE et ses �el�ements prennent la valeur� �par exemple� l��el�ement qui correspond �a PRODUIT ! P��MAGASIN ! Lyon

et QUANTITE ! ����� ou bien la valeur ��

Cube Multidimensionnel Pour Li et Wang �LW�� une base de donn�ees multi�dimensionnelle est un ensemble �ni de Cubes Multidimensionnels et un ensemble �nide relations� Un Cube Multidimensionnel consiste en un certain nombre de relations�les dimensions� et pour chaque combinaison de n�uplets� un n�uplet pour chaquedimension� il existe une valeur associ�ee �une mesure�� Dans ce mod�ele� les mesuresne peuvent �etre que des valeurs num�eriques� Les auteurs introduisent la notion derelations de regroupement comme moyen pour repr�esenter des hi�erarchies� Les op�era�teurs �cf� table �� prennent des cubes et relations en entr�ee et produisent des cubesen sortie� Ils peuvent �etre compos�es pour exprimer des requ�etes complexes�

Page 12: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

La �gure ��a� montre le cube multidimensionnel VENTES form�e par les relationsPRODUIT� MAGASIN et TEMPS� Pour les n�uplets MAGASIN !� Grenoble ��PRODUIT ! � P�� ��� Noir � et TEMPS ! � ���Mai� �� �� il existela valeur associ�ee ���� La partie �b� de la �gure � montre la relation qui regroupe lesvilles de Grenoble� Lyon et Annecy dans la r�egion Rh�one�Alpes et les villes de Cr�eteilet Paris dans la r�egion Ile�de�France�

Rhône-AlpesRhône-AlpesRhône-AlpesIle-de-FranceIle-de-France

GrenobleAnnecyLyonCreteilParis

Region MAGASIN.Ville

15 Mai 1996Paris 10P2 Blanc 150

10P1 Noir 15 Mai 1996Grenoble 100

15 Mai 1996Grenoble 10P2 Noir 80

15 Mai 1996Annecy 20P1 Noir 80

15 Mai 1996Lyon 20P2 Blanc 60

15 Mai 1996Creteil 10P1 Blanc 110

MAGASIN PRODUIT TEMPS

Jour Mois AnnéeNom Poids CouleurVille

(a) (b)

Quantité

Fig� � � Le Cube Multidimensionnel de Li et Wang� �a� Cube Multidimensionnel��b� Relation de regroupement

Tables N�dimensionnelles Gyssens et Lakshmanan proposent dans �GL � unformalisme autour de la notion de table n�dimensionnelle� Une instance de ce type detable est un ensemble de relations� une pour chaque dimension et une autre pour lescl�es de dimension et les mesures respectives� Les hi�erarchies ne sont pas explicitementmentionn�ees et elles sont incorpor�ees en d�e�nissant des fonctions� Les op�erateurspropos�es �cf� table �� prennent en entr�ee un cube et produisent en sortie un autrecube� Les auteurs montrent qu�une table n�dimensionnelle peut �etre repr�esent�ee parune relation classique et vice�versa et c�est �a partir de ce r�esultat qu�ils d�eveloppent las�emantique des op�erateurs� En fait� chaque op�erateur convertit la table structur�ee n�dimensionnelle en une relation classique� e�ectue les op�erations n�ecessaires et convertitcette relation en une table n�dimensionnelle� Les op�erateurs propos�es peuvent �etrecompos�es pour en exprimer d�autres� comme Roll�Up�

La �gure �a� pr�esente la table bi�dimensionnelle VENTES avec les dimensionsPRODUIT et TEMPS� et la mesure VENTES� Les attributs Nom et Poids sont as�soci�es �a PRODUIT� alors que les attributs Mois et Ann�ee sont associ�es �a TEMPS�On peut voir dans cette �gure que ��� unit�es du produit P� ont �et�e vendus au moisde Janvier ��� La partie �b� de la m�eme �gure pr�esente une instance de VENTES�qui est form�ee par les relations rPRODUIT� rTEMPS et rm� Chaque n�uplet des rela�tions rPRODUIT et rTEMPS est vue comme une �coordonn�ee dans les dimensionsPRODUIT et TEMPS respectivement� alors qu�un n�uplet de rm repr�esente la valeurassoci�ee �a une combinaison de coordonn�ees� une coordonn�ee pour chaque dimension�

Cube Pour Thomas et� al� �TDV � une base de donn�ees multidimensionnelle estun ensemble de cubes� d�e�nis en termes de dimensions� mesures� attributs et fonc�tions qui associent les attributs aux dimensions� Il est possible de d�e�nir des sch�emas

Page 13: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

PRODUIT

100 80.... 50 60....

10201020....

P1P1P2P2....

t1t2t3t4....

rPRODUIT

Tid Nom Poids

t1t2t3t4.... .... ....

1996199619971997

JanFevJanFev

rTEMPS

Tid Année Mois

t1t2

....

t1t2

t1t1

t2t2

....

100 80

80100

....

TEMPS

Nom

Mois

Année 1996 1997

Jan Fev Jan Fev ........

Poids

P1 1020

2010

....

....P2

VENTES

....

....

.... 50

....

100

....

....

80100

60 80

80120

70

160

60 75

Vente

(a) (b)

VENTES

rm

P.Tid T.Tid Quantité

Fig� � Table N�Dimensionnelle de Gyssens et Lakshmanan� �a� Table bi�dimensio�nnelle �b� Instance de la table bi�dimensionnelle

de cubes� qui sp�eci�ent de mani�ere abstraite la structure d�un cube� �A partir d�unsch�ema� des instances peuvent �etre cr�e�ees� Les hi�erarchies ne sont pas explicitementrepr�esent�ees et elles doivent �etre d�e�nies a priori comme un ordre partiel entre lesattributs d�une dimension� Les op�erateurs de l�alg�ebre propos�ee �cf� table �� prennenten entr�ee un cube et produisent en sortie un cube� Le mod�ele fournit des d�e�nitionssimples des op�erateurs alg�ebriques� o�u chaque op�erateur ex�ecute une fonction unique�Les op�erateurs peuvent �etre compos�es pour d�e�nir d�autres op�erateurs commeRoll�Upet Drill�Down�

1994

19951996

Lyon Grenoble Annecy

P2

P1

P3

a1 = Ville

D2 = MAGASIN

D1 = PRODUIT

a1 = Nom

a3 = Année

D3 = TEMPS

<1000>

Fig� �� � Le Cube de Thomas et al� Cette gure montre un cube et ses composants

La �gure �� montre le cube �instance de cube� VENTES d�e�ni par les dimensionsD� �PRODUIT�� D� �MAGASIN� et D� �TEMPS�� L�attribut a� de la dimensionPRODUIT est �nom � l�attribut a� de la dimensionMAGASIN est �ville et l�attributa� de la dimension TEMPS est �ann�ee �

Page 14: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

F�tables Cabibbo et Torlone �CT�� proposent une formalisme autour de la notionde f�table� qui est une fonction des coordonn�ees des dimensions aux mesures� Il estpossible de sp�eci�er le sch�ema d�une f�table et de d�e�nir� �a partir de ce sch�ema� un en�semble d�instances� Ce formalisme autorise la structuration complexe des hi�erarchiesdans une dimension� en d�e�nisant des ordres partiels entre ses attributs� Le langaged�interrogation �CT � est bas�e sur la logique du premier ordre et donc autorise l��ecri�ture de requ�etes de fa�con d�eclarative� Ce langage permet l�incorporation des fonctionsd�agr�egation mieux adapt�es aux besoins du domaine d�application�

150

110

80

60

80

100

Paris

Creteil

Annecy

Lyon

Grenoble

Grenoble

P2

P1

P1

P2

P2

P1

15 Mai 1996

15 Mai 1996

15 Mai 1996

15 Mai 1996

15 Mai 1996

15 Mai 1996

VENTESp jv

VENTES [v : ville <MAGASIN>,p : nom <PRODUIT>,j : jour <TEMPS>] : quantité

(b)(a)

Fig� �� � Les f�tables de Cabbibo et Torlone� �a� Sch�ema �b� Instance

On peut voir dans la partie �a� de la �gure �� le sch�ema de la f�table qui repr�esenteles ventes de la cha��ne de magasins� mesur�ees en termes de la quantit�e vendue deproduits� Les attributs �v � �p et �j de ce sch�ema repr�esentent� respectivement� ladimension MAGASIN au niveau ville� la dimension PRODUIT au niveau nom et ladimension TEMPS au niveau jour� La partie �b� de la �gure �� montre une instancede ce sch�ema�

Malgr�e l�absence d�un formalisme conceptuel communement accept�e� la commu�naut�e industrielle a d�evelopp�e des mod�eles logiques ad hoc pour faire face aux pres�sions du march�e et �a la forte concurrence� Dans la section suivante� nous abordons lesmod�eles logiques les plus utilis�es�

�� Mod�ele Logique

Le mod�ele multidimensionnel de donn�ees d�ecrit dans la section pr�ec�edente estimplant�e directement par des syst�emes sp�ecialis�es� appel�es SGBDMultidimensionnels�pr�esent�es dans la section �� Cependant� la mise en oeuvre du mod�ele du cube n�estpas restreinte �a ce type de SGBD�

La repr�esentation de donn�ees en relations en troisi�eme forme normale n�est plusappropri�ee pour un entrep�ot �a cause du grand nombre de jointures et de restrictionspour un nombre �elev�e de relations �KS�b�� Pour �eviter ces d�esavantages� les sch�emassous forme d��etoile� de "ocon de neige et de constellation de faits ont �et�e propos�es�

����� Sch�ema en �etoile

Dans le sch�ema en �etoile �Kim��� les mesures sont repr�esent�ees par une relation defaits et chaque dimension par une relation de dimension� La relation de faits r�ef�erence

Page 15: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

Produit

Magasin

Temps

Quantité

DIMENSION

NomPoidsCouleur

Produit

DIMENSION

DIMENSION

Ventes

Produit

Magasin

Temps

VilleMagasin

JourMoisAnnée

Temps

RegionPays

RELATION DE FAITS

Fig� �� � Sch�ema en �Etoile

les relations de dimension en utilisant une cl�e �etrang�ere pour chacune et stocke lesvaleurs des mesures pour la combinaison des cl�es� Autour de cette relation �gurent lesrelations de dimension qui regroupent les caract�eristiques des dimensions� La relationde faits est normalis�ee et peut atteindre une taille importante par rapport au nombrede n�uplets� par contre� les tables de dimension sont d�enormalis�ees �c�est �a dire� desd�ependences fonctionnelles peuvent �etre trouv�ees entre les attributs� et sont en g�en�erald�une faible taille� La �gure �� montre le sch�ema en �etoile pour le cube VENTES o�ula relation de faits stocke la quantit�e de produits vendus et les relations correspondant�a PRODUIT� �a MAGASIN et �a TEMPS comportent les informations int�eressantessur ces dimensions�

����� Sch�ema en forme de Flocon de Neige

Le sch�ema en �etoile ne re"�ete pas les hi�erarchies associ�ees �a une dimension� Pourr�esoudre ce probl�eme� le sch�ema en forme de "ocon de neige a �et�e propos�e� Ce sch�emanormalise les dimensions� r�eduisant la taille de chacune des relations et permettantainsi de formaliser la notion de hi�erarchie au sein d�une dimension �Fra �� La ��gure �� montre les relations n�ecessaires pour repr�esenter un niveau des hi�erarchiesdes dimensions MAGASIN et TEMPS�

����� Constellation de faits

Il est possible d�avoir plusieurs relations de faits pour repr�esenter les situationsdans lesquelles les faits �mesures� ne sont pas d�etermin�es par exactement le m�emeensemble de dimensions� Dans ce cas� les relations de faits forment une famille �KS�b�qui partage plusieurs relations de dimension mais o�u chaque membre poss�ede sesdimensions propres� Bien entendu� si les relations de faits partagent une dimension�il faut v�eri�er que cette dimension est exactement la m�eme� Le sch�ema r�esultants�appelle constellation de faits �CD ��

Les sch�emas relationnels adapt�es aux besoins du mod�ele multidimensionnel pos�s�edent une s�erie d�avantages par rapport aux sch�emas en troisi�eme forme normale�L��etoile� le "ocon et la constellation autorisent l�expression des mesures� des dimen�sions et des hi�erarchies� d�une mani�ere simple qui permet de les distinguer clairement

Page 16: Integration Donnees - Construction Raffraichissement - 30p Guerrero

� Entrep�ots de Donn�ees � Synth�ese et Analyse

JourMois

Temps Année

Mois

Mois

Produit

Magasin

Temps

Quantité

DIMENSION

NomPoidsCouleur

Produit

DIMENSION

DIMENSION

Ventes

Produit

Magasin

Temps

VilleMagasin

Region

Region

RegionPays

RELATION DE FAITS

Fig� �� � Sch�ema en Flocon de Neige

et donc ils sont faciles �a comprendre� Ces sch�emas facilitent �egalement l�acc�es auxmesures� m�eme si la taille d�un relation de faits est souvent importante� parce que lenombre de jointures est plus petit�

� Construction et Rafra��chissement de l�Entrep�ot

�� Construction

Les donn�ees int�egr�ees dans un entrep�ot ont une grande valeur pour une entre�prise� Or leur int�egration n�est pas une t�ache facile� parce qu�en g�en�eral les donn�ees setrouvent diss�emin�ees dans de multiples sources qui poss�edent leurs propres structures�formats et d�e�nitions� En plus� ces sources peuvent contenir des erreurs� comme desvaleurs manquantes� des valeurs ill�egales ou des contradictions� des valeurs incoh�e�rentes et des relations invalides �Mos��� Pour ces raisons� les donn�ees en provenancede sources h�et�erog�enes doivent �etre trait�ees avant d��etre charg�ees dans un entrep�ot�Boh �� Ce traitement se compose de trois phases �

�� Extraction des donn�ees �a partir de leurs sources et conversion dans une repr�e�sentation interm�ediaire�

�� �Epuration par des m�ecanismes qui assurent leur qualit�e�

�� Chargement des donn�ees dans l�entrep�ot�

Des estimations indiquent que la plupart du temps ���� en moyenne� de laconstruction d�un entrep�ot est d�edi�e �a ces t�aches �Inm��� Cependant� la plupartdes entreprises sous�estiment la complexit�e de ce processus� m�eme s�il peut �etre d�e�terminant pour le succ�es de l�entrep�ot et pour la qualit�e des analyses �CM���

�� Rafra��chissement P�eriodique

Le processus de d�etection de changements dans les sources et leur propagationvers l�entrep�ot est connu sous le nom de rafra��chissement �WB �� Ce processus ser�ealise p�eriodiquement et la p�eriode d�epend des besoins des utilisateurs et de la charge

Page 17: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

d�acc�es �a l�entrep�ot� Les techniques de rafra��chissement peuvent �etre class�ees dansdeux cat�egories � statiques et incr�ementielles �BT���

Les techniques statiques prennent une photographie des donn�ees sources �a uninstant particulier dans le temps� Dans cette cat�egorie se trouvent la technique sta�tique� celle bas�ee sur des timestamps et celle bas�ee sur la comparaison de �chiers�La premi�ere est la technique la plus simple et consiste �a prendre une photographiedes sources et �a reconstruire l�entrep�ot en utilisant celle�ci� La capture bas�ee sur destimestamps utilise une information suppl�ementaire �nomm�ee timestamp� associ�ee auxdonn�ees et qui indique le temps de sa mise �a jour la plus r�ecente pour e�ectuer laphotographie des donn�ees dont la date du timestamp est post�erieure �a celle du dernierrafra��chissement� Finalement� la capture bas�ee sur la comparaison de �chiers consiste�a comparer l��etat courant d�un �chier avec l��etat ant�erieur pour trouver les di��erenceset les int�egrer dans l�entrep�ot�

Les techniques incr�ementielles de rafra��chissement capturent les changements dansles sources au moment o�u ils arrivent� Les techniques de capture assist�e par l�applica�tion� par triggers et par le journal se trouvent dans cette cat�egorie� La capture assist�eepar l�application requiert de la part des applications qui traitent les donn�ees sourcesd�identi�er les changements dans les donn�ees et de stocker ces changements dans unezone temporaire pour les utiliser a�n de rafra��chir l�entrep�ot� La capture assist�ee partriggers est tr�es semblable �a la technique pr�ec�edente mais la detection des change�ments et les diverses op�erations sont r�ealis�ees par triggers dans la base de donn�ees�Finalement� la capture par le journal utilise cette information propre au SGBD pourchercher les changements int�eressants�

� Stockage et Gestion

Dans cette section� nous d�ecrivons les techniques les plus importantes pour e�ec�tuer le stockage et la gestion de donn�ees multidimensionnelles�

��� SGBD Multidimensionnel

Un SGBD Multidimensionnel �SGBDMD� est un SGBD capable de stocker etde traiter des donn�ees multidimensionnelles� Actuellement� il n�existe pas de cadretechnologique commun pour le d�eveloppement des SGBDMD car chaque produit surle march�e �Essbase d�ArborSoft� Holos de Seagate� etc�� utilise sa propre version dumod�ele multidimensionnel et ses propres strat�egies de stockage et de gestion�

Il est possible cependant de distinguer la technique de array linearisation commecelle la plus utilis�ee pour le stockage des donn�ees multidimensionnelles �Sho �� Danscette technique� un nombre est associ�e �a chaque valeur possible d�une dimension�La position d�une cellule dans un vecteur multidimensionnel est la combinaison desnombres associ�es aux valeurs des dimensions qui d�eterminent la cellule� Cette tech�nique est appropri�ee lorsque l�espace multidimensionnel est dense � dans le cas contraire�des techniques de compression doivent s�appliquer pour reduire l�espace de stockage�

Les techniques d�indexation sont une solution alternative pour traiter la nature�eparse des donn�ees� La plupart des SGBDMD utilisent une strat�egie �a deux niveauxdans laquelle les dimensions denses sont index�ees par une structure qui stocke lescombinaisons de valeurs des dimensions �eparses �DSHB��� Colliat �Col�b� pr�esenteune g�en�eralisation �a n niveaux de cette technique de base� o�u un arbre B# est construit

Page 18: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

�a partir des combinaisons possibles des valeurs de dimensions �eparses et dont lesfeuilles contiennent des pointeurs vers les blocs des dimensions denses�

��� SGBD Relationnel

Les syst�emes de gestion de bases de donn�ees relationnelles �SGBDR� repr�esententenviron ��� du march�e des syst�emes de gestion de bases de donn�ees� De ce fait� laplupart des e�orts qui visent �a la construction d�un entrep�ot de donn�ees consid�erentce type de syst�emes� Cependant� les SGBDR doivent �etre adapt�es parce qu�ils neposs�edent pas les caract�eristiques ad�equates pour r�epondre aux besoins des entrep�ots�Dans cette section� nous abordons ces adaptations�

����� Extensions du langage SQL

Le langage d�interrogation standard des SGBDR est SQL� Ce langage autorisel�expression de requ�etes pour les donn�ees relationnelles et fournit un ensemble defonctions primitives pour les analyser� Cependant� les analyses les plus simples sontdi�ciles voire impossibles �a exprimer �KS�a�� Pour faciliter l�expression des requ�etespour analyser un entrep�ot� les communaut�es industrielle et de recherche ont propos�edes extensions �a SQL� Dans la suite de cette section� nous abordons ces extensions�

Le langage SQL fournit un ensemble de fonctions d�agr�egation telles que COUNT�SUM et AVG� Ces fonctions sont utiles mais insu�santes pour analyser les donn�ees d�unentrep�ot� o�u les comparaisons �les ventes de cette ann�ee compar�ees aux ventes del�ann�ee derni�ere� et le traitement s�equentiel des donn�ees r�esultat d�une requ�ete �quipermet de conna��tre les � produits les plus vendus� sont n�ecessaires� A ce propos� desfonctions comme RANK� PERCENTILE et d�autres de type �nancier ont �et�e incorpor�eesdans l�extension RISQL du SGBDR RedBrick �RBS��� Par exemple� la requ�ete sui�vante ordonne les produits par la quantit�e vendue et a�che seulement les cinq les plusvendus �

select RANK �quantite�

from ventes

when RANK�quantite� �� �

L�op�erateur cube propos�e par Gray et al� �GCB� � est la g�en�eralisation en n

dimensions de l�op�erateur group�by� Cet op�erateur calcule les group�by pour tousles sous�ensembles possibles des n attributs �dimensions� et est �equivalent �a l�unionde plusieurs op�erations group�by� L�op�erateur cube est bas�e sur une repr�esentationrelationnelle des donn�ees et utilise la valeur �ALL pour d�enoter l�ensemble sur lequelest calcul�ee chaque agr�egation� La requ�ete suivante calcule le cube pour les attributsde la relation ventes �

select Produit� Magasin� Temps� SUM�quantite�

from ventes

group by cube Produit� Magasin� Temps

La mise en oeuvre e�cace de cet op�erateur a attir�e l�attention des chercheurs�Agarwal et al� �AAD��� mod�elisent les calculs e�ectu�es par cube comme une hi�e�

Page 19: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba �

rarchie d�op�erations de type group�by et proposent des algorithmes qui combinentdes op�erations communes entre plusieurs group�by et qui utilisent des calculs d�ej�ae�ectu�es pour en calculer d�autres� L��evaluation empirique montre que e�ectivementl�utilisation de ces algorithmes am�eliore les performances du calcul�

D�autres extensions �a SQL ont �et�e propos�ees� Par exemple� Gingras et Lakshmanan�GL�� proposent� dans un contexte de f�ed�eration de bases de donn�ees� le langage nD�SQL� Ce langage �elimine les di��erences s�emantiques entre plusieurs bases de donn�eesrelationnelles avec des sch�emas h�et�erog�enes et supporte des op�erateurs d�agr�egationcomme cube�

����� Vues mat�erialis�ees

Une vue est une sp�eci�cation pour d�eriver une nouvelle relation �a partir d�unensemble de relations alors qu�une vue mat�erialis�ee est l�extension �les donn�ees m�emes�d�une vue �Rou �� Dans un entrep�ot de donn�ees� les vues mat�erialis�ees sont utilis�eespour repr�esenter les agr�egations des relations d�un sch�ema en �etoile� Les requ�etespeuvent utiliser ces donn�ees pr�e�agr�eg�ees et on peut ainsi augmenter les performancesdu syst�eme�

P M T

aucune

P TM

PT MTPM

Fig� � � Treillis de vues

Une vue mat�erialis�ee peut aider �a en construire d�autres et ainsi de suite� Un pro�bl�eme important est la s�election d�un ensemble minimal �a partir duquel on pourraitd�eriver les autres vues� Il existe trois approches pour la s�election de cet ensemble�Ull�� � la mat�erialisation de toutes les vues� la mat�erialisation d�aucune vue ou lamat�erialisation s�elective de quelques vues� Tandis que la premi�ere approche est infai�sable d�u �a la quantit�e d�espace n�ecessaire pour mat�erialiser toutes les vues possibles�la deuxi�eme ne fournit aucun avantage pour les performances du syst�eme� Ainsi� laseule solution plausible est la mat�erialisation s�elective�

Il existe des travaux qui abordent le probl�eme de la s�election de vues �a mat�eriali�ser� Gupta pr�esente dans �Gup a� un cadre th�eorique de travail pour le probl�eme des�election de vues �a mat�erialiser et propose un algorithme g�en�eral avec plusieurs heuris�tiques� Par ailleurs� Harinarayan et al� �HRU�� mod�elisent le probl�eme sous la formed�un treillis de vues� o�u toutes les vues ont la m�eme probabilit�e d��etre demand�eesdans une requ�ete et ont un co�ut d�etermin�e par leur nombre de n�uplets� La �gure �

Page 20: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

montre le treillis des vues possibles �a partir des dimensions PRODUIT �represent�eepar P�� MAGASIN �represent�ee par M� et TEMPS �represent�ee par T��

L�algorithme propos�e fait la s�election des vues ��a mat�erialiser� �a partir de ce treilliset restreint la recherche �a une nombre �xe de vues �a mat�erialiser� en minimisant letemps moyen d��evaluation de chacune d�entre elles� Les auteurs montrent que cet al�gorithme pr�esente des performances tr�es proche de l�optimal� cependant� il parcourtl�espace des solutions possibles �a un niveau �elev�e de granularit�e et il peut� �eventuel�lement� perdre des bonnes solutions� En plus� son temps d�ex�ecution peut devenirtr�es important dans la pratique� Pour pallier ces situations� Shukla et al� �SDN��proposent l�algorithme PBS qui essaie d��eviter ces d�esavantages�

Les techniques propos�ees pour la s�election de vues �a mat�erialiser consid�erent quel�entrep�ot poss�ede un nombre faible de dimensions� et pour cette raison� les perfor�mances de ces techniques se d�egradent �a mesure que le nombre et la complexit�e desdimensions augmentent� Cette situation a �et�e identi��ee par Baralis et al� �BPT � quiproposent une technique qui r�eduit l�espace des solutions� en consid�erant seulementles �el�ements pertinents du treillis multidimensionnel par rapport aux besoins des uti�lisateurs� Une fois materialis�ees� trouver les vues les plus appropri�ees pour r�epondre�a une requ�ete n�est pas �evident� surtout si l�on consid�ere que l�utilisateur exprimeune requ�ete en termes des relations de base� Ce probl�eme est identi��e dans �LMSS��par Levy et al� qui consid�erent le probl�eme de la r�eecriture des requ�etes en utilisantseulement les vues materialis�ees disponibles�

����� Indexation Binaire

Dans une relation� un index associe� pour chaque valeur possible d�un attribut�ou d�un groupe d�attributs�� la liste des n�uplets qui contiennent cette valeur� Unindex binaire �OG�� utilise un vecteur de bits pour repr�esenter une telle liste� Dansce vecteur� chaque n�uplet d�une relation est associ�ee �a un bit qui prend la valeur � sile n�uplet associ�ee est membre de la liste o�u � dans le cas contraire� Un index binaireest une structure de taille r�eduite qui peut �etre g�er�ee en m�emoire� ce qui am�eliore lesperformances du SGBDR� De plus� il est possible d�ex�ecuter des op�erations logiques�par exemple les op�erateurs logiques ET� OU� de mani�ere performante �OQ ��

Cette technique d�indexation est appropri�ee lorsque le nombre de valeurs possiblesd�un attribut est faible� �Evidement� le co�ut de maintenance peut �etre �elev�e car tousles index doivent �etre actualis�es �a chaque nouvelle insertion d�un n�uplet et l�espacede stockage augmente en pr�esence de dimensions de grande cardinalit�e� parce qu�ilfaut g�erer une quantit�e importante de vecteurs �eparses qui contiennent presque dansleur totalit�e des bits avec la valeur �� Pour �eviter ces probl�emes� des techniques decompression de donn�ees� comme le run�length encoding� sont utilis�ees� Dans cettetechnique� une s�equence de bits de lam�eme valeur est repr�esent�ee de mani�ere compactepar une paire dont le premier �el�ement est la valeur des bits et le deuxi�eme est le nombrede bits dans la s�equence� L�utilisation de ce type de m�ethode d�egrade les performancesdu SGBDR �a cause de la compression et la d�ecompression des index�

Analyse de l�Entrep�ot

��� Syst�emes OLAP

Les techniques de type On�Line Analytical Processing �OLAP� �Cod�� e�ectuentla synth�ese� l�analyse et la consolidation dynamique des donn�ees multidimension�

Page 21: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba �

Integration OLAPDonnéesBases de

ExternesSources

Sources de Données SGBD Multidimensionnel Interface OLAP

Fig� �� � MOLAP

nelles� Ces techniques sont apparues pour la premi�ere fois au niveau recherche aud�ebut des ann�ees � mais elles ont �et�e developp�ees dans l�industrie pendant cetted�ecennie �PC�� �OC��� Les techniques OLAP sont la mani�ere la plus naturelle d�ex�ploiter un entrep�ot �a cause de son organisation multidimensionnelle� La combinaisond�un entrep�ot et des techniques OLAP associ�ees pour l�exploiter s�appelle syst�emeOLAP �DMT���

Les syst�emes OLAP transforment les donn�ees d�un entrep�ot en information de va�leur� Un syst�eme OLAP aide le d�ecideur �a e�ectuer des analyses� lui autorisant l�acc�esaux donn�ees de l�entrep�ot et lui fournissant de puissants m�ecanismes d�interrogation�Pil��� Ces m�ecanismes comprennent des requ�etes qui impliquent des agr�egations� desclassements et des pr�evisions� Les syst�emes OLAP sont souvent class�es par rapportau syst�eme de gestion utilis�e pour le stockage et la gestion des donn�ees � ainsi� il enexiste fondamentalement trois types � Multidimensionnel� Relationnel et Hybride�

����� Syst�emes MOLAP

Les syst�emes de type OLAP Multidimensionnel �MOLAP� stockent les donn�eesdans un SGBDMD �cf� �gure ���� Ces syst�emes pr�esentent un temps de r�eponsefaible aux calculs complexes parce qu�ils e�ectuent la pr�e�agr�egation et le pr�e�calculdes donn�ees sur tous les niveaux des hi�erarchies du mod�ele de l�entrep�ot� Cela g�e�n�ere de grands volumes de donn�ees� en provoquant �eventuellement la d�egradation desperformances du syst�eme� En plus� les techniques incr�ementielles de rafra��chissementn�ont pas �et�e su�samment d�evelopp�ees et il faut reconstruire l�entrep�ot de mani�erep�eriodique�

Les syst�emes MOLAP fournissent une solution acceptable pour le stockage etl�analyse d�un entrep�ot lorsque la quantit�e estim�ee pour les donn�ees d�un entrep�ot ned�epasse pas quelques gigaoctects et lorsque le mod�ele multidimensionnel ne change pasbeaucoup �Rad��� Les produits Essbase d�Arbor Software Co��AS��� Pilot de PilotSoftware �Pil�� et TM� d�Applix �App�� appartiennent �a cette famille de syst�emes�

����� Syst�emes ROLAP

Les syst�emes de type OLAP Relationnel �ROLAP� utilisent un SGBD Relationnelpour stocker l�entrep�ot �cf� �gure ���� Le moteur OLAP est un �el�ement suppl�ementairequi fournit une vision multidimensionnelle de l�entrep�ot �organis�e sous forme d��etoileou de "ocon de neige�� des calculs de donn�ees d�eriv�es et des agr�egations �a di��erents

Page 22: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

SourcesExternes

Bases de

IntegrationRequête

Reponse

OLAPDonnées

SGBD RelationnelSources de Données Interface OLAPMoteur OLAP

Fig� �� � ROLAP

niveaux� Il est aussi le responsable de la g�en�eration des requ�etes SQL mieux adapt�eesau sch�ema relationnel de l�entrep�ot et qui pro�tent des vues mat�erialis�ees existantes�cf� section ������� En fait� l�e�cacit�e des requ�etes SQL g�en�er�ees par le moteur OLAPest le facteur principal pour mesurer les performances et le passage �a �echelle d�unsyst�eme ROLAP �DSHB���

Les syst�emes ROLAP peuvent stocker de grands volumes de donn�ees� mais ilspeuvent pr�esenter un temps de r�eponse �elev�e et sont incapables d�e�ectuer des calculscomplexes� Les exemples de produits de cette famille de syst�emes OLAP sont DSSAgent de MicroStrategy �Mic�� et MetaCube d�Informix �Inf���

����� Syst�emes HOLAP

Les syst�emes hybrides �HOLAP� essaient d��eviter les probl�emes des syst�emes MO�LAP et ROLAP� en stockant les donn�ees agr�eg�ees d�un entrep�ot dans un SGBDMDet les donn�ees d�etaill�ees dans un SGBDR� Ainsi� il est possible de g�erer une grandequantit�e de donn�ees et� en m�eme temps� d�avoir un temps de r�eponse acceptable�Les produits Express d�Oracle Corp� �Ora��� Media�MR de Speedware Corp� �Spe �et Holos de Seagate Technology Inc��Sea�� sont des exemples de cette famille desyst�emes OLAP�

Dans les syst�emes OLAP� l�initiative d�analyse appartient �a l�utilisateur qui dirigela recherche vers des zones int�eressantes dans l�espace multidimensionnel� Cependant�l�espace �a analyser peut �etre d�une grande taille et l�utilisateur n�est pas capable del�explorer� Dans la suite� nous abordons des m�ecanismes plus puissants et �intelligents qui automatisent une partie du processus d�analyse et qui sont connus sous le nomd�orpaillage�

��� Orpaillage

L�orpaillage ou Data Mining est la recherche de la connaissance� sous forme de mo�d�eles de comportement� cach�ee dans les donn�ees �Fra��� L�orpaillage est un domainejeune qui se trouve �a l�intersection des domaines tels que l�Intelligence Arti�cielle�la Statistique� et les Bases de Donn�ees� Actuellement� il existe un nombre impor�tant de techniques d�orpaillage telles que la r�egression lin�eaire� l�induction d�arbresde d�ecision� les algorithmes g�en�etiques� les r�eseaux de neurones et les algorithmes deformation de groupes�

La �gure � montre l�application d�une technique d�orpaillage �a un ensemble dedonn�ees� Dans ce cas� il s�agit d�induire� �a partir des n�uplets en entr�ee� un mod�ele declassi�cation sous la forme d�une arbre de d�ecision� L�algorithme appliqu�e a construit

Page 23: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

PRODUIT

MAGASIN

TV Radio

Grenoble Creteil

Basse Basse Haute

Paris

HauteOrpaillage

Radio 1996Paris Haute

Radio 1996Creteil Basse

TV 1996Annecy Haute

TV 1996Lyon Haute

Radio 1996Grenoble Basse

TV 1996Grenoble Haute

PRODUIT MAGASIN TEMPS Vente

Fig� � � Application d�une technique d�orpaillage

un arbre dont l�attribut le plus important pour distinguer un n�uplet d�un autre estPRODUIT et dans un deuxi�eme niveau� MAGASIN� Dans la �gure � � il est possibled�observer que� quelque soit la localisation du magasin et l�ann�ee� la vente des TV estelev�ee� En revanche� la vente de radios d�epend de la localisation du magasin�

Plusieurs techniques d�orpaillage ont �et�e utilis�ees pour plus d�une d�ecennie dansdes outils statistiques sp�ecialis�es pour l�analyse de quantit�es r�eduites de donn�ees � au�jourd�hui� ces techniques sont en train d��evoluer pour s�int�egrer avec les entrep�ots� Lasynergie entre l�orpaillage et les entrep�ots a �et�e reconnue jusqu��a r�ecemment �Inm���D�un cot�e� les techniques d�orpaillage sont plus performantes lorsqu�elles sont utilis�eespour analyser les donn�ees d�un entrep�ot� parce que les donn�ees de qualit�e qu�il int�egre�evitent que l�outil passe du temps �a faire des t�aches pr�ealables� telle que l��epurationde donn�ees� De l�autre cot�e� la capacit�e d�analyse unique que ces outils fournissentaux utilisateurs de l�entrep�ot provoque une augmentation de sa valeur strat�egique�

�� Visualisation

La visualisation des donn�ees doit faciliter leur analyse et leur interpr�etation� Lestechniques de visualisation convertissent des donn�ees complexes en images� graphiquesen � ou � dimensions et en animations qui peuvent �etre analys�ees en cherchant desinterrelations entre donn�ees� Les outils de visualisation autorisent que l�utilisateurexplore de mani�ere interactive de grandes quantit�es de donn�ees �AVS���

Les techniques de visualisation ont �et�e utilis�es aussi dans des outils sp�ecialis�espendant plusieurs ann�ees� L�int�egration de celles�ci dans le contexte des entrep�ots acommenc�e r�ecemment� Cette collaboration a des avantages pour les deux domaines�Bro � � d�une part� les donn�ees de qualit�e d�un entrep�ot �evitent qu�une techniquede visualisation r�ealise des t�aches d��epuration des donn�ees et ainsi son e�cacit�e aug�mente � d�autre part� la visualisation aide �a l�utilisateur �a mieux comprendre les ca�racteristiques des donn�ees de l�entrep�ot�

Conclusion

Un Entrep�ot de Donn�ees rassemble� dans une base de donn�ees logiquement cen�tralis�ee et non li�ee aux environnements op�erationnels d�une entreprise� des donn�eess�electionn�ees et int�egr�ees en provenance de multiples sources h�et�erog�enes� Les donn�eesd�un entrep�ot sont organis�ees pour �etre facilement accessibles et analysables� Cette

Page 24: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

caract�eristique est exploit�ee par les syst�emes d�aide �a la d�ecision qui utilisent les tech�niques d�analyse OLAP� d�orpaillage et de visualisation� La construction d�un Entrep�otde Donn�ees n�est pas un processus simple� parce qu�il faut tenir compte de facteurs dedi��erentes natures� Il faut consid�erer des facteurs techniques �l�int�egration des don�n�ees h�et�erog�enes et leur mod�elisation� ainsi que la conception des syst�emes d�aide �ala d�ecision�� Il faut consid�erer aussi des facteurs �economiques �l�achat d��equipements�de logiciels ou de services� et les caracteristiques des analyses �a venir�

Nous avons r�ealis�e un �etat de l�art des entrep�ots de donn�ees� La conclusion g�en�eraleest que le domaine est tr�es jeune et qu�il n�est pas encore stable� M�eme si l�industriea stimul�e son d�eveloppement pratique� en m�eme temps� elle a provoqu�e un �etat deconfusion du �a l�introduction des termes utilis�es pour chaque concurrent sur le march�epour se distinguer l�un de l�autre et au d�ebat de la supr�ematie des syst�emes ROLAPsur les syst�emes MOLAP� Par ailleurs� la recherche a commenc�ee �a jouer un r�ole im�portant jusqu��a r�ecemment� avec par exemple l�importation de techniques connues demat�erialisation de vues dans ce nouveau contexte� Cependant� il faut encore d�evelop�per de nouvelles solutions car les solutions traditionnelles ne sont plus appropri�ees�comme dans le cas des techniques d�indexation� En plus� la conception des entrep�otsest tr�es in"uenc�ee par le mod�ele relationnel et par les nombreux SGBD de ce type quisont op�erationnels� Cette in"uence de la technologie dominante des bases de donn�esemp�eche d�avoir une approche rigoureuse au probl�eme de la mod�elisation des donn�esmultidimensionnelles�

Les entrep�ots de donn�ees sont un terrain fertile pour des nouveaux d�eveloppe�ments� citons par exemple �

� Le rafra��chissement p�eriodique d�un entrep�ot est un probl�eme ouvert si l�on veutle r�ealiser e�cacement� Des nouvelles techniques li�ees aux bases de donn�eesactives �Col�a� peuvent �etre envisag�ees pour cela�

� Les entrep�ots de donn�ees se pr�etent bien �a l�utilisation des techniques de parti�tion de donn�ees pour le traitement parall�ele entre plusieurs processeurs �DMT���On pourrait ainsi am�eliorer les temps de r�eponse pour des requ�etes complexessur de grandes quantit�es de donn�ees�

� L�utilisation de l�Internet et de l�intranet pour l�acc�es aux entrep�ots provoqueral�incorporation de m�ecanismes complexes de s�ecurit�e�

� L�analyse et la critique des mod�eles existantes pour les donn�ees multidimen�sionnelles nous indiquent qu�il faut tirer parti de tout le travail li�e aux objetscomplexes et multimedia �AC��� Ceci ouvrira la porte pour des nouveaux entre�p�ots� comme ceux d�images satellite ou cliniques et de donn�ees g�eographiques�

� La dimension temps est tr�es importante dans un entrep�ot� Il faut �etudier lesliens avec les bases de donn�ees temporelles �FCS ��

� L�exploration des nouvelles techniques d�indexation� Dans le domaine des Basesde Donn�ees Spatiales� plusieurs techniques d�indexation ont �et�e propos�ees� commepar exemple� les arbres R �BS��� Ce type de techniques pourraient �etre utilespour l�indexation des donn�ees multidimensionnelles �Sar ��

Tout cela constitue un domaine de recherche vaste qui est actuellement encoremal explor�e� Il est clair que les donn�ees g�en�er�ees aujourd�hui sont de plus en plusnombreuses� volumineuses� h�et�erog�enes et r�eparties� Les int�egrer dans des entrep�ots�

Page 25: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

les organiser� les g�erer� les rafra��chir et les analyser e�cacement constituent les prin�cipaux d�e�s pour construire les entrep�ots de donn�ees et les syst�emes d�ecisionnels dufutur�

R�ef�erences

�AAD��� Agarwal �Sameet�� Agrawal �Rakesh�� Deshpande �Prasad�� Gupta�Ashish�� Naughton �Je�re�� Ramakrishnan �Raghu� et Sarawagi �Su�nita�� � On the computation of multidimensional aggregates� In � Pro�ceedings of the ��nd VLDB Conference� � Bombay� India� ���

�AC�� Adiba �Michel� et Collet �Christine�� � Objets et bases de donn�ees � leSGBD ��� � Paris� France� Hermes� ���

�AGS�� Agrawal �Rakesh�� Gupta �Ashish� et Sarawagi �Sunita�� � ModelingMultidimensional Databases� � Rapport technique� ��� Harry Road�San Jose� CA ����� USA� IBM Almaden Research Center� September���

�App�� Applix� � TM Technology� � Rapport technique� Applix Inc�� ���http���www�applix�com�tm��tm tech�htm�

�AS�� Arbor�Software� ��� http���www�arborsoft�com�

�AVS�� AVS� � Gaining Insight Through Data Visualisation� � Rapport tech�nique� Advanced Visual Systems Inc�� ���

�Boh � Bohn �Kathy�� � Converting data for warehouses� DBMS On�Line� June� � � http���www�dbmsmag�com� ��d���html�

�BPT � Baralis �Elena�� Paraboschi �Stefano� et Teniente �Ernest�� � Materia�lized view selection in a multidimensional database� In � Proceedings ofthe � rd VLDB Conference� � Athenes� Greece� � �

�Bro � Brooks �Peter�� � Visualizing data� DBMS On�Line� August � � �http���www�dbmsmag�com� ��d���html�

�BS�� Bontempo �Charles� et Saracco �C��� � Accelerating indexed searching�Database Programming and Design� July ���

�BSHD�� Blaschka �Markus�� Sapia �Carsten�� H$o"ing �Gabriele� et Dinter �Bar�bara�� � Finding your way through multidimensional data models� In �Proceedings of International Workshop on Data Warehouse Design andOLAP Technology �DWDOT�� pp� ������� � Vienna� Autrich� August���

�BT�� Bokun �Michele� et Taglienti �Carmen�� � Incremental datawarehouse updates� Approaches and strategies for captu�ring changed data� Data Management Review� May ��� �http���www�dmreview�com�issues����may�articles�may� ���htm�

�CD � Chauduri �Surajit� et Dayal �Umeshwar�� � An overview of data ware�housing and olap technology� SIGMOD Record� no�� � � pp� ��� �

Page 26: Integration Donnees - Construction Raffraichissement - 30p Guerrero

� Entrep�ots de Donn�ees � Synth�ese et Analyse

�CM�� Celko �Joe� et McDonald �Jackie�� � Don�t wa�rehouse dirty data� Datamation� October ��� �http���www�datamation�com�PlugIn�issues����oct�����bsw����html�

�Cod�� Codd �E��� � Providing OLAP �On�Line Analytical Processing� to Users�Analysts� An IT Mandate� � Rapport technique� E�F� Codd and Asso�ciates� ���

�Col�a� Collet �Christine�� � Bases de donn�ees actives � des syst�emes relationnelsaux syst�emes a objets� � Rapport technique� Grenoble� France� Institutd�Informatique et Math�ematiques Appliqu�ees de Grenoble� ���

�Col�b� Colliat �George�� � Olap� relational� and multidimensional databasesystems� SIGMOD Record� no�� ��� pp� ����

�CT � Cabibbo �Luca� et Torlone �Riccardo�� � Querying multidimensionaldatabases� In � Proceedings of �th Internation Workshop on DatabaseProgramming Languages� � Estes Park� Colorado� U�S�A�� August � �

�CT�� Cabibbo �Luca� et Torlone �Riccardo�� � A logical approach to multidi�mensional databases� In � Proceedings of �th Internation Workshop onExtending Database Technology� EDBT ���� � Valencia� Spain� March���

�DMT�� Datta �Anindy�� Moon �Bongki� et Thomas �Helen�� � A case for paral�lelism in data warehousing and olap� IEEE� February ���

�DSHB�� Dinter �Barbara�� Sapia �Carsten�� H$o"ing �Gabriele� et Blaschka �Mar�kus�� � The olap market� State of the art and research issues� In � Proc�ofFirst International Workshop on Data Warehousing and OLAP �DO�LAP� in connection with CIKM����� � Washington� D�C�� U�S�A�� No�vember ���

�DWI�� DWI� � Data warehouse institute� ��� http���www�dw�institute�com�

�FCS � Fauvet �M�C��� Canavaggio �J�F�� et Scholl �P�C��� � Tempos � un mod�eled�historiques pour un sgbd temporel �a objets� In � Actes de e joun�eesde Bases de Donn�ees Avanc�ees� � Grenoble� France� � �

�Fra�� Frawley �William�� � Knowledge discovery in databases� an overview�In � Knowledge Discovery in Databases� pp� ����� � U�S�A�� The AAAIPress� ���

�Fra � Franco �Jean�Michel�� � Le Data Warehouse� � France� Eyrolles� � �

�GCB� � Gray �Jim�� Chaudhuri �Surajit�� Bosworth �Adam�� Layman �Andrew��Reichart �Don�� Venkatrao �Murali�� Pellow �Frank� et Pirahesh �Ha�mid�� � Data cube� A relational aggregation operator generalizing group�by� cross�tab� ans sub�totals� Data Mining and Knowledge Discovery�� � pp� �����

�GL � Gyssens �Marc� et Lakshmanan �Laks�� � A foundation for multi�dimensional databases� In � Proceedings of the � rd VLDB Conference�� Athenes� Greece� � �

Page 27: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba ��

�GL�� Gingras �Fr�ed�eric� et Lakshmanan �Laks�� � nd�sql� A multi�dimensionallanguage for interoperability and olap� In � Proceedings of the ��thVLDB Conference� � New York� U�S�A�� ���

�Gre�� Green�eld �Larry�� � The data warehousing information center� ���http���pwp�starnetinc�com�larryg�index�html�

�Gup a� Gupta �Himanshu�� � Selection of views to materialize in a data ware�house� In � Proceedings of the �th International Conference on DatabaseTheory� pp� ������ � Delphi� Greece� January � �

�Gup b� Gupta �Vivek�� � An Introduction to Data Warehousing� � Rapporttechnique� System Services Corporation� � �

�HGML��� Hammer �J��� Garcia�Molina �H��� Labio �W��� Widom �J�� et Zhuge�Y��� � The stanford data warehousing project� IEEE Data EngineeringBulletin� no��� ��� pp� ����

�HRU�� Harinarayan �V��� Rajaraman �A�� et Ullman �J��� � Implementing datacubes e�ciently� In � Proceedings of the ACM SIGMOD InternationalConference on Management of Data� pp� ������ �

�Inf�� Informix� � Data Warehouse Administrator�s Guide� � Rapport tech�nique� Informix� ��� http���www�informix�com�

�Inm�� Inmon �W��� � Building the Data Warehouse� � Wellesley�Massachusetts�U�S�A�� QED Technical Publishing Group� ���

�Inm�� Inmon �W��� � What is a Data Warehouse�� Rapport technique� Prism Solutions� ���http���www�cait�wustl�edu�cait�papers�prism�vol�� no���

�Inm�� Inmon �W��� � The data warehouse and data mining� Communicationsof ACM� no��� ��� pp� ����

�Ken � Kenan �Sahin�� � Multidimensional Database Technology and Data Wa�rehousing� � Rapport technique� Kenan Systems Corporation� � �

�Kim�� Kimball �Ralph�� � The Data Warehouse Toolkit� � U�S�A�� John Wiley����

�Kim � Kimball �Ralph�� � A dimensional modeling manifesto�DBMS On�Line�� � � http���www�dbmsmag�com��

�KS�a� Kimball �Ralph� et Strehlo �Kevin�� � Sql is our language� �x it now�SIGMOD Record� no�� ���

�KS�b� Kimball �Ralph� et Strehlo �Kevin�� � Why decision support fails andhow to �x it� SIGMOD Record� no�� ���

�LMSS�� Levy �A��� Mendelzon �A��� Sagiv �Y�� et Srivastava �D��� � Answeringqueries using views� In � Proceedings of the �th ACM Symposium onPrinciples of Database Systems� pp� ����� � San Jose� CA� U�S�A��March ���

Page 28: Integration Donnees - Construction Raffraichissement - 30p Guerrero

�� Entrep�ots de Donn�ees � Synth�ese et Analyse

�LW�� Li �Chang� et Wang �X�Sean�� � A data model for supporting on�lineanalytical processing� In � Proceedings Conference on Information andKnowledge Management� � Baltimore� MD� U�S�A�� November ���

�MH�� Mendelzon �Alberto� et Hurtado �Carlos�� � Data ware�housing and olap� A research�oriented bibliography� ���http���www�cs�toronto�edu� mendel�dwbib�html�

�Mic�� MicroStrategy� � The Case for Relational OLAP� � Rapport technique�MicroStrategy� ��� http���www�microstrategy�com�

�Mos�� Moss �Larissa�� � Data cleansing� A dichotomy of datawarehousing% Data Management Review� February ��� �http���www�dmreview�com�issues����feb�articles�feb� ��htm�

�OC�� OLAP�Council� � The olap council� ��� http���www�olapcouncil�com�

�OG�� O�Neil �Patrick� et Graefe �Goetz�� � Multi�table joins through bitmap�ped join indices� SIGMOD Record� no�� ��� pp� �����

�OQ � O�Neil �Patrick� et Quass �Dallan�� � Improved query performance withvariant indexes� In � Proceedings of the ACM SIGMOD InternationalConference on Management of Data� � Tucson� Arizona� U�S�A�� May� �

�Ora�� Oracle� � Oracle Warehouse� Unleash the Power of Informa�tion� � Rapport technique� Oracle Corporation� November ���http���www�oracle�com�tools�datawarehouse�

�PC�� Pendse �Nigel� et Creeth �Richard�� � The OLAP Report� � U�S�A��Business Intelligence Inc�� ��� http���www�olapreport�com�

�Pil�� PilotSoftware� � An Introduction to OLAP� Multidimensional Termi�nology and Technology� � Rapport technique� Pilot Software� ���http���www�pilotsw�com�olap�olap�html�

�Rad�� Raden �Neil�� � Data� data everywhere� Information Week� October��� � http���members�aol�com�nraden�iw mct���htm�

�RBS�� Red�Brick�Systems� � Decision�Makers� Business Data and RISQL� �Rapport technique� Red Brick Systems� ���

�Rou � Roussopoulos �Nick�� � Materialized views and data warehouses� In �Proceedings of the �th KRDB Workshop� � Athenes� Greece� � �

�Sah�� Sahin �Kenan�� � An Introduction to Multidimensional Database Tech�nology� � Rapport technique� Kenan Systems Corporation� ���

�Sar � Sarawagi �Sunita�� � Indexing olap data� Bulletin of the Technical Com�mittee on Data Engineering� � � pp� �����

�SDN�� Shukla �Amit�� Deshpande �Prasad� et Naughton �Je�rey�� � Materiali�zed view selection for multidimensional datasets� In � Proceedings of the��th VLDB Conference� � New York� U�S�A�� ���

Page 29: Integration Donnees - Construction Raffraichissement - 30p Guerrero

Ben��tez�Guerrero� Collet� Adiba �

�Sea�� Seagate� � Seagate holos � In depth analysis� ���http���www�seagatesoftware�com�holos�homepage�indepth�asp�

�Sho � Shoshani �Arie�� � Olap and statistical databases� Similarities and di�e�rences� In � Proceedings of the �th ACM SIGACT�SIGMOD�SIGARTSymposium on Principles of Database Systems� pp� ������� � Tucson�Arizona� U�S�A�� May � �

�Spe � Speedware� � Media�MR� The Hybrid OLAP Technology for the En�terprise� � Rapport technique� Speedware Corporation Inc�� November� � http���www�speedware�com�pubs�datashet�mediamr�pdf�

�TDV � Thomas �Helen�� Datta �Anindya� et Viguier �Igor�� � A Conceptual Mo�del and Algebra for On�Line Analytical Processing in Decision SupportDatabases� � Rapport technique� University of Arizona� � �

�Ull�� Ullman �Je�rey�� � E�cient implementation of data cubes via mate�rialized views� In � Proceedings of the �nd International Conference onKnowledge Discovery and Data Mining �KDD����� pp� �������� � Port�land� Oregon� U�S�A�� ���

�WB � Wu �Ming�Chuan� et Buchmann �Alejandro�� � Research issues in datawarehousing� In � GI�Fachtagung Datenbanken in B�uro� Technik undWissenschaft �BTW����� � Ulm� Germany� March � �