Extension des bases de données inductives pour la découverte de chroniques
description
Transcript of Extension des bases de données inductives pour la découverte de chroniques
![Page 1: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/1.jpg)
Extension des bases de données inductives
pour la découverte de chroniques
Alexandre Vautier, René Quiniou et Marie-Odile Cordier
![Page 2: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/2.jpg)
Une petite illustration…
Trouver des motifs temporels Fréquents dans D1 (selon un seuil de 3)
Non fréquents dans D2 (selon un seuil de 2)
Motifs : Évènements ? : 5 dans D1 et 5 dans D2
: 5 dans D1 et 3 dans D2
Ensemble d’évènements ? { , }
Contrainte temporelle : intervalle [dmin, dmax]
AB AB AB B A
A A BA B A AB
D1:
D2:
AB
A B )
A B[2,3]
A B
A B[0,3]
A B[-1,0] …?
A B
+ Contrainte temporelle !
… sur 2 séquences d’évènements
![Page 3: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/3.jpg)
Introduction
Fouille de données temporelles Complexité due à l’introduction du temps
numérique
Base de données inductives Un cadre formel de la fouille de données
intégrer le temps dans une BDI
![Page 4: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/4.jpg)
Plan
Introduction
Base de données inductive et chroniques Relation d’ordre - fréquence
Traitement d’une requête Algorithme de Mitchell FACE : un outil de fouille de données temporelles
![Page 5: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/5.jpg)
Base de données inductives
Une formalisation de la fouille de données Donne un cadre au processus d’extraction de connaissances
Une base de données et de motifs La fouille de données est vue comme un processus
d’extraction par requête
Exemple de requêtes atomiques sur les motifs et les données :Fréquence(m,D1) > Tmin
Fréquence(m,D2) < Tmax
Sous-motif(m,M1)
Sous-motif(M1,m)
Requêtes : formule logique de requêtes atomiques
m : motifs cibles à déterminerD1, D2 : données
T… : fréquenceM1 : motifs
![Page 6: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/6.jpg)
Processus d’Extraction des connaissances dans les Bases de données
Volume de données Connaissances
Entrepôt de données
Sélection
Prétraitement
Transformation
Fouille de données
Interprétation/Evaluation
Connaissances
Modèles
Données transforméesDonnées
prétraitéesDonnées sélectionnées
Etapes d’un processus ECD [Fayyad et al. 1996]
![Page 7: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/7.jpg)
Les données : séquences d’évènements Les motifs : chroniques
Séquence d’évènements : liste d’évènements ordonnés
Chronique : ensemble d’évènements contraints temporellement Évènements de même type : Contrainte temporelle : [dmin,dmax] dmin,dmax 2 Z
A,t0
B,t1
C,t2
[5;10]
[-2;20]
A,1 C,5 B,8 C,10 A,15 A,16 B,26 C,34B,27
Instances
A,t0 B,t1 B,t2
C,t3C,t34
![Page 8: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/8.jpg)
Relation de généralité
C plus générale que C’ (C v C’) ,
Il existe un sous-graphe de C’ tel que
toutes les contraintes de C sont égales ou plus larges que celles de ce sous-graphe.
A,t0
B,t1
B,t2
[5;10]
[9;20]A,t0
B,t1
[8;21]v
C C’
![Page 9: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/9.jpg)
Requêtes sur la fréquence
freq(m,D) · T Fréquence des motifs m inférieure ou égale à T
freq(m,D) ¸ T Fréquence des motifs m supérieure ou égale à T
Deux ensembles de séquences P et N (9 L 2 P freq(m,D) ¸ TD) Æ (8 L 2 N freq(m,L) · TD)
on continue avec deux séquences…
![Page 10: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/10.jpg)
Fréquence et relation d’ordre
Contrainte monotone Ex : freq(m,D) · T
C 2 m Æ C’ v C ) C’ 2 m Freq(C’) · Freq(C)
Contrainte anti-monotone Ex : freq(m,D) ¸ T
C 2 m Æ C’ v C ) C’ 2 m Freq(C’) ¸ Freq(C)
C
C
C’
C’
w
v
![Page 11: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/11.jpg)
IC(D) = {i1, i2, i3, i4, i5, i6} Critère de reconnaissance Q
E µ IC(D), Q(E) ) Freq(C,D) = |E|
Exemple de critère : Qd&t: critère d’instances disjointes au plus tôt
E = {i1, i3, i6} ) Freq(C,D) = 3
Fréquence d’une chronique
D: C:i1
i2
i3
i4
i5
i6
Instances
E est unique(Anti)monotonie des contraintes sur la fréquence
![Page 12: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/12.jpg)
Traitement d’une requête
freq(m,D1) ¸ T1 Æ freq(m,D2) · T2
T
?
Le calcul des bordssuffit
Espace des versions
mfreq(m,D1) · T1
Æ freq(m,D2) ¸ T2
Maximalement général
Maximalement spécifique
![Page 13: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/13.jpg)
Calcul des bords de l’espace des versions
freq(m,D1) ¸ T1 Æ freq(m,D2) < T2
Algorithme de MitchellT
?
freq(m2,D2) ¸ T2
freq(m,D2) < T2
Æ freq(m,D1) ¸ T1
Utilisation des ChroniquesMaximalement spécifiques et Fréquentes (CMFs)
freq(m1,D1) ¸ T1
+
![Page 14: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/14.jpg)
FACEFrequency Analyser for Chronicle Extraction
Principe : Freq(m,D) ¸ T
Contrainte Anti-monotone Une chronique peut être fréquente si toutes ses
sous-chroniques sont fréquentes.
… FACE
Séquence d’évènements
Chroniques représentatives
[Dousson & Thang Vu Duong]
![Page 15: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/15.jpg)
n=1
Aucune chronique fréquente
n=n + 1
Génération de chroniques de
taille n
Reconnaissance dans la séquence
d’évènements
Raffinage des chroniques fréquentes
Algorithme de FACE
![Page 16: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/16.jpg)
FACE……Un outil de fouille de données
Optimisé pour la génération d’un nombre minimum de chroniques
Synthèse efficace recherche des CMFs Néglige les contraintes temporelles
Un extracteur complet et correct d’instances ! À partir des instances reconnues on peut
retrouver les chroniques maximalement spécifiques et fréquentes (CMFs)
![Page 17: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/17.jpg)
n=1
Aucune chronique fréquente
n=n + 1
Génération de chroniques de
taille n
Reconnaissance dans la séquence
d’évènements
Raffinage des chroniques fréquentes
Adaptation de l’algorithme FACE
Spécialisation desContraintes temporelles
![Page 18: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/18.jpg)
Raffinage pour résultats
, Recherche des motifs fréquents sur des données numériques
Très coûteux : en temps, en espace
Introduction d’un nouveau critère d’intérêt : la densité Meilleure caractérisation des chroniques intéressantes Réduction du nombre de CMFs
Utilisation et adaptation d’algorithmes de clustering Basé sur la densité, algorithmes hiérarchiques…
![Page 19: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/19.jpg)
Conclusion
Extension d’une BDI à la recherche de motifs intégrant une notion temporelle
Nécessité de calculer seulement les CMFs de chaque séquence d’évènements
Formalisation de la notion de chronique Relation d’ordre Fréquence, critère de reconnaissance
Utilisation d’un outil de fouille de données existant : FACE
Les BDIs : une formidable façon de structurer la fouille de données
![Page 20: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/20.jpg)
Perspectives
Poursuivre la réalisation des bases de données inductives étendues au temps
Utilisation d’autres mesures d’intérêt Autre que la fréquence
Permettre à l’utilisateur de spécifier le niveau de complétude désirée
Application dans le domaine de la détection d’intrusions dans les réseaux de télécommunications
![Page 21: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/21.jpg)
pour la découverte de chroniques
Extension des BDIs
Alexandre Vautier, René Quiniou,
Marie-Odile Cordier
![Page 22: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/22.jpg)
Raffinage pour résultats
Une instance , un point Une chronique , un hypercube Rechercher les hypercubes minimaux
englobant au moins T points
Très coûteux En temps En espace
Recherche des motifs fréquents sur des données numériques
xx
xx
x
xx
T = 4
![Page 23: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/23.jpg)
Densité des CMFs (1)
Chronique intéressante : Fréquente Maximalement spécifique dense
xx x
xx
xx
xx
x
xx
xx xxx
x xx
x
xx
xx
xx
x
Une CMF non dense
Une CMF dense
T = 4
![Page 24: Extension des bases de données inductives pour la découverte de chroniques](https://reader036.fdocuments.net/reader036/viewer/2022062309/568150df550346895dbefebf/html5/thumbnails/24.jpg)
Base de données inductive (2)
Son origine [Imielinski et Mannila, 1996] Base de données : gérer les applications de
stockage des données
BDI : gérer les applications de découverte de connaissances
Le temps : attribut complexe à gérer Apport des BDIs : leur formalisme