Rapport cardiologie 2

44
DATAMINING Etude et analyse de données cardiologiques Master 2 ID Promotion 2008 Enseignant : Monsieur Edwin Diday Titova Ksenia Belkoura Meriam

description

 

Transcript of Rapport cardiologie 2

Page 1: Rapport cardiologie 2

DATAMINING Etude et analyse de données cardiologiques

Master 2 ID

Promotion 2008 Enseignant : Monsieur Edwin Diday

Titova Ksenia Belkoura Meriam

Page 2: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 2 / 44 2007/2008

1 INTRODUCTION .......................................................................................................................................... 3 2 LE DATA MINING MIS EN œuvre SOUS SODAS ..................................................................................... 4

2.1 Objectifs généraux du DATAMINING................................................................................................ 4 2.2 Présentation du logiciel SODAS (Symbolic Official Data Analysis System) ...................................... 5

2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS ................................................ 7 2.2.2 Description sommaire du mode opératoire ...................................................................................... 8

2.2.2.1 Présentation de la page d’accueil ................................................................................................ 8 2.2.2.2 Généralités sur la méthode d’utilisation du logiciel ................................................................... 8 2.2.2.3 Sélection d’une base d’étude ...................................................................................................... 8 2.2.2.4 Choix des méthodes à appliquer ................................................................................................. 9

3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS .............................................................................. 11 3.1 Présentation de l’étude ....................................................................................................................... 11

3.1.1.1 Contexte de l’étude et présentation des données ...................................................................... 11 3.1.2 Les objectifs de l’étude ................................................................................................................. 11

3.2 Explication, analyse et mise en œuvre des méthodes de SODAS ...................................................... 13 3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle ....................... 13

3.2.1.1 Présentations du module ........................................................................................................... 13 3.2.1.2 Mise en œuvre de DB2SO ........................................................................................................ 14

3.2.2 VIEW (Symbolic Objects Viewer) ................................................................................................ 19 3.2.2.1 Présentation de la méthode ....................................................................................................... 19 3.2.2.2 Mise en œuvre de la méthode ................................................................................................... 20

3.2.3 STAT ............................................................................................................................................. 23 3.2.3.1 Présentation de la méthode ....................................................................................................... 23 3.2.3.2 Mise en œuvre de la méthode ................................................................................................... 24

3.2.4 DIV (Divisive Clustering on Symbolic Objects) ........................................................................... 27 3.2.4.1 Présentations de la méthode ..................................................................................................... 27 3.2.4.2 Mise en œuvre de la méthode ................................................................................................... 27

3.2.5 TREE (Descision Tree) ................................................................................................................. 29 3.2.5.1 Présentation de la méthode ....................................................................................................... 29 3.2.5.2 Mise en œuvre de la méthode ................................................................................................... 29

3.2.6 PCM (Principal Component Analysis) .......................................................................................... 32 3.2.6.1 Présentation de la méthode ....................................................................................................... 32 3.2.6.2 Mise en œuvre de la méthode ................................................................................................... 32

3.2.7 SCLUST (Symbolic Dynamic Clustering) .................................................................................... 33 3.2.7.1 Présentations de la méthode ..................................................................................................... 33 3.2.7.2 Mise en œuvre de la méthode ................................................................................................... 33

3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data) ................................................... 35 3.2.8.1 Présentations de la méthode ..................................................................................................... 35 3.2.8.2 Mise en œuvre de la méthode ................................................................................................... 35

3.2.9 DISS (Descriptive Measures) ....................................................................................................... 37 3.2.9.1 Présentation de la méthode ....................................................................................................... 37 3.2.9.2 Mise en œuvre de la méthode ................................................................................................... 38

3.2.10 HIPYR (Hierarchical and Pyramidal Clustering ) ......................................................................... 40 3.2.10.1 Présentation de la méthode ...................................................................................................... 40 3.2.10.2 Mise en œuvre de la méthode ................................................................................................. 40

3.2.11 DCLUST (Clustering Algorithm based on Distance Tables) ........................................................ 41 3.2.11.1 Présentation de la méthode ...................................................................................................... 41 3.2.11.2 Mise en œuvre de la méthode .................................................................................................. 41

4 CONCLUSION ............................................................................................................................................. 44

Page 3: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 3 / 44 2007/2008

1 INTRODUCTION

Le datamining est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues.

L’exploitation de ces nouvelles informations peut présenter un intérêt pour analyser et interpréter les comportements d’individus par exemple. Les résultats obtenus s’insérant dans un dispositif d’analyse globale permettent alors de dresser dans des plans stratégiques ou politiques les axes d’effort à respecter.

Les techniques statistiques du datamining sont bien connues. Il s’agit notamment de la régression linéaire et logistique, de l’analyse multi variée, de l’analyse des composantes principales, des arbres décisionnels et des réseaux de neurones. Cependant, les approches traditionnelles de l’inférence statistique échouent avec les grosses bases de données, car en présence de milliers ou de million de cas et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi les variables, certaines relations seront fausses, et même les relations les plus faibles paraîtront statistiquement importantes dans tout test statistique. L’objectif est de construire un modèle dont le pouvoir de prédiction est satisfaisant.

L’analyse de données symboliques prend actuellement de plus en plus d’importance, en témoigne le développement du logiciel spécifique SODAS. C’est ce logiciel (version 2.50) qui va être utilisé dans le cadre de ce projet afin d’extraire les données concentrées dans une base de donnée relationnelle de type ACCESS et d’y appliquer les méthodes d’analyse contenues dans SODAS. Notre base d’étude du projet concerne les individus susceptibles d’avoir la maladie cardio-vasculaire.

Le présent rapport est constitué de deux parties principales. La première est une présentation générale du datamining et du logiciel

SODAS. La deuxième partie décrit plus précisément le contexte de l’étude, et détaille en

particulier les modalités d’extraction des variables analysées et la mise en œuvre des diverses méthodes d’analyse associées.

Page 4: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 4 / 44 2007/2008

2 LE DATA MINING MIS EN ŒUVRE SOUS SODAS

2.1 OBJECTIFS GENERAUX DU DATAMINING

Les progrès de la technologie informatique dans le recueil et le transport de données font que dans tous les grands domaines de l’activité humaine, des données de toutes sortes (numériques, textuelles, graphiques…) peuvent maintenant être réunies et en quantité souvent très importante.

Les systèmes d’interrogation des données, qui n’étaient autrefois réalisables que via des langages informatiques nécessitant l’intervention d’ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d’accès et d’utilisation.

Résumer ces données à l’aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne …), afin de mieux les appréhender et d’en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Ces données sont dites « symboliques », car elles expriment la variation interne inéluctable des concepts et sont structurées.

Dans ce contexte, l’extension des méthodes de l’Analyse des Données Exploratoires et plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire des connaissances d’interprétation aisée, devient d’une importance grandissante.

L’analyse porte sur des « atomes », ou « unités » de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu’il s’agit d’analyser et d’organiser de façon automatique.

Par rapport aux approches classiques, l’analyse des données symboliques présente les caractéristiques et ouvertures suivantes :

Elle s’applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité …) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d’objets symboliques présentant les avantages qui sont développés supra :

- Elle utilise des outils adaptés à la manipulation d’objets symboliques de généralisation et de spécialisation, d’ordre et de treillis, de calcul d’extension, d’intention et de mesures de ressemblances ou d’adéquation tenant compte des connaissances sous-jacentes basées sur les règles de taxonomies ;

- Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle-même exprimable sous forme d’objet symbolique) et pas seulement par un point ;

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

- Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-

Page 5: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 5 / 44 2007/2008

jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravité ;

- Ils sont explicatifs, puisqu’ils s’expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l’utilisation ;

- En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symboliques de second niveau peut s’appliquer ;

- Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d’une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville.

- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d’extraire d’abord des objets symboliques de chaque base puis d’étudier l’ensemble des objets symboliques ainsi obtenus ;

- Ils peuvent facilement être transformés sous forme de requête sur une Base de Données.

Ceci a au moins les deux conséquences suivantes :

Ils peuvent donc propager les concepts qu’ils représentent d’une base à une autre (par exemple, d’un pays à l’autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d’enquête sociodémographiques).

Alors qu’habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l’utilisateur, les objets symboliques formés à partir de la base par les outils de l’analyse des données symboliques permettent à l’inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l’utilisateurs.

2.2 PRESENTATION DU LOGICIEL SODAS (SYMBOLIC OFFICIAL DATA ANALYSIS SYSTEM)

Il s’agit d’un logiciel prototype public apte à analyser des données symboliques.

Le logiciel SODAS est issu d’un projet de EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l’analyse des données symboliques.

L’idée générale de ce projet est de construire, à partir d’une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d’analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d’analyse de données symboliques.

Une analyse des données dans SODAS suit les étapes suivantes :

Partir d’une base de données relationnelle (ORACLE, ACCESS…) ;

Page 6: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 6 / 44 2007/2008

Définir ensuite un contexte par :

- Des unités statistiques de premier niveau (habitants, familles, entreprises, accidents...) ;

- Les variables qui les décrivent ;

- Des concepts (tranche d’âge, villes, groupes socio-économiques…).

Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête sur la base de données relationnelle.

Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées.

Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l’utilisateur.

Il est alors possible de créer un fichier d’objets symboliques sur lequel une douzaine de méthodes d’analyse de données symboliques peut déjà s’appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques…).

Nota : le logiciel SODAS est téléchargeable à l’adresse suivante http:/www.ceremade.dauphine.fr/~touati/sodas-pagegarde.htm

Page 7: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 7 / 44 2007/2008

2.2.1 Schéma illustrant les étapes de mise en œuvre du logiciel SODAS

Page 8: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 8 / 44 2007/2008

2.2.2 Description sommaire du mode opératoire

2.2.2.1 Présentation de la page d’accueil

La fenêtre principale de SODAS se compose de 3 éléments principaux :

1 – La barre d’outils qui comporte 5 menus.

2 – La fenêtre Methods de la fenêtre principale propose, par groupe, les différentes méthodes disponibles.

3 – La fenêtre Chaining de la fenêtre principale gère l’enchaînement des méthodes appliquées à la base choisie.

2.2.2.2 Généralités sur la méthode d’utilisation du logiciel

Il est tout d’abord important de définir ce qu’est une filière dans le logiciel SODAS. Il s’agit d’une représentation graphique des calculs à effectuer qu’il est possible de visionner dans la fenêtre Chaining.

En tête d’une filière, figure l’icône BASE représentant le fichier SODAS (.sds) sur lequel les calculs vont être effectués (la création du fichier .sds on verra par la suite dans l’exemple concret de notre étude). A la suite de cette icône BASE, viendront se placer les icônes des méthodes représentant les calculs souhaités.

Après le paramétrage des méthodes et l’enregistrement de la filière, les résultats figureront sous forme d’icônes, à droite de chacune des méthodes.

2.2.2.3 Sélection d’une base d’étude

Pour sélectionner la « base » support de l’analyse, il ne reste plus qu’à satisfaire les étapes suivantes :

2 3

1

Page 9: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 9 / 44 2007/2008

- Double-cliquer sur l’icône BASE ;

- Parcourir les dossiers et sélectionner le fichier .sds qui nous intéresse ;

- Cliquer sur OK

.

- La filière a été modifiée, et maintenant il est possible de lire le nom de la base associée à la filière ainsi que son chemin d’accès sur le disque dur.

2.2.2.4 Choix des méthodes à appliquer

Il faut maintenant enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d’analyser les données de la base.

Pour cela il est possible d’utiliser des filières prédéfinies (Model/Predefined chaining) ou bien composer soi-même une filière en enchaînant des méthodes issues de la fenêtre Methods.

Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l’icône BASE ; il faut alors sélectionner la méthode à appliquer, dans la fenêtre Methods et la faire glisser jusqu’à l’emplacement vide.

Les méthodes constituant maintenant la filière sont affichées à la suite de l’icône BASE, selon l’ordre défini par l’utilisateur, dans lequel elles vont s’enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu’une description sommaire.

La couleur de l’icône de la méthode renseigne sur son état :

� Gris : la méthode n’est pas encore paramétrée ;

� Rouge : la méthode est paramétrée.

Par défaut, les méthodes qui viennent d’être insérées sont grisées.

Chaque méthode est numérotée dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthode.

Page 10: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 10 / 44 2007/2008

La couleur de cette boîte indique le statut de la méthode :

� Gris : la méthode ne peut être exécutées car elle n’est pas paramétrée

� Vert : la méthode est exécutable car elle est paramétrée

� Rouge : la méthode est désactivée. Elle est exécutable mais l’utilisateur en interdit l’exécution (menu Methods puis Desactive method).

Ensuite, il faut paramétrer la méthode. Il suffit de double-cliquer sur l’icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s’ouvre, elle regroupe l’ensemble des différents paramètres de la méthode.

Après le paramétrage des diverses méthodes, l’affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges).

Le paramétrage des toutes les méthodes de la filière étant terminé, il est possible de l’exécuter.

Par contre, toute exécution d’une filière doit être obligatoirement précédée de sa sauvegarde (menu Chaining puis Save chaining as et saisie d’un nom dont l’extension est .fil).

Une fois cette opération effectuée, la filière est exécutée en cliquant sur le sous-menu Run chaining du menu Chaining.

Filière avant exécution des méthodes

Filière après exécution des méthodes

Page 11: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 11 / 44 2007/2008

3 ANALYSE ET ETUDE STATISTIQE AVEC SODAS

3.1 PRESENTATION DE L’ETUDE

3.1.1.1 Contexte de l’étude et présentation des données

La base de données relationnelle sur laquelle nous avons décidé de travailler à été prise d’un forum de discussion :

http://www.developpez.net/forums/showthread.php?t=483011 qui propose des jeux de données datamining. Notre but était de choisir des données intéressantes et faciles à interpréter.

La base regroupe des données sur 270 individus ayant ou susceptible d’avoir des problèmes cardiaques. Cette étude cardiologique se base sue les paramètres suivant : L’âge, le sexe, l’intensité de la douleur cardiaque, la pression artérielle, la mesure du cholestérol dans le sang, l’intensité du sucre dans le sang, l’électrocardiogramme, la détection de l’angine de poitrine, la mesure de la dépression nerveuse, le nombre de pics anormaux dans l’électrocardiogramme et l’état vaisseaux cardiaques. Nous avons donc les indicateurs suivants.

La base access initiale.

3.1.2 Les objectifs de l’étude

Le but de notre étude est d’analyser les facteurs de santé responsables de causer des problèmes cardiaques aux individus concernés.

Nos individus, c’est-à-dire nos unités statistiques de premier niveau, sont donc

constitués par les numéros identificateurs et ils sont décrits par leur ‘age’, ‘sexe’,

Page 12: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 12 / 44 2007/2008

‘type_douleur’, ‘pression’,‘cholester’,‘sucre’,‘electro’,‘angine’,’depression’,’pic’ et ‘vaisseau’. Ces variables de description ont étés expliqués au dessus.

Nos concepts apparaissent de façon presque naturelle car le risque de présenter des problèmes cardiaques et des problèmes de santé favorisant cela dépend de l’âge des personnes d’où nos concepts sont des tranches d’âges. Il s’agit donc de regrouper les individus dont l’âge est inclus dans la tranche d’âge.

Nous avons réalisé la requête suivante sur notre base access initiale afin de créer notre

concept d’étude et nous avons créé une table qui nous sert à définir les tranches d’âges et les bornes inférieure et supérieures de chaque tranche d’âge.

La table Tranche_age. La requête « Req_concept » permettant de créer notre contexte d’étude à partir de

notre table « Donnees » initiale est : SELECT Donnees.ID, Tranche_age.Tranche, Donnees.age, Donnees.sexe,

Donnees.type_douleur, Donnees.pression, Donnees.cholester, Donnees.sucre, Donnees.electro, Donnees.angine, Donnees.depression, Donnees.pic, Donnees.vaisseau

FROM Donnees, Tranche_age WHERE (((Donnees.age) <= [tranche_age].[age_max] And

(Donnees.age)>=[tranche_age].[age_min]));

Cette requête renvoie les individus du premier ordre et leur description. Elle permet ainsi de ressortir de la base les individus, les concepts puis les caractéristiques des individus sous la forme suivante :

Page 13: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 13 / 44 2007/2008

Au travers de DB2SO, on va pouvoir transformer les tuples ainsi généré par la requête en tableau symbolique. On passe ainsi au niveau du dessus en matière d’information puisque SODAS présente une description des concepts en agrégeant les caractéristiques des individus (ordinal, nominal) en champ symboliques (intervalles, probabiliste...)

Pour la méthode TREE, nous avons besoin d’une variable nominale par concept. Nous créons donc cette variable de manière artificielle, nommée « MesurePic » dans la table ‘AddVar, la nomination ‘MesurePic’= normal est attribué au groupe d’individus d’une tranche d’âge donc la moyenne des pics est inférieure ou égale à 1.5 et anormal sinon. C’est la requête Req_singleOK qui nous permet de calculer la moyenne de pics par tranche d’age.

La requête qui nous permet de connaitre la moyenne des pics par tranche d’âge est la

suivante : SELECT Req_concept.Tranche, ROUND (Avg(Req_concept.Pic),2) AS

MoyenneDePic FROM Req_concept GROUP BY Req_concept.Tranche;

la variable nominale ‘MesurePic’ par concept

3.2 EXPLICATION, ANALYSE ET MISE EN ŒUVRE DES METHODES DE SODAS

3.2.1 DB2SO : extraction de données symboliques de la base de données relationnelle

3.2.1.1 Présentations du module

DB2SO est le module du logiciel SODAS qui permet à l’utilisateur de créer un ensemble de concepts à partir de données stockées dans une base de données relationnelles. On présuppose bien évidemment qu’une série d’individus est stockée dans la base de données et que ces individus sont répartis entre plusieurs groupes d’où la nécessité de la requête « Req_concept » qui répartit les individus entre plusieurs groupe selon leur âge. Ainsi, DB2SO va pouvoir construire un concept pour chaque groupe d’individus. Dans ce processus, les variables mères / filles ainsi, les taxonomies et l’ajout de variables supplémentaires pourront être associées avec les concepts créés.

Page 14: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 14 / 44 2007/2008

3.2.1.2 Mise en œuvre de DB2SO

Connexion à la base de données acces Le système de liaisons ODBC de SODAS lui permet d’accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut sélectionner la commande Importation(DB2SO) dans le sous menu Import du menu SODAS file.

Un premier écran d’importation apparaît alors dans lequel il faut sélectionner le menu File puis New.

L’écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il s’agit d’une base Microsoft Access. Notre projet a pour objet l’étude d’une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l’accès de DB2SO à la base de données relationnelle.

Page 15: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 15 / 44 2007/2008

Voici l’invite qui va nous permettre de sélectionner notre base de données access.

Une fois, le bon driver choisi, il faut indiquer le fichier .mdb. Pour ce faire, nous cliquons sur OK. On rechercher la base de travail et on la sélectionner.

Lorsque ces étapes ont étés exécutés, nous allons procéder à l’extraction des individus. Pour cela, il faut sélectionner la requête SQL préalablement stockée dans la base « BD_heart1.mdb » dans l’écran qui se présente alors à nous. Il s’agit, en effet de la requête « Req_concept » présentée précédemment.

Nous avons vu que le résultat de cette requête nous envoie une table sous la forme suivante : Individus|concepts|description des individus. Plus précisément : 1ère colonne = individus 2ème colonne = concepts 3ème colonne et suivante = description des individus

Page 16: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 16 / 44 2007/2008

Donc « Req_concept » retourne une ligne pour chaque individu : chaque ligne ayant la

structure au dessus : identifiant de l’individu, groupe auquel appartient l’individu et ensuite les différents attributs.

Après avoir cliqué sur OK, la requête est envoyée à la base de données, les individus sont alors extraits de la base de données, ils sont stockés en mémoire et un tableau des concepts est généré.

Nous avons donc 6 variables qualitatives et 5 variables quantitatives et nos 269 individus ont étés répartis suivants 10 groupes = concepts différents.

Le menu Modify permet à l’utilisateur de modifier les concepts. Nous avons, pour le besoin de certaines méthodes, comme la méthode TREE d’ajouter une variable singled-valued aux concepts.

Page 17: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 17 / 44 2007/2008

Dans le cadre de ce travail, nous n’avons pas eu besoin d’ajouter des taxonomies, c'est-à-dire des variables mère/filles en indiquant des règles tel que par exemple, une variable n’ai de sens que si une autre variable a une certaine valeur.

Après avoir sélectionné « Add single-valued variable », une fenêtre nous invite de sélectionner la requête sql préalablement définie qui associe à chaque concept une variable nominale. Il s’agit de la requête « AddVar » qui retourne en première colonne les concepts et en deuxième colonne la variable « MesurePic » dont l’espace des valeur est {normal, anormal}.

Après avoir clique sur OK, nous avons ajouté une unique variable : MesurePic.

A ce stade, nous pouvons sauvegarder notre travail en choisissant File/Save as : le fichier sera alors enregistré avec l’extension .gaj. Ainsi l’utilisateur pourra retrouver son travail plus tard en cliquant sur File/Open puis en sélectionnant le fichier voulu.

Page 18: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 18 / 44 2007/2008

Les fichiers SODAS utilisés en entrée des méthodes de SODAS sont des fichiers avec l’extension .SDS. Pour créer de tels fichiers. Il faut utiliser le menu File/Export.

Page 19: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 19 / 44 2007/2008

Après avoir cliqué sur « select », nous choisissons ou sauvegardons notre fichier .sds et nom donné apparait dans Title .

Bien que nous n’ayons pas ajouté de taxonomie, ni de variables multimodales que nous n’en avions pas besoin, nous avons compris le fonctionnement du module DB2SO, sa grande utilité dans la création des objets symboliques et toutes les possibilités de manipulation possibles grâce à cette mise en œuvre.

3.2.2 VIEW (Symbolic Objects Viewer)

3.2.2.1 Présentation de la méthode

Cette méthode fait partie de la statistique descriptive, les techniques qui visent à mettre

en évidence des informations présentes mais cachées par le volume des données

La méthode View utilise l’éditeur d’objet symbolique VSTAR permettant visualiser, dans un tableau au premier temps, tous les objets du fichier base .sds ou juste une partie d’eux. Et par la suite de présenter ses données sous la forme d’étoile en 2 ou 3 dimensions (en cliquant sur les boutons correspondants de la barre d’outils). Le bouton SOL renvoie la description des objets symboliques sélectionnés dans le tableau.

Page 20: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 20 / 44 2007/2008

3.2.2.2 Mise en œuvre de la méthode

Nous avons choisi de faire l’analyse sur plusieurs concepts, donc sur les différentes

tranches d’âge afin de voir l’évolution des caractéristiques déterminant le risque d’une maladie cardiovasculaire.

Présentons dans l’exemple le premier concept comme la partie la plus jeune de notre population (30-34 ans) et le deuxième en choisissant la population âgée de 10 ans de plus (40-44 ans).

Tout d’abord les résultats sont présentés sous la forme d’une étoile en 2 dimensions. Les variables qualitatives sont représentées par des points de taille proportionnelle au

nombre d’occurrences rencontrées dans l’étude pour une valeur donnée. Le graphique relie entre eux les points de plus grosses tailles (présentant donc le plus grand nombre d’occurrences).

Page 21: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 21 / 44 2007/2008

Après avoir étudié le graphique précédant, on remarque que la population concernée est en bonne santé. C'est-à-dire que les valeurs des variables importantes sont bonnes : le taux de cholestérol, qui est compris entre 182.0 et 210.0, la pression qui est stable à 118.0. La dépression est notée sur une échelle minimale de 0.0 à 0.7. On remarque aussi que le pic de la tension artériel n’est pas observé. En ce qui concerne le type de douleur, cette variable est partagé entre A et B.

Regardons maintenant le changement des valeurs des ces variables chez la population âgée de 10 ans de plus.

Pour la population de 40-45 ans, on remarque que la situation est changée. Le taux de

cholestérol est monté de 210 à 341.0, la pression est aussi en augmentation, le pic de la tension artériel surcroît jusqu’à 3.0. En ce qui concerne le type de douleur les valeurs changent aussi. Dans l’histogramme suivant on peut voir la répartition de la population concernée dans chaque type de douleur :

Pour voir l’évolution des paramètres en fonction de l’âge nous pouvons superposer les deux graphiques précédents.

Page 22: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 22 / 44 2007/2008

Zoom Star Superposition :

Les informations précédentes on peut compléter par l’affichage de ses données en 3

dimensions :

Page 23: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 23 / 44 2007/2008

3.2.3 STAT

3.2.3.1 Présentation de la méthode

La méthode stat permet de représenter graphiquement l’ensemble des valeurs que prend une variable donnée pour l’ensemble des concepts et d’en visualiser la répartition.

STAT permet d’appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des objets symboliques représentés par leur description. Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle nous travaillons : les fréquences relatives pour les variables multi nominales, les fréquences relatives pour les variables intervalles, les capacités et min/max/mean pour les variables multi nominales probabilistes et biplot pour les variables intervalles.

Le format de sortie des données sera, suivant le choix de l’utilisateur, un listing ou bien un graphique.

Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires ...) par l’utilisateur et ils peuvent également être copiés et sauvegardés. Les fréquences relatives pour les variables multi-nominales :

Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le choix de l’utilisateur, être soit un diagramme bâton, soit un diagramme en camembert. Les fréquences relatives pour les variables intervalles :

Page 24: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 24 / 44 2007/2008

Cette méthode a besoin, en entrée, de 2 paramètres : - une variable intervalle I - un nombre de classes k Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets symboliques. Les capacités et min/max/mean pour les variables multi nominales probabilistes :

La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans l’histogramme capacité, la capacité d’une modalité est représentée par l’union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l’étendue et la moyenne de la probabilité de chaque modalité. Biplot pour les variables intervalles :

Ce graphique représente un objet symbolique par un rectangle dans le plan de 2 variables sélectionnées par l’utilisateur. La dimension de chaque côté du rectangle correspond à l’étendue de la variation de l’objet symbolique relativement à la variable de l’axe considéré.

3.2.3.2 Mise en œuvre de la méthode

Les fréquences relatives pour les variables interva lles

Nous étudions la variable dépression et nous découpons notre intervalle en 10 classes et nous constatons qu’ils y’a moins d’individus qui ont une dépression supérieure à 3.

Page 25: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 25 / 44 2007/2008

A partir de l’histogramme suivant, on pourrait deviner qu’un cholestérol supérieur à 300 est plutôt mauvais et pourrait causer quelques problèmes cardiaques.

Les capacités et min/max/mean pour les variables mu lti nominales probabilistes

On remarque que plus l’intensité de la douleur est élevée, plus la moyenne de la

probabilité est faible sans qu’il y’ ai une très grande différence entre les 4 types de douleur.

Page 26: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 26 / 44 2007/2008

On remarque que la plus part des individus ont des vaisseaux sanguins dans un bon

état, c'est-à-dire A. Biplot pour les variables intervalles Etant donné que nous étudions 10 tranches d’âges et que les résultats de l’application

de cette méthode se superposent, nous allons faire une étude de la pression en fonction du cholestérol sur les tranches d’âge supérieur à 60 ans.

Page 27: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 27 / 44 2007/2008

Parmi les individus entre 65 et 69 ans, il y a beaucoup de disparités et leurs caractéristiques englobent toutes les autres tranches d’âges. Comme résultat inattendu, nous remarquons que les personnes entre 75-79 ans ont un cholestérol faible et une pression moyenne et se retrouvent inclus dans les 70-74 ans. Nous verrons plus tard avec la méthode SYKSOM que bien que les 75-79 ans et les 70-74 ans soient proches dans l’âge, ils ne sont pas voisins et ne sont pas regroupés dans la même classe. Même la méthode DIV le montre car les deux tranches d’âges ne se retrouvent pas dans la même classe.

3.2.4 DIV (Divisive Clustering on Symbolic Objects)

3.2.4.1 Présentations de la méthode

DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe selon un critère d’inertie qui perme d’effectuer le découpage en classes.

A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d’obtenir le meilleur partitionnement en deux classes, conformément à l’extension du critère d’inertie. L’algorithme s’arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l’utilisateur.

Les paramètres importants à saisir sont : les variables qui seront utilisées pour calculer la matrice de dissimilarité et l’extension du critère d’inertie pour définir l’ensemble des questions binaires utiles pour effectuer le découpage.

3.2.4.2 Mise en œuvre de la méthode

Au moment de choisir nos variables, il faut être attentif à deux choses principales : - le domaine de définition des variables doit être ordonné car dans le cas contraire, les résultats obtenus seront totalement faux - il n’est pas possible de mélanger des variables dont le domaine de définition est continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l’utilisateur doit choisir entre des variables qualitatives et des variables continues. Trois paramètres doivent également être définis : - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l’inverse de la dispersion ou bien l’inverse du maximum de la déviation. La dispersion des variables est, ici, une extension aux objets symboliques de la notion de variance - le nombre k de classes de la dernière partition. La division s’arrêtera après k-1 itérations et la méthode DIV aura calculé des partitions de la classe 2 à la classe k - la méthode DIV offre également la possibilité de créer un fichier partition ; il s’agit d’un fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i∈[1,n] correspond à un objet et chaque rangée j∈[2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie que l’objet j appartient à la classe k, dans la partition en j classes.

Page 28: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 28 / 44 2007/2008

Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous Obtenons, en sortie, un listing contenant les informations suivantes : - pour chaque partition de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l’inertie expliquée relative à la partition - l’arbre de classification. Nous avons décidé d’effectuer une partition en 5 classes. Nous exécutons DIV sur l’ensemble des variables nominales(variables qualitatives) suivantes : Type_douleur Sucre Electro Vaisseau Les classes obtenues : PARTITION IN 5 CLUSTERS : -------------------------: Cluster 1 (n=1) : 75-79 ans Cluster 2 (n=4) : 70-74 ans 65-69 ans 55-59 ans 45-49 ans Cluster 3 (n=1) : 30-34 ans Cluster 4 (n=3) : 50-54 ans 40-44 ans 35-39 ans Cluster 5 (n=1) : 60-64 ans Explicated inertia : 83.757166 Le pourcentage de l’inertie est élevé. Les individus entre 75 et 79 ans, 30 et 34 ans et 60 et 64 ans se distinguent des autres classes et sont tous seul dans leur classe. Par contre les autres montrent un groupement de certaines tranches d’âges sur les critères choisis. Plus particulièrement les 70-74 ans 65-69 ans 55-59 ans 45-49 ans qui se retrouvent dans la même classe et les 50-54 ans 40-44 ans 35-39 ans se retrouvent ensemble.

Page 29: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 29 / 44 2007/2008

L’arbre obtenu en résultat : - the number noted at each node indicates the order of the division - Ng <-> yes and Nd <-> no +---- Classe 1 (Ng=1) ! !----1- [vaisseau = 0001] ! ! +---- Classe 2 (Ng=4) ! ! ! !---4- [vaisseau = 0010] ! ! ! ! ! +---- Classe 5 (Nd=1) ! ! ! !----3- [electro = 001] ! ! ! ! ! +---- Classe 4 (Nd=3) ! ! !----2- [type_douleur = 0010] ! +---- Classe 3 (Nd=1)

On remarque que ce qui permet de distinguer la classe 3 et les classe 4, 5, 2 c’est le type de la douleur, entre la classe 4 et les classes 5 et 2 c’est l’électrocardiogramme, entre la classe 5 et 2 se sont les vaisseaux, et entre la classe 1 et toutes les autres c’est encore une fois l’état des vaisseaux.

3.2.5 TREE (Descision Tree)

3.2.5.1 Présentation de la méthode

La méthode Tree nous propose un algorithme par agrandissement d’arbres, appliqué à

des données imprécises décrites par des concepts probabilistes. Dans ce contexte, la procédure de partage récursif peut être vue comme une recherche itérative d’un ensemble de concepts qui correspond le mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d’objets symboliques qui permet éventuellement d’assigner de nouveaux objets à une classe.

3.2.5.2 Mise en œuvre de la méthode

La méthode TREE va nous permettre de définir un ensemble organisé des concepts grâce à une procédure récursive de partitionnement.

Page 30: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 30 / 44 2007/2008

Attention : Les variables de partitionnement doivent avoir été crée gâche à Add-signe- valued variable dans le module DB2SO. Les variables explicatives ne peuvent être mixtes qualitatives et quantitatives à la fois. Il faut faire un choix entre les deux types de variables. Nous choisissons comme variable de partitionnement : MesurePic. TREE avec des variables explicatives de type quantitatives Les variables explicatives choisies sont : - Pression - Cholester - depression - Pic Le nombre de nœuds choisi : 5 L’arbre de décision obtenu se lit de la manière suivante :

Paramètres de départ : Learning Set : 10 Number of variables : 4 Max. number of nodes: 9 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1 Frequency of test set : 0.00

L’arbre obtenu :

Page 31: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 31 / 44 2007/2008

Interprétation de l’arbre : On relève que ce qui peut distinguer entre une mesure de pic normal et une mesure de pic anormale est la dépression. Supposons qu’on veuille classer un nouvel individu dans la classe normal ou anormal des « MesurePic » juste en regardant sa pression, son cholesterol, sa dépression et son pic. Dans un premier temps, l’arbre nous dit que pour trancher, nous n’avons besoin que de la dépression. Si cette dernière est supérieure à 1.10 alors l’individu est dans la classe normale, sinon il est dans la classe anormale. TREE avec des variables explicatives de type qualitatives Variables explicatives :

Sexe Type_douleur Sucre Electro Angine Vaisseau

L’arbre obtenu avec des variables explicatives de type qualitatives.

Interprétation de l’arbre: Si pour un individu donné l’état des vaisseaux est différent de 1100… alors l’individu est mis dans la catégorie anormal (=la classe) en ce qui concerne la mesure de son pic, sinon on regarde le type de la douleur de ce individu, s’il est différent de 1100 alors l’individu est placé dans la classe normal, sinon nous regardons l’électrocardiogramme de cet individu, s’il est différent de 010 alors l’individu et placé dans la classe normal, sinon il sera classé dans la classe anormal.

Page 32: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 32 / 44 2007/2008

3.2.6 PCM (Principal Component Analysis)

3.2.6.1 Présentation de la méthode

La méthode PCM correspond à l’analyse en composante principale classique. Mais au lieu d’obtenir une représentation par points sur un plan factoriel, PCM propose une visualisation de chaque concept par des rectangles. L’objectif est d’étudier l’intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines.

La PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des « facteurs ». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n’accepte que les variables continues.

L’exécution de la méthode nous donne deux résultats : 1 - Le listing qui contient : - La description de la matrice de données par une table : chaque ligne correspond à une classe. - Les valeurs propres, le pourcentage d’inertie et les premières composantes principales. Chaque classe est caractérisée d’abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle. - Les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique des objets symbolique difficile à interpréter où chaque objet est représenté par un rectangle.

3.2.6.2 Mise en œuvre de la méthode

La méthode accepte seulement les variables continues, en entrée. Nous avons choisi d’analyser chaque tranche d’âge suivant les variables continues suivantes: pression cholester depression pic Les intervalles des variables descriptives sont les suivants : - 94 à 200 pour la pression - 126 à 14 564 pour le cholester - 0 à 6.2 pour la depression - 1 à 3 pour le pic Nous obtenons alors la matrice de données ci-dessous représentant l’ensemble des intervalles des variables pour chacun des concepts ainsi que la matrice de corrélations entre nos 4 variables. pression cholester depression pic

Page 33: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 33 / 44 2007/2008

"70-74 ans" [110.00 , 160.00] [149.00 , 322.00] [0.00 , 2.90] [1.00 , 3.00] "65-69 ans" [100.00 , 180.00] [177.00 , 564.00] [0.00 , 2.80] [1.00 , 3.00] "55-59 ans" [100.00 , 200.00] [126.00 , 409.00] [0.00 , 5.60] [1.00 , 3.00] "60-64 ans" [102.00 , 180.00] [164.00 , 407.00] [0.00 , 6.20] [1.00 , 3.00] "50-54 ans" [94.00 , 192.00] [175.00 , 325.00] [0.00 , 4.20] [1.00 , 3.00] "40-44 ans" [102.00 , 152.00] [141.00 , 341.00] [0.00 , 3.00] [1.00 , 3.00] "45-49 ans" [101.00 , 150.00] [149.00 , 311.00] [0.00 , 3.60] [1.00 , 3.00] "35-39 ans" [94.00 , 140.00] [183.00 , 321.00] [0.00 , 3.80] [1.00 , 3.00] "75-79 ans" [125.00 , 140.00] [197.00 , 304.00] [0.00 , 1.10] [1.00 , 2.00] "30-34 ans" [118.00 , 118.00] [182.00 , 210.00] [0.00 , 0.70] [1.00 , 1.00]

Correlations Matrix : pression 1.0000 0.0619 0.0708 0.0462 cholester 0.0619 1.0000 0.0469 0.0600 depression 0.0708 0.0469 1.0000 0.0970 pic 0.0462 0.0600 0.0970 1.0000

Les corrélations entre nos 4 variables sont plutôt faibles.

Si nous regardons la plus grande corrélation, nous soupçonnions une forte liaison entre le nombre de pic et la dépression, ce résultat nous allons le retrouver dans la méthode TREE.

3.2.7 SCLUST (Symbolic Dynamic Clustering)

3.2.7.1 Présentations de la méthode

La méthode SCLUST peut être utilisée pour partitionner un ensemble de n éléments symboliques en nombre m de classes homogènes. Ce nombre de classes peut être fixé par l’utilisateur. En entrée de cette méthode c’est à l’utilisateur de choisir les paramètres qui selon lui seront les plus parlant pour regrouper les données en classes. Cette méthode construit les partitions de l’ensemble des données symboliques selon la combinaison des mesures approximatives et des prototypes. SCLUST permet de choisir les différents types de dissimilarité et de prototypes.

Si les variables choisies ont des types différents il existe la possibilité de normaliser la distance entre l’objet et le prototype.

3.2.7.2 Mise en œuvre de la méthode

On applique cette méthode sur notre base de données symboliques, en choisissant les 5

variables telle que age, type de douleur, pression, cholestérol, dépression.

Page 34: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 34 / 44 2007/2008

Les données suivantes donnent les information sur les classes crées par cette méthodes : Learning Set : 10 Number of variables : 5 Number of iterations : 20 Number of classes : 3 Initialisation : 0 random prototypes Number of runs : 10 Quantitative distance: 0 Hausdorff Distance Boolean distance : 0 De Carvalho Distance Modal distance : 0 De Carvalho Distance Normalize : 0 Yes NBCLUST procedure : 0 Yes STABCLUST procedure : 0 Yes Initial Criterion : 976.288774 GROUP OF SELECTED VARIABLES : ============================= ( Pos ) Tj Tj Weight Name Type initial used ( 1 ) 12.91 20.00 0.079365 age INTERVAL ( 3 ) 0.14 20.00 7.200591 type_douleur MODAL 4 Modalities ( 4 ) 21.71 20.00 0.047170 pression INTERVAL ( 5 ) 63.92 20.00 0.016026 cholester INTERVAL ( 9 ) 1.32 20.00 0.775194 depression INTERVAL LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans 60-64 ans 65-69 ans 70-74 ans 75-79 ans EDITION OPTIMAL PARTITION ========================= Classe : 1 Cardinal : 1 =============================== ( 0) 30-34 ans [-1.$] Classe : 2 Cardinal : 6 =============================== ( 1) 35-39 ans [1.1] ( 2) 40-44 ans [0.3] ( 3) 45-49 ans [0.3] ( 4) 50-54 ans [1.1] ( 8) 70-74 ans [1.0] ( 9) 75-79 ans [2.2] Classe : 3 Cardinal : 3 =============================== ( 5) 55-59 ans [0.7] ( 6) 60-64 ans [0.3] ( 7) 65-69 ans [2.0]

Page 35: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 35 / 44 2007/2008

L’image suivante nous présente les classes créées selon les axes age et cholestérol :

3.2.8 SYKSOM (Kohonen Self-Organizing Map for Symbolic Data)

3.2.8.1 Présentations de la méthode

Cette méthode permet d’appliquer des cartes de Kohonen à des ensembles de données

quantitatives classiques et symboliques de type intervalle dans le but de répartir ces données dans des partitions homogènes. Le but est de représenter des centres de classes dans une grille de tél manière que deux classes qui se ressemblent aient leurs centres proches dans la grille.

Voici le principe de construction de la grille :

K centres sont positionnés au hasard sur la grille lorsqu’il s’agit de définir k classes. Les k points sont ensuite positionnés dans l’espace des données ce qui donnera des centres positionnés n’importe où dans l’espace. Ensuite, on affecte chaque individu à l’un des centres avec lequel il est le plus proche (on obtient ainsi des classes Ci), puis on modifie la position des k centres initiaux (précédents) de façon à les placer le plus proche du centre de leurs classes puis on rapproche les autres centres de ce centre d’autant plus qu’ils sont proches de lui dans la grille initiale.

3.2.8.2 Mise en œuvre de la méthode

Les paramètres d’entrée

Voici les paramètres d’entrée qui nous ont parus être les plus importants. La méthode de partitionnement choisie est : stochastic approximation number of lines : nombre les lignes horizontaux dans la grille precision threshold : seuil de précision avec laquelle les données d’intervalle (individus) sont placés dans les partitions. Eps : après avoir assigné une donnée d’intervalle dans une partition, le centre de cette partition est remis à jour ainsi que les centres des partitions voisines dans la grille. Ainsi si eps=1, cela signifie que seuls les voisins directs seront remis à jour.

Page 36: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 36 / 44 2007/2008

Kernel : permet de choisir avec quelle distance « le seuil de précision » est calculé. Learning factor : facteur d’apprentissage. Interprétation de la carte de Kohonen Dans le fichier résultat : METHOD=SYKSOM Version 12/20/03 Aachen 2003 BASE = C:\Documents and Settings\Administrateur\Bureau\projet_data\heart21.sds Number of columns a = 5 Number of rows b = 5 Number of Symbolic Objects = 10 Number of variables = 5 Number of clusters (neurons) = 25 Dimension of vectors = 5 Exponential kernel Distance : Vertex-type distance

Voici la liste des clusters qui contiennent des objets symboliques, c’est à dire les clusters qui ne sont pas vides. Cluster 2 ( 1x2) Size 1 List of objects: ( 10) 30-34 ans Cluster 6 ( 2x1) Size 1 List of objects: ( 9) 75-79 ans Cluster 10 ( 2x5) Size 1 List of objects: ( 4) 60-64 ans Cluster 14 ( 3x4) Size 1 List of objects: ( 3) 55-59 ans Cluster 15 ( 3x5) Size 1 List of objects: ( 2) 65-69 ans Cluster 17 ( 4x2) Size 3 List of objects: ( 6) 40-44 ans ( 7) 45-49 ans ( 8) 35-39 ans Cluster 22 ( 5x2) Size 1 List of objects: ( 1) 70-74 ans Cluster 23 ( 5x3) Size 1 List of objects: ( 5) 50-54 ans

Nous avons 10 objets symboliques qui seront placé dans 25 cellules (neurones ou partitions), car nous avons une gille de taille 5*5.

Page 37: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 37 / 44 2007/2008

Les cercles représentent le nombre d’individus dans la classe (la partition) Les rectangles représentent le volume, l’étendue de la partition.

Nous remarquons dans la cartes que les cellules 5*2, 5+3 et 4*2 sont voisines et elles contiennent respectivement, les individus dont l’âge est entre 70-74 ans pour la cellule 5*2, 50-54 ans pour la cellule 5*3 et 40-44 ans, 45-49 ans, 35-39 ans pour la cellule 4*2 ce qui montrent que ces trois tranches d’âge qui sont dans la même cellule représentent beaucoup de similitudes. Les concepts présents dans les cellules voisines cités présentent des points communs suivants quelques variables. Lorsqu’on clique droit sur une cellule, par exemple 4*2 qui contient 3 concepts et qu’on sélectionne « paralléle », ce graphe difficile à interpréter apparait.

3.2.9 DISS (Descriptive Measures)

3.2.9.1 Présentation de la méthode

Page 38: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 38 / 44 2007/2008

La méthode DISS permet de comparer dans l’ordre les objets symboliques en quantifiant les corrélations existantes, en les mettant dans les classes ou en les discriminant. Les résultats obtenus par cette méthode permettent de comprendre, mesurer et identifier les groupes des objets symboliques et peuvent être appliqués dans les autres méthodes statistiques ou dans les certaines tâches de Data Mining. En particularité la méthodes DISS permet de comparer dans l’ordre les objets symboliques afin d’évaluer leur dissimilarité et de visualiser les résultats graphiquement dans l’éditeur VDISS.

En entrée de cette méthode on peut choisir soit un ensemble complet des variables symboliques soit juste une partie de l’ensemble. Ces variables peuvent être de type suivant : intervalle, quantitatif, modale, multi value.

3.2.9.2 Mise en œuvre de la méthode

En appliquant cette méthode sur notre ensemble des objets symboliques en choisissant

plusieurs variables (pression, cholestérol et dépression) nous obtiendrons la matrice de dissimilarité suivante :

Page 39: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 39 / 44 2007/2008

Ces résultats on peut présenter sous la forme d’un graphique :

Après avoir analysé les résultats précédents, on peut remarquer qu’il y a un grand saut,

une évolution rapide des valeurs en passant de la tranche d’âge 30-34 à 35-39. La tranche d’âge 30-34 a aussi une grande dissimilarité avec les autres, ce que peut signifier que c’est après 35 ans que la santé se dégrade.

Page 40: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 40 / 44 2007/2008

3.2.10 HIPYR (Hierarchical and Pyramidal Clustering )

3.2.10.1 Présentation de la méthode

La méthode HIPYR est utilisée pour une classification pyramidale ou hiérarchique d’un ensemble de données symboliques.

VPYR est un éditeur graphique automatiquement lié à HIPYR.

En entrée de cette méthode, l’utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide (hiérarchie). Ces variables peuvent être quantitatives, des intervalles de valeurs réelles, nominales, multinominales et/ou modales. L’utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger.

La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu’autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d’agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées).

Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l’ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l’intention de la classe). L’intention est héritée d’un prédécesseur vers son successeur et nous obtenons ainsi une structure d’héritage.

La structure d’ordre permet l’identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées.

3.2.10.2 Mise en œuvre de la méthode

Dans notre exemple d’étude on applique cette méthode sur plusieurs concepts (une population de 30 à 69 ans) et sur les variables suivantes : type de douleur, sucre, cholestérol.

On obtient la pyramide suivante :

Dans le graphique précédent on observe les 7 classes crées. On remarque, ce qui est assez naturel, que les concepts successifs sont réunis en une classe. Les valeurs des variables qui les constituent sont voisines. Le graphique suivant nous montre les valeurs des hauteurs de chaque classe.

Page 41: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 41 / 44 2007/2008

3.2.11 DCLUST (Clustering Algorithm based on Distance Tables)

3.2.11.1 Présentation de la méthode

Le but de cette méthode est de regrouper un grand ensemble d’objets symboliques en des classes homogènes.

Le critère de classification est basé sur la somme de dissimilarités entre des individus appartenant à la même classe et d’essayer de minimiser le critère de classification par le choix convenable de la classe. Ces fonctions (de similarité et de dissimilarité) peuvent prendre en considération les dépendances (hiérarchique ou logique) entre les variables.

La table de dissimilarité peut être crée de la façon suivante : - grâce au logiciel SODAS ou ASSO en utilisant la méthodes DISS ou

MATCH. - ou directement par la fonction de proximité qui peut prendre en

considération les dépendances entre les variables. En entrée de cette méthode on passe le ASSO file qui contient la table de dissimilarité. Et le nombre de classes peut être fixé par l’utilisateur.

3.2.11.2 Mise en œuvre de la méthode

Pour pouvoir utiliser cette méthode on utilise le fichier de la méthode DISS crée

précédemment, afin d’avoir la table de dissimilarité en entrée. On obtient plusieurs fichiers résultant.

Page 42: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 42 / 44 2007/2008

1 fichier présentant les données suivantes : Number of SO : 10 Learning Set : 10 Number of variables : 11 Number of iterations : 20 Number of classes : 4 Initialisation : 1 random partition Number of runs : 10 Initial Criterion : 2.150399 LIST OF SYMBOLIC OBJECTS IN THE SET : ===================================== 30-34 ans 35-39 ans 40-44 ans 45-49 ans 50-54 ans 55-59 ans 60-64 ans 65-69 ans 70-74 ans 75-79 ans

Les classes créées : EDITION PARTITION SELECTED ========================== Classe : 1 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%) ( 1) 30-34 ans [1.0] Classe : 2 Size : 5 Weight : 5.00 Criterion : 0.693404 (71.74%) ( 2) 35-39 ans [1.0] ( 3) 40-44 ans [0.6] ( 4) 45-49 ans [0.0] ( 9) 70-74 ans [0.9] ( 10) 75-79 ans [2.5] Classe : 3 Size : 1 Weight : 1.00 Criterion : 0.000000 (0.00%) ( 8) 65-69 ans [1.0] Classe : 4 Size : 3 Weight : 3.00 Criterion : 0.273120 (28.26%) ( 5) 50-54 ans [2.0] ( 6) 55-59 ans [1.0] ( 7) 60-64 ans [0.0] PARTITION DESCRIPTION ===================== INITIAL CRITERION : 2.150399 FINAL CRITERION : 0.966525 Percentage of the explained criterion : 55.05

Page 43: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 43 / 44 2007/2008

Le 2ème fichier permet de présenter les classes formées à l’aide de graphe que l’on peut présenter sous différents axes :

Et le 3ème fichier, l’éditeur VSTAR, permettant de présenter le tableau des valeurs des classes engendrées :

Page 44: Rapport cardiologie 2

Meriam BELKOURA Master 2 ID Ksenia TITOVA 44 / 44 2007/2008

4 CONCLUSION

La réalisation de ce projet a été pour nous l’occasion de découvrir un logiciel puissant d’analyse de données symboliques : le logiciel SODAS. Cet outil nous a permis d’extraire des connaissances d’une importante base de données relationnelles et d’appliquer des méthodes de statistique descriptive, de dissimilarité, de clustering et de discrimination. La grande flexibilité de ce logiciel associée à la puissance de ses diverses représentations graphiques a mis en évidence des résultats pertinents et facilement interprétables et de révéler des faits que nous ne soupçonnions pas comme le fait qu’il y ai un lien entre la dépression et la présence d’un nombre de pics anormaux dans l’électrocardiogramme. A partir des déductions faites sur cette étude, nous avons pu élargir le problème à d’autres champs, d’autres questions auxquels il serait intéressant de trouver des réponses comme : y’a-t-il un lien entre certains paramètres cardiaques et un risque de décès. Répondre à cette question pourrait aider certains médecins à anticiper sur certains traitements. Cette étude peut aussi être affinée en rajoutant d’autres variables comme la consommation de nicotine, le poids, le périmètre abdominal, la profession et l’origine ethnique.