Doctorat en Informatique THÈSE - univ-oran1.dz · Université d'Oran1 Ahmed Ben Bella Doctorat en...
Transcript of Doctorat en Informatique THÈSE - univ-oran1.dz · Université d'Oran1 Ahmed Ben Bella Doctorat en...
Université d’Oran1 Ahmed Ben Bella
Doctorat en Informatique
THÈSE
pour obtenir le grade de docteur délivré par
Université d’Oran1 Ahmed Ben Bella
Spécialité doctorale “I.R.A.D”
présentée et soutenue publiquement par
Mohammed Hakim BENDIABDALLAH
L’utilisation des systèmes intelligents pour le diagnosticmédical
JuryM. BOUAMRANE Karim , Professeur, Université d’Oran1 AB PrésidentM. CHIKH Mohammed Amine , Professeur, Université de Tlemcen EncadreurM. YAGOUBI Belabbas , Professeur, Université d’Oran1 AB Co-encadreurM. ATMANI Baghdad, Professeur, Université d’Oran1 AB ExaminateurM. HAFFAF Hafid, Professeur, Université d’Oran1 AB ExaminateurM. BENSSAID Abdelhafid, Professeur, Université de Tlemcen Examinateur
Dédicace
Á ma chère mère et mon père,
Mon frère, mes soeurs
Ma fiancé
Et à tous mes amis
Résumé
Le coût et le temps d’accès aux données ont une grande importance dans la prise de
décision. Le recours à l’intelligence artificielle constitue un moyen privilégié pour
faire face à ces contraintes. Appartenant à la famille des réseaux de neurones
incrémentaux, Fuzzy Adaptive resonance theory map field (Fuzzy ARTMAP) est un
algorithme supervisé, possédant la capacité d’apprentissage en ligne et incrémental.
Notre étude concerne le diagnostic médical orienté vers la reconnaissance du Diabète
de Type 2 et des arythmies cardiaques. Les objectifs posés dans cette thèse permettent
d’aider les médecins à renforcer leurs diagnostics, minimiser le risque d’erreurs
médicales et à établir un diagnostic correct, à moindres coûts, à temps de traitement
optimum et avec un minimum d’erreur. Pour cela, nous avons proposé une
architecture modifiée du modèle Fuzzy ARTMAP, que nous avons nommé Modified
Fuzzy ARTMAP, ce dernier a amélioré significativement les résultats obtenus par le
modèle Fuzzy ARTMAP classique.
Mot clés : Réseaux de neurones , Fuzzy ARTMAP , diagnostic , Apprentissage en-ligne .
Abstract
The cost and time of data access are very important for making decision. The use of
artificial intelligence is a privileged means to face these constraints.
Belonging to the family of Incremental Neural Networks, fuzzy adaptive resonance
theory map field (Fuzzy ARTMAP) is a supervised algorithm, having capacity of
incremental and online learning.
Our study consisted to take as specific case of medical diagnosis oriented towards the
recognition of Diabetes Type 2 and Cardiac Arrhythmia, to help doctors to improve
their diagnosis and minimize the risk of medical errors, establish a correct diagnosis at
lower costs, optimum access time and with minimal error. For this, we have proposed
a modified architecture of Fuzzy ARTMAP approach, which we named Modified
Fuzzy ARTMAP, allowing us to significantly improve the performance of the classical
model of Fuzzy ARTMAP.
Keywords : Neural Networks , Fuzzy ARTMAP , Diagnostic , Online learning .
ـ تلخيص
استخدام الذكاء االصطناعي هو وسيلة . تكلفة والحصول على البيانات في الوقت مهمة جدا في اتخاذ القراراتال
.مميزة للتصدي لهذه العوائق
الى عائلة الشبكات العصبية التدريجية، هو خوارزمية خاضعة لإلشراف مع FuzzyARTMAPينتمي
,القدرة على التعلم تدريجي و في وقت
و انتظام ضربات القلب ، 2الصنف من السكريدراستنا تتمثل في اتخاد كمثال التشخيص الطبي للمرض
التشخيص الصحيح، الوصول الى لمساعدة األطباء على تحسين التشخيص الطبي وتقليل مخاطر األخطاء الطبية
باقل تكلفة ، في الوقت والوصول إلى النتيجة األمثل مع الحد األدنى من الخطأ ،لهذا، اقترحنا بنية معدلة من
والذي سمح لنا لتحسن كبير في أداء , ARTMAPzzy uModified F، المسماة FuzzyARTMAP نموذج
الخوارزمية االصلية
. التعلم في الوقت , التشخيص , Fuzzy ARTMAP ,الشبكات العصبية :داللية كلمات
Remerciements
Louange à ALLAH qui nous a doté de la merveilleuse faculté de raisonnement
et qui nous a incité à acquérir le savoir.
Au terme de ce travail, je souhaiterais adresser mes plus vifs remerciements à
tous mes enseignants de l’université d’Oran1 et l’université de Tlemcen, qui ont
grandement contribué à notre formation.
J’exprime ma profonde gratitude à mon Directeur de thèse Pr Chikh Moham-
med Amine, professeur à la Faculté de technologie de l’université de Tlemcen,
ainsi qu’à mon Co-directeur de thèse Pr Belabbas Yagoubi professeur à la faculté
des sciences de l’Ingénieur de l’Université d’Oran1. Je les remercie pour leur
aide multiforme et leurs précieux conseils , ainsi que pour la disponibilité dont ils
m’ont gratifiée tout au long de la réalisation de ce travail.
Mes remerciements s’adressent également aux membres de mon jury.
Je tiens enfin à remercier mon père qui a accepté de relire mon manuscrit et de
le corriger dans son intégralité, ainsi que pour son précieux appui et à ma mère
pour son soutient moral .
Enfin, merci à tous ceux qui ont contribué de près ou de loin à l’aboutissement
de ce travail.
TABLE DES MATIÈRES TABLE DES MATIÈRES
Table des matières
Liste des Symboles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Liste des acronymes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Introduction générale 17
1 PRINCIPE DE L’APPRENTISSAGE EN-LIGNE 21
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2 Les Familles d’algorithmes d’apprentissage . . . . . . . . . . . . 22
1.2.1 Apprentissage hors-ligne . . . . . . . . . . . . . . . . . 22
1.2.2 Apprentissage incrémental . . . . . . . . . . . . . . . . . 23
1.2.3 Présentatin de l’apprentissage en-ligne . . . . . . . . . . . 23
1.3 Principe de l’apprentissage en-ligne . . . . . . . . . . . . . . . . 24
1.4 Apprentissage sur des séparateurs linéaires . . . . . . . . . . . . . 25
1.4.1 L’algorithme Perceptron . . . . . . . . . . . . . . . . . . 26
1.4.2 L’algorithme Winnow . . . . . . . . . . . . . . . . . . . 27
1.4.3 Séparateurs à Vaste Marge . . . . . . . . . . . . . . . . . 29
1.4.4 Classifieur Bayésien naïf . . . . . . . . . . . . . . . . . . 29
1.5 L’algorithme Fuzzy ARTMAP . . . . . . . . . . . . . . . . . . . 30
1.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6
TABLE DES MATIÈRES 7
1.5.2 Architecture de Fuzzy ARTMAP . . . . . . . . . . . . . . 31
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2 L’approche proposée Modified Fuzzy ARTMAP 38
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2 Structure de l’approche Modified Fuzzy ARTMAP . . . . . . . . 39
2.2.1 Phase d’apprentissage . . . . . . . . . . . . . . . . . . . 40
2.2.2 L’activation des classes . . . . . . . . . . . . . . . . . . . 41
2.2.3 La mise à jour des poids (apprentissage) . . . . . . . . . . 42
2.3 Phase de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.4 Organigramme de l’algorithme Modified fuzzy ARTMAP . . . . . 44
2.5 L’optimisation par essaim particulaire . . . . . . . . . . . . . . . 47
2.6 La sélection de variables pour le diagnostic médical . . . . . . . . 52
2.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3 Résultats et discussions 56
3.1 Classification des signaux ECG . . . . . . . . . . . . . . . . . . . 56
3.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1.2 Choix des paramètres d’entrée . . . . . . . . . . . . . . . 59
3.1.3 Base de données utilisées . . . . . . . . . . . . . . . . . . 60
3.1.4 Taux de classification, sensibilité, spécificité . . . . . . . 60
3.1.5 Normalisation de la base de données . . . . . . . . . . . 61
3.1.6 Discussion des Résultats . . . . . . . . . . . . . . . . . . 62
3.2 Reconnaissance du diabète de type 2 . . . . . . . . . . . . . . . . 68
3.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.2 Base de données utilisée . . . . . . . . . . . . . . . . . . 69
TABLE DES MATIÈRES 8
3.2.3 Taux de classification, sensibilité, spécificité . . . . . . . 71
3.2.4 Choix des paramètres d’entrée . . . . . . . . . . . . . . . 71
3.2.5 Expérimentations . . . . . . . . . . . . . . . . . . . . . . 72
3.2.6 Discussion des Résultats . . . . . . . . . . . . . . . . . . 78
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Conclusion générale 84
A La sélection de variables 88
A.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
A.2 La fonction objectif . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3 La stratégie de recherche . . . . . . . . . . . . . . . . . . . . . . 90
A.3.1 la sélection de variables séquentielles Naïfs . . . . . . . . 90
A.3.2 la sélection de variables séquentielles vers l’avant (SFS) . 91
A.3.3 la sélection de variables séquentielle vers l’arrière (SBS) . 93
A.3.4 la sélection de variables séquentielles flottantes vers l’avant
(SFFS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
A.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Liste des tableaux
3.1 paramètres interne de l’algorithme Fuzzy ARTMap et Modified
Fuzzy ARTMAP Pour la base de données MIT BIH en utilisant PSO 60
3.2 Nombre de battements normaux et pathologiques pour chaque si-
gnal sélectionné . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.3 Évaluation de l’algorithme Fuzzy ARTMAP avec la méthode pro-
posée Modified Fuzzy ARTMAP . . . . . . . . . . . . . . . . . . 63
3.4 Evaluation de l’algorithme Fuzzy Artmap avec notre algorithme
modified fuzzy Artmap pour l’enregistrement 216 . . . . . . . . . 67
3.5 Description des attributs de la base de données PIMA . . . . . . . 70
3.6 paramètres interne de l’algorithme Fuzzy ARTMap et Modified
Fuzzy ARTMAP Pour la base de donnée PIMA en utilisant PSO. . 72
3.7 Évaluation de l’algorithme Fuzzy ARTMAP avec la méthode pro-
posé Modified Fuzzy ARTMAP Pour la base de donnée PIMA . . 72
3.8 Détail des performances la méthode proposée Modified Fuzzy
ARTMAP Pour la base de donnée PIMA en utilisant la validation
croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9
LISTE DES TABLEAUX 10
3.9 paramètres internes de l’algorithme Fuzzy ARTMap et Modified
Fuzzy ARTMAP Pour la base de données PIMA en utilisant PSO. 77
3.10 Performance de classification de l’algorithme Modified Fuzzy ART-
MAP en combinaison d’une part avec SFFS. avec les différentes
méthodes de sélection de variables et d’autre part sans la sélection
de variable. La méthode KNN avec RSFS de Jouni Pohjalainen et
Al [22] est aussi évaluée . . . . . . . . . . . . . . . . . . . . . . 77
3.11 Patient 383 : cas Faux Positif . . . . . . . . . . . . . . . . . . . . 78
3.12 Les nœuds engagés de l’algorithme Modified Fuzzy ARTMAP pour
le patient 383 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.13 Classification Probabiliste avec l’algorithme Modified Fuzzy ART-
MAP pour le patient 383 . . . . . . . . . . . . . . . . . . . . . . 79
3.14 Patient 261 : cas Vrai négatif . . . . . . . . . . . . . . . . . . . . 80
3.15 Les nœuds engagés de l’algorithme Modified Fuzzy ARTMAP pour
le patient 261 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
3.16 Classification Probabiliste avec l’algorithme Modified Fuzzy ART-
MAP pour le patient 261 . . . . . . . . . . . . . . . . . . . . . . 80
Table des figures
1.1 Exemple d’un séparateur linéaire . . . . . . . . . . . . . . . . . . 26
1.2 L’architecture de Fuzzy ARTMAP. . . . . . . . . . . . . . . . . . 32
2.1 Architecture de l’approche Modified Fuzzy ARTMAP . . . . . . . 40
2.2 Etape d’apprentissage de l’algorithme Modified ARTMAP . . . . 45
2.3 Phase de test de l’algorithme Modified ARTMAP . . . . . . . . . 46
3.1 ECG d’un sujet sain . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2 Les paramètres de caractérasation sur un signal PVC . . . . . . . 59
3.3 Evaluation de l’algorithme fuzzy ARTMAP algorithm avec la mé-
thode proposée Modified Fuzzy ARTMAP . . . . . . . . . . . . 64
3.4 Cas faux positif d’un signal cardiaque de l’enregistrement numéro
208 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.5 Cas Faux Négatif d’un signal cardiaque de l’enregistrement nu-
méro 210 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.6 cas Vrai positif (instance 2) et Vrai négatif (instance 3) de l’enre-
gistrement 210 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.7 signal cardiaque de l’enregistrement numéro 223, FP pour Fuzzy
ARTMAP et V N pour Modified Fuzzy ARTMAP . . . . . . . . . . 68
11
TABLE DES FIGURES 12
3.8 Performance de Modified Fuzzy ARTMAP et Fuzzy ARTMAP avec
les différentes itérations . . . . . . . . . . . . . . . . . . . . . . . 74
3.9 Performance de Modified Fuzzy ARTMAP et Fuzzy ARTMAP de
1 à 50 itérations . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
A.1 Un exemple d’un problème de sélection de variables séquentielles
Naïfs de 5 classes . . . . . . . . . . . . . . . . . . . . . . . . . . 90
A.2 Un exemple d’un problème de la sélection de variables séquen-
tielles vers l’avant (SFS) . . . . . . . . . . . . . . . . . . . . . . 92
Liste des Symboles 13
Liste des Symboles
M La médiane
θ facteur de fréquence calculant le nombre d’ob-
servations présentées dans chaque catégorie
m dimension du vecteur d’entrée a
pt classe prédite par le classifieur
yt la vrais classe
b Le biais
∆ Fonction du mise à jour du reseau Fuzzy ART-
MAP
Y Domaine cible de sortie
ai ième donnée d’entrée dans le domaine X
ai donnée d’entrée a l’instant t
a vecteur d’entrée normalisé concaténée avec le
vecteur complement
a donnée d’entrée dans le domaine A
A Domaine d’entrée d’instance
ac vecteur complémentaire de la donnée d’entrée a
t Instant ou étape d’apprentissage
α paramètre du choix du reseau Fuzzy ARTMAP
Liste des Symboles 14
β Paramètre de vitesse d’apprentissage du reseau
Fuzzy ARTMAP
ε paramètre du Match tracking du reseau Fuzzy
ARTMAP
ρ Paramètre de vigilance de base du reseau Fuzzy
ARTMAP
ρ Paramètre de vigilance de base du reseau Fuzzy
ARTMAP
` Fonction de perte
J indice de la catégorie choisie à partir de la fonc-
tion de choix
T fonction du choix
w vecteur des poids adaptatifs
Liste des acronymes 15
Liste des acronymes
Cc Taux classification
Fp Faux positif
KNN k-nearest neighbors ou méthode des k plus
proches voisins
Se Sensibilité
Sp Spécificité
Vn Vrai négatif
Vp Faux négatif
Vp Vrai positif
ARTMAP. Adaptive resonance theory map field
ECG. Enregistrement électro-cardiographique
Fuzzy ARTMAP. Fuzzy Adaptive resonance theory map field
NB La classification naïve bayésienne
PSO. Particle swarm optimization
PVC Extrasystole ventriculaire
RSFS. Random Subset Feature Selection
SBS. Sequential backward selection
SFFS. Sequential floating forward selection
SFS. Sequential forward selection
SVM. Séparateurs à Vaste Marge
Introduction générale
Le coût et le temps d’accès aux données ont une grande importance dans la
prise de décision. Le recours aux modèles dites intelligents est un besoin d’un
grand intérêt pour faire face à ces contraintes.
Les logiciels issus de l’intelligence artificielle sont des outils qui ont la ca-
pacité de créer leurs propres règles de décision en vue d’identifier un objet. Un
modèle intelligent, est un modèle qui apprends et qui agit sans qu’un être humain
ait à lui dicter les actions à entreprendre et la façon de les réaliser.
Un réseau de neurones se définit comme un modèle de calcul intelligent dont
la conception est inspirée du fonctionnement des neurones (biologiques) et dont
l’apprentissage se fait à partir des données de l’environnement.
Toutefois, afin qu’un réseau de neurones artificiels puisse apprendre de lui-
même, il est exigé de lui qu’il possède un minimum de connaissances initiales.
Et précisément, ces connaissances sont des règles mathématiques relatives à l’ap-
prentissage et à la classification. Il s’agit en fait de notre interprétation des méca-
nismes et du fonctionnement de ces mêmes commandes portées dans les cellules
grises de l’humain.
Dans cette thèse, nous analysons les comportements d’un type particulier de
réseau de neurones, en l’occurrence le réseau Fuzzy Adaptive resonance theory
16
17
map field (fuzzy ARTMAP). Notre objectif est de développer une stratégie d’ap-
prentissage améliorée spécialisée pour ce type de réseau.
Nous aurons donc à mettre en lumière les forces et les faiblesses du réseau
fuzzy ARTMAP lors du traitement des divers problèmes. Les effets de diverses ca-
ractéristiques sur ce type de réseau seront également examinés, et notamment, la
taille de la base de données d’entraînement, les stratégies d’apprentissage ainsi
que l’influence des paramètres internes du réseau fuzzy ARTMAP. La connais-
sance des effets de ces caractéristiques vont nous aider à améliorer les perfor-
mances de classification. L’approche adoptée dans cette thèse consistera à déve-
lopper une stratégie d’apprentissage spécialisée pour le Réseau fuzzy ARTMAP,
en vue d’améliorer les performances Appartenant à la famille des réseaux de neu-
rones incrémentaux, Fuzzy ARTMAP est un algorithme supervisé, possédant la
capacité d’apprentissage en ligne et incrémental.
Nous ciblons comme application concrète le diagnostic médical, le but étant de
parvenir à l’établissement d’un diagnostic direct, à moindre coût, avec un temps
d’accès optimum et avec un minimum d’erreur.
Le diagnostic médical repose sur un processus de classification. L’utilisation
des Méthodes dites intelligentes pour effectuer cette classification est de plus en
plus fréquente. Même si la décision de l’expert est la importante dans le diag-
nostic, les systèmes de classification fournissent une aide substantielle, car ils
réduisent les erreurs liées à la fatigue ainsi que le temps nécessaire pour le diag-
nostic.
Lors de cette thèse, nous avons retenu quelques bases de données médicales
comme celle du diabète et de l’arythmie cardiaques, le choix de ces bases est
justifié par les raisons suivantes :
18
— L’hyperglycémie, ou concentration sanguine élevée de sucre, est un effet
fréquent du diabète non contrôlé qui conduit avec le temps à des atteintes
graves de nombreux systèmes organiques et plus particulièrement des nerfs
et des vaisseaux sanguins. Selon l’estimation de l’Organisation Mondiale
de la Santé (OMS), il y aura 370 millions de diabétiques en 2030,soit 5,4%
de la population mondiale. Il devient donc de plus en plus important de
diagnostiquer si une personne a, ou est susceptible d’acquérir le diabète.
— Les maladies cardiovasculaires sont, de leur côté, parmi les causes les plus
fréquentes des décès. L’activité cardiaque est l’une des paramètres les plus
importants pour déterminer l’état du sujet, paramètre qui se traduit par le
signal cardiaque : ECG. La détection et le traitement précoce de l’aryth-
mie, constituent des défis importants pour les soins cardiaques.
De nombreux algorithmes ont été proposés pour la reconnaissance des aryth-
mies cardiaques et du diabète de type 2. Notre contribution dans ce travail concerne
une modification de l’architecture de l’algorithme FUZZY ARTMAP aussi bien
pour le diagnostic de l’arythmie cardiaque que pour celui du diabète de type 2 .
Les modifications introduites permettent d’améliorer d’une manière significative
les résultats comparativement à la méthode de Carpenter et Al et d’autre méthodes
dans la littérature. Notre thèse se divise en 3 grands chapitres :
— Le chapitre 1 présentera les notions théoriques utiles pour la compréhen-
sion de l’apprentissage en-ligne et incrémentale. Ainsi quelques familles
d’algorithmes d’apprentissage et en particulier l’algorithme FUZZY ART-
MAP seront mis en évidence.
— Le second chapitre sera concerne la représentation de notre approche MO-
DIFIED FUZZY ARTMAP. L’optimisation par essaim particulaire sera
19
aussi définit pour l’optimisation des paramètres interne ,et finalement le
processus de sélection de variables est utilisé pour réduire l’ensemble des
caractéristiques des données d’apprentissage.
— Le troisième chapitre sera dédié aux expérimentations et discussion des
résultats sur les diagnostiques de reconnaissance du diabète de type 2 et
des arythmies cardiaques. Nous comparons nos résultats les travaux de la
littérature.
Chapitre 1
PRINCIPE DE
L’APPRENTISSAGE EN-LIGNE
1.1 Introduction
Le coût et le temps d’accès aux données médicales est un acte d’une extrême
importance lors du diagnostic médical. D’où l’intérêt du recours à l’intelligence
artificielle et aux algorithmes d’apprentissage pour faire face à cette contrainte
et aider les médecins à établir le diagnostic correct avec un minimum d’erreur.
Dans ces conditions, il est préférable et plus intéressant d’accéder aux données
médicales pendant un temps trop court (en-ligne). Pendant une phase d’appren-
tissage les algorithmes concernés doivent effectuer des calculs distribués. Une
autre manière pour satisfaire le traitement de ces informations est d’utiliser les
algorithmes en ligne. Les algorithmes en ligne permettent de limiter le temps de
calcul et de construire le modèle au fur et à mesure de l’arrivée des données,
sans avoir besoin de revoir toutes les données. Ces derniers permettent aussi de
20
1.2. LES FAMILLES D’ALGORITHMES D’APPRENTISSAGE 21
prendre des décisions à partir des données peu nombreuses, sans compromettre les
performances de classification des anciennes données. Dans ce premier chapitre
nous allons montrer que différents algorithmes d’apprentissage en-ligne peuvent
être probablement considérés comme des cas particuliers. Cette vue unifiée ex-
plique les propriétés des algorithmes existants et nous permet également de tirer
plusieurs formules et idées intéressantes. Nous allons définir l’algorithme Fuzzy
ARTMAP et les différents algorithmes qui le composent, ce qui nous permettra de
présenter l’aspect théorique des différents algorithmes présents dans les chapitres
qui suivent.
1.2 Les Familles d’algorithmes d’apprentissage
Il existe des grandes familles d’algorithmes d’apprentissage selon la disponi-
bilité et la taille des données. Le premier à être apparu est l’apprentissage hors-
ligne ; celui-ci permet de classifier les données après avoir fait l’apprentissage sur
une base d’apprentissage collectée auparavant. Les algorithmes d’apprentissage
en-ligne sont ensuite apparus pour traiter les données au fur et à mesure de leurs
apparitions.
1.2.1 Apprentissage hors-ligne
L’apprentissage dit hors-ligne correspond à l’apprentissage sur des données
disponibles au moment de cet apprentissage. Il peut s’appliquer aussi sur des don-
nées de faible et de moyenne taille. Au-delà d’une certaine taille, le temps d’accès
et de lecture des données devient difficile et long. Les données ne peuvent plus
être gérées dans la mémoire et arrivent de manière continue. L’apprentissage in-
1.2. LES FAMILLES D’ALGORITHMES D’APPRENTISSAGE 22
crémental devient une solution alternative afin de gérer ce genre de problématique.
1.2.2 Apprentissage incrémental
L’apprentissage incrémental est capable de recevoir les nouveaux exemples
sans devoir réaliser un apprentissage complet. En d’autre termes, pour n’importe
quel exemple f1, ..., fn tels que fi+1 ne dépend que de fi et de l’exemple courant
xi, c’est-à-dire les derniers exemples vus. Le point fort de l’algorithme d’appren-
tissage incrémental est le temps d’apprentissage qui est beaucoup plus rapide que
les algorithmes d’apprentissage hors-ligne. Cette rapidité est justifiée par le fait
que les algorithmes ne lisent souvent qu’une seule fois les exemples, ce qui leur
permet de traiter des données volumineuses.
1.2.3 Présentatin de l’apprentissage en-ligne
Lorsque l’arrivée des exemples se fait de manière continue pour réaliser l’ap-
prentissage, on appelle celà l’apprentissage « en-ligne » ; l’opposé de l’apprentis-
sage hors-ligne, c’est l’apprentissage par lots. Les exigences en termes de com-
plexité calculatoire sont ici plus fortes que pour l’apprentissage incrémental. l’ap-
prentissage en ligne permet donc d’apprendre et de classifier à une plus grande
vitesse de flux de données.
L’apprentissage en ligne est effectué dans une séquence d’itérations consécu-
tives, à l’instant t l’apprenant reçoit une donnée ai ,prises à partir d’une base de
l’instance A, et il doit prédire la classe désirée ,on la dénote yt. après avoir effec-
tué la prédiction , la bonne classe yt prise à partir d’une base cible Y est révélée
,et l’apprenant subit une erreur,`(pt, yt), qui mesure l’écart entre la vraie classe et
1.3. PRINCIPE DE L’APPRENTISSAGE EN-LIGNE 23
la classe prédite.
L’apprentissage en ligne est connu être plus lent à converger vers un minima,
par rapport à l’apprentissage par lots. Toutefois, dans les cas où l’ensemble des
données ne peuvent pas être gérées ou lorsqu’elles saturent la mémoire, le recours
à l’apprentissage en ligne est la solution optimale. En d’autres terme l’apprentis-
sage En-ligne gère les données volumineuse.
1.3 Principe de l’apprentissage en-ligne
L’apprentissage en-ligne représente une importante famille d’algorithmes d’ap-
prentissage efficace et évolutif pour les applications à grande échelle. En général
, les algorithmes d’apprentissage en-ligne sont rapides , simples , et font souvent
quelques hypothèses statistiques, ce qui les rend applicables à une large gamme
d’applications. Ces dernières années, une grande variété d’algorithmes d’appren-
tissage en-ligne a été proposée.
L’apprentissage en ligne fonctionne sur une séquence de données d’exemples ;
à chaque étape t, l’apprenant reçoit un exemple entrant at ∈ A caractérisé par un
vecteur à n-dimension (A = Rd), il essaie d’abord de prédire l’étiquette de classe
de l’instance entrante,pt = sgn(f(xt;wt)) = sgn(wt, xt) ∈ Y et Y = {−1,+1}
pour les tâches de classification binaire. Après avoir effectué la prédiction, l’éti-
quette désirée (correcte) yt est révélée. Le modèle d’apprentissage calcule alors la
l’erreur ` (yt, pt) basée sur des critères pour mesurer la différence entre la classe
obtenue par le modèle d’apprentissage, et la vraie classe désirée yt. Finalement, en
se basant sur le résultat de l’erreur, l’apprenant décide quand et comment mettre
à jour le modèle de classification à la fin de chaque étape d’apprentissage. L’algo-
1.4. APPRENTISSAGE SUR DES SÉPARATEURS LINÉAIRES 24
rithmique suivant donne un aperçu de la plupart des algorithmes d’apprentissage
en ligne pour une classification linéaire, sachant que ∆(wt; (xt, yt)) dénote la mise
à jour du modèle de classification. Les différents algorithmes en-ligne sont, en gé-
néral, distingués dans la définition et la désignation de la fonction l’erreur et leur
différente fonction de mise à jour ∆(.). [12]
Algorithm 1 Apprentissage en-ligne1: Initialiser : w1 = 0;2: pour t = 1, 2, ..., T faire3: L’apprenant reçoit l’instance entrante at ∈ A;4: L’apprenant prédit l’étiquette de la classe : pt = sgn(f(xt;wt));5: L’apprenant calcule la perte subie : ` (wt; (at; yt)) ;6: Si `(wt; (at; yt)) > 0 Alors7: L’apprenant met à jour le modèle de classification :8: wi+1 ← wt + ∆(wt; (xt, yt))9: Fin Si
10: Fin pour
Le but majeur de l’algorithme d’apprentissage est de minimiser l’erreur subie
cumulative durant son exécution ,ce qui se traduit par l’apparition de quelques
erreurs de prédiction dans le cas de la classification.
1.4 Apprentissage sur des séparateurs linéaires
Nous supposons que les exemples appartiennent à l’ensemble Rn. le but est de
trouver le seuilw0 et le vecteur des poids−→w définissant un hyperplan−→w ∗−→a = w0
tel que tous les exemples positifs sont d’un côté et les exemples négatifs sont de
l’autre côté. c.a.d −→w ∗ −→a > w0 pour les −→a positifs et −→w ∗ −→a < w0 pour les −→a
négatifs.
Pour simplifier , nous allons prendre le seuil w0 = 0, alors nous allons voir la
1.4. APPRENTISSAGE SUR DES SÉPARATEURS LINÉAIRES 25
FIGURE 1.1 – Exemple d’un séparateur linéaire
fonction d’apprentissage comme : Σni=1wiai > 0 .
Nous commencerons par présenter l’algorithme Perceptron ,l’un des plus an-
ciens algorithmes , qui est un algorithme en-ligne pour l’apprentissage à sépara-
teur linéaire.
1.4.1 L’algorithme Perceptron
L’algorithme perceptron est un algorithm supervisé basé sur l’idée de sépa-
rer les erreurs commises par un séparateur linéaire,il est un classificateur binaire.
Quand on fait une erreur nous déplaçons le séparateur vers elle.
La fonction de prédiction combine les poids w et le vecteur d’entrée a pour
1.4. APPRENTISSAGE SUR DES SÉPARATEURS LINÉAIRES 26
classifier f(x) (0 ou 1) comme étant une instance positive ou négative .
f(x) =
1 si w.a+ b > 0
0 sinon
(1.1)
L’algorithme
L’algorithme est définit comme suit (le biais b est pris à 0 :
1. Initialiser les vecteurs d’entrée w1 = 0 et initialiser t à 1.
2. Pour un exemple ai donnée , il est prédit positive si pt = wt.at > 0.
3. Dans le cas d’erreur , mettre a jour les poids comme suit :
— Erreur dans le positif : wt+1 ← wt + at.
— Erreur dans le négatif : wt+1 ← wt − at.
1.4.2 L’algorithme Winnow
Comme l’algorithme Perceptron , l’algorithme Winnow apprend à partir d’un
séparateur linéaire .Il est très similaire à l’algorithme Perceptron, mais Winnow
utilise la Multiplication pour la mise à jour des poids au lieu de l’Addition uti-
lisé par l’algorithme Perceptron. Ceci permet d’avoir de meilleures performances
quand de nombreuses dimensions ne sont pas pertinentes. Il permet de traiter des
données de grande dimensions. Dans la phase d’apprentissage, l’algorithme sé-
pare les exemples positifs des exemples négatifs.[17]
1.4. APPRENTISSAGE SUR DES SÉPARATEURS LINÉAIRES 27
L’algorithme
Les algorithme Winnow et Perceptron utilisent le même schéma de classifica-
tion :
f(a) =
1 si w.a ≥ θ ⇒ classification positive
0 sinon
, w.a = Σni=1wiai (1.2)
Ici θ est un nombre réel représentant le seuil. Ce seuil et le vecteur des poids,
définissent l’hyperplan de séparation dans l’espace des instances. De bonnes bornes
sont obtenues si θ = n/2
L’algorithme est défini comme suit :
1. Initialiser les vecteurs d’entrée w1 = 1 et initialiser t à 1.
2. Pour un exemple xt donné , il est prédit positive si pt = wt.at > θ.
3. Si un exemple est correctement classifié , ne rien faire .
4. Dans le cas d’erreur , mettre à jour les poids comme suit :
— Si un exemple est prédit à être 1 mais que la classe correcte est 0,alors
tous les poids qui ont été impliqués dans l’erreur seront mis à 0.
— Si un exemple est prédit à être 0 mais que la classe correcte est 1,alors
tous les poids qui ont été impliqués dans l’erreur seront multipliés par
α.
1.4. APPRENTISSAGE SUR DES SÉPARATEURS LINÉAIRES 28
1.4.3 Séparateurs à Vaste Marge
Les séparateurs à vaste marge (SVM) (en anglais Support Vector Machine,
SVM) sont un ensemble de techniques d’apprentissage supervisé, destinées à ré-
soudre des problèmes de discrimination et de régression. Les SVM.s sont une gé-
néralisation des classifieurs linéaires , l’algorithme a été dérivé depuis l’algorithm
Perceptron [26] . L’algorithme a pour but de classifier les exemples en trouvant
l’hyperplan qui maximise la distance entre les exemples de classes différentes.
Les SVM. ont rapidement été adoptés pour leur capacité à travailler avec des don-
nées de grandes dimensions, le faible nombre d’hyper-paramètres, leurs garanties
théoriques, et leurs bons résultats en pratique.
Des versions en-ligne ont été proposées . Nous citons à titre d’exemple l’al-
gorithme LASVM à été proposé récemment [3]. l’algorithme en-ligne combine
plusieurs propriétés désirables ; parmi ces propriétés on note l’utilisation d’une
seule itération sur les données d’apprentissage, ce qui est suffisant pour produire
un bon classifieur en minimisant le taux d’erreurs, ce qui permet d’optimiser la
mémoire et d’avoir un gain de temps. L’algorithme peut être paramétré pour ré-
gler le compromis entre le temps de calcul et l’espace mémoire utilisé.
1.4.4 Classifieur Bayésien naïf
La classification naïve bayésienne (NB) est un type de classification Bayé-
sienne probabiliste simple basée sur le théorème de Bayes avec une forte indépen-
dance (dite naïve) des hypothèses. Elle met en œuvre un classifieur bayésien naïf,
ou classifieur naïf de Bayes, appartenant à la famille des classifieurs linéaires. Ils
peuvent être entraînés efficacement dans un contexte d’apprentissage supervisé.
1.5. L’ALGORITHME FUZZY ARTMAP 29
Un classifieur bayésien naïf suppose que l’existence d’une caractéristique pour
une classe, est indépendante de l’existence d’autres caractéristiques [16]. Le clas-
sifieur NB a l’avantage de posséder à la fois un apprentissage rapide et de bonnes
performances de classification . NB est de nature incrémental : Pour accueillir une
nouvelle instance pour l’apprentissage, NB ne doit mettre à jour que les entrées
pertinentes dans sa table de probabilité. Cela a souvent un coût bien moindre que
les approches non-incrémental qui doivent reconstruire un nouveau classifieur à
partir de zéro afin d’y inclure de nouvelles données d’apprentissage. l’algorithme
incremental flexible frequency discretization (IFFD) proposé par Jingli Lu et Al
[18] permet de traiter les données quantitatives ,en rendant les valeurs des attri-
buts quantitatifs, discrètes, en les transformant en séquence d’intervalles de taille
flexible . Cette discrétisation permet de ne pas réaliser une discrétisation complète
à l’arrivée de chaque exemple ,et donc de ne pas recalculer toutes les probabilités
conditionnelles, ce qui permet l’insertion en-ligne et l’opération de fractionne-
ment sur intervalles.
1.5 L’algorithme Fuzzy ARTMAP
1.5.1 Définition
Appartenant a la famille des reseaux de neurones incrémentaux, ARTMAP. est
un algorithme supervisé, rapide, possédant un apprentissage en-ligne et incrémen-
tal, introduit par Carpenter et Al. Le premier système ARTMAP. [5] a été utilisé
pour classifier les entrées par l’ensemble des caractéristiques qu’elles possèdent ;
ces valeurs sont binaires (absence ou présence de chaque caractéristique).Grâce à
1.5. L’ALGORITHME FUZZY ARTMAP 30
sa capacité d’apprentissage en-ligne et incrémentale, l’algorithme ARTMAP. peut
apprendre de nouveaux événements rencontrés ,contrairement aux autres classi-
fieurs neuronal hors-ligne qui nécessitent de refaire un apprentissage sur toute la
base de données par le biais d’un apprentissage long vue qu’il nécessite plusieurs
itérations .
Une année après ,Carpenter et Al développent et intègrent l’algorithme Fuzzy
ARTMAP. [6] qui permet de classifier les entrées par un ensemble de caractéris-
tiques floue. Le modèle intègre la fonction d’appartenance dont la valeur se situe
entre 0 et 1.
L’algorithme Fuzzy ARTMAP. est composé du réseau fuzzy ART [4] qui uti-
lise un algorithme non supervisé pour la classification des données .
Il utilise la stratégie de vote qui le conduit à faire un apprentissage rapide
sur les poids et la reconnaissance des catégories pour un ensemble de données
d’apprentissage .
Il se singularise également des autres réseaux de neurones par le fait qu’il
modifie ses poids synaptiques après chaque observation, plutôt que d’effectuer un
apprentissage après avoir inspecté l’ensemble des observations disponibles. Ceci
lui donne un certain avantage pour le traitement des applications d’apprentissage
dites en-ligne.
1.5.2 Architecture de Fuzzy ARTMAP
Le système inclut une paire de réseau ART : ARTa et ARTb, ce qui va per-
mettre une bonne reconnaissance des catégories lorsque les données d’entrée ar-
rivent de manière aléatoire et continue . Les deux réseaux sont reliés entre eux par
1.5. L’ALGORITHME FUZZY ARTMAP 31
le réseau intermédiaire F ab
FIGURE 1.2 – L’architecture de Fuzzy ARTMAP.
Durant la phase d’apprentissage, le réseau ARTa reçoit le vecteur d’entrée a
de taille Ma,qui va être normalisé concaténée avec le vecteur complement ac pour
donner le vecteur a = (a, ac) de taille 2Ma qui va être le vecteur d’entrée pour
le réseau ARTa dans la couche F a0 . Le codage par complement permet d’éviter la
prolifération des catégories (le degré de consistance du vecteur d’entrée avec une
catégorie). Le codage par complément est défini comme suit :
aci ≡ 1− ai (1.3)
Le réseau ARTb reçoit la vraie classe yt du vecteur d’entrée a,la couche F a0
1.5. L’ALGORITHME FUZZY ARTMAP 32
va contenir aussi le vecteur b qui contient le vecteur d’entrée de la vraie classe
yt concaténée avec le vecteur complément yc . Les deux modules ARTa et ARTb
sont reliés entre eux par le contrôleur mapfieldF ab . F ab est utilisé pour former
l’association prédictive entre les catégories et pour réaliser la règle du Match tra-
cking qui sera définie par la suite . Le paramètre ρa va servir a faire le calibrage
pour l’activation des catégories du réseau ARTa pour un vecteur d’entrée a ; ainsi
cela va permettre de créer, d’accepter une catégorie où de chercher une nouvelle
catégorie meilleure . Une petite valeur de ρa va permettre d’augmenter les catégo-
ries formées par le réseau. Si le réseau ARTb échoue dans la phase de prédiction
, ρa va être incrémenté. C’est ce qu’on appelle le mécanisme du Match tracking.
Ce dernier va sacrifier la valeur minimum de la généralisation nécessaire pour
corriger une erreur de prédiction.
Chaque réseau ART inclut la couche F0 qui contient les nœuds représentant
le vecteur d’entrée. La couche F1,contient le vecteur x = (x1, ..., xM) qui reçoit à
la fois les entrées de F0 et les données de la catégorie active à partir de la couche
F2 ; cette dernière contient le vecteur de catégorie y = (y1, ..., yN) et elle est
reliée avec la couche F1 par le vecteur des poids adaptatifs wj ≡ (wj1, ..., wjM) ,
qui seront initialisés à 1. Toutes les catégories sont dans ce cas Non engagées ; si
une catégorie est sélectionnée (1.5 , pour le codage, elle devient Engagée.
(wj1(0) = ... = wjM(0) = 1) (1.4)
Les paramètres de l’algorithme
l’algorithme est aussi simple à utiliser. Il possède juste un petit nombre de
paramètres, ce qui le rend aisé à l’utilisation. Ces paramètres se basent principa-
1.5. L’ALGORITHME FUZZY ARTMAP 33
lement sur :
— α : paramètre du choix , α > 0
— ρ : Paramètre de vigilance , ρ ∈ [0, 1]
— β : Paramètre de vitesse d’apprentissage , β ∈ [0, 1]
— ε : paramètre du Match tracking
La fonction du choix
La fonction du choix Tj est définie selon la loi de Weber (1.5). Elle permet,
en d’autres termes, de choisir le poids wJ qui possède la fonction d’appartenance
ayant le plus de ressemblance avec le vecteur d’entrée a , sachant qu’une grande
valeur du paramètre du choix α favorise la création de nouvelle catégorie, alors
qu’une petite valeur favorise la réutilisation de la catégorie choisie
Tj(a) =|a ∧ wj|α + |wj|
(1.5)
La norme |.| est définie par :
|a| ≡M∑i=1
|ai| (1.6)
et l’opérateur flou ∧ est défini par :
(p ∧ q)i ≡ min(pi, qi) (1.7)
Le choix des catégories s’effectue lorsque au minimum un nœud de la couche
F2 devient active. L’opération s’effectue alors en sélectionnant le nœud actif ayant
la fonction du choix T la plus grande (1.8). Dans le cas où plusieurs nœuds pos-
1.5. L’ALGORITHME FUZZY ARTMAP 34
sèdent la fonction de choix maximal équivalent, alors le choix des catégories s’ef-
fectue en sélectionnant celle qui a le plus petit indice J ; ensuite une fois la caté-
gorie choisie, yJ = 1 et yj = 0/j 6= J et le vecteur x est obtenu par le minimum
entre le vecteur d’entrée a et le vecteur du nœud choisi J ,(x = a ∧ wj) ; Sinon,si
aucun nœud ne sera choisi alors x = I .
TJ = max(Tj : j = 1..N) (1.8)
Résonance (critère de vigilance)
Une fois le choix de catégorie effectué, le critère de vigilance est déclenché
avec la catégorie choisie J (1.9) ; s’il n’est pas satisfait, un autre nœud J sera
choisi (1.8) .
|a ∧ wj||a|
> ρ (1.9)
Le critère de vigilance détermine la taille maximal de la catégorie choisie J ; ainsi
une petite valeur de ρ favorise la réutilisation de la catégorie choisie et une grande
valeur favorise la création de nouvelles catégories .
Résonance (L’apprentissage)
Une fois le critère de vigilance satisfait, le vecteur des poids wj sera mis à jour
selon la fonction (1.10). Une grande valeur de β favorise l’apprentissage rapide.
wnouveauJ = β(a ∧ wancien
J ) + (1− β)wancienJ (1.10)
1.5. L’ALGORITHME FUZZY ARTMAP 35
Match tracking et la classification
ARTa et ARTb sont reliés ensemble par le réseau intermédiaire F ab nommé
mapfield (couche de liaison). Les vecteurs d’entrées de ARTa codés par com-
plément : a = (a, ac) , et ARTb , b = (b, bc) .
Dans le réseau ARTa, xa représente la sortie de F a1 , et ya le vecteur de sor-
tie de F a2 , enfin wa
j représente le jme poids de ARTa. Pour le réseau ARTb, xb
représente la sortie de F a1 , et yb le vecteur de sortie de F b
2 , enfin wbj représente
le jme poids de ARTb. Pour le réseau de liaison F ab ,xab représente le vecteur de
sortie de F ab et wabj dénote le vecteur des poids du jme nœud de F a
2 vers F ab .
Les vecteurs xa, ya, xb, ybetxab sont mis à 0 entre chaque présentation des entrées
. F ab sera activé quand une des catégories de ARTa ou ARTb est activée . la sortie
du vecteur F ab est définie comme suit :
xab =
yb ∧ wabJ Si le Jème noeud de F a
2 est active et F b2 est active
wabJ Si le Jème noeud de F a
2 est active et F b2 est inactive
yb Si F a2 est inactive et F b
2 est active
0 Si F a2 est inactive et F b
2 est inactive
(1.11)
Si le nœud J de F a2 est choisi, alors ses poids wab
J activent le mapfield F ab.
Durant l’apprentissage rapide, un seul J apprend à prédire la catégorie pt . Cette
association prendra comme valeur 1 et les autres 0 ,wabJK = 1.
Si le nœud pt dans F b2 est actif ,alors le nœud pt dans F ab est activé . Dans
le cas où les deux réseaux ARTa et ARTb sont actifs, alors F ab devient actif
seulement si ARTa prédit la même catégorie que ARTb via les poids wabJ [6].
1.6. CONCLUSION 36
1.6 Conclusion
Dans ce chapitre nous avons étudié un échantillon des familles d’algorithme
en-ligne de base. Nous avons, par la suite, donné une brève définition de l’algo-
rithme Fuzzy ARTMAP , ses différents processus d’apprentissage, ainsi que son
architecture. Ceci va nous permettre par la suite d’élaborer notre approche propo-
sée en apportant des modifications à l’algorithme Fuzzy ARTMAP.
Chapitre 2
L’approche proposée Modified
Fuzzy ARTMAP
2.1 Introduction
Dans ce chapitre, l’approche Fuzzy ARTMAP modifiée est présentée pour réa-
liser un apprentissage en-ligne et incrémental.
Seul le réseauARTa a été retenu ; le réseauARTb n’est plus utilisé. Les classes
sont reliées directement dans les vecteurs des poids, ce qui permet de simplifier la
structure du réseau.
Nous avons introduit des approches statistiques et probabilistes dans les couches
intermédiaires, exigeant seulement une époque pour l’apprentissage . Ceci per-
mettra une amélioration significative des résultats obtenus, et qui seront présentés
dans le troisième chapitre.
37
2.2. STRUCTURE DE L’APPROCHE MODIFIED FUZZY ARTMAP 38
2.2 Structure de l’approche Modified Fuzzy ART-
MAP
Le réseau Modified Fuzzy ARTMAP est utilisé d’une façon simplifiée [9] . Il
contient trois couches : La couche complémentaire F1, la couche de résonance
adaptative F2, et la couche de liaison F ab.
Le vecteur A est la combinaison entre la vraie classe yt et le vecteur de ca-
ractéristique qui est propagé dans la couche F1. La couche F1 génère le vecteur
d’activation x = a ∧ w (∧ et est définie dans ‘1.7) . Elle est reliée avec la couche
F2 par les poids adaptatifs w. La couche F2 représente les catégories crées dans le
réseau, réseau dans lequel le vecteur de caractéristique est classifié. Cette dernière
est connectée avec F ab par les poids wJK par l’activation de la classe K par la
catégorie sélectionnée J de la couche F2.
Durant la phase d’apprentissage, un nouveau facteur sera présent dans les
nœuds de la couche F2, qui représente le facteur de fréquence θ ; au début, la
fréquence de chaque nœud est initialisée à 0 :
(θ1 = ... = θN = 0) (2.1)
Ce facteur θ calcule le nombre d’observations présentées dans chaque catégorie J .
Cette opération s’applique quand le nœud sélectionné de la catégorie J est correc-
tement classifié : pJ = yt. Ce processus s’effectue en incrémentant la fréquence
de la catégorie active (2.2) qui satisfait le critère de liaison.
θJ = θJ + 1 (2.2)
2.2. STRUCTURE DE L’APPROCHE MODIFIED FUZZY ARTMAP 39
Sinon, au cas ou le critère de liaison n’est pas satisfait, la nouvelle catégorie
crée sera incrémentée. Ce facteur sera utilisé dans la phase de sélection de catégo-
rie. Il sera aussi utilisé différemment durant la phase d’apprentissage et la phase
de test.
La couche de liaison de F ab déclenche le MatchTracking pour changer la re-
cherche de la catégorie appropriée du vecteur d’entrée présenté.
FIGURE 2.1 – Architecture de l’approche Modified Fuzzy ARTMAP
2.2.1 Phase d’apprentissage
Initialisation
La combinaison (a, yt) est présentée au réseau , yt est la classe associée au
vecteur d’entrée a de dimension m. Le vecteur de caractéristique a sera normalisé
2.2. STRUCTURE DE L’APPROCHE MODIFIED FUZZY ARTMAP 40
et codé par complément selon l’équation (1.3). Aucun nœud de la couche F2 n’est
assigné durant l’initialisation du réseau.
L’activation des catégories
L’activation (sélection) est effectuée à travers les poids adaptatifs w, de la
couche F1 vers la couche F2. Le nœud gagnant J de la couche F2 sera sé-
lectionné en utilisant la loi de Weber (1.5). Une grande valeur de α favorise
la création d’une nouvelle catégorie. Durant la phase d’apprentissage, si plus
d’une catégorie est activée (possédant la même valeur d’activation), l’algorithme
FuzzyARTMAP sélectionne la catégorie qui a le plus petit indice J . Dans l’al-
gorithmeModifiedFuzzyARTMAP sélectionne dans ce cas le nœud possédant
la fréquence θ la plus grande entre eux, J = argmax(θj, j = 1, ..., n). Ceci est
démontré par le fait que si deux ou plusieurs catégories possèdent la même valeur
d’activation avec le vecteur d’entrée a, l’association à la catégorie qui possède la
plus grande fréquence θ est favorite pour représenter la classe correcte, ce qui per-
met aussi de minimiser le nombre d’itérations durant le critère de vigilance pour
trouver le nœud gagnant. Une fois le nœud J est activé, le critère de vigilance
(équation 1.9) se déclenche. Si aucun nœud ne sera choisi, un nœud non engagé
sera assigné a cette entrée.
2.2.2 L’activation des classes
Dans le cas où la catégorie est choisie, le Map field est activé via les poids
adaptatifs wab et attribue une classe à l’entrée soumise k(J) = pt. Si la classe
est différente de la vraie classe yt, la valeur ρ sera incrémentée (equation 2.3 ),
2.3. PHASE DE TEST 41
nommé MatchTracking (Suivi de correspondance), afin de choisir un nouveau
nœud gagnant, jusqu’à ce qu’un nœud soit correctement classifié. Sinon un nœud
non engagé de la couche F2 sera associé avec cette catégorie.
ρ =|a ∧ wJ ||a|
+ ε (2.3)
Une grande valeur positive de ε favorise la création d’une nouvelle catégorie
quand la première tentative de classification échoue. Une grande valeur négative
facilite l’utilisation des catégories existantes.
2.2.3 La mise à jour des poids (apprentissage)
Apprendre une observation a est effectué en mettant à jour le poids adaptative
wJ et crée une nouvelle associationwab si J est un nouveau nœud assigné. La mise
à jour des poids est effectuée conformément à l’équation 1.10. Si le paramètre de
vitesse d’apprentissage β = 1, l’apprentissage sera rapide, dans le cas contraire
(0 < β � 1) rend l’apprentissage lent.
2.3 Phase de test
L’algorithme Fuzzy ARTMAP est basé sur le nœud gagnant (equation 1.8 )
pour classifier une observation a (Winner-take-all) .
Nous avons changé ce principe : Le processus de sélection des catégories ne
choisit pas un seul nœud gagnant (equation 1.8 ). Il va choisir les nœuds ayant
la valeur d’activation (la fonction du choix) supérieure à la médiane M (avec
2.3. PHASE DE TEST 42
M > 0), comme suit :
−→J =
T1
.
.
Ti
.
.
Tn
, et(Ti > M) (2.4)
M =Max(Tj : j = 1..N)−Min(Tj : j = 1..N)
2(2.5)
Si les catégorie choisies dans−→J appartiennent à une seul classe, alors l’observa-
tion est assignée à la classe qui représente les catégories de−→J . Cela signifie que
tout les nœuds qui satisfont l’équation 2.4 représentent la même classe prédite, et
cela va augmenter les chances que la classe soit correcte. Si les catégories choisies
dans−→J ne font pas partie de la même classe, la classe assignée est sélectionnée
selon l’équation suivante :
P (a/k) =
n∑i=1
θki × T ki
N∑j=1
θkj
, k = 1..L (2.6)
L est le nombre de classes dans la couche de liaison F ab ,T ki est la valeur de
la fonction d’activation ( la function du choix) du nœud i appartenant à la classe
k et qui est inclut dans−→J , c’est à dire ayant la valeur d’activation supérieure à
la médian M . θki est la fréquence du nœud i appartenant à la catégorie k, n est le
2.4. ORGANIGRAMME DE L’ALGORITHME MODIFIED FUZZY ARTMAP43
nombre des nœuds actifs de la classe k ayant la valeur d’activation supérieure à la
médian M .
Et finalement θkj est la fréquence du nœud j appartenant à la catégorie k, et N
est le nombre de tous les nœuds appartenant à la classe k.
La classe choisie pt est la classe dont l’argument k possède la plus grande
probabilité P (a/k) :
pt = argmax(P (a/k))k∈[1..L]
(2.7)
. Dans cette phase de test, le test de vigilance et le Match tracking sont désactivés
.
2.4 Organigramme de l’algorithme Modified fuzzy
ARTMAP
L’apprentissage du réseau utilise une seule époque et l’ordre de présentation
des données est généré aléatoirement. Les algorithmes d’apprentissage et de test
sont résumés dans les figures suivantes :
2.4. ORGANIGRAMME DE L’ALGORITHME MODIFIED FUZZY ARTMAP44
FIGURE 2.2 – Etape d’apprentissage de l’algorithme Modified ARTMAP
Initialiser le facteur de vigilance
Codage par complément
= ( , )
Et calculer la fonction du choix Tj
Choisir le neurone gagnant : Si alors
J=argmax( )
Sinon J= argmax (Tj )
Engagé ?
Résonance?
Classe est correct
Mettre a jour les valeurs des poids
Créer un nouveau nœud non engagé
Créer une nouvelle catégorie de classe
K+1
Réinitialiser le nœud gagnant
TJ=-1
Réinitialiser le nœud gagnant
TJ=-1
Mettre à jour le paramètre de vigilance
p>
Créer un nouveau nœud non engagé
N+1
Mettre à jour de la fréquence du nœud J
Non
Non
N
Oui Oui
Oui
Oui
Non
2.4. ORGANIGRAMME DE L’ALGORITHME MODIFIED FUZZY ARTMAP45
FIGURE 2.3 – Phase de test de l’algorithme Modified ARTMAP
Codage par complément =(a,ac)
Et calculer la fonction du choix Tj
Calculer la probabilité d’appartenance pour les catégories qui représente chaque classe
Classe choisie
2.5. L’OPTIMISATION PAR ESSAIM PARTICULAIRE 46
2.5 L’optimisation par essaim particulaire
L’optimisation est présente dans tous les domaines ; elle permet de résoudre
les problèmes permettant de spécifier le meilleur élément (ou paramètre) d’un en-
semble selon des critères mathématiques prédéfinis. Les paramètres internes de
l’algorithme Fuzzy ARTMAP jouent un très grand rôle pour la classification, et
notre approche dérivée de cette algorithme ne fait pas exception, bien que les va-
leurs standards des paramètres sont aussi pertinentes pour la classification , l’op-
timisation de ces paramètres donne des résultats plus intéressants et essentielle-
ment lors de l’application de l’algorithme sur différentes bases de données. Pour
la résolution de certain problèmes, il existe des méthodes heuristiques permettant
de donner un résultat en temps raisonnable. Ces méthodes tentent de donner des
solutions optimales. Parmi ces méthodes d’optimisations, la plus courante est la
descente stochastique qui se fonde sur plusieurs itérations pour atteindre la solu-
tion optimale, en se basant sur la comparaison avec les voisins et la conservation
du meilleur résultat chaque fois . L’optimisation par essaim particulaire qui était,
il y a quelques années, seulement une curiosité, a aujourd’hui attiré l’attention et
l’intérêt des chercheurs dans le monde entier. Ils ont trouvé ce paradigme effi-
cace pour la résolution de leurs problèmes et constaté son efficacité dans plusieurs
domaines.
L’idée initiale des PSO , introduite par Kennedy (psychologue social) et Elbe-
rhart (ingénieur électricien), visait à exploiter les analogies de l’interaction sociale
en s’inspirant du mouvement des vols d’oiseaux et des bancs de poissons, et à in-
troduire cette interprétation à l’intelligence artificiel. La première simulation [14]
a été influencée par les travaux de Heppner et Grenander [11] et impliquant les
2.5. L’OPTIMISATION PAR ESSAIM PARTICULAIRE 47
analogies des groupes d’oiseaux. L’étude mathématique décrivant les vols d’oi-
seaux, a été considérée comme pouvant bien s’appliquer à la recherche des points
caractéristiques dans un espace de recherche. La reflexion de Wilson [31] se base
le fait que lorsqu’il installe une mangeoire à oiseau dans une cour, et même si au-
cun oiseau ne l’a jamais explorée, un grand nombre d’oiseaux viendrait y picorer
après quelque heures. les futurs travaux de Heppener [11] et Reynold [25] et Ken-
nedy [14] , ont modélisé des algorithmes permettant de s’inspirer d’un vol d’oi-
seau cherchant la mangeoire la plus grande dans un lot de plusieurs mangeoires
déposées dans une zone prédéfinie, ce qui a donné naissance à l’algorithme PSO .
Définition
Pareil pour les algorithmes de colonies de fourmis [7], qui s’appuient égale-
ment sur le concept d’auto organisation. L’algorithme PSO se base sur la colla-
boration des individus (particules) entre eux grâce à des règles de déplacement
dans l’espace de solution. les particules sont positionnées initialement dans des
positions aléatoires. Ensuite, elles peuvent converger progressivement vers un mi-
nimum local. La prochaine itération prend place après que toutes les particules se
soient déplacés en se basant sur trois paramètres :
— Sa vitesse actuelle.
— Sa meilleurs position Pi
— la meilleurs position globale obtenue dans son voisinage Pg
Chaque individu dans les particules, est composé de trois vecteurs D-dimensionnels
, oùD est la dimension de l’espace de recherche. Il possède la position actuelle ~xi,
la meilleure position précédente ~pi, et la vitesse ~vi. La position actuelle ~xi repré-
sente les coordonnées d’un point dans l’espace (dans le cas de l’algorithme Fuzzy
2.5. L’OPTIMISATION PAR ESSAIM PARTICULAIRE 48
ARTMAP il représente les paramètres d’entrée du réseau). Dans chaque itération
de l’algorithme, la position actuelle est évaluée comme étant la solution du pro-
blème. Si cette position est la meilleure de toutes les positions trouvées jusqu’à
présent, alors les coordonnées sont enregistrées dans un deuxième vecteur ~pi. La
valeur du meilleur résultat de la fonction est enregistrée dans une variable nommée
pmeilleuri pour la comparaison avec la meilleure position précédente. L’objectif est
donc de trouver la meilleure position et mettre à jour ~pi et pmeilleuri . de nouveaux
point sont choisis en ajoutant ~vi coordonnées de ~xi et l’algorithme fonctionne en
ajustant ~vi qui peut effectivement être considéré comme une taille de pas. Chaque
particule communique avec d’autres particules et elle est affectée par le meilleur
point trouvé par n’importe quel membre voisin qui est tout simplement le vecteur
~pi du meilleur voisin, lequel est noté ~pg. [23] Le processus de l’algorithme PSO
est implémenté dans l’algorithme suivant :
2.5. L’OPTIMISATION PAR ESSAIM PARTICULAIRE 49
Algorithm 2 L’algorithme PSO1: Initialisé une liste de population de particules avec des valeurs aléatoires et
une vitesse dans l’espace de recherche de D dimensions2: Tantque i<Nombre maximum d’itérations ou l’algorithme converge vers une
bonne solution faire3: Pour chaque particule, évaluer la fonction d’optimisation désirée dans lesD variables.
4: Comparer la valeur de la particule actuelle avec sa meilleure valeurpmeilleuri . Si la valeur actuelle est meilleure que pmeilleur
i alors la valeur ac-tuelle sera pmeilleur
i , et ~pi est égal à la position actuelle xi5: Identifier la particule dans le voisinage qui possède la meilleure valeur jus-
qu’ici, et attribuer son indice à ~pg.6: mettre à jour la vitesse et la position de la particule suivant l’équation de
déplacement suivante :7: {
~vi ← ~vi + ~U(0, φ1)⊗ (~pi − ~xi) + ~U(0, φ2)⊗ (~pg − ~xi),
~xi ← ~xi + ~vi(2.8)
8: Fin Tantque
— ~U(0, φ1) représente un vecteur de nombres aléatoires distribués dans [0, φi]
qui est généré aléatoirement à chaque itération et pour chaque particule
Modification de l’algorithme Modified Fuzzy ARMAP avec PSO
Le choix des paramètres internes de l’algorithme Modified Fuzzy ARMAP
est trés délicat. Ainsi il faudra définir les bonnes valeurs aux paramètres pour ob-
tenir de bonnes performances de classification. Afin d’optimiser les résultats du
diagnostic et de classification, nous avons appliqué l’optimisation par essaim par-
ticulaire dans les paramètres internes de l’algorithme. Les différents paramètres
sont :
— Le paramètre de choix α
— Le paramètre de vigilance de base ρ
2.5. L’OPTIMISATION PAR ESSAIM PARTICULAIRE 50
— Le MatchTracking ε
— La vitesse d’apprentissage β.
Le choix de chacun de ces paramètres influe dans l’apprentissage du modèle, et
ces paramètres dépendront de la base de données utilisée. Ainsi le paramètre de
vigilance de base permet le calibrage pour l’activation des catégories , α favorise
la création de nouvelle catégorie , et une petite valeur favorise la réutilisation de
la catégorie choisie. Une grande valeur de β favorise l’apprentissage rapide , et
finalement Une grande valeur positive de ε favorise la création d’une nouvelle ca-
tégorie quand la première tentative de classification échoue. Une grande valeur
négative facilite l’utilisation des catégories existantes. Donc le recours aux algo-
rithmes d’optimisation est nécessaire pour définir ces paramètres plus rapidement
et en un temps optimal, vu la difficulté de choisir manuellement ces paramètres
pour chaque base de données.
Ces quatre paramètres d’apprentissage sont implémentés lors du calcul de la
qualité des particules. Ces paramètres sont limitées dans un espace de recherche.
Deux critères d’arrêts peuvent se déclencher : le premier se déclenche lorsque
l’algorithme converge sur une bonne solution ; le deuxième critère est basé sur
le nombre d’itérations de recherche. Si aucune particule ne converge sur une
meilleure solution que la solution globale, alors la recherche s’arrête .
2.6. LA SÉLECTION DE VARIABLES POUR LE DIAGNOSTIC MÉDICAL51
2.6 La sélection de variables pour le diagnostic mé-
dical
Les algorithmes de sélection de variables sont souvent utilisées pour réduire
l’espace de dimension des variables , et ainsi chercher à trouver les variables les
plus pertinentes pour la classification et la prédiction , et dans notre cas pour
l’aide au diagnostic pour un apprentissage supervisé. L’objectif de l’apprentissage
sur des variables plus compactes(un vecteur d’entrée ou de caractéristique)peut
donner quelques-uns ou plusieurs avantages :
— Dans certains cas,la performance de classification est améliorée en raison
de la suppression des caractéristiques bruyantes ou peu fiables ;
— dans certain cas les variables de caractéristiques peuvent êtres couteuses à
obtenir : d’où l’interêt de réduire le nombre de variables recueillies pour
le déploiement du système ,
— l’extraction de seulement quelques règles significatives et pertinentes pour
le classificateur
— le fait d’avoir un classifieur plus simple avec moins de variables d’entrée,
conduit souvent à une meilleure capacité de généralisation vers de nou-
veaux échantillons.
— autre avantage : la réduction de la complexité du classifieur et du temps
d’exécution
La meilleure approche pour obtenir les variables les plus pertinentes, est cer-
tainement celle qui implique le recours à un expert dans le domaine, ce qui permet
de définir les causes et les symptômes et ainsi mettre en évidence les caractéris-
tiques nécessaires et les interactions pour le diagnostic (ou la classification en gé-
2.6. LA SÉLECTION DE VARIABLES POUR LE DIAGNOSTIC MÉDICAL52
néral). Mais ceci n’est pas toujours facile ; il est parfois difficile d’avoir un expert
spécialisé et disponible dans le domaine et notamment dans le domaine médical.
De même que l’intervention de l’expert devient, dans certains cas, difficile, quand
le nombre de variables initiales est élevé. Dans ce cas il s"avère plus efficace
d’avoir recours aux méthodes automatiques, pour minimiser le coût et le temps.
Par ailleurs, il est plus intéressant de proposer aux experts, les groupes de variables
les plus pertinentes. En fait, le but ultime de notre recherche est d’améliorer les
performances de classification et de temps de traitements, ainsi que d’obtenir une
architecture plus simple.
Dans cette partie de l’étude, nous tenterons de définir le sous-ensemble de
variables caractéristiques d’entrée optimale, afin de pouvoir obtenir la meilleure
capacité de classification, celle-ci étant mesurée selon la fonction de critère sui-
vante : G(S,D,M) = c, où S dénote le meilleur sous-ensemble de variables
caractéristiques trouvées à partir de l’ensemble initial F (S ⊂ F ) , D dénote la
base de données utilisée et M dénote le modèle de classification appliquée à la
base de données , et enfin où c est la valeur de la fonction de critère qui est en fait
la performance globale de classification.
Afin de résoudre le problème de recherche des variables pertinentes ,les heu-
ristiques sont utilisées dans la plupart des algorithmes afin de guider le processus
de recherche, soit explicitement comme avec les procédés d’encapsulation, soit
indirectement, avec les méthodes de filtrage [2]. Sequential backward elimination
(élimination régressive séquentielle) (SBS)décrite par Marill et Green [19] ,qui
commence à partir de l’ensemble des variables de la base de données initiale, et
élimine séquentiellement celle dont l’absence donne un meilleur résultat que sa
présence dans G(S,D,M) = c.
2.6. LA SÉLECTION DE VARIABLES POUR LE DIAGNOSTIC MÉDICAL53
Contrairement aux travaux de Marill et Green [19] ,l’algorithme Sequential
forward selection (SFS) (séléction séquentielle vers l’avant) proposé par Whitney
[29], commence à partir d’un sous-ensemble vide, et l’ensemble des variables ca-
ractéristiques est mis à jour itérativement dans chaque étape . La variable ajoutée
est celle dont le résultat est maximal[22].
L’avantage des algorithmes séquentiels c’est qu’ils sont simples à implémen-
ter et fournissent de bons résultats rapidement. L’une des méthodes les plus pro-
metteuses dans la sélection de variables est floating forward selection algorithm
(SFFS) [24]. SFFS consiste en une étape d’insertion vers l’avant et en une étape
de suppression vers l’arrière conditionnelle. Ceci va permettre d’éviter de tomber
sur l’optimum local dans G(S,D,M) = c [27].
Dans notre étude, nous nous sommes intéressés au dernier algorithme de sé-
lection SFFS. Plusieurs travaux ont été réalisés avec cet algorithme et notamment
celui de Jouni Pohjalainen et Al [22] qui ont utilisé k plus proche voisin comme
règle de classification. De même que les travaux de Dimitrios Ververidis et C.
Kotropoulos [27] lesquels ont utilisé le classifieur Bayes avec la sélection de va-
riables. Cependant, kNN est connu pour être sensible aux effets des variables de
grande dimension [8].
l’algorithme Modified Fuzzy ARTMAP est appliqué comme une règle de clas-
sification dans cette étude en combinaison avec l’algorithme Sequential floating
forward selection SFFS. L’algorithme Modified FuzzyArtmap qui possède la ca-
pacité de l’apprentissage en ligne et la possibilité de classifier les données possé-
dant plusieurs variables caractéristiques, est très efficace pour arbitrer l’ajout et la
suppression des variables du sous-ensemble S. En d’autres termes Modified Fuz-
zyArtmap dans sa forme de base posséde un mécanisme interne pour faire face à
2.7. CONCLUSION 54
la pertinence des variables.
2.7 Conclusion
Dans ce chapitre nous avons étudié l’architecture modifiée de l’algorithme
Fuzzy ARTMAP. Nous avons ainsi intégré plusieurs facteurs tel que le facteur
d’occurrence, ce dernier nous ayant permis de compter le nombre de présenta-
tions de chaque vecteur d’entrée pendant l’apprentissage et d’intégrer ce facteur
dans la couche F2 . Nous avons aussi intégré l’approche probabiliste qui remplace
le choix du nœud gagnant de la couche F2, par la sélection d’ensemble de nœuds
gagnants qui sont supérieurs au facteur de la médiane ,et nous avons inclus le
paramètre d’occurrence pour le calcul probabiliste, ce qui a permis de prédire la
sortie du vecteur d’entrée. Nous avons également intégré la méthode PSO pour
l’optimisation des paramètres internes de l’algorithme, afin d’atteindre les per-
formances de généralisation optimale. Nous avons enfin intégré la méthode de
sélection de variables SFFS qui permet d’obtenir un sous ensemble de variables
pertinentes et de générer une structure simplifiée de l’algorithme Modified Fuzzy
ARTMAP. Dans le prochain chapitre nous allons comparer les performances de
notre approche avec celles d’autres approches.
Chapitre 3
Résultats et discussions
Dans ce chapitre nous évaluons les performances de notre approche avec des
bases de données médicales différentes. Cette évaluation va permettre de détecter
l’amélioration de classification par rapport a l’algorithme Fuzzy ARTMAP stan-
dard, et aussi de pouvoir généraliser les performances de l’algorithme sur diffé-
rentes bases de données qui peuvent être de grande taille où moyenne, et ainsi
d’éviter de tomber sur le sur-apprentissage.
3.1 Classification des signaux ECG
3.1.1 Introduction
Les maladies cardiovasculaires sont aujourd’hui parmi les causes les plus fré-
quentes des décès. C’est pourquoi, la détection et le traitement précoce de l’aryth-
mie, constituent des défis importants pour les soins cardiaques. L’activité car-
diaque est donc l’un des paramètres les plus importants pour déterminer l’état
du sujet, paramètre qui se traduit par le signal cardiaque : ECG. A cet effet, nous
55
3.1. CLASSIFICATION DES SIGNAUX ECG 56
avons utilisé un type particulier de réseau de neurones, en l’occurrence le réseau
fuzzy ARTMAP , et en en modifiant l’architecture, nous avons tenté de dévelop-
per une stratégie d’apprentissage spécialisée pour ce type de réseau. L’efficacité
de cet outil sera mesurée au niveau de la qualité et des ressources utilisées par le
réseau fuzzy ARTMAP. Les effets de ses caractéristiques, nous permettront d’op-
timiser de façon significative les performances de classification de ce réseau lors
du diagnostic.
Dans cette étude, Nous avons reformulé le modèle de classification des Extra-
systoles ventriculaire (PVC) en utilisant notre approche Modified Fuzzy ARTMAP,
et nous avons comparé notre résultat avec les résultats de l’algorithme Fuzzy ART-
MAP de Carpenter et Al [6].
Les signaux ECG utilisés dans notre approche sont des résultats réels de la
base de données MIT-BIH qui a été diagnostiquée par plusieurs cardiologues, les-
quels ont annoté chaque cycle cardiaque, annotations qui vont être utiles pour
l’apprentissage et l’évaluation de la classification.
Les différentes ondes et leurs pics respectifs sont identifiés [20],comme le
démontre la figure 3.1 . On procède alors à :
— Détecter le pic R (mesure de la fréquence cardiaque) ;
— Détecter les ondes Q et S (mesure de la durée du complexe QRS) ;
— Détecter l’onde T (calcul des intervalles QT et ST ), qui correspond au
relâchement des ventricules ;
— Détecter l’onde P (mesure de PP et PR), qui correspond à la contraction
des oreillettes.
Les battements extrasystoles ventriculaires (PVC) sont des battements anor-
maux qui naissent aux niveaux des ventricules. Ils apparaissent comme des com-
3.1. CLASSIFICATION DES SIGNAUX ECG 57
FIGURE 3.1 – ECG d’un sujet sain
plexes QRS Prématurés, larges, et l’onde P n’existe pas.
Nous avons choisi les caractéristiques qui représentent le vecteur d’entrée lié
à la pathologie ciblée ; dans notre cas, c’est l’extrasystole ventriculaire (PVC) qui
est caractérisée par un QRS prématuré et large, avec l’absence de l’onde P. Les
paramètres utilisés sont les suivants :
— RRP : La distance entre l’onde R actuelle et l’onde R précédente ;
— RRS : La distance entre l’onde R actuelle et l’onde R suivante ;
— QRS : la durée du complexe QRS ;
— PP : amplitude (peak to peak ) .
Il existe deux paramètres principaux pour distinguer le signal extrasystole ven-
triculaire des autres anomalies. La première caractéristique est reliée au battement
prématuré, en d’autres termes, un battement PVC est caractérisé par un intervalle
R-R plus court que les précédents (voir figure 3.2) ; la deuxième caractéristique
est que le battement PVC possède un QRS-complexe plus large qu’un battement
normal (N).
3.1. CLASSIFICATION DES SIGNAUX ECG 58
FIGURE 3.2 – Les paramètres de caractérasation sur un signal PVC
3.1.2 Choix des paramètres d’entrée
Pour les paramètres d’apprentissage on a utilisé la stratégie d’apprentissage
avec optimisation par essaims particulaires PSO. des travaux de Wilson [30] et
Kennedy et James [15]. Cette stratégie utilise PSO. pour la sélection des para-
mètres internes du réseau. Ces derniers sont : le paramètre de choix α, le para-
mètre de vigilance de base ρ , le MatchTracking ε, et la vitesse d’apprentissage β.
Les plages d’optimisation pour les différents paramètres sont :
— α : [0.001, 1]
— ρ : [0, 1]
— β : [0, 1]
— ε : [−0.5, 0.5]
La vitesse maximale pour chaque particule utilisée est 0.1 , et le nombre maxi-
mum d’itération PSO. utilisé est de 50itration, il est noté que le réseau converge
3.1. CLASSIFICATION DES SIGNAUX ECG 59
vers de meilleurs performance après 10 itérations successives .
Les meilleures positions obtenues ont généré les paramètres comme suit (ta-
bleau 3.1) :
TABLE 3.1 – paramètres interne de l’algorithme Fuzzy ARTMap et ModifiedFuzzy ARTMAP Pour la base de données MIT BIH en utilisant PSO
α ρ ε β0.1 0.75 -0.01 0.6
3.1.3 Base de données utilisées
Dans la base de données utilisée, en l’occurrence MIT-BIH, les patients choisis
sont ceux qui ont un battement cardiaque extrasystole ventriculaire (PVC). Donc
l’algorithme apprend sur deux classes : Normal, PVC.
3.1.4 Taux de classification, sensibilité, spécificité
L’évaluation du classifieur Modified fuzzy ARTMAP , a été faite par le calcul
de la spécificité (Sp), la sensibilité (Se) et le taux de classification correcte (CC) :
— Se(%) =V p
V p+ Fn∗ 100 , est la fraction des cycles « PVC » qui ont été
correctement détectés parmi tous les cycles « PVC » réels.
— Sp(%) =V n
V n+ Fp∗ 100 , est la fraction des cycles normaux qui ont été
correctement classifiés parmi tous les cycles « normaux » réels.
— Cc(%) =V p+ V n
V p+ V n+ Fp+ Fn∗ 100 , retourne le taux classification.
avec :
3.1. CLASSIFICATION DES SIGNAUX ECG 60
Enregistrement Battement PVC Battement Normal106 517 1500119 442 1535200 820 1737205 71 2557208 985 1578210 183 2413219 64 2071221 393 2022223 473 2017233 824 2220234 3 2688
TABLE 3.2 – Nombre de battements normaux et pathologiques pour chaque signalsélectionné
— V p (Vrai positif) : Nombre de cycles cardiaques présentant un « PVC »
reconnue comme « PVC ».
— V n (Vrai négatif) : Nombre de cycles cardiaques qui ne présentent pas de
« PVC » reconnue comme « Normal ».
— Fp (Faux positif) : Nombre de cycles cardiaques ne présentant pas une «
PVC » reconnue comme des « PVC ».
— Fn (Faux négatif) : Nombre de cycles cardiaques « PVC » non reconnus
Les résultats ont été comparés entre l’algorithme fuzzy Artmap et fuzzy Art-
map Modifié.
3.1.5 Normalisation de la base de données
Tout comme le réseau Fuzzy ARTMAP,les vecteurs d’entrée du réseau Modi-
fied Fuzzy ARTMAP doivent êtres normalisés , c’est à dire que les caractéristiques
doivent êtres incluse dans l’intervalle [0, 1] . La technique utilisée dans notre ap-
3.1. CLASSIFICATION DES SIGNAUX ECG 61
proche est la normalisation MIN-MAX (équation 3.1 ) :
xji =xji −mini
maxi −mini
(3.1)
Où :
— xji Est la ime caractéristique Normalisée du vecteur d’entrée j
— xji Est la ime caractéristique du vecteur d’entrée j
— mini est la valeur minimale de la ime caractéristique
— maxi est la valeur maximale de la ime caractéristique
3.1.6 Discussion des Résultats
Le tableau suivant démontre les performances et l’évaluation de l’algorithme
Fuzzy ARTMAP avec notre approche Modified Fuzzy ARTMAP ([1]) sur 10 enre-
gistrements de la base de données d’arythmie cardiaque MITBIH , en utilisant une
seule itération pendant l’apprentissage.
3.1. CLASSIFICATION DES SIGNAUX ECG 62
TABLE 3.3 – Évaluation de l’algorithme Fuzzy ARTMAP avec la méthode propo-sée Modified Fuzzy ARTMAP
Enregistrement Algorithme Cc % Se % Sp %
106Fuzzy ARTMAP 99.55% 100 % 99.49%
Modified Fuzzy ARTMAP 99.55% 99.80% 99.64%
119Fuzzy ARTMAP 100 % 100 % 100 %
Modified Fuzzy ARTMAP 100 % 100 % 100 %
200Fuzzy ARTMAP 97.14% 98.64% 96.50%
Modified Fuzzy ARTMAP 98.16% 95.94% 99.20%
205Fuzzy ARTMAP 88.51% 87.19% 88.81%
Modified Fuzzy ARTMAP 93.21% 86.88% 93.58%
208Fuzzy ARTMAP 88.86% 70.14% 99.32%
Modified Fuzzy ARTMAP 94.04% 87.23% 97.63%
210Fuzzy ARTMAP 89.81% 75.80% 91.02%
Modified Fuzzy ARTMAP 95.79% 88.53% 96.30%
219Fuzzy ARTMAP 98.59% 77.68% 99.29%
Modified Fuzzy ARTMAP 94.18% 92.96% 94.28%
221Fuzzy ARTMAP 96.22% 99.79% 95.90%
Modified Fuzzy ARTMAP 96.43% 99.79% 96.09%
223Fuzzy ARTMAP 69.96% 99.10% 63.82%
Modified Fuzzy ARTMAP 95.28% 92.70% 97.50%
233Fuzzy ARTMAP 98.25% 99.54% 97.85%
Modified Fuzzy ARTMAP 99.70% 98.93% 100 %
MoyenneFuzzy ARTMAP 92.69% 90.79% 93.20%
Modified Fuzzy ARTMAP 96.63% 94.28% 97.42%
3.1. CLASSIFICATION DES SIGNAUX ECG 63
FIGURE 3.3 – Evaluation de l’algorithme fuzzy ARTMAP algorithm avec la mé-thode proposée Modified Fuzzy ARTMAP
Le tableau 3.3 et la figure 3.3 démontrent qu’en comparant nos résultats avec
celles de l’algorithme Fuzzy ARTMAP ([1]), notre approche donne des résultats
améliorés. Nos résultats dépassent ceux du modèle classique Fuzzy Artmap en
moyenne, et respectivement, sur le taux de classification (96.63% contre 92.69%),
la sensibilité (94.28% contre 90.79%) et la spécificité (97,42% contre 93.20%).
Avant de justifier ces améliorations, nous allons, tout d’abord, analyser les don-
nées qui ont été mal classifié par notre approche.
L’enregistrement numéro 208 donne un taux de classification de 94.06%, mais
un faible pourcentage de sensibilité. Par exemple, l’instance numéro 11 (battement
normal) de l’enregistrement 208 (Voir figure 3.4), a été reconnue comme PVC
(un cas Faux Positif). Mais en examinant la figure 3.4, nous remarquons qu’il a
un QRS typiquement large, et il n’est pas précédé par l’onde P, ce qui cause un
rythme RRp irrégulier. Par ailleurs, il possède une onde T inversée, ce qui a causé
la fausse classification de ce battement bien qu’il ait toutes les caractéristiques
3.1. CLASSIFICATION DES SIGNAUX ECG 64
d’un battement PVC.
FIGURE 3.4 – Cas faux positif d’un signal cardiaque de l’enregistrement numéro208
FIGURE 3.5 – Cas Faux Négatif d’un signal cardiaque de l’enregistrement numéro210
La figure 3.5 représente un rythme cardiaque étiqueté PVC, alors qu’il est clas-
sifié avec notre approche comme un battement normal, parce que dans la figure
3.5 nous remarquons QRS normal et possédant des ondes P et T normales.
La Figure 3.6 représente un battement cardiaque étiqueté comme PVC (ins-
3.1. CLASSIFICATION DES SIGNAUX ECG 65
FIGURE 3.6 – cas Vrai positif (instance 2) et Vrai négatif (instance 3) de l’enre-gistrement 210
tance numéro 2), et un battement normal (instance numéro 3), qui ont été correc-
tement classifiés avec notre approche.
Afin de justifier les performances de notre approche « Modified Fuzzy ART-
MAP » en comparaison avec « Fuzzy ARTMAP », et donner plus de détail sur la
structure de notre approche, nous n’avons pas utilisé la validation-croisée, mais
nous avons plutôt séparé notre base en deux parties : deux tiers pour l’apprentis-
sage et un tiers pour le test, et nous avons utilisé une seule époque pour l’appren-
tissage.
La comparaison a été effectuée sur l’enregistrement 223 (Tableau 3.4), le
nombre de battements dans la base de donnée est 2490, dont 2017, le nombre
des battements normaux et 473 le nombre de battements PVC. Pour la base de
test, le nombre de battements normaux est 613 et le nombre de battements PVC
est 216.
Bien que nous ayons perdu une légère différence dans le taux de sensibilité,
3.1. CLASSIFICATION DES SIGNAUX ECG 66
TABLE 3.4 – Evaluation de l’algorithme Fuzzy Artmap avec notre algorithme mo-dified fuzzy Artmap pour l’enregistrement 216
Algorithme F2 Nœuds Engagés Cc % Se % Sp %Fuzzy ARTMAP 19(8normal/10pvc) 86.73% 99.07% 82.38%
Modified Fuzzy Artmap 19(8normal/10pvc) 99.51% 98.61% 99.84%
ce qui est plus au moins négligeable, la différence du taux de classification ainsi
que la spécificité, sont remarquables.
Nous justifions cette différence par le fait que fuzzy ARTMAP se base sur
Wining Take All pour le choix du nœud engagé. Par exemple, Dans la figure
3.7, pour l’instance numéro 1 qui est classée Vrai Négatif dans notre approche
et Faux Positif dans l’approche fuzzy ArtMap. Lors du calcul de la fonction de
choix (équation 1.5), le nœud gagnant sélectionné appartient à la classe PVC, et
celà contrairement à notre approche qui se base sur la médiane M (équation 2.4),et
la probabilité d’appartenance (2.6).
Ainsi sur les 19 nœuds engagés, le nombre de nœuds gagnants sélectionnés
supérieur à la médiane était 9 (4 pour le cas normal et 5 pour PVC) ; puis, le
calcul de la probabilité d’appartenance de l’instance numéro 1 nous a donné :
P (N) = 0.65, P (PV C) = 0.49. Ce résultat ne dépend pas seulement de la classe
des nœuds engagés majoritaires, mais aussi de la fréquence de chaque nœud (par
rapport à la fréquence cumulée des catégories appartenant à la même classe). La
figure ci-dessous représente le rythme cardiaque de l’instance 1.
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 67
FIGURE 3.7 – signal cardiaque de l’enregistrement numéro 223, FP pour FuzzyARTMAP et V N pour Modified Fuzzy ARTMAP
3.2 Reconnaissance du diabète de type 2
3.2.1 Introduction
Le nombre d’informations et des cas à traiter, deviennent de plus en plus im-
portants ; la façon de décider rapidement et correctement devient un problème
difficile, surtout pour les médecins qui veulent diagnostiquer les symptômes des
patients. De plus en plus sont déconcertés par cette maladie. Un grand nombre de
maladies doivent être diagnostiquées et traitées rapidement et le diabète ne fait pas
exception. C’est un type de maladie qui nécessite des coûts de traitement médical
élevés. Il y a vingt ans, il y avait environ 30 millions de diabétiques dans le monde
entier. Parmi le nombre croissant de diabétiques, plus de 90 % ont un diabète de
type 2. Le but de cette étude est d’étudier les facteurs qui affectent les femmes,
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 68
et de développer un modèle qui permette de déterminer le type de personnes sus-
ceptibles d’acquérir le diabète, ce qui aidera les médecins à diagnostiquer leurs
patients.
Bien que l’algorithme Modified Fuzzy ARTMAP donne des résultats satisfai-
sants sur des bases de données de grande taille ou taille moyenne , nous allons
tenter de tester ses performances dans une base de données de petite taille et voir
si l’approche Modified Fuzzy ARTMAP peut donner une bonne performance en
comparaison avec les algorithme hors-ligne.
3.2.2 Base de données utilisée
La classification a été appliquée sur la base de données médicales PIMA (in-
dian data bases) détenues par l’institut national du diabète et des maladies di-
gestives et rénales [13]. Nous l’avons obtenu à partir de UCI machine learning
repository .
Cette base de données contient différentes informations médicales sur 768 in-
dividus. 500 cas sont des personnes non diabétiques et les 268 cas qui restent sont
des personnes diabétiques. Tous les patients dans la base de données sont âgés de
21 ans, minimum.
Quelques données de cette base possèdent des valeurs manquantes. Les va-
leurs manquantes peuvent nuire à la qualité de l’analyse [21]. Lorsque l’on re-
tire les données manquantes, le nombre total de cas restants est de 392 cas, dont
262 sont des cas normaux non diabétiques et les 130 restants sont des cas dia-
bétiques. La base contient les caractéristiques physiologiques des patientes (âgée
d’au moins 21 ans ) de tribu indienne PIMA vivants près de Phoenix ,USA. Tous
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 69
les échantillons ont huit descripteurs et la classe. Ces descripteurs sont définis
dans le tableau 3.5
TABLE 3.5 – Description des attributs de la base de données PIMAAttributs Abréviation Spécification
A1 Pregnant Nombre de grossesses.A2 Glucose Glycémie après 2 heures un test orale de tolérance au glucose TOTG (cg/l)A3 DBP Tension artérielle diastolique (mm Hg)A4 TSFT Épaisseur de plie cutané au niveau du triceps (mm)A5 INS Concentration d’insuline (mu U/ml)A6 IMC Indice de masse corporelle (poids en Kg/taille en m2)A7 DPF Indice d’antécédents familiaux pour le diabèteA8 AGE L’âge (année )A9 DM absence (0) ou présence (1) du diabète
Pour confirmer le diagnostic, les tests sanguins de diabète doivent être faits
avec un taux de glucose sanguin à jeun ; le diabète est alors diagnostiqué si ce
taux est supérieur à 126 mg / dl. le dépistage du diabète est recommandé pour :
— Les enfants en surpoids qui ont d’autres facteurs de risque du diabète, com-
mençant à partir de 10 ans et répétés tous les 2 ans.
— les adultes en surpoids (IMC supérieur à 25) qui ont d’autres facteurs de
risque.
— Les adultes de plus de 45 ans : Même si de plus en plus de jeunes sont at-
teints de diabète de type 2, l’âge reste un des principaux facteurs de risque.
Ceci est dû au fait qu’avec l’âge, l’effet de l’insuline diminue, surtout chez
les personnes en surpoids. .
— Les antécédents familiaux et les gènes jouent un rôle important dans le
diabète du type 2 . Par exemple, si un des parents est diabétique, les enfants
ont un risque de 30 à 40 % de développer un diabète de type 2.
— Faible niveau d’activité, une mauvaise alimentation, et l’excès du poids
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 70
autour de la taille augmente le risque
3.2.3 Taux de classification, sensibilité, spécificité
Comme pour la contribution précédente, l’évaluation du classifieur Modified
fuzzy ARTMAP , a été faite par le calcul de la spécificité (Sp), la sensibilité (Se) et
le taux de classification correcte (CC) :
— Se(%) =V p
V p+ Fn∗ 100 , est la fraction des cas diabétiques qui ont été
correctement détectés parmi tous les cas diabétiques réels.
— Sp(%) =V n
V n+ Fp∗ 100 , est la fraction des cas non diabétiques qui ont
été correctement classifiés parmi tous les cas « non diabétiques » réels.
— Cc(%) =V p+ V n
V p+ V n+ Fp+ Fn∗ 100 , retourne le taux classification.
avec :
— V p (Vrai positif) : un exemple diabétique prédit diabétique .
— V n (Vrai négatif) : un exemple non diabétique prédit non diabétique.
— Fp (Faux positif) : un exemple non diabétique prédit diabétique.
— Fn (Faux négatif) : un exemple diabétique prédit non diabétique .
Les résultats ont été comparés entre l’algorithme fuzzy Artmap et fuzzy Art-
map Modifié.
3.2.4 Choix des paramètres d’entrée
Les meilleures positions sont obtenues en utilisant l’optimisation par essaims
particulaires (PSO). Les paramètres d’optimisation générés, sont définis dans le
tableau 3.6 : l’algorithme PSO. utilise 10 particules de recherche pour trouver la
solution optimale sur l’ensemble des paramètres à optimiser (Paramètre du choix
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 71
α , Paramètre de vigilance ρ ,MatchTracking ε et le taux d’apprentissage β).
TABLE 3.6 – paramètres interne de l’algorithme Fuzzy ARTMap et Modified FuzzyARTMAP Pour la base de donnée PIMA en utilisant PSO.
α ρ ε β0 .66 0.35 -0.01 0.68
3.2.5 Expérimentations
Première expérimentation
Le tableau suivant démontre les performances et l’évaluation de l’algorithme
Fuzzy ARTMAP avec notre approche Modified Fuzzy ARTMAP sur la base de don-
née PIMA avec 392 enregistrements, l’évaluation est basée sur la validation croi-
sée (n=10), les performances de notre approche sont illustrées dans les tableaux
3.8 et 3.7 en comparaison avec l’approche Fuzzy ARTMAP classic
TABLE 3.7 – Évaluation de l’algorithme Fuzzy ARTMAP avec la méthode pro-posé Modified Fuzzy ARTMAP Pour la base de donnée PIMA
Algorithme Cc % Se % Sp %Fuzzy ARTMAP 71.32% 73.91% 71.17%
Modified Fuzzy ARTMAP 75.26% 69.94% 79.17%
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 72
TABLE 3.8 – Détail des performances la méthode proposée Modified Fuzzy ART-MAP Pour la base de donnée PIMA en utilisant la validation croisée
Itération Cc % Se % Sp %1 78.95% 68.75% 86.36%2 71.05% 72.73% 70.37%3 63.16% 50.00% 77.78%4 65.79% 53.85% 72.00%5 78.95% 58.33% 88.46%6 86.84% 66.67% 96.15%7 78.95% 88.89% 75.86%8 81.58% 88.89% 79.31%9 76.32% 78.57% 75.00%
10 71.05% 72.73% 70.37%Moyenne 75.26% 69.94% 79.17%
Dans le tableau 3.7 nous remarquons, après la validation croisée, que l’algo-
rithme Modified Fuzzy ARTMAP converge vers de bons résultats en comparaison
avec la méthode classique, et ceci avec une seule itération ; d’où l’avantage de
l’approche en-ligne de l’algorithme pour pouvoir converger avec un minimum
d’itérations (Epoch). La figure 3.8 montre les performances de l’algorithme avec
les changements de nombre d’itérations pendant chaque apprentissage.
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 73
FIGURE 3.8 – Performance de Modified Fuzzy ARTMAP et Fuzzy ARTMAP avecles différentes itérations
Nous allons maintenant séparer la base de données PIMA en deux partie : deux
tiers pour l’apprentissage (261 patients ), et un tiers pour le test (131 patients), afin
d’analyser les données. Les résultats de classification sont montrés dans la figure
suivante :
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 74
FIGURE 3.9 – Performance de Modified Fuzzy ARTMAP et Fuzzy ARTMAP de1 à 50 itérations
Deuxième expérimentation
Dans cette expérimentation nous allons évaluer la classification en utilisant
la sélection de ces descripteurs pertinents, en d’autre termes, à évalué le coût de
l’absence ou de la présence des huit descripteurs et leurs cohérences dans la base
de données PIMA laquelle est définie comme suit ;
1. Nombre de grossesses
2. Concentration de glucose après deux heures
3. Tension artérielle diastolique
4. Épaisseur de plie cutané au niveau du triceps
5. Concentration d’insuline
6. Indice de masse corporelle
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 75
7. Indice d’antécédents familiaux
8. L’âge
Cette évaluation est effectuée en utilisant les procédures suivantes :
La sélection de variables et l’optimisation des paramètres : La combinaison
de l’apprentissage et du développement, est utilisée pour la sélection des variables
caractéristiques. L’algorithme Modified Fuzzy ARTMAP est utilisé en combinai-
son avec la méthode SFFS. pour l’évaluation du sous-ensemble de variables ca-
ractéristiques. L’étape d’apprentissage est utilisée pour l’apprentissage et les ré-
sultats de classifications sont utilisées dans le sous-ensemble de développement
pour calculer le score. Les deux étapes utilisent la validation croisée.
La classification : Les ensembles d’apprentissage et de développement sont
utilisés simultanément pour l’apprentissage afin de classifier l’ensemble de tests.
L’optimisation des paramètres de l’algorithme Modified Fuzzy ARTMAP
Les paramètres d’optimisation internes ont été optimisées avant et après la phase
de sélection des variables caractéristiques de l’algorithme Modified Fuzzy ART-
MAP avec L’algorithme d’optimisation par essaims particulaires (PSO). Ainsi les
paramètres obtenus avant la sélection de variables sont définis dans le tableau 3.6.
Après la sélection de variables nous avons aussi optimisé les paramètres internes
de l’algorithme afin d’obtenir une architecture du réseau adaptée aux variable ob-
tenues. La solution optimale sur l’ensemble des paramètres à optimiser (Paramètre
du choix α , Paramètre de vigilance ρ , MatchTracking ε et le taux d’apprentissage
β) après la sélection de variables, est définie dans le tableau 3.9 .
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 76
TABLE 3.9 – paramètres internes de l’algorithme Fuzzy ARTMap et ModifiedFuzzy ARTMAP Pour la base de données PIMA en utilisant PSO.
α ρ ε β0.47 0.50 -0.005 0.45
Evaluation : Les performances de classification sont évaluées dans le tableau
3.10 avec la méthode SFFS. combinée avec l’algorithme Modified Fuzzy ART-
MAP, le classifieur Modified FuzzyARTMAP sans la sélection de variable ,et d’autres
méthodes de sélection de variable citées dans l’annexe.
L’évaluation individuelle de la méthode de sélection SFFS. combinée avec
l’algorithme Modified Fuzzy ARTMAP, montre une amélioration dans le taux de
classification par rapport a l’algorithme Modified FuzzyARTMAP sans la sélec-
tion de variable ,la méthode SFS., et la méthode SFFS. en combinaison avec le
classifieur KNN.
TABLE 3.10 – Performance de classification de l’algorithme Modified Fuzzy ART-MAP en combinaison d’une part avec SFFS. avec les différentes méthodes de sé-lection de variables et d’autre part sans la sélection de variable. La méthode KNNavec RSFS de Jouni Pohjalainen et Al [22] est aussi évaluée
Algorithme Méthode de sélection de variables Nbre variable séléct Cc %
Modified Fuzzy ARTMAPAucune 75.26%SFFS 2 78.16%
KNNAucune 68.56%
SFS 5 72.94%SFFS 5 70.62%RSFS 3 68.30%
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 77
3.2.6 Discussion des Résultats
Les figures 3.8, 3.7 démontrent que l’algorithme Modified FuzzyARTMAP
donne des résultats améliorés , avec un taux de classification de 75.26 % ,une
sensibilité de 69.94 % et une spécificité de 79.17 % ,Dans la figure 3.8 nous ob-
servant que le taux de classification se stabilise après une seule itération ; donc
l’algorithme ne nécessite pas plusieurs itérations pour effectuer un bon apprentis-
sage.
Dans la figure 3.8, l’algorithme Modified Fuzzy ARTMAP à donné un taux de
classification de 78.91 % avec une sensibilité de 76.32 % et une spécificité de
80.00 % . Nous avons répété la classification en changeant le nombre d’itérations
chaque fois, et celà n’a pas perturbé les performances de l’algorithme : le taux de
classification reste stable jusqu’à la 50 ème itération et dépasse les performances
de l’algorithme Fuzzy ARTMAP tout au long des différentes itérations. Nous justi-
fiant ces améliorations et cette stabilité par le fait que notre approche se base sur la
probabilité d’appartenance des nœuds pour chaque catégorie, au lieu de se baser
sur le nœud gagnant qui peut changer durant la génération des catégories.
TABLE 3.11 – Patient 383 : cas Faux Positif
Nbr grocesses Glu Tens Artr Triceps Insuline IMC DPF Age Classe13 153 88 37 140 40.6 1.174 39 0 (Non diabétique)
A partir du tableau 3.11 l’algorithme Modified Fuzzy ARTMAP avait classifié
le patient comment étant Diabétique, alors que dans la base de donnée PIMA, il
est noté non diabétique. En effet,le tableau montre que cette femme a une concen-
tration de glucose élevée (153mg /l contre 120mg pour une personne normale) ;
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 78
son nombre de grossesse est aussi un facteur de risque (13 grossesses pour cette
personne). Son IMC (40.6kg/m2) et son épaisseur de peau (37mm), démontrent
également que cette personne obèse réunit tous les critères d’une personne diabé-
tique. Il est d’ailleurs difficile de croire que cette personne est non diabétique à
partir de ses descripteurs, si nous prenons en compte les seuils et les facteurs de
risque.
TABLE 3.12 – Les nœuds engagés de l’algorithme Modified Fuzzy ARTMAP pourle patient 383
Type F2 Nœuds Engagés Diabétique Non diabétiqueAvant la sélection 34 15 19Après la sélection 17 11 6
Le tableau 3.12 indique le processus de sélections des nœuds. On voit qu’après
la sélection, 17 nœud ont été engagés, dont 11 nœuds représentent la classe 1
(cas diabétique) et 6 nœuds représentent la classe 0 (cas non diabétique). Après
la sélection des nœuds gagnants, dont la valeur d’activation est supérieure à la
médiane 2.4 La probabilité des classes choisies est représentée dans le tableau
suivant en utilisant l’équation : 2.6.
Selon l’équation 2.7, l’algorithme prédit ce cas comme étant diabétique.
TABLE 3.13 – Classification Probabiliste avec l’algorithme Modified Fuzzy ART-MAP pour le patient 383
Diabétique Non diabétique0.52 0.13
A partir du tableau 3.14, l’algorithme Modified Fuzzy ARTMAP avait correc-
tement classifié le patient comment étant Non Diabétique. En effet,Il s’agit d’une
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 79
TABLE 3.14 – Patient 261 : cas Vrai négatif
Nbr grocesses Glu Tens Artr Triceps Insuline IMC DPF Age Classe2 84 50 23 76 30.4 0.968 21 0 (Non diabétique)
jeune femme (21ans), qui a une concentration de glucose normale (84.0mg /l), et
qui, du fait de sa jeunesse et de l’absence de glucose anormal, ne devrait pas avoir
les symptômes d’un cas diabétique, ce que reflète notre propre résultat.
TABLE 3.15 – Les nœuds engagés de l’algorithme Modified Fuzzy ARTMAP pourle patient 261
Type F2 Nœuds Engagés Diabétique Non diabétiqueAvant la sélection 34 15 19Après la sélection 25 13 12
TABLE 3.16 – Classification Probabiliste avec l’algorithme Modified Fuzzy ART-MAP pour le patient 261
Diabétique Non diabétique0.51 0.78
Le tableau 3.15 démontre le processus de sélections des nœuds. Après la sé-
lection des nœuds gagnants 3.15, sur les 25 nœuds engagés, 13 appartiennent à la
classe 1 (cas diabétique ) et 12 à la classe 0 (non diabétique), après avoir fait le
calcul probabiliste (voir tableau 3.16).
Selon l’équation 2.7 l’algorithme prédit ce cas comme étant Non diabétique ce
qui est la classe correcte dans la base de données PIMA et cela bien que le nombre
de nœuds engagés appartenant a la classe 1 soit supérieur aux nœuds représentant
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 80
la classe diabétique. Mais la probabilité d’appartenance dans la classe 1 est égale
à 0.51, et la probabilité de la classe 0 est 0.78. En effet, le calcul probabiliste de
l’équation 2.6 ne dépend pas seulement du nombre de nœuds engagés, mais aussi
de la valeur d’activation T ti , ainsi que de la fréquence du nœud θtj . Ces derniers
sont des facteurs très importants et influent beaucoup sur le calcul probabiliste,
surtout lorsque la base de données n’est pas équilibrée , et que le nombre de don-
nées d’une classe domine la base. Notre approche permet précisément d’éviter ce
type de problème et les cas de sur-apprentissage .
Dans la deuxième expérimentation ,toute les méthodes proposées : Modified
Fuzzy ARTMAP , Modified Fuzzy ARTMAP avec Sequential floating selection
(SFFS),K plus proches voisins (KNN) classique ,Sequential forward selection (SFS)
avec KNN et Random Subset Feature Selection (RSFS )avec KNN ont été utilisées
pour la sélection de variables. Le classifieur Knn ainsi que notre approche Modi-
fied Fuzzy ARTMAP ; ont été utilisés dans le processus de sélection de variables.
Toutes les méthodes utilisent la validation croisée pour le processus de sélection
de variables afin de déterminer la variable la plus pertinente , c’est-à-dire que
toutes les données de la base pima sont évaluées pour le processus de sélection.
Cependant ,notre approche Modified Fuzzy ARTMAP en combinaison avec Se-
quential floating forward selection (SFFS) a réalisé le meilleur score de toutes les
méthodes illustrées dans le tableau 3.10.Tout d’abord, notre approche Modified
Fuzzy ARTMAP à été utilisée en combinaison avec Sequential floating forward
selection SFFS. non seulement pour le choix des variables mais aussi pour la clas-
sification. Ainsi les variables choisies sont optimales pour le classifeur de notre
approche Modified Fuzzy ARTMAP. Ensuite l’utilisation des PSO pour l’optimi-
sation des paramètres internes de l’algorithme Modified Fuzzy ARTMAP avant
3.2. RECONNAISSANCE DU DIABÈTE DE TYPE 2 81
et après la sélection des variables (pour la classification), a permis d’optimiser
la structure interne du réseau Modified Fuzzy ARTMAP pour les variables sélec-
tionnées et améliorer les performances de classification. Le facteur ou l’approche
la plus influençable dans cette expérimentation c’est l’intégration de la méthode
Sequential floating forward selection (SFFS)qui a permis de réduire l’espace des
variables caractéristiques de huit descripteurs à seulement deux descripteurs ,avec
une amélioration significative des taux de classification. Les descripteurs sélec-
tionnés par notre approche sont : la concentration de glucose après deux heures et
l’âge du patient, ce qui est démontré par les études médicales des symptômes du
diabète du type 2 , c’est-à-dire par un taux trop élevé de glucose (sucre) dans le
sang. Cette maladie survient généralement chez les adultes avancés en âge [10].
Dans notre étude, le fait d’utiliser seulement l’algorithme Modified Fuzzy ART-
MAP donne des résultats satisfaisants mais le fait faire appel aux algorithmes de
sélection de variables, permet de réduire la complexité de réseau (classifeur)ainsi
que le nombre de nœuds générés dans la couche F2 du réseau. Ceci implique
une énorme amélioration en termes à la fois d’exigences de temps de calcul et
de mémoire du système et bien évidemment d’élimination des bruits et variables
non pertinentes ou celles qui n’apportent pas une amélioration. La méthode Se-
quential floating foward selection (SFFS) a longuement imposé sa place dans les
méthodes de sélection de variables grâce à sa rapidité en temps de calcul et de ses
performances à générer la solution optimale.
3.3. CONCLUSION 82
3.3 Conclusion
Dans ce chapitre, nous avons examiné l’approche modifiée de l’algorithme
Modified Fuzzy ARTMAP et nous l’avons testé sur la base des signaux ECG. et
de la base de données du diabète du type 2. Nous avons intégré les techniques
d’optimisation, en recourant pour cela à l’optimisation par essaim particulaire,
qui a permis d’obtenir des performances meilleures en généralisation. Pour cela
nous avons utilisé la validation croisée afin d’évaluer toute la base de données.
La combinaison de l’approche modifiée et l’optimisation par essaim particulaire,
ont permis d’avoir une architecture simplifiée du réseau. Ceci a d’atteindre une
solution de classification optimale avec un minimum de nombre d’itérations afin
de rendre l’algorithme rapide. Enfin, ceci a permis de gérer l’apprentissage en
ligne sur un grand nombre de flux de données et d’optimiser des paramètres afin
de maximiser la performance en généralisation . Finalement, afin de rendre notre
approche plus rapide et plus optimisée, nous avons eu recours aux techniques de
sélection de variables. La méthode SFFS. a été utilisée. Nous en avons modifié
la structure interne en intégrant notre approche Modified Fuzzy ARTMAP comme
critère de sélection de la variable pertinente et nous avons exclu les variables les
moins efficaces. Ceci a permis d’obtenir les sous-ensembles des variables caracté-
ristiques de la base de données les plus représentatif et d’avoir une structure plus
simplifiée du réseau. De même que nous avons pu réduire le nombre de noeuds
internes afin d’avoir un diagnostic plus rapide et avec moins de variables. Cette
méthode permet d’éliminer les bruits et les variables redondantes et ainsi d’amé-
liorer significativement les résultats de classification.
Conclusion générale
Dans cette thèse,nous avons proposé une nouvelle architecture du réseau Mo-
dified Fuzzy ARTMAP en vue de réaliser un apprentissage incrémental pour le
diagnostic des données médicales. La caractéristique principale de ce modèle ré-
side dans le fait que l’on a simplifié la structure de l’algorithme Fuzzy ARTMAP
standard en intégrant les approches probabilistes, les fréquences des nœuds et
la médiane. Cette nouvelle architecture a permis d’améliorer significativement le
taux de classification. De même qu’elle a permis de gérer les bases de données
non équilibrées, ce qui a rendu possible la gestion des cas rares et des données
minoritaires, ainsi que d’effectuer un apprentissage sur des petites bases de don-
nées. Le réseau Modified Fuzzy ARTMAP a la capacité d’effectuer l’apprentissage
incrémental et en ligne. Les applications expérimentales sur les signaux ECG ont
permis de montrer sa capacité à pouvoir gérer les grandes bases de données et
d’apprendre de nouvelles connaissances sans devoir accéder aux données d’ap-
prentissage précédentes.
La particularité de cette approche c’est qu’elle tend vers un taux d’erreur négli-
geable avec un minimum d’itération. Nous avons également montrer que le réseau
Modified Fuzzy ARTMAP peut subir une dégradation de performances causée par
le nombre d’époques (itération) provoquant le risque d’un sur-apprentissage. Il y
83
84
a aussi le facteur de la taille de base de données d’apprentissage : l’augmentation
graduelle de la taille de la base d’apprentissage nous a permis d’observer que le
réseau ne subissait pas une dégradation de performances sur la base des signaux
ECG. Les performances de notre approche Modified Fuzzy ARTMAP indiquent
que le modèle peut gérer également des bases de données de taille moyenne. C’est
effectivement ce que nous avons observé à travers les effets de la stratégie d’ap-
prentissage sur la base des données médicales du diabète du type 2. Les techniques
d’optimisation nous ont permis d’améliorer les performances du réseau, en opti-
misant les quatre paramètres internes du réseau (Paramètre du choix α , Paramètre
de vigilance ρ ,MatchTracking ε et le taux d’apprentissage β).
Ces techniques d’optimisation ont permis d’améliorer les performances de gé-
néralisation du réseau Modified Fuzzy ARTMAP. Pour celà, nous avons eu recours
à l’algorithme d’optimisation par essaim particulaire (PSO)en vue d’optimiser
les quatre paramètres internes du réseau. Nous avons appliqué cette stratégie sur
la base de données des signaux ECG et du diabète du type 2. Les expérimenta-
tions effectuées ont démontré l’importance de choix de paramètres adéquats pour
chaque base de données. Contrairement au choix manuel de ces paramètres, qui est
très difficile à effectuer, la technique d’optimisation par essaim particulaire permet
d’automatiser cette tache rapidement et en tendant vers une solution optimale. Sur
les deux bases de données que nous avons testées, l’utilisation de cette stratégie
d’apprentissage hybridée avec l’algorithme PSO a démontré que le réseau généré
possède les meilleures performances en généralisation que lors de l’utilisation des
paramètres standards cités dans les travaux de Carpenter et Al et de Wang, Guo-
feng, Zhiwei Guo, et Lei Qian [28]. Ces valeurs ont donc un impact considérable
sur les performances du réseau Modified Fuzzy ARTMAP et permettent également
85
de réduire considérablement la dégradation des performances en généralisation
avec l’utilisation de la validation croisée pour consolider cette caractéristique de
généralisation.
Cependant, même en optimisant les paramètres internes de l’approche Mo-
dified Fuzzy ARTMAP, le problème de sur-apprentissage reste toujours présent,
avec les bases possédant des chevauchements. Il est également nécessaire d’avoir
la structure la plus simple possible et un temps de traitement optimal. Ainsi, la
collection des données de la base peut être parfois coûteuse. Il se peut aussi
que quelques descripteurs (informations sur le patient) peuvent être redondants
ou n’influent pas sur les résultats du classifieur ; Ils peuvent même, dans certains
cas, affaiblir la capacité d’apprentissage à cause du chevauchement des différentes
classes de la base de données. La sélection de variables a permis aussi de réduire
énormément le nombre de catégories requises pour la classification des bases avec
chevauchement, de même qu’elle a permis d’éliminer le risque de prolifération
des catégories, d’améliorer les capacités de généralisation et de réduire le temps
d’exécution.
Nous nous sommes intéressés à la méthode de sélection "sequential forward
floating selection" (SFFS), car cet algorithme démontre un équilibre raisonnable
entre l’optimisation dans la sélection des sous-ensembles des variables caracté-
ristiques, et l’efficacité sur les bases de données médicales. Nous avons utilisé
comme fonction de critère notre approche Modified Fuzzy ARTMAP pour mesu-
rer les variables pertinentes et les variables à éliminer . Cette hybridation nous
a permis d’avoir des performances améliorées en comparaison avec le classifieur
KNN hybridé avec SFFS et avec d’autres méthodes de sélection de variables. Il a
permis aussi de générer moins de variables avec d’autres approches. Les variables
86
sélectionnées par notre modèle à partir de la base de données du diabète du type
2, constituent les facteurs les plus fréquents et les plus importants pour diagnosti-
quer un diabète du type 2. L’algorithme SFFS est rapide et permet en même temps
d’inclure les variables les plus significatives dans le nouveau sous-ensemble ; de
même qu’il permet d’exclure les données qui n’améliorent pas les performances.
Dans le cas du diabète du type 2 que nous avons évalué, notre approche a permis
de réduire de 80% le nombre de variables initiales, tout en améliorant les perfor-
mances.
Nous avons jusqu’ici mis en relief les avantages de notre approche modifiée.
Toutefois, notons que ces résultats peuvent être davantage améliorés par l’utili-
sation d’autres méthodes d’optimisation et de sélection en ligne, afin de rendre
l’apprentissage plus rapide. Par ailleurs, il serait intéressant d’implémenter une
structure du réseau Modified Fuzzy ARTMAP afin d’extraire les règles de classifi-
cation et de transformer les connaissances capturées dans le réseau sous un format
familier aux experts médicaux.
Nous comptons, dans nos recherches futures, généraliser nos résultats à des
domaines autres que le domaine médical retenu dans cette thèse. Nous sommes
en train d’implémenter le modèle sur les périphéries multimédia android tel que
les smartphones et tablettes, pour aider à détecter les dommages, les problèmes
et les maladies, de façon plus efficace encore, plus rapide et moins cher. Cela
aidera, non seulement à réduire les coûts des soins de santé, mais permettra aussi la
détection des maladies de façon plus précoce, et donc d’administrer un traitement
plus rapidement.
Annexe A
La sélection de variables
A.1 Introduction
Dans de nombreuses applications , nous rencontrons souvent un très grand
nombre de caractéristiques potentielles qui peuvent être utilisées. Parmi ces ca-
ractéristiques(variables) il faut déterminer celles qui doivent êtres utilisées pour
avoir une meilleure classification.
L’objectif principal de la sélection des variables est d’extraire un sous en-
semble de S à partir d’un ensemble de données D. Avec S < D, sans dégrader
les performances de classification. En supposant qu’une fonction de critère ap-
propriée a été choisie pour évaluer l’efficacité du sous-ensembles sélectionné. La
sélection de variable consiste dans la mise en évidence du problème de recherche
qui permet de détecter le sous ensemble optimal des variables, basé sur la mesure
sélectionnée. Dans ce chapitre nous allons définir les algorithmes de sélection
des variables pertinentes et la génération d’un meilleur sous-ensemble S avec les
différents processus d’ajout ou de suppression à partir l’ensemble des variables
87
A.2. LA FONCTION OBJECTIF 88
initiales.
Le processus de sélection de variables est nécessaire dans de nombreuses si-
tuations :
— Dans certain cas la collection des données caractéristiques peut être coû-
teuse et difficile à obtenir.
— Les caractéristiques peuvent ne pas être numérique , une situation typique
dans l’apprentissage artificiel
— Avoir une architecture complexe : le processus permet d’optimiser la com-
plexité du classifieur et en conséquence de diminuer le temps d’accès.
— Amélioration des capacités de généralisation
A.2 La fonction objectif
La fonction objectif J évalue les sous-ensembles de candidats et détermine
une mesure de leur pertinences , un signal de retour utilisé par la stratégie de
recherche pour sélectionner de nouveaux candidats.
La fonction objectif est divisé en deux groupes :
— Filtres : évaluer les sous-ensembles par leur contenu d’information , par
exemple : La distance entre les classes (euclidienne, Mahalanobis, etc..),
la dépendance statistique ...
— Wrappers : Utilise un classifieur pour évaluer les sous ensembles par leurs
performances prédites dans les données de test par rééchantillonnage sta-
tistique ou validation croisée.
La fonction objectif utilisée dans notre thèse est l’approche proposée Modified
Fuzzy ARTMAP
A.3. LA STRATÉGIE DE RECHERCHE 89
A.3 La stratégie de recherche
A.3.1 la sélection de variables séquentielles Naïfs
Cette stratégie tente d’évaluer chaque variable individuelle séparément. Elle
trie les variables dans l’ordre de leurs taux de classification ,ensuite elle sélec-
tionne les meilleures M variables. Malheureusement, cette stratégie fonctionne
rarement car elle ne tient pas compte de la dépendance entre les variables : Les
meilleures paires de variables ne sont pas forcement celles qui possèdent la meilleure
caractéristique individuelle.
Exemple :
FIGURE A.1 – Un exemple d’un problème de sélection de variables séquentiellesNaïfs de 5 classes
Dans la figure A.1 nous avons un problème de classification avec cinq classes.
N’importe quelle fonction objectif va évaluer les variables caractéristiques selon
la séquence suivante : J(x1) > J(x2) ≈ J(x3) > J(x4). La variable x1 est la
A.3. LA STRATÉGIE DE RECHERCHE 90
meilleure car elle sépare les classes : c1, c2, c3 et {c4, c5} .x2 et x3 sont équivalentes
car elles séparent les classes en 3 groupes respectivement : {c4, c5} , c3 et {c1, c2}
,ainsi que pour x3 elle sépare : {c4, c5} , c1 et {c3, c2}, et enfin x3 est la variable
la moins pertinente parce qu’elle sépare seulement c4 de c5.
Dans cet exemple le sous ensemble optimal de variables caractéristiques se
révèle être {x1, x4}, parce que la variable x4 donne la seule information dont la
variable x1 a besoin : la séparation entre la classe c4 et la classe c5. Par contre
avec la sélection de variables séquentielles Naïfs, les variables sélectionnées se-
ront évaluées selon leur score individuel J(xk), qui va certainement prendre x1 et
aussi x2 ou x3, laissant les classes c4 et c4 non séparables. Ce qui implique que la
stratégie de sélection de variables séquentielles Naïfs échoue car elle ne prend pas
en charge les dépendances et les informations complémentaires.
A.3.2 la sélection de variables séquentielles vers l’avant (SFS)
la sélection de variables séquentielles vers l’avant, est le plus simple Greedy
search algorithme. Le processus de sélection débute à partir d’un sous ensemble
vide, et les variables x+ qui maximisent la fonction objectif J(Yk +x+) sont ajou-
tées séquentiellement ,quand leurs combinaisons avec le sous-ensemble précédent
est déjà sélectionné. L’algorithme 3 explique les différentes étapes de la méthode
de sélection de variables séquentielles vers l’avant .
Algorithm 3 la sélection de variables séquentielles vers l’avant (SFS)1: Initialiser avec un sous-ensemble vide : S0 = {∅}2: Sélectionner la prochaine meilleure variable x+ = argmax
x6∈Sk
J(Sk + x)
3: Mettre à jour Sk+1 = Sk + x+ ; k = k + 14: Aller à 2.
A.3. LA STRATÉGIE DE RECHERCHE 91
L’algorithme SFS donne de bonnes performances lorsque le sous-ensemble
optimal S est petit,c’est à dire lorsque la recherche est proche de l’ ensemble
vide. Un grand nombre d’états peut être potentiellement évalué. Mais le principal
inconvénient de l’algorithme SFS est qu’il n’est pas capable de retirer des va-
riables lorsqu’elles sont retenues ,dans le cas où elles deviennent non pertinentes
après l’ajout d’autres variables par la suite.
Exemple :
Soit la fonction objectif suivante :
J(X) = −2x1x2 + 3x1 + 5x2 + 2x1x2x3 + 7x3 + 4x4 − 2x1x2x3x4
Nous allons appliquer la sélection de variables séquentielles vers l’avant sur
cette fonction ,sachant que xk est l’indicateur de variables ,lequel indique si la kme
variable a été sélectionnée (xk = 1) ou non (xk = 0) ;
Solution :
FIGURE A.2 – Un exemple d’un problème de la sélection de variables séquen-tielles vers l’avant (SFS)
A.3. LA STRATÉGIE DE RECHERCHE 92
A.3.3 la sélection de variables séquentielle vers l’arrière (SBS)
Contrairement à la sélection de variables séquentielles vers l’avant, la sélec-
tion de variables séquentielles vers l’arrière débute à partir de l’ensemble initial
complet , et retire séquentiellement la variable x− la moins pertinente , c’est à
dire celle qui réduit le score de la fonction objectif J(S−x−).En d’autres termes,
la suppression de x− permet d’améliorer les performances de la fonction objectif
J(Sk − x−) > J(Sk)
Algorithm 4 la sélection de variables séquentielles vers l’arrière (SBS)1: Démarrer à partir de l’ensemble complet initial : S0 = X2: Retirer la variable la moins pertinente x− = argmax
x 6∈Sk
J(Sk − x)
3: Mettre à jour Sk+1 = Sk − x− ; k = k + 14: Aller à 2.
L’algorithme SFS donne de bonnes performances lorsque le sous-ensemble
optimal S est large, ce qui, par conséquent, demande plus de temps de calcul
que l’algorithme SFS. L’autre inconvénient, est que l’algorithme de sélection de
variables séquentielles vers l’arrière est incapable de réévaluer la pertinence d’une
variable après qu’elle soit retirée.
A.3.4 la sélection de variables séquentielles flottantes vers l’avant
(SFFS)
L’algorithme SFFS effectue un processus de recherche avant et arrière. c’est
une généralisation des algorithmes SFS et SBS. Par conséquent, l’algorithme
SFFS inclut les nouvelles variables en appliquant la procédure basique SFS
commençant depuis le sous-ensemble de variables courants. Le processus est
A.3. LA STRATÉGIE DE RECHERCHE 93
poursuivi par une série successive d’exclusions conditionnelles des variables les
moins pertinentes dans le nouveau sous ensemble , ce qui permet de fournir une
amélioration supplémentaire au séries précédentes.
L’algorithme de sélection de variables séquentielles flottantes vers l’avant
(SFFS)
Algorithm 5 la sélection de variables séquentielles flottantes vers l’avant (SFFS)1: Démarrer à partir d’un sous ensemble vide : S0 = {∅}2: Inclusion : Sélectionner la variable la plus pertinente x+ = argmax
x 6∈Sk
J(Sk+x)
, Sk+1 = Sk + x+ ; k = k + 13: Exclusion : Sélectionner la plus mauvaise variable x− = argmax
x∈Sk
J(Sk − x)
4: Poursuite de l’exclusion conditionnelle :5: Si J(Sk − x−) > J(Sk) Alors6: Sk+1 = Sk − x− ; k = k + 17: Aller à 38: Sinon9: Aller à 2
10: Fin Si
Inclusion : Cette étape utilise l’algorithme de sélection basique SFS pour
sélectionner la variable la plus signifiante et l’inclure dans l’ensemble S. Il faudra
arrêter le processus, si d variables ont été sélectionnées, sinon il faut aller a l’étape
suivante.
Exclusion conditionnelle :
La prochaine étape consiste à trouver la variable la moins pertinente k à partir
du sous ensemble S. Si cette variable sélectionnée vient juste d’être ajoutée, alors
elle doit être gardée, sinon il faut retourner à l’étape d’inclusion. Dans le cas
contraire, cette variable k sera exclue du sous-ensemble S. Il faut préciser que
durant cette étape le sous-ensemble X est meilleur qu’avant (étape d’inclusion).
A.4. CONCLUSION 94
Le processus se poursuit vers l’étape suivante.
Poursuite de l’exclusion conditionnelle Le processus poursuit la recherche de
la variable la moins pertinente dans le sous-ensemble S. Dans le cas où la suppres-
sion de cette variable rend : Premièrement, la taille du sous-ensemble S supérieure
à deux dimensions,Deuxièmement, le retrait de cette variable x− rend le sous-
ensemble S plus performant que la valeur de critère du meilleur sous-ensemble
trouvé jusqu’à présent, et qui possède la même dimension, alors x− sera retiré et
on répète la troisième étape (Poursuite de l’exclusion conditionnelle). Lorsque ces
deux conditions cessent d’être remplies alors on retourne à l’étape 1 (L’inclusion).
A.4 Conclusion
Nous avons énuméré les différentes approches de sélection de variables qui
ont été utilisées dans le cadre de notre travail. L’utilisation de l’algorithme SFFS
a été choisie pour être combinée avec notre approche Modified Fuzzy ARTMAP,
du fait de ses avantages par rapport aux autres méthodes citées. SFFS contient
les avantages (les points forts) des deux méthodes SFS et SBS. Il est plus rapide
et plus performant car il prend en compte la dépendance des sous-ensembles de
variables. La fonction objectif de l’algorithme SFFS a été remplacé par notre
classifeur Modified Fuzzy ARTMAP . Les expérimentations ont démontré l’effi-
cacité de ce classifieur dans le processus de sélection et sa capacité à fournir de
meilleurs résultats.
Bibliographie
[1] Mohammed Hakim Bendiabdallah, Mohamed Amine Chikh, and Belabbas
Yagoubi. Modified fuzzy artmap for cardiac arrhythmia recognition. Inter-
national Journal of Biomedical Engineering and Technology, 22(1) :79–97,
2016.
[2] Avrim L Blum and Pat Langley. Selection of relevant features and examples
in machine learning. Artificial intelligence, 97(1) :245–271, 1997.
[3] Antoine Bordes and Léon Bottou. The huller : a simple and efficient online
svm. In Machine Learning : ECML 2005, pages 505–512. Springer, 2005.
[4] Gail Carpenter, Stephen Grossberg, and David B ROSEN. Fuzzy art : An
adaptive resonance algorithm for rapid, stable classification of analog pat-
terns. Neural Networks, IEEE, 1991.
[5] Gail A. CARPENTER, Stephen GROSSBERG, and John H REYNOLDS.
Artmap : Supervised real-time learning and classification of nonstationary
data by a self-organizing neural network. Neural networks, 1991.
[6] Gail A. Carpenter, Stephen Grossberg, and John H REYNOLDS. Fuzzy
artmap : A neural network architecture for incremental supervised learning
of analog multidimensional maps. Neural Networks, IEEE, 1992.
95
BIBLIOGRAPHIE 96
[7] Alberto Colorni, Marco Dorigo, Vittorio Maniezzo, et al. Distributed opti-
mization by ant colonies. In Proceedings of the first European conference
on artificial life, volume 142, pages 134–142. Paris, France, 1991.
[8] RO Duda, PE Hart, and DG Stork. Pattern classification. jone wiley & son.
Inc, New Work, 2001.
[9] Eric Granger, Mark A Rubin, Stephen Grossberg, and Pierre Lavoie. A what-
and-where fusion neural network for recognition and tracking of multiple
radar emitters. Neural Networks, 14(3) :325–344, 2001.
[10] Samy Hadjadj, Frédéric Fumeron, Ronan Roussel, Pierre-Jean Saulnier,
Yves Gallois, Amos Ankotche, Florence Travert, Charbel Abi Khalil, Au-
rélie Miot, François Alhenc-Gelas, et al. Prognostic value of the inser-
tion/deletion polymorphism of the ace gene in type 2 diabetic subjects results
from the non-insulin-dependent diabetes, hypertension, microalbuminuria or
proteinuria, cardiovascular events, and ramipril (diabhycar), diabete de type
2, nephropathie et genetique (diab2nephrogene), and survie, diabete de type
2 et genetique (surdiagene) studies. Diabetes Care, 31(9) :1847–1852, 2008.
[11] Frank Heppner and Ulf Grenander. A stochastic nonlinear model for coor-
dinated bird flocks. The ubiquity of chaos, pages 233–238, 1990.
[12] Steven CH Hoi, Jialei Wang, and Peilin Zhao. Libol : A library for on-
line learning algorithms. The Journal of Machine Learning Research,
15(1) :495–499, 2014.
[13] Michael Kahn. Uci machine learning repository.
[14] J Kennedy. R, eberhart. Particle swarm optimization, 1, 1995.
BIBLIOGRAPHIE 97
[15] James Kennedy. Particle swarm optimization. In Encyclopedia of machine
learning, pages 760–766. Springer, 2011.
[16] Pat Langley, Wayne Iba, and Kevin Thompson. An analysis of bayesian
classifiers. In AAAI, volume 90, pages 223–228, 1992.
[17] Nick Littlestone. Learning quickly when irrelevant attributes abound : A
new linear-threshold algorithm. Machine learning, 2(4) :285–318, 1988.
[18] Jingli Lu, Ying Yang, and Geoffrey I Webb. Incremental discretization for
naive-bayes classifier. In Advanced Data Mining and Applications, pages
223–238. Springer, 2006.
[19] Thomas Marill and D Green. On the effectiveness of receptors in recognition
systems. IEEE transactions on Information Theory, 9(1) :11–17, 1963.
[20] Jiapu Pan and Willis J Tompkins. A real-time qrs detection algorithm. Bio-
medical Engineering, IEEE Transactions on, (3) :230–236, 1985.
[21] Ronald K Pearson. The problem of disguised missing data. ACM SIGKDD
Explorations Newsletter, 8(1) :83–92, 2006.
[22] Jouni Pohjalainen, Okko Räsänen, and Serdar Kadioglu. Feature selection
methods and their combinations in high-dimensional classification of spea-
ker likability, intelligibility and personality traits. Computer Speech & Lan-
guage, 29(1) :145–171, 2015.
[23] Riccardo Poli, James Kennedy, and Tim Blackwell. Particle swarm optimi-
zation. Swarm intelligence, 1(1) :33–57, 2007.
[24] Pavel Pudil, Jana Novovicová, and Josef Kittler. Floating search methods in
feature selection. Pattern recognition letters, 15(11) :1119–1125, 1994.
BIBLIOGRAPHIE 98
[25] Craig W Reynolds. Flocks, herds and schools : A distributed behavioral
model. In ACM SIGGRAPH computer graphics, volume 21, pages 25–34.
ACM, 1987.
[26] Bernhard Schölkopf and Alexander J Smola. Learning with kernels : Support
vector machines, regularization, optimization, and beyond. MIT press, 2002.
[27] Dimitrios Ververidis and Constantine Kotropoulos. Fast and accurate se-
quential floating forward feature selection with the bayes classifier applied
to speech emotion recognition. Signal Processing, 88(12) :2956–2970, 2008.
[28] Guofeng Wang, Zhiwei Guo, and Lei Qian. Online incremental learning for
tool condition classification using modified fuzzy artmap network. Journal
of Intelligent Manufacturing, 25(6) :1403–1411, 2014.
[29] A Wayne Whitney. A direct method of nonparametric measurement selec-
tion. IEEE Transactions on Computers, 100(9) :1100–1103, 1971.
[30] Edward Wilson. 0.(1975) sociobiology : The new synthesis, 1978.
[31] EO Wilson. Sociobiology. the new synthesis. cambridge, ma (the belknap
press) 1975. 1975.