Multi-Label Text Classiﬁcation of Medical Abstractsdocpatient.net/tfe/Rigaux _2015.pdf · En...

Université de Liège - Faculté des Sciences Appliquées

Multi-Label Text Classification of Medical

Abstracts

Travail de fin d’études réalisé en vue de l’obtention du grade de

Master en Sciences Informatiques

Sébastien Rigaux

Année académique 2014 – 2015

Promoteur : Ittoo Ashwin

Jury : Ittoo A., Geurts P., Wolper P., Jamoulle M.

Résumé

L’objectif de ce travail est de trouver une méthode automatisée capabled’analyser le contenu d’articles traitants de médecine générale non cliniqueet de prédire les catégories 3CGP/FM correspondantes. Les principales dif-ficultés proviennent de la faible quantité de données d’exemples disponibles,du nombre important de catégories à identifier, et de la forte spécificité duchamp d’application de 3CGP/FM rendant les catégories difficiles à discer-ner.

La première étape a été de comparer l’efficacité des méthodes de vecto-risation et normalisation (Bag-Of-Words, Term Frequency , Term Frequency-Inverse Document Frequency . . . ) en les combinant à celles de traitementautomatique du langage naturel (racinisation, lemmatisation et lemmatisa-tion filtrée selon la nature des mots du corpus) et, avec celles de FeatureSelection et Feature Extraction (Chi-Squared , Bi-Normal Separation, Mu-tual Information, Cube Mutual Information, Singular Value Decomposition).Cette étape a montré que la lemmatisation filtrée, TF-IDF et SVD apportentde réels gains de précision aux classificateurs.

La deuxième étape a été d’analyser l’efficacité de ces diverses techniques,en fonction des algorithmes de Machine Learning utilisés afin de voir si desméthodes comme Bernoulli Naïve Bayes, Multinomial Naïve Bayes ou Sto-chastic Gradient Descent peuvent améliorer les performances de classificationobtenues à l’aide de Support Vector Machine. Il en ressort que seul SGD éga-lise et surpasse même SVM.

La troisième étape a été de comparer les résultats précédents, obtenus àpartir du corpus francophone, avec des classificateurs similaires appliqués àun corpus anglophone. Ceci a permis de vérifier que l’efficacité des différentestechniques étudiées est globalement indépendante du langage utilisé. Cepen-dant, les gains de précisions diffèrent quelque peu pour certaines techniquescomme SVD, TF-IDF. De même, il a été possible de remarquer que le cor-pus anglais est moins sensible aux méthodes de traitement automatique dulangage naturel.

Une fois l’ensemble de ces analyses et comparaisons faites, deux classifi-cateurs 3CGP/FM ont pu être proposés. Le premier, pour le corpus franco-phone, utilise SVD tandis que le deuxième utilise SVM, TF-IDF et SVD. Lesdeux classificateurs utilisent aussi la lemmatisation filtrée, et obtiennent unF1-score modeste de respectivement 0,452 et 0,344.

Remerciements

Je tiens à témoigner ma reconnaissance aux personnes ayant contribué àl’élaboration du présent travail.

En premier lieu, je remercie naturellement monsieur Ashwin Ittoo, pro-moteur de ce mémoire, pour l’œil critique qu’il a porté à ce travail, sa dispo-nibilité et pour l’aide qu’il a apportée.

Je remercie également ma famille et mes amis qui m’ont soutenu tout aulong de cette dernière année d’étude.

Enfin, je remercie Yves Gillet et Manon Lejeune pour leurs relectures etleurs précieux conseils.

Table des matières

1 Introduction 31.1 Défis scientifiques . . . . . . . . . . . . . . . . . . . . . . . . . 41.2 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 État de l’art 82.1 Apprentissage automatique . . . . . . . . . . . . . . . . . . . . 8

2.1.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . 82.1.2 Autres techniques d’apprentissage . . . . . . . . . . . . 102.1.3 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Classification de texte . . . . . . . . . . . . . . . . . . . . . . 132.2.1 Contraintes de classification . . . . . . . . . . . . . . . 132.2.2 Vectorisation et normalisation . . . . . . . . . . . . . . 142.2.3 Traitement automatique du langage naturel . . . . . . 15

2.3 Identification automatiquede caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . 202.3.1 Sélection automatique de caractéristiques . . . . . . . . 212.3.2 Extraction automatique de caractéristiques . . . . . . . 24

2.4 Classificateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.4.1 Support Vector Machine . . . . . . . . . . . . . . . . . 262.4.2 Naïve Bayes . . . . . . . . . . . . . . . . . . . . . . . . 302.4.3 Stochastic Gradient Descent . . . . . . . . . . . . . . . 33

3 Présentation des données et de l’approche choisie 353.1 Thésaurus Core Content Classification in General Practice /

Family medicine (3CGP/FM) . . . . . . . . . . . . . . . . . . 353.2 Données annotées . . . . . . . . . . . . . . . . . . . . . . . . . 363.3 Approche choisie . . . . . . . . . . . . . . . . . . . . . . . . . 38

4 Implémentation 404.1 Importation des données . . . . . . . . . . . . . . . . . . . . . 404.2 Adaptation du corpus . . . . . . . . . . . . . . . . . . . . . . . 42

1

4.3 Vectorisation et normalisation . . . . . . . . . . . . . . . . . . 434.4 Réduction de dimension . . . . . . . . . . . . . . . . . . . . . 454.5 Binarisation des catégories . . . . . . . . . . . . . . . . . . . . 464.6 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.7 Évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.8 Exportation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Résultats et discussions 495.1 Adaptations du corpus . . . . . . . . . . . . . . . . . . . . . . 495.2 Vectorisations et normalisations . . . . . . . . . . . . . . . . . 525.3 Réductions de dimension . . . . . . . . . . . . . . . . . . . . . 535.4 Classificateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.4.1 Support Vector Machine linéaire . . . . . . . . . . . . . 615.4.2 Multinomial Naïve Bayes . . . . . . . . . . . . . . . . . 625.4.3 Bernoulli Naïve Bayes . . . . . . . . . . . . . . . . . . 635.4.4 Stochastic Gradient Descent . . . . . . . . . . . . . . . 63

5.5 Corpus WONCAen . . . . . . . . . . . . . . . . . . . . . . . . . . 645.5.1 Adaptation du corpus . . . . . . . . . . . . . . . . . . 645.5.2 Vectorisations et normalisations . . . . . . . . . . . . . 655.5.3 Réductions de dimension . . . . . . . . . . . . . . . . . 675.5.4 Classificateurs . . . . . . . . . . . . . . . . . . . . . . . 71

5.6 Classificateurs optimaux . . . . . . . . . . . . . . . . . . . . . 72

6 Conclusion 84

A Annexes I

Termes et Abréviations IX

Références XI

2

Chapitre 1

Introduction

Dans le domaine médical, il existe depuis plusieurs années de nombreusesontologies. Citons par exemple, Medical Subject Headings (MeSH) et UnifiedMedical Language System R� (UMLS R�). Cependant, celles-ci ne couvrent pasle domaine de la médecine générale. Récemment, le World Organization ofNational Colleges, Academies and Academic Associates of General Practitio-ners/Family Physicians (WONCA), aussi connu sous le nom de World Orga-nization of Family Doctors (Wonca) a développé des bases dictionnairiquesafin de combler ce manque. C’est notamment le cas du thésaurus Interna-tional Classification of Primary Care (ICPC) qui a pour but de permettrela classification et le codage d’ontologies cliniques de médecine générale. Ac-tuellement, le Dr Marc Jamoulle travaille sur un nouveau thésaurus nommé3CGP/FM. Celui-ci vise, lui, les ontologies non cliniques de médecine géné-rale.

Parallèlement à ces développements, il y a eu, ces dernières années, uneprolifération des textes de médecine générale. Une grande partie de ceux-ciproviennent d’articles de conférence. Cependant, bien que beaucoup de tech-niques permettant la classification de texte de médecine aient été développés,il n’existe actuellement pas d’outil performant permettant d’identifier et declassifier avec précision le contenu des textes traitant de la médecine généralenon clinique.

3

Une solution pourrait être d’annoter manuellement les différents articlesà l’aide des classifications ICPC ou 3CGP/FM. Mais cette solution n’estévidemment pas optimale, et encore moins évolutive. En effet, avec cetteméthode, il subsisterait trois problématiques. La première, et majeure, estle temps d’encodage. La deuxième provient de la subjectivité des individusl’encodant et menant à une non-consistance des données [21, 51]. Et enfin,les systèmes de classification étant sujets à évoluer, chaque modification deceux-ci nécessiterait de repasser sur l’ensemble des articles, ce qui sembleimpossible au vu de la première problématique. La solution idéale consistedonc à développer une méthode automatisée capable d’analyser le contenudes articles et de déterminer les catégories 3CGP/FM correspondantes.

C’est à cette dernière solution que nous allons nous atteler dans ce mé-moire. Il s’agit d’un problème de Text Classification (TC) dans le domainedu Machine Learning (ML), et plus particulièrement de Supervised Learning(SL). Cette méthode vise à créer un modèle à partir de données initiales pré-sumées vraies et appelées Training Data (TD). Ce modèle, une fois élaboré,doit permettre la classification des textes. La deuxième étape est donc detester celui-ci sur une partie des articles dont les catégories sont connues,afin d’en vérifier l’efficacité. Cette fraction des données est appelée Test Ins-tancers (TI).

Dans notre cas, les catégories sont bien définies. Elles sont, en effet, tiréesde 3CGP/FM. Le Dr Jamoulle ayant, à ce jour, annoté 1 467 textes prove-nants de résumés de conférences, ceux-ci pourront être utilisés, en partie,comme TD et en partie comme TI.

1.1 Défis scientifiques

De nombreuses recherches ont été effectuées ces dernières années concer-nant le problème de TC d’articles biomédicaux. Cependant, étant donné ladiversité des corpus et des systèmes de classifications, aucun consensus n’a ététrouvé sur la technique de ML optimale à utiliser. Citons par exemple, Ray-chaudhuri et alii [52] qui préconisent la technique de Maximum Entropy Clas-

4

sification (MEC) face à Naïve Bayes (NB) ou k Nearest-Neighbor (kNN) dansle but d’étiqueter des articles à l’aide de codes tirés du Gene Ontology (GO).D’autre part, Kiritchenko et alii [28] obtiennent les meilleurs résultats enutilisant AdaBoost (AB) afin de tirer parti de la structure hiérarchique desGO codes.

Une autre problématique provient de la classification 3CGP/FM et du TDeux-mêmes. En effet, portant sur un sujet très précis et spécifique, à savoirles ontologies non cliniques de médecine générale, les données et les classifi-cations présentent de fortes similitudes. De plus, au vu de la faible quantitéd’échantillons que constitue le TD et du nombre conséquent de catégories àidentifier, nous nous retrouvons face à un fort chevauchement (overlapping)des caractéristiques servant à déceler chaque catégorie, ce qui rend la classi-fication d’autant plus difficile.

Il sera donc nécessaire de choisir des méthodes de Feature Identification(FI) les plus précises afin de distinguer les caractéristiques permettant d’iden-tifier chacune des catégories 3CGP/FM. Ces méthodes qui visent à réduire lenombre de caractéristiques du corpus, se décomposent en deux techniques :Feature Selection (FS) et Feature Extraction (FE). La première (FS) vise àsupprimer les termes non informatifs en fonction des statistiques du corpus,tandis que les méthodes de FE tentent de rassembler plusieurs caractéris-tiques par différentes combinaisons afin d’éviter les pertes d’informations.

Encore une fois, beaucoup de recherches ont été portées sur les diffé-rents algorithmes de FI dans les problèmes de TC ces dernières années. Ci-tons, entre autres, différentes métriques de FS : Information Gain (IG), Chi-Squared (�2), Bi-Normal Separation (BNS) [16], . . . ; et quelques techniquesde FE : Term Frequency-Inverse Document Frequency (TF-IDF) [25], LatentSemantic Indexing (LSI) [33], la racinisation [58] et la lemmatisation [31, 46].

Hélas, les recherches ne s’accordent pas sur une, ou un ensemble de mé-thodes particulières à utiliser. De plus, celles-ci traitent en général de lalangue anglaise alors que notre corpus principal est constitué de textes fran-cophones. Enfin, la plupart des recherches portent généralement sur des cor-pus disposant d’un grand nombre de documents et dont les catégories sont

5

bien distinctes alors que ce n’est nullement notre cas.

Nous devrons dès lors investiguer en détail les questions suivantes :— Quelle(s) technique(s) de traitement automatique du langage naturel

et de Feature Identification choisir afin de faire face aux problèmes dechevauchement des catégories et de la faible quantité d’échantillonsétiquetés disponibles ?

— L’efficacité démontrée de ces techniques sera-t-elle similaire pour lecorpus francophone et celui anglophone ?

— Chaque technique de Machine Learning s’accordera-t-elle sur le mêmeensemble de caractéristiques optimales ?

1.2 Contributions

L’objectif de ce travail est de trouver une méthode automatisée capabled’analyser le contenu d’articles traitants de médecine générale non cliniqueet de prédire les catégories 3CGP/FM correspondantes. Les principales dif-ficultés proviennent de la faible quantité de données d’exemples disponibles,du nombre important de catégories à identifier, et de la forte spécificité duchamp d’application de 3CGP/FM rendant les catégories difficiles à discer-ner.

Il sera, tout d’abord, nécessaire d’isoler les caractéristiques les plus impor-tantes dans les données afin de permettre la classification. On commenceradonc par comparer les performances des méthodes de vectorisation et nor-malisation : Bag-Of-Words, Term Frequency , Term Frequency-Inverse Docu-ment Frequency . . . ; en les combinant à celles de traitement automatique dulangage naturel : racinisation, lemmatisation et lemmatisation filtrée selonla nature des mots du corpus ; avec celles de Feature Selection et FeatureExtraction : Chi-Squared , Bi-Normal Separation, Mutual Information, CubeMutual Information, Singular Value Decomposition. Ces techniques devrontpermettre d’optimiser la classification multi-label d’articles de médecine àl’aide de la classification 3CGP/FM. De plus, les techniques utilisées devrontrégler les difficultés de chevauchement des catégories et de la faible quantité

6

d’échantillons étiquetés mis à disposition pour constituer le Training Data.

On comparera alors l’efficacité de ces diverses techniques, en utilisant laméthode de Support Vector Machine, avant d’examiner les différents autresalgorithmes de Machine Learning afin de voir si d’autres méthodes commeNaïve Bayes ou Stochastic Gradient Descent peuvent améliorer les perfor-mances de classification. Enfin, on comparera les résultats obtenus sur le cor-pus francophone avec ceux obtenus à partir d’un corpus anglophone. Ceci,afin de vérifier si la performance des différentes techniques étudiées est indé-pendante du langage utilisé.

Une fois l’ensemble de ces analyses et comparaisons faites, nous auronsrépondu aux questions posées à la section précédente. Nous serons alors enmesure de proposer une méthode automatisée optimale permettant la classi-fication d’articles traitants de médecine générale non clinique dans les caté-gories 3CGP/FM correspondantes.

7

Chapitre 2

État de l’art

2.1 Apprentissage automatique

L’apprentissage automatique (Machine Learning) est un sous-domainede l’intelligence artificielle. Il vise à résoudre, de façon automatique, des pro-blèmes difficilement solubles au moyen d’algorithmes classiques. En effet,compte tenu d’un problème conséquent et de toutes ses entrées possibles, ildevient rapidement trop complexe de décrire manuellement — par simpleprogrammation — toutes les relations pouvant exister entre les entrées etles sorties attendues. Afin de résoudre ce type de problème, l’apprentissageautomatique vise à mettre en place des algorithmes apprenant à partir dedonnées elles-mêmes, plutôt qu’en suivant des instructions de programma-tion statique.

2.1.1 Apprentissage supervisé

Le but d’un problème d’apprentissage supervisé, étant donné une entréeX et une sortie Y , est d’apprendre la corrélation entre l’entrée et la sortie.L’approche de l’apprentissage automatique est de supposer l’existence d’unmodèle défini à un ensemble de paramètres près :

y = g(x|✓)où g(·) est le modèle et ✓ est l’ensemble des paramètres. Et où, y est

8

un nombre (resp. le code d’une catégorie) et g(·) une fonction de régression(resp. fonction discriminante) dans le cas d’un problème de régression (resp.de classification) 1. Le programme d’apprentissage automatique va alors op-timiser les paramètres, ✓, afin de minimiser les erreurs d’approximation [18].

Bien que, dans ce travail, nous nous focaliserons sur la classification, l’ap-prentissage supervisé possède de nombreuses applications et ses techniquessont réparties en différentes catégories.

Apprentissage d’associations

Par l’apprentissage d’associations, on s’intéresse à trouver des règles d’as-sociations en apprenant des probabilités conditionnelles de la forme P (Y |X)

où Y sont les données que l’on voudrait conditionner sur X [18].Une application très en vogue, notamment dans les sites de commerce

électronique, est l’analyse des paniers d’achats. Le but étant de trouver desrelations entre les produits achetés et les clients : si une personne achète unproduit X achète généralement un produit Y , et si un autre client achète X,mais pas Y , il est alors un client potentiel pour le produit Y . Si nous pouvonstrouver ce genre de client, nous pouvons alors les cibler pour faire de la ventecroisée.

Classification

Étant donné un ensemble de données, étiquetées d’une catégorie (classe)parmi un ensemble fini de catégories — grâce à une analyse manuelle ou d’uneexpérience passée. Le problème de classification vise à trouver une fonctiondiscriminante qui permet de répartir les différents échantillons d’exempledans les différentes classes. Si cette fonction est suffisamment précise et queles données d’exemple sont similaires aux données à venir, nous pourronsl’utiliser pour prédire les classes des nouveaux échantillons non encore éti-quetées [18].

La classification est utilisée dans de nombreuses applications. Notam-ment pour dans le domaine bancaire où l’on veut identifier le niveau de

1. v. section 2.1.1 page suivante

9

risque qu’implique le prêt d’un crédit à un client. Une autre application estla reconnaissance de forme, notamment pour la reconnaissance de caractèresmanuscrits dans laquelle on identifie un caractère à partir d’image. Ou encore,dans le domaine médical où l’on peut se baser sur l’historique des patientsafin de guider les médecins dans leurs diagnostics pour éviter des tests parfoisonéreux en temps et en argent.

Régression

Contrairement à la classification, le problème de régression ne tente plusd’associer aux données d’entrées une valeur discrète, mais bien une valeurcontinue [18].

C’est, par exemple, utilisé pour prédire le prix d’une voiture d’occasionen fonction de ses différents attributs — marque, année, kilométrage. . . — ense basant sur un catalogue de prix préexistant. Le problème de régression estnotamment utilisé dans un secteur très en vogue, qui est celui de l’automobile.Il permet, par exemple, à des voitures de se déplacer de façon autonome enprenant comme entrées les données fournies par les différents capteurs de lamachine et en renvoyant, par exemple, l’angle de braquage que le véhiculedoit prendre.

2.1.2 Autres techniques d’apprentissage

Il n’est cependant pas toujours possible de fournir un ensemble de valeursde sortie servant de référence.

Apprentissage non supervisé

Si tel est le cas, l’algorithme d’apprentissage automatique tentera de trou-ver des régularités dans l’ensemble des données qu’on lui fournit. En effet,l’espace d’entrée possède une certaine structure telle que certains modèles(patterns) apparaissent plus souvent que d’autres. C’est ce que l’on appellel’estimation de densité en statistique [18]. Une des méthodes d’estimationde densité est le partitionnement (clustering) dans lequel on va essayer derassembler les différents échantillons dans différents groupes (clusters), enfonction des similitudes de leurs attributs.

10

Cette technique est utilisée notamment dans le secteur commercial poursegmenter les clients d’une entreprise afin de proposer des stratégies/ser-vices adaptés selon les groupes de clients. Un autre exemple d’applicationconcerne la compression d’image : l’algorithme de partitionnement va per-mettre d’identifier les zones semblables d’une image afin de comprimer lesdonnées plus efficacement qu’une simple compression par pixel. L’appren-tissage non supervisé est aussi, entre autres, utilisé dans le domaine bio-informatique pour la classification de séquence d’ADN.

Apprentissage par renforcement

L’apprentissage par renforcement est principalement utilisé pour l’intel-ligence artificielle. Contrairement aux deux premières approches, celle-ci nes’entraîne pas sur des données historiques fournies, mais apprend bien paressais/erreurs. En effet, ce genre d’application évolue habituellement dansun environnement dynamique. C’est par exemple le cas d’une équipe de ro-bots où chacun agit de façon indépendante, mais dans un but commun. Dansce type d’apprentissage, l’algorithme ne doit alors plus renvoyer un simplerésultat en fonction des données fournies, mais bien trouver une stratégie/-politique d’action en fonction des données de son environnement. En effet,ce ne sont plus les actions prises indépendamment, mais bien la stratégie,fournissant l’ensemble d’actions, qu’il faut optimiser.

2.1.3 Évaluation

Afin de pouvoir comparer les différents algorithmes d’apprentissage au-tomatique, nous devons pouvoir les évaluer. Dans le cas qui nous intéresse,c’est-à-dire dans le cas des machines supervisées, nous utiliserons les donnéespré-étiquetées, tant pour déterminer le modèle, que pour le valider. Deuxtechniques vont être présentées ici : Train-and-test et Cross-validations.

Train-and-test

Une simple approche, appelée train-and-test, est de séparer l’ensembledes documents pré-étiquetés en deux sous-ensembles de tailles non néces-sairement égales. Le premier est l’ensemble des données d’entraînement, T

D

11

appelé Training Data (TD). C’est à partir de celui-ci que l’algorithme d’ap-prentissage automatique sera formé. Le second, T

I

, est celui des données detest, Test Instancers (TI). Il permettra de comparer les résultats prédits parle modèle avec ceux de l’expert. L’intérêt est ici de ne pas évaluer l’algo-rithme avec des données sur lesquelles il s’est entraîné. En effet, les résultatsseraient faussement bons [59].

Cependant, il est à noter que les résultats obtenus seront des estimationspessimistes de l’efficacité de nos modèles [59]. En effet, par cette approche,nous l’empêchons de se former sur une partie des données réservées auxtests. Il convient donc, une fois un modèle trouvé, de l’entraîner, une nou-velle fois, sur l’ensemble des données fournies par l’expert. Cette évaluationsera, d’ailleurs, particulièrement pessimiste dans le cas où l’ensemble des don-nées fournies, par l’expert, ne serait pas suffisamment grand. En effet, nousperdrons une grande partie de l’information en réservant, par exemple, 25%des échantillons aux tests.

Cross-validations

Une alternative à cette méthode est celle du k-fold cross-validation [40].Avec celle-ci, nous séparons l’ensemble des données pré-étiquetées en k sous-ensembles de tailles identiques. Nous emploierons alors la méthode de train-and-test et, entraînerons itérativement k modèles en utilisant, à chaque ité-ration, un des k sous-ensembles comme ensemble de tests. L’évaluation de lamachine se fera alors en moyennant les évaluations individuelles des k mo-dèles. De cette façon, nous aurons encore une version pessimiste de l’efficacitédu modèle final, mais, cette fois, portant sur l’ensemble des données. Ce seracette technique qui sera utilisée dans le cadre de ce travail (avec N = 5).

Dans le cas particulier où k = N , N étant le nombre de documentspré-étiquetés, nous entraînerons N modèles en laissant, chaque fois, qu’unseul échantillon pour les tester. Cette méthode est connue sous le nom deleave-one-out cross validation, elle est cependant onéreuse en temps de calcul.

12

2.2 Classification de texte

Intéressons-nous maintenant plus particulièrement à la classification detexte. Comme l’indique Sebastiani [59], celle-ci a pour tâche d’assigner unevaleur booléenne à chaque paire hd

j

, ci

i 2 D ⇥ C, où D est le domaine desdocuments et C = {c1, ..., c|C|} est l’ensemble des catégories prédéfinies. Unevaleur T assignée à hd

j

, ci

i indique la décision d’assigner dj

à ci

, alors qu’unevaleur F indique la décision de ne pas assigner d

j

à ci

. Plus formellement, latâche consiste à approximer la fonction cible inconnue ˘

� : D ⇥ C ! {T, F}(qui décrit comment les documents doivent être classifiés) au moyen de lafonction � : D ⇥ C ! {T, F} appelée le classificateur (alias règle, ou hypo-thèse, ou modèle) telle que ˘

� et � «coïncide autant que possible».

2.2.1 Contraintes de classification

En fonction de l’application, différentes contraintes peuvent être appli-quées à la tâche de classification de texte. Le cas de la classification binaireest le plus contraignant. Dans celui-ci, il n’y a qu’une seule catégorie : |C| = 1,et, chaque document d

j

2 D doit être assigné soit à une catégorie ci

soit àson complément c

i

. La classification binaire est notamment utilisée dans leproblème de détection de courriers électroniques frauduleux (SPAM ). Si lesdonnées sont à classer dans plusieurs catégories : |C| > 1, et que chaque docu-ment d

j

2 D doit être assigné à exactement 1 élément de C, on parle alors declassification de texte multi-class (alias single-label). Ce genre de classifica-tion permet, par exemple, de classer des articles de journaux dans un nombrefini de catégories prédéfinies : sport, politique, divertissement. . . Enfin, on ap-pelle classification multi-label le cas où un nombre de catégories compris entre0 et |C| peut être assigné au même document d

j

2 D.En réalité, le problème de classification multi-label peut être résolu grâce

aux algorithmes de classification binaire.En effet, il suffit de transformer le problème de classification multi-label

de catégories C = {c1, ..., c|C|} en |C| problèmes de classification binaire :{c

i

, ci

}, pour i = 1, . . . , |C|. Il faut cependant que les catégories soient sto-chastiquement indépendantes les unes des autres, c.-à-d. que pour chacune

13

c0, c00 la valeur de ˘

�(dj

, c0) ne doit pas dépendre de la valeur de ˘

�(dj

, c00) etinversement [59].

2.2.2 Vectorisation et normalisation

La première étape, dans un algorithme de Text Classification (TC), estd’extraire des caractéristiques des documents textuels afin d’en permettre laclassification par des méthodes classiques de Machine Learning (ML).

À cette fin, on utilise généralement la méthode de Bag-Of-Words (BOW).Avec celle-ci, chaque document est représenté par un histogramme d’occur-rences des mots le constituant. Le corpus entier sera donc transformé en unegrande matrice creuse (sparse), dont les lignes représenteront les documents(d

j

) ; les colonnes, les termes (mots) présents dans le corpus (tk

) ; et les cel-lules, le nombre d’occurrences de chaque terme dans chacun des documents(w

kj

).Afin d’optimiser les performances de classification, ou selon les contraintes

posées par certains classificateurs 2, les BOWs pourront être normalisés, pon-dérés ou transformés de différentes manières. Il est, par exemple, très courantd’utiliser la fréquence d’apparition des mots plutôt que leurs occurrences.D’autre part, certains algorithmes de ML, comme celle de Bernoulli NaïveBayes (bNB), nécessitent l’utilisation de valeurs binaires. Il sera dès lors né-cessaire de définir une certaine valeur «seuil», t, d’occurrence. t définissantsi une cellule du BOW sera considérée comme vraie (1) ou fausse (0).

wkj

=

(0 si #(t

k

, dj

) < t

1 si #(tk

, dj

) � t

où #(tk

, dj

) est le nombre d’occurrences du terme tk

dans le document dj

.On considère, cependant, généralement, t = 1 de telle façon que le BOW re-présente, simplement, la présence ou l’absence d’un terme dans un document.

Une technique d’optimisation couramment utilisée pour la TC, est laméthode de pondération Term Frequency-Inverse Document Frequency (TF-IDF). Celle-ci se repose sur la loi de Zipf-Mandelbrod [31], et vise à pondérer

2. Voir section 2.4 page 25

14

la fréquence d’apparition d’un terme en fonction de sa fréquence d’apparitiondans l’ensemble du corpus. Comme l’expliquent Mirylenka et alii [39], InverseDocument Frequency (IDF) mesure la spécificité d’un terme, c’est-à-dire, lenombre de documents dans lequel le terme apparaît. En effet, on conçoit ai-sément qu’un terme apparaissant de nombreuses fois dans un document peutêtre déterminant lors du choix de sa classification. Cependant, si ce terme estaussi fréquent dans les autres documents, et donc dans l’ensemble du corpus,celui-ci est, sans doute, peu discriminant.

Le poids wkj

d’un terme tk

dans un document dj

en utilisant TF-IDFpeut être, calculé de la façon suivante 3 :

tfidf(tk

, dj

) = #(tk

, dj

) · log |TD

|#

TD(tk)

où #(tk

, dj

) est le nombre d’occurrences du terme tk

dans le document dj

,et #

TD(tk) est le document frequency du terme tk

, par exemple le nombre dedocuments dans T

D

où tk

apparaît 4.

Enfin, il est courant de normaliser le vecteur des poids des termes d’undocument, afin que chacun des poids soit compris dans l’intervalle [0, 1] parla normalisation en cosinus suivante :

wkj

=

tfidf(tk

, dj

)qP|T |s=1 (tfidf(ts, dj))

2

2.2.3 Traitement automatique du langage naturel

Étant donné la nature textuelle de la tâche à effectuer, il est naturel dese demander si des techniques de traitement automatique du langage naturel(TALN) (Natural Language Processing (NLP)) ne peuvent être utilisées afind’optimiser les performances de classification ou de réduire la taille de l’es-pace d’entrée. Comme l’a présenté Antoine [1], le TALN est un domaine qui

3. Libre traduction de Sebastiani [59]4. Il existe de nombreuses variantes de tfidf, qui diffèrent les unes des autres en terme

de logarithmes, normalisation et autres facteurs de corrections. [55, 59]

15

s’intéresse à l’analyse des langages humains par le biais du traitement infor-matique. Il sert, notamment, à la correction orthographique, la traductionautomatique, les systèmes de questions-réponses automatiques, la reconnais-sance automatique d’écriture manuscrite, la reconnaissance vocale, etc.

Mots vides

Une première technique, presque systématiquement utilisée dans les pro-blèmes de TC, est le retrait des mots vides (anglais : stopwords) de l’ensembledes termes d’un corpus. En effet, les mots vides sont des mots fonctionnels ouconjonctifs qui ne sont supposés n’avoir aucun contenu informationnel [58].C’est notamment le cas de certains déterminants, des auxiliaires, de quelquesverbes et de leur conjugaison, et d’autres mots fréquents (ex. : le, la, de, du, ce,avoir, être, faire, bon, maintenant, hors,. . . ). Ceux-ci diffèrent, évidemment,d’une langue à l’autre.

En plus de supprimer les mots vides, il est aussi courant de retirer lestermes trop peu ou trop fréquents dans le corpus. Forman [16] a, par exemple,montré qu’en écartant les mots dont le nombre d’occurrences dans le corpusétait inférieur à trois, il supprimait 7 333 mots de son espace d’entrée. Soitune économie de ressources d’environ 60%, et ce sans altérer les performancesde classification.

Racinisation

Une technique de traitement automatique du langage naturel utilisée dansplusieurs recherches est l’utilisation d’algorithme de racinisation (anglais :stemming) [16, 21, 58]. Cette procédure, aussi appelée dé-suffixation, vise àramener chaque mot à son radical ou racine (anglais : stem). Le radical estla partie du mot qu’il reste dès lors qu’on lui retire ses éventuels préfixes etsuffixes. Plusieurs algorithmes de racinisation existent. Citons notamment lesalgorithmes de Porter [73], de Paice/Husk [9, 45] et celui appelé Snowball [50].La table 2.1 page suivante reprend quelques exemples de mots et leur racine.

Enfin, selon Sebastiani [59], bien que son efficacité dans des problèmesde TC soit assez controversée, la tendance actuelle est de l’adopter afin dediminuer la dimension de l’espace d’entrée et la dépendance stochastique

16

Mot Racine

continuation continucontinue continucontinué continucontinuel continuelcontinuelle continuelcontinuellement continuelcontinuer continucontinuité continucontinuons continuonmal malmalade maladmalades maladmaladie maladmaladies maladmaladive malad

Table 2.1 – Exemples de mots et leur racine obtenue par l’algorithme deSnowball

entre les termes.

Etiquetage Morpho-Syntaxique

Une autre technique de traitement automatique du langage naturel, né-cessaire pour la lemmatisation 5, est celle d’Etiquetage Morpho-Syntaxique(EMS) (anglais : Part-Of-Speech Tagging). Celle-ci a pour but d’associer, àchaque mot d’un texte, sa nature grammaticale — aussi appelée partie dudiscours — telle que nom, adjectif, verbe,. . .

Commençons par illustrer cette technique à l’aide d’un exemple. La table 2.2page suivante met en correspondance les mots d’une phrase et leur naturegrammaticale respective, annotés selon les tags définis dans le corpus PennTreebanks [36], en partie repris dans la table 2.3 page suivante.

Tout comme pour la technique de racinisation 6, de nombreux algorithmes

5. Voir section 2.2.3 page suivante6. Voir section 2.2.3 page précédente

17

Mots Beaucoup de cas de diphtérie ont été perçus cet été .Nature gramaticales RB IN NNS IN NN VBZ VBN VBN DT NN .

Table 2.2 – Exemple de phrase et son Etiquetage Morpho-Syntaxique

Tag Signification

DT DéterminantIN Préposition / Conjonction de subordinationNN Nom singulierNNS Nom plurielRB Adverbe

VBN Verbe, participe passéVBZ Verbe, présent sauf 3e personne du singulier

. Point final d’une phrase

Table 2.3 – Exemples de tags définis dans le corpus Penn Treebanks [36]

d’EMS, et de façons d’annoter les corpus ont été développés [2, 6, 56]. Citons,notamment, les travaux de Toutanova et Manning [64], Toutanova et alii[65]. Ceux-ci se basent sur une technique de Maximum Entropy Classification(MEC) afin de créer un étiqueteur dont la précision atteint les 97,24% sur lecorpus Penn Treebanks [36].

Lemmatisation

Une dernière technique de traitement automatique du langage naturelsera utilisée dans ce travail. Il s’agit de la lemmatisation (anglais : lemmati-zation). Elle a pour but de retrouver et rassembler les mots d’un texte selonleur lemme, ou forme canonique (anglais : lemma) [31]. Contrairement à laracinisation 7, la lemmatisation fournit des mots du langage existant. Parexemple, la forme canonique d’un verbe est ce verbe à l’infinitif, et celle d’unnom est ce nom au masculin singulier. On remarque dès lors qu’une étapepréliminaire d’EMS sera nécessaire afin de permettre l’identification correctede chaque mot du texte.

La table 2.4 page suivante compare les résultats obtenus par racinisa-tion et lemmatisation d’un ensemble de mots utilisés comme exemples. On

7. Voir section 2.2.3 page 16

18

remarque que le regroupement en lemmes corrige certains problèmes rencon-trés par les algorithmes de racinisation, notamment pour les mots mal etmaux.

Mot Racine Lemme

continué continu continuercontinuel continuel continuelcontinuelle continuel continuelcontinuellement continuel continuelcontinuer continu continuercontinuons continuon continuermal mal malmaux maux malmalade malad malademalades malad malademaladie malad maladiemaladies malad maladiemaladif malad maladifmaladive malad maladif

Table 2.4 – Exemples comparatifs de mots et leur racine obtenue par l’al-gorithme de Snowball et leur lemme respectif

Comme l’illustre la table 2.5 page suivante, la lemmatisation permetaussi de simplifier des formes verbales complexes, comme l’utilisation deverbe au passif, comme c’est le cas dans la phrase prise pour illustrationprécédemment 8. Elle permet aussi d’éviter des ambiguïtés provoquées pardes homographes 9 tel que c’est le cas pour le mot été.

Enfin, nous pourrons profiter de l’étape préliminaire d’EMS, renseignantsur la nature des mots, pour filtrer les lemmes et ainsi ne garder, par exemple,que les noms et verbes (N* et V*).

8. voir table 2.2 page précédente9. Mots qui s’écrivent de la même manière que d’autres mots (ex. : As-tu l’as de trèfle ?)

19

Mots Beaucoup de cas de diphtérie ont été perçus cet été .Nature gramaticales RB IN NNS IN NN VBZ VBN VBN DT NN .

Racines beaucoup de cas de diphter ont été perçu cet été .Lemmes beaucoup de cas de diphtérie percevoir cet été .

Lemmes filtrés - - cas - diphtérie percevoir - été -

Table 2.5 – Comparaisons des racines et des lemmes des mots d’une phraseselon leur nature grammaticale.

2.3 Identification automatique

de caractéristiques

Comme l’ont fait remarquer Yang et Pedersen [76], la principale diffi-culté d’un problème de classification de texte est la haute dimensionnalité del’espace des caractéristiques. En effet, l’espace d’entrée consiste aux termesuniques (mots, racines, lemmes ou phrases) qui apparaissent dans un docu-ment 10 et ceux-ci peuvent en contenir des dizaines ou centaines de milliers.Une telle dimension est évidemment trop élevée pour la plupart des algo-rithmes d’apprentissage automatique. Peu de réseaux neuronaux peuvent,par exemple, fonctionner avec un tel nombre de nœuds d’entrée. Bayes en estun autre exemple avec lequel on aura des calculs excessivement lourds afinde combler l’hypothèse d’indépendance entre les caractéristiques (souventfausse) [76].

Le but de l’identification automatique de caractéristiques (anglais : Fea-ture Identification (FI)) étant donc de réduire le nombre de caractéristiquessans pour autant sacrifier la précision de la classification. Cette identificationne doit, idéalement, pas nécessiter de définitions ou de création manuelle denouvelles caractéristiques. Ces techniques peuvent se décomposer en deuxcatégories ayant chacune leur propre façon de réduire le nombre de caracté-ristiques : les méthodes de Feature Selection (FS) et de Feature Extraction(FE).

10. Voir section 2.3.2 page 24

20

2.3.1 Sélection automatique de caractéristiques

Les méthodes de sélection automatique de caractéristiques (anglais : Fea-ture Selection (FS)) visent à supprimer les termes non informatifs en fonctiondes statistiques du corpus. L’avantage des techniques de FS face à celle deFeature Extraction (FE) 11 est qu’elles permettront d’analyser et comparerles caractéristiques les plus discriminantes de chaque catégorie.

Il existe une multitude de métriques permettant de sélectionner les k

meilleures caractéristiques. Citons, par exemple, Chi-Squared (�2), MutualInformation (MI), Cube Mutual Information (MI3), Bi-Normal Separation(BNS), Document Frequency (DF), DIA association factor (DIA), TermStrengh (TS), Term Frequency-Inverse Document Frequency (TF-IDF) 12,F1-Measure (F1), Information Gain (IG), Accuracy (Acc), Accuracy Balanced(Acc2), NGL coefficient (NGL), Relevency Score (RS), Odds Ratio Nume-rator (OddN), Odds Ratio (Odds), GSS Coefficient (GSS), Power (Pow),Probability Ratio (PR), . . .

Ces métriques 13 ont fait l’étude de nombreuses comparaisons [12, 16, 17,25, 59, 68, 76]. Forman [16] a notamment comparé l’efficacité de différentesd’entre elles et a mis en évidence la supériorité de la métrique appelée BNSpar rapport à d’autres, plus conventionnelles comme : IG, �2, F1,. . . Yang etPedersen [76] avaient d’ailleurs fait une étude comparative de ces dernièresquelques années auparavant, pointant les faibles performances de la métriquede MI. À cela vient s’ajouter Vivaldi et Rodríguez [68] qui ont démontré que lamesure du MI3, proposée par Daille [12], surpassait les autres métriques dansle domaine de la médecine [21]. Nous allons donc nous attacher à comparerBNS et MI3 avec des techniques plus conventionnelles telles que �2 et MI.Enfin, nous vérifierons les écarts de performance de ces mesures avec unetechnique de FE : Latent Semantic Indexing (LSI) 14.

11. voir section 2.3.2 page 2412. voir section 2.2.2 page 1413. Les formules des fonctions principales de FS sont reprises dans la table A.3 page VII.14. voir section 2.3.2 page 24

21

Chi-Squared

�2 est un test statistique 15 qui permet de démontrer l’indépendance oula dépendance de deux critères dans une expérience. Plus particulièrementici, entre un terme t

k

et une classe donnée ci

.

�2(t

k

, ci

) =

|Tr| · [P (tk

, ci

) · P (

¯tk

, ci

)� P (tk

, ci

) · P (

¯tk

, ci

)]

2

P (tk

) · P (

¯tk

) · P (ci

) · P (ci

)

où |Tr| est le nombre de documents dans l’ensemble de test. P (tk

) est laprobabilité que le terme t

k

apparaisse dans un document ; P (

¯tk

), celle qu’iln’y apparaisse pas. P (c

i

) est la probabilité qu’un document aléatoire soitclassé dans c

i

; P (ci

), celle qu’il ne le soit pas. P (tk

, ci

) est la probabilitéconjointe qu’un document soit classé dans c

i

et qu’il contienne tk

; et P (tk

|ci

)

est la probabilité conditionnelle du terme tk

sachant la classe ci.�2 sera naturellement nulle si t

k

et ci

sont indépendants.

Mutual Information

D’après Church et Hanks [10], Mutual Information (MI) compare la pro-babilité conjointe qu’un document contienne un terme t

k

et soit classé dansune classe c

i

, avec la probabilité d’observer ces deux phénomènes indépen-damment (chance).

MI(tk

, ci

) = log

P (tk

, ci

)

P (tk

) · P (ci

)

On remarque donc que s’il existe une relation entre tk

et ci

, alors la probabilitéconjointe P (t

k

, ci

) � P (tk

) · P (ci

) et donc MI(tk

, ci

) � 0. Par la même, s’iln’existe pas de lien intéressant entre ces deux données, alors P (t

k

, ci

) ⇡P (t

k

) · P (ci

), et donc MI(tk

, ci

) ⇡ 0. Enfin, si tk

et ci

sont en distributioncomplémentaire, alors P (t

k

, ci

)⌧ P (tk

) · P (ci

) et donc MI(tk

, ci

)⌧ 0.

Cube Mutual Information

La métrique Cube Mutual Information (MI3), proposée par Daille [12],utilise le cube de la probabilité conjointe qu’un document contienne un terme

15. Pour plus d’informations, voir Getoor et Taskar [18]

22

tk

et soit classé dans une classe ci

. Selon Ittoo [21], cette stratégie vise à sur-monter l’inconvénient de la métrique MI qui tend à exagérer les événementsrares.

MI3(tk

, ci

) = log

[P (tk

, ci

)]

3

P (tk

) · P (ci

)

Bi-Normal Separation

La métrique Bi-Normal Separation (BNS), proposée par Forman [16, 17],utilise la différence entre les probabilités cumulées de distribution normalestandard inverse (F�1), de la probabilité qu’un document contienne un terme,tk

, sachant qu’il appartient à une catégorie ci

, et de celle sachant qu’il n’yappartient pas :

BNS(tk

, ci

) =

��F�1(P (t

k

|ci

))� F�1(P (t

k

|ci

))

��

D’après Li et alii [32], BNS est biaisé en faveur des termes dont le ratioavec les catégories est élevé, mais ne semble pas être sensible à leur fréquencedans les documents.

Globalisation

Les 4 fonctions exposées dans les sections précédentes sont cependantspécifiées «localement» à une catégorie spécifique c

i

. Il y a plusieurs manièresd’évaluer la valeur d’un terme t

k

de façon «globale»— indépendamment d’unecatégorie.

En effet, si f est notre fonction d’évaluation (�2, MI, MI3, BNS, . . . ) ;on peut utiliser la somme, la moyenne pondérée ou le maximum des valeurs

23

spécifiques à une catégorie, f(tk

, ci

) : [43, 59, 60]

fsum

(tk

) =

|C|X

i=1

f(tk

, ci

)

fwavg

(tk

) =

|C|X

i=1

P (ci

)f(tk

, ci

)

fmax

(tk

) =

|C|max

i=1f(t

k

, ci

)

2.3.2 Extraction automatique de caractéristiques

Contrairement aux méthodes de FS, celles d’extraction automatique decaractéristiques (anglais : Feature Extraction (FE)) permettent la construc-tion de nouvelles caractéristiques qui combinent des caractéristiques de ni-veau inférieur (ex. : termes) en des dimensions orthogonales de niveau supé-rieur.Afin de diminuer la dimension du problème, ces méthodes ne se conten-teront généralement pas de supprimer une partie des caractéristiques. Ellestenteront à la place de rassembler plusieurs d’entre elles, par différentes com-binaisons, en une nouvelle caractéristique afin de minimiser la perte d’infor-mation. Cette opération ne permettra donc plus d’analyser simplement lescaractéristiques les plus discriminantes de chaque catégorie.

Indexation sémantique latente

L’indexation sémantique latente (anglais : Latent Semantic Indexing (LSI))est une technique de réduction de dimension développée afin de traiter lesproblèmes découlant de l’utilisation de synonymes, de quasi-synonymes etde termes polysémiques utilisés dans les documents [35]. Cette techniquecomprime les vecteurs de documents en vecteurs de dimension inférieure,obtenus par combinaison de dimensions originales en regardant leur modèlede cooccurrence [59]. Dans la pratique, LSI déduit la dépendance entre lestermes originaux d’un corpus et les «combine» dans une nouvelle dimensionindépendante obtenue à partir de ceux-ci.

24

La fonction qui transforme le vecteur original en de nouveaux vecteurs estobtenue en appliquant une décomposition en valeurs singulières (anglais :Sin-gular Value Decomposition (SVD)) à la matrice formée par les vecteurs ori-ginaux du document [72]. Dans le cas de la classification de texte, cettetechnique est appliquée en déduisant la fonction de transformation de l’en-semble de données d’apprentissage et en l’appliquant ensuite aux donnéesd’apprentissage et d’entraînement.

Une caractéristique de LSI est que les dimensions nouvellement obtenuesne sont pas, contrairement à la sélection et au regroupement de termes, in-tuitivement interprétables. Cependant, ils travaillent bien à faire ressortir lastructure sémantique «latente» du vocabulaire utilisé dans le corpus [59].

Des améliorations de performance apportées par cette méthode dans unproblème de TC, ont été mises en évidence par Liu et alii [33]. C’est notam-ment cette raison qui a motivé le choix de comparer l’efficacité de méthodesde FE comme LSI face à celles de FS, exposées dans la section précédente.

2.4 Classificateurs

Une de nos interrogations est de savoir si «chaque technique de Ma-chine Learning (ML) s’accorde sur le même ensemble de caractéristiquesoptimales» 16. Afin de résoudre cette question, il convient de tester les dif-férentes méthodes de Feature Selection (FS) et de Feature Extraction (FE),et de comparer les résultats obtenus en utilisant un certain nombre de tech-niques d’apprentissage.

De nombreuses techniques de ML existent. Cependant, un grand nombrede revues de littérature traitant du problème de Text Classification, utilisentprincipalement deux grandes techniques : Multinomial Naïve Bayes [37, 42]et Support Vector Machine (SVM) [25, 26, 75]. C’est donc naturellement quece travail traitera de ces méthodes.

En sus de ces deux techniques de ML, somme toute assez classiques,pour résoudre des problèmes de Text Classification (TC), nous étudieronsaussi la technique de Stochastic Gradient Descent (SGD). En effet, cette

16. voir section 1.1 page 4

25

technique permet de traiter des problèmes de grande échelle [4, 77] tels qu’estle problème de classification de texte.

2.4.1 Support Vector Machine

Selon Isa et alii [20], Müller et alii [41], le problème de classification peutêtre réduit à un problème de classification binaire sans perte de généralité.Considérons la figure 2.1. Il existe une infinité de classificateurs linéaires quipeuvent séparer les données, mais il n’en existe qu’un capable de maximiserles marges (maximiser la distance entre lui-même et les points les plus prochesde chaque classe). Ce dernier est appelé classificateur à large marge.

x1

x2

d 1

d 1

d 2

Figure 2.1 – Hyperplan optimal d’un classificateur à large marge.

Commençons par le cas le plus simple : une machine linéaire entrainée surdes données linéairement séparables. Considérons donc le problème visant àséparer l’ensemble des vecteurs d’entraînement xd

i

en différentes catégoriesyi

2 {�1, 1}. Nous souhaitons séparer cet ensemble d’entraînement à l’aidede l’hyperplan [70] :

w.x + b = 0 (2.1)

26

Il existe en réalité un nombre infini d’hyperplans permettant de séparerces données en deux ensembles (lignes en pointillé sur la figure 2.1 pageprécédente). Selon le principe de SVM, il ne doit exister qu’un seul hyperplanoptimal : celui situé à mi-chemin entre les marges maximales (nous définis-sons les marges comme la somme des distances de l’hyperplan aux pointsd’entraînement les plus proches de chaque classe). La ligne continue, sur lafigure 2.1 page précédente, représente cet hyperplan optimal, et la margeest, dans ce cas, d1 + d2.

Notons que seuls les points les plus proches de chaque classe déterminentl’hyperplan optimal. Ces points sont appelés vecteurs de support. Commeseuls les vecteurs de support déterminent le plan optimal, il existe une cer-taine façon de les représenter en fonction de l’ensemble des points d’entraî-nement donnés. Il a été démontré que la marge maximale peut être trouvéeen minimisant 1

2kwk2 [70].

min

⇢1

2

kwk2�

(2.2)

L’hyperplan optimal peut donc être trouvé en minimisant l’équation (2.2)sous la contrainte (2.3) que les données soient correctement séparées [7].

yi

.(xi

.w + b) � 1, 8i (2.3)

Paramètre de pénalisation C

Le concept de l’hyperplan optimal peut être généralisé à des cas nonséparables en introduisant un coût de violation de la contrainte de séparation(2.3). Ceci peut être réalisé en introduisant une variable d’écart positive ⇠

i

dans les contraintes de l’équation (2.3), qui devient :

yi

.(xi

.w + b) � 1� ⇠i

, 8i (2.4)

Si une erreur apparait, le ⇠i

correspondant doit excéder l’unité, doncP

i

⇠i

est une borne supérieure au nombre d’erreurs de classification. Une façonlogique d’attribuer un coût supplémentaire aux erreurs est donc de changer

27

la fonction objectif (2.2), à minimiser en :

min

⇢1

2

kwk2 + C. (P

i

⇠i

)

�(2.5)

où C est un paramètre choisi permettant à l’utilisateur de contrôler le com-promis entre maximiser les marges (premier terme de la fonction objective)et classifier l’ensemble d’entraînement sans erreur. Minimiser l’équation (2.5)sous les contraintes (2.4) donne l’hyper plan optimal. C’est un problème qua-dratique qui peut être résolu en trouvant les multiplicateurs de Lagrange, ↵

i

,qui maximisent la fonction objective (2.6) [7, 19, 57, 66] :

W (↵) =

nX

i=1

↵i

� 1

2

nX

i,j=1

↵i

↵j

yi

yj

�x>i

xj

�(2.6)

sujette aux contraintes : i = 1, . . . , n, 0 ↵i

C etP

n

i=1 ↵i

yi

= 0.La nouvelle fonction objective est définie seulement par les termes de

Lagrange, ↵i

: si nous connaissons w, nous connaissons tous les ↵i

; et sinous connaissons tous les ↵

i

, nous connaissons w. Beaucoup des ↵i

sont nulset donc w est une combinaison linéaire d’un petit nombre de points desdonnées. Les x

i

ayant des ↵i

non nuls sont appelés les vecteurs de support.La frontière de décision est donc uniquement déterminée par ceux-ci. Soienttj

(j = 1, . . . , s), les indices des s vecteurs de support. Nous pouvons écrire :

w =

sX

j=1

↵tjytjxtj (2.7)

Fonction kernel

Dans le cas où l’espace d’entrée ne serait pas linéairement séparable, lesdonnées de l’espace d’entrée seront réexprimées, dans un espace de dimensionsupérieure (l’espace des caractéristiques), à l’aide d’une transformation nonlinéaire. Comme illustré à la figure 2.2 page suivante, l’hyperplan optimal,dans l’espace des caractéristiques, est construit en introduisant une fonctionkernel :

K (xi

,xj

) = � (xi

)

> .� (xj

) (2.8)

28

x’1

x’2

φ( )

φ( )φ( )φ( )

φ( )

φ( )

φ( )φ( )

φ( )φ( )

φ( )

φ( )

φ( )

φ( )φ( )

φ( )

φ( )

φ( )φ( ) φ( )

φ( )φ( )

φ( )

φ( )φ(.)

x1

x2Espace d’entrée Espace des caractéristiques

Figure 2.2 – Transformation des données dans un espace de dimension su-périeure (l’espace des caractéristiques) à l’aide d’une transformation linéaire.

Il n’est cependant pas nécessaire de décrire explicitement la transformation�. Seul le produit scalaire de deux vecteurs dans l’espace transformé doitl’être [1].

Le problème d’optimisation, présenté à l’équation (2.6) page précédente,peut être généralisé en utilisant la fonction kernel de la sorte :

W (↵) =

nX

i=1

↵i

� 1

2

nX

i,j=1

↵i

↵j

yi

yj

K (xi

,xj

) (2.9)

où C � ↵i

� 0 etP

n

i=1 ↵i

yi

= 0.Après avoir calculé les variables ↵

i

, l’équation de l’hyperplan, d(x) estdéterminée par :

d (x) =lX

i=1

yi

↵i

K (x,xi

) + b (2.10)

L’équation de la fonction caractéristique utilisée pour classifier les nouvellesdonnées [27] est donnée à l’équation (2.11) page suivante, où la nouvelle

29

donnée z est classifiée dans la classe 1 si i > 0, et dans la classe 2 si i > 0 .

iF

(x) = sign [d(x)] = sign

"lX

i=1

yi

↵i

K (x,xi

) + b

#(2.11)

En réalité, la somme donnée à l’équation (2.11), ne sera pas calculée pourl’ensemble des données d’entraînement, mais bien uniquement pour les vec-teurs de support. En effet, seuls ceux-ci auront un multiplicateur de Lagrangenon nul. Cette particularité rend les classificateurs SVM idéaux pour la classi-fication de texte, où il peut y avoir plusieurs millions de documents. En effet,ces classificateurs utiliseront l’ensemble de documents pour s’entrainer, maisne retiendront qu’une petite partie de ceux-ci comme vecteurs de support.Ceci rend donc les classificateurs SVM indépendants à la dimensionnalité desdonnées, mais leur temps d’entraînement restera tout de même proportionnelà celle-ci.

2.4.2 Naïve Bayes

Les classificateurs Naïve Bayes (NB) se basent sur les réseaux bayésiensintroduits par Pearl [47]. Ceux-ci servent à représenter les distributions deprobabilité sur un ensemble de variables aléatoires, X = {X1, X2, . . . , Xn

},sous la forme d’un graphe acyclique. Dans ce graphe, chaque nœud représenteune variable et, chaque arc et leur direction, la relation et la direction decausalité entre deux variables. Lorsque deux nœuds sont reliés par un arc, lenœud de causalité est appelé le parent et l’autre, l’enfant. La distribution deprobabilité conjointe de X est donnée par [62] :

P (X) =

nY

i=1

P (Xi

|Pa (Xi

)) (2.12)

où Xi

représente à la fois une variable et son nœud, et Pa (Xi

), l’ensembledes parents du nœud X

i

.Toutefois, afin d’estimer avec précision P (X

i

|Pa (Xi

)) il est nécessaire detrouver la structure ce qui n’est pas trivial. Il a d’ailleurs été prouvé que l’ap-prentissage d’une structure optimale d’un réseau bayésien est un problème

30

NP-dur [8]. Pour pallier cette complexité intraitable, les classificateurs NButilisent une structure connue [29]. Dans NB, les caractéristiques sont condi-tionnellement indépendantes compte tenu de la catégorie. Cela signifie quechaque caractéristique a une catégorie comme seul parent [62].

D’après Wang et alii [69], NB est un modèle d’apprentissage statistiquebasé sur des probabilités et sur l’hypothèse de Naïve Bayes disant que l’exis-tence d’une caractéristique pour une catégorie est indépendante de l’existenced’autres caractéristiques. Même si cette hypothèse est violée dans la plupartdes cas réels, NB reste l’une des méthodes de Machine Learning (ML) lesplus utilisées de par sa simplicité, son efficacité et son interprétabilité [74].

Étant donné une instance de test d, représentée par un vecteur de motshw1, w2, . . . , wm

i, la probabilité conditionnelle P (d|c) est :

P (d|c) =mY

i=1

P (wi

|c) (2.13)

où

P (wi

|c) =P

n

j=1 � (wji

, wi

) � (cj

, c) + 1

Pn

j=1 � (cj, c) + ni

(2.14)

où n est le nombre d’instances d’entraînement, ni

le nombre de valeurs du ie

caractéristique, cj

est la catégorie de la je instance d’entraînement, wji

estla valeur de la ie caractéristique de la je instance d’entraînement, � est unefonction binaire, qui vaut 1 si ses deux paramètres sont identiques, 0 sinon.

Bernoulli Naïve Bayes

Dans le cas du modèle d’apprentissage Bernoulli Naïve Bayes (bNB), undocument d est représenté comme un vecteur de mot hw1, w2, . . . , wm

i, et laprobabilité conditionnelle P (d|c) peut être estimée, selon l’hypothèse de NBpar :

P (d|c) =mY

i=1

⇣w

i

P (wi

|c) + (1� wi

)

�1� P (w

i

|c) �⌘

(2.15)

où m est le nombre de mots, wi

est une valeur booléenne qui représente laprésence du ie mot dans le document d ou non, et la probabilité conditionnelle

31

P (wi

|c) est estimée par

P (wi

|c) =P

n

j=1 wji

� (cj

, c) + 1

Pn

j=1 � (cj, c) + 2

(2.16)

où n est le nombre de documents d’entraînement, cj

est la catégorie du je

document, et wji

est un booléen indiquant la présence, ou non, du ie motdans le je document d’entraînement.

Multinomial Naïve Bayes

BNB ne tient, cependant, pas compte de la fréquence d’apparition desmots dans un document, qui est une information potentiellement utile à laprédiction des catégories. C’est, justement, ce manque que vient comblerMultinomial Naïve Bayes (mNB). Un document de test, d, est maintenantreprésenté par un Bag-Of-Words (BOW) 17. L’ordre des mots n’est ici pasconsidéré, mais bien la fréquence de chacun d’eux dans le texte. Dans cemodèle, la même hypothèse de NB est faite : la probabilité du nombre d’oc-currences de chaque mot dans un document est indépendante de sa positionet du nombre d’occurrences des autres mots du document. Un document d

est donc représenté par un vecteur de mots hw1, w2, . . . , wm

i, et mNB estimela probabilité conditionnelle P (d|c) par :

P (d|c) =

mX

i=1

fi

!!

mY

i=1

P (wi

|c)fifi

!

(2.17)

où m est le nombre de mots, wi

(i = 1, 2, . . . ,m) indique la présence du ie

mot dans le document d, fi

est le nombre d’occurrences de wi

dans d, P (wi

|c)est la probabilité conditionnelle que le mot w

i

apparaisse dans la catégoriec :

P (wi

|c) =P

n

j=1 fji� (cj, c) + 1

Pm

i=1

Pn

j=1 fji� (cj, c) +m(2.18)

où n est le nombre de documents d’entraînement, cj

est la catégorie du je

document, m est le nombre de mots, fji

est le nombre d’occurrences du motw

i

dans le je document d’entraînement, et � est une fonction binaire qui vaut

17. voir section 2.2.2 page 14

32

1 si ses paramètres sont identiques, 0 sinon.

2.4.3 Stochastic Gradient Descent

L’idée de base de l’algorithme Stochastic Gradient Descent (SGD) est deparcourir aléatoirement et de façon itérative, l’ensemble des instances d’en-traînement. Pour chacune d’entre elles, nous calculerons le gradient de lafonction d’erreur (qui décrit l’erreur de classification), et nous modifierons lemodèle selon ce dernier afin de réduire l’erreur pour cet exemple en particu-lier. Par la même occasion, la taille entre les différentes étapes d’itération seraprogressivement réduite. Le modèle convergera alors, au fil des itérations, enminimisant la somme des erreurs [14, 44].

SGD peut être appliqué à des problèmes de ML reposant sur de grandsensembles de données épars, tels que les problèmes de classification de texte.En effet, SGD peut s’utiliser avec des problèmes constitués de plus de 105

instances d’entraînements et autant de caractéristiques. Son avantage prin-cipal est que le temps d’entraînement est proportionnellement linéaire aunombre d’instances d’entraînement. En effet, sa complexité est de O(knw),où k est le nombre d’itérations (epochs) ; n, le nombre d’instances d’entraî-nement et w le nombre moyen de caractéristiques non nulles par instanced’entraînement [48].

Afin d’exprimer plus formellement l’algorithme de SGD, commençons parreformuler le principe de ML supervisé. Selon Bottou [5], chaque instanced’entraînement z est une paire (x, y) composée d’un nombre arbitraire d’en-trées x et d’une valeur scalaire de sortie y. Considérons une fonction de perte`(y, y) qui mesure le coût de prédire y alors que la vraie réponse est y, etchoisissons une famille F de fonctions f

w

(x) paramétrées par un vecteur decoefficients de pondération w. Nous cherchons la fonction f 2 F qui minimisela perte Q(z, w) = `(f

w

(x), y) moyenne sur les instances d’entraînement.

E(f) =

Z`�f(x), y

�dP (z) E

n

(f) =1

n

nX

i=1

`�f(x

i

), yi

�(2.19)

Le risque empirique En

(f) mesure les performances d’entraînement tandisque le risque attendu E(f) mesure la performance de généralisation, qui est

33

la performance attendue sur les futurs exemples. Il est suffisant de minimiserle risque empirique si l’on choisit une famille F suffisamment restrictive [67].

Il est courant [54] de minimiser le risque empirique En

(fw

) en utilisantGradient Descent (GD). Avec celui-ci, chaque itération met à jour les coeffi-cients de pondération w sur la base du gradient de E

n

(fw

),

wt+1 = w

t

� �1

n

nX

i=1

rw

Q(zi

, wt

) (2.20)

où � est un taux d’apprentissage choisi de manière adéquate. Sous des hypo-thèses de régularité suffisante, lorsque l’estimation initiale w0 est assez prochede l’optimum, et, quand le taux d’apprentissage � est suffisamment petit, cetalgorithme converge linéairement [13].

L’algorithme SGD est une simplification drastique de ce dernier. Au lieude calculer le gradient exact de E

n

(fw

), chaque itération estime celui-ci surbase d’une seule instance d’entraînement z

t

prise au hasard :

wt+1 = w

t

� �t

rw

Q(zt

, wt

) (2.21)

Le processus stochastique {wt

, t = 1, . . .} dépend des instances prises aléatoi-rement à chaque itération, mais il est à espérer que l’équation (2.21) suit lesmêmes attentes de convergence que l’équation (2.20) malgré le bruit amenépar la procédure de simplification. Enfin, la table A.4 page VIII illustrel’algorithme SGD utilisé comme un certain nombre de techniques de MLclassiques.

34

Chapitre 3

Présentation des données et de

l’approche choisie

Le thésaurus Core Content Classification in General Practice / Familymedicine (3CGP/FM) du Dr Jamoulle étant toujours en phase d’élaboration,il n’existe actuellement aucun corpus annoté et reconnu. Fort heureusement,le Dr Jamoulle a entamé un travail de longue haleine impliquant l’annota-tion manuelle de résumés de conférence de médecine générale à l’aide de sonontologie 3CGP/FM.

3.1 Thésaurus 3CGP/FM

Le thésaurus 3CGP/FM 1 vise à permettre la classification et le codaged’articles non cliniques de médecine générale. Celui-ci est structuré de façonhiérarchique et repose sur 8 catégories principales listées dans la table 3.1page suivante. 3CGP/FM est codé sur 3 à 5 caractères, suivant la profondeurde la catégorie dans la hiérarchie. La première lettre, Q, n’est présente quepour indiquer que l’on se trouve en présence d’un code 3CGP/FM (étantdonné qu’à terme, 3CGP/FM fera partie intégrante de 3CGP et que cettelettre demeurait libre). La deuxième sert à coder la catégorie principale,et est suivie de 1 à 3 chiffres dont chacun représente un chemin vers une

1. Voir la table A.1 page III des annexes pour la liste complète des catégories3CGP/FM actuelles.

35

Dénomination anglaise Dénomination française

QC Patient’s category Catégorie de patientsQD Doctor’s issue Enjeu du médecinQE Medical ethics Ethique médicaleQH Hazards Risques et dangersQO Other AutreQP Patient issue Enjeu du patientQR Research & development tool Outil de recherche & développementQS Structure of practice Structure de la pratiqueQT Knowledge management in health care gestion des connaissances en soins de santé

Table 3.1 – Catégories principales de Core Content Classification in GeneralPractice / Family medicine et leur code respectif.

sous-catégorie de la hiérarchie. Il est cependant à noter que seules les feuillesde la hiérarchie pourront servir à l’annotation de documents.

3.2 Données annotées

Nous disposons actuellement de trois ensembles annotés de résumés deconférence de médecine générale [22, 23].

Corpus CNGEfr

Le premier corpus, CNGEfr, rassemble deux ensembles de résumés deconférence tirés du congrès CNGE de Clermont 2013 et de celui de Lille2014. Ceux-ci ont été annotés par Jamoulle et Berkhout [24] au moyen dulogiciel d’analyse qualitative ATLAS.ti 2.

CNGEfr est constitué de 493 résumés francophones comprenant en moyenne343 termes chacun. Ce corpus est constitué de 12 649 termes distincts 3, et sesarticles 4 sont codés à l’aide de 139 catégories, avec une moyenne de 3,15 ca-tégories par article. Notons cependant que, comme le présente la figure 3.2page suivante, seules 27% des catégories du corpus CNGEfr contiennent plusde 10 articles d’exemple.

2. Capture d’écran reprise à la figure 3.1 page suivante. Pour plus d’informations :http://atlasti.com/

3. Pour plus de statistiques, voir table A.2 page VI4. Un exemple d’article peut être trouvé figure A.1 page IV

36

http://atlasti.com/

Figure 3.1 – Capture d’écran du logiciel d’analyse qualitative ATLAS.ti

Figure 3.2 – Histogramme du nombre d’articles annotés par catégorie

37

Corpus WONCAen

Le deuxième ensemble de données que nous allons utiliser, WONCAen, pro-vient des résumés de conférence tirés du congrès WONCA de Paris 2007(World Organization of National Colleges, Academies and Academic Asso-ciates of General Practitioners/Family Physicians). Plus ancien, celui-ci aété annoté par le Dr Jamoulle au moyen du logiciel Excel, tandis que lesarticles proviennent de fichiers XML tirés d’un CD reprenant les résumés dela conférence.

Celui-ci est constitué de 974 résumés anglophones 5, écrit à l’aide de13 827 termes distincts 6 et dont chaque article comprend en moyenne 258termes. Enfin, 119 catégories ont été utilisées pour annoter les articles avecune moyenne de 2,00 d’entre elles. Notons cependant que, comme le présentela figure 3.2 page précédente, seules 43% des catégories du corpus WONCAencontiennent plus de 10 articles d’exemple.

3.3 Approche choisie

L’objectif de ce travail est de mettre en place une méthode d’apprentissageautomatique de classification d’articles de médecine générale non-clinique àl’aide de la terminologie Core Content Classification in General Practice /Family medicine (3CGP/FM) proposée par le Dr Jamoulle.

La première étape sera donc de résoudre les différentes problématiquesexposées à la section 1.1 page 6 :

— Quelle(s) technique(s) de traitement automatique du langage naturelet de Feature Identification choisir afin de faire face aux problèmes dechevauchement des catégories et de la faible quantité d’échantillonsétiquetés disponibles ?

— L’efficacité démontrée de ces techniques sera-t-elle similaire pour lecorpus francophone et celui anglophone ?

— Chaque technique de Machine Learning s’accordera-t-elle sur le même

5. Un exemple d’article peut être trouvé figure A.2 page V6. Pour plus de statistiques, voir table A.2 page VI

38

ensemble de caractéristiques optimales ?

En effet, bien que les revues de littérature traitant de l’apprentissageautomatique, de la classification de texte et plus particulièrement de la clas-sification d’articles de médecine soient nombreuses, il n’en demeure pas moinsqu’ils ne s’accordent pas sur les méthodes de Feature Identification (FI), nisur les techniques de Machine Learning (ML) à choisir. De plus, ces étudesportent généralement sur des corpus anglophones, dont les documents sontgrands et variés, et dont les catégories ne font pas face à des problèmes dechevauchement, à l’opposé de notre cas. Nous devrons donc investiguer cesdifférentes techniques afin de voir si certaines d’entre elles peuvent nous per-mettre de mener à bien notre objectif.

À cette fin, nous utiliserons le langage de programmation Python. En ef-fet, celui-ci dispose d’une multitude de libraires implémentant la plupart destechniques de ML, Feature Extraction (FE), Feature Selection (FS) et trai-tement automatique du langage naturel (TALN), telles que scikit-learn [48],Natural Language Processing Toolkit (NLTK) [3], TreeTagger [56],. . .

39

Chapitre 4

Implémentation

Le programme s’articule à travers 8 étapes principales. Certaines d’entreelles, telles que l’étape de réduction de dimension, seront facultatives enfonction des techniques à analyser. Nous nous attacherons dans ce chapitre àdétailler les choix d’implémentation et les caractéristiques de chacune d’elles.

4.1 Importation des données

La première étape du programme est de permettre l’importation de don-nées externes. En effet, les données des corpus utilisés (CNGEfr et WONCAen)ne sont pas pré formatées et proviennent de sources de nature différentes 1.Dans l’idée de faire évoluer le programme par la suite, et donc de permettrel’importation de nouvelles données futures, nous articulerons cette étape au-tour de la classe Importer. Nous créerons ainsi une sous-classe de celle-cipar type de source de données. Elles sont, à ce jour, au nombre de trois :StoredHUXmlImporter 2, WoncaImporter et JoblibImporter. Celles-ci ontpour fonction de créer un objet Corpus contenant une liste de Documentqui contiennent simplement le texte d’un résumé (text), et la liste de sescatégories assignées (tags).

1. Voir chapitre 3 page 35.2. Voir section 4.1 page suivante

40

Données provenant de l’application Atlas.ti

Sans rentrer dans les détails, Atlas.ti permet d’exporter l’ensemble desdonnées d’un projet. Celles-ci sont contenues dans une base de données dé-nommée Hermeneutique Unit (HU). Lors de l’export, celle-ci est «sérialisée»en un fichier XML que la classe StoredHUXmlImporter parsera afin d’enimporter les données. Ce sont ces données, provenant d’Atlas.ti qui consti-tueront le corpus CNGEfr.

À titre d’information, le sous-package adapters 3 contient une série d’ad-apters permettant de transformer les données de la base de données HU enun objet Corpus. HU contient des informations supplémentaires que la classeStoredHUXmlImporter permet d’exploiter, cependant, ces dernières ne sontpas malheureusement pas disponibles dans le corpus WONCAen. Il était, parexemple, possible d’extraire la ou les phrases ayant permis à identifier lescatégories de l’article.

Données provenant du CD du WONCA de Paris 2007

L’ensemble des résumés des conférence du WONCA de Paris 2007 estrepris sur un CD. Celui-ci comporte une application permettant d’afficherces données. Cette dernière se base sur un dossier contenant un fichier XMLpar article.

La classe WoncaImporter coordonnera les classes WoncaArticleParseret WoncaAnnotationsParser permettant respectivement de parser le fichierXML d’un article pour la première, et de parser un fichier CSV contenantles identifiants des résumés et leur classement pour la deuxième. Ce sont lesdonnées de ce CD qui constitueront le corpus WONCAen (WONCAen).

Mise en cache des corpus

Afin de ne pas recommencer à parser toutes les données à chaque lance-ment, les objets Corpus générés par les différents Importers pourront êtresérialisés à l’aide de la classe JobLibExporter 4 et réimportés ultérieurement

3. Package : classifier_3cgp/importers/atlas_ti/adapters4. Package : classifie_3cgp/exporters

41

à l’aide de la classe JobLibImporter. Comme leur nom l’indique, ces deuxclasses se basent sur la librairie joblib 5.

4.2 Adaptation du corpus

Cette étape, facultative, permettra d’adapter le corpus importé en vue,par exemple, de sélectionner un sous-ensemble de catégories, ou d’appliquerdes méthodes de TALN aux documents 6. Chacune des transformations im-plémentées héritera de la classe CorpusAdapter 7.

Il sera possible de chaîner ses transformations au moyen de la classePipelineCorpusAdapter. On pourra, par exemple, utiliser les classes Tags-FilterCorpusAdapter et TagCorpusAdapter dans un pipeline pour rassem-bler toutes les sous-catégories d’une catégorie choisie, et filtrer les autres.

Racinisation du corpus

Une des techniques de TALN étudiée est la Racinisation 8. Les deux classesEnglishCorpusStemmer et FrenchCorpusStemmer permettront respective-ment, comme leur nom l’indique, d’adapter les mots des corpus afin de n’engarder que leur racine.

Pour l’anglais, EnglishCorpusStemmer se reposera sur la librairie NLTK.Celle-ci fournit des tokenizers et stemmers offrant de bonnes performancessur les textes anglophones [3]. On utilisera donc la classe TreebankWord-Tokenizer qui utilise des expressions régulières afin de séparer les différentsmots d’un texte. Tandis que la classe PorterStemmer 9 qui utilise l’algorithmede Porter nous permettra de retrouver les racines de ceux-ci.

Pour le français, FrenchCorpusStemmer utilisera une expression régulièreafin de séparer les mots du texte grâce à la classe RegexpTokenizer. En-fin, elle utilisera l’algorithme de racinisation Snowball par la classe French-Stemmer 10. Ces deux dernières proviennent aussi de la librairie NLTK.

5. https://pythonhosted.org/joblib/6. Voir section 2.2.3 page 15.7. Package : classifier_3cgp/adapters8. Voir section 2.2.3 page 16.9. Pour plus d’informations, voir [49].

10. Voir http://snowball.tartarus.org/algorithms/french/stemmer.html.

42

https://pythonhosted.org/joblib/

http://snowball.tartarus.org/algorithms/french/stemmer.html

Lemmatisation du corpus

Le deuxième procédé de TALN étudié est la lemmatisation 11. Cette trans-formation pourra être effectuée au moyen de la classe CorpusLemmatizer.

Cette dernière utilisera, à son tour, une des deux classes chargées dela lemmatisation : TreeTaggerLemmatizer et WordNetLemmatizer. La pre-mière repose sur la librairie TreeTagger [56] 12. Celle-ci utilise des arbres dedécision afin d’identifier la nature des mots et permettre la lemmatisation,et offre l’avantage d’être multilingue et rapide. La deuxième classe, Word-NetLemmatizer, se basera sur WordNet [30, 38], une base de données lexi-cale anglophone développée par des linguistes, afin de retrouver les formescanoniques des mots de façon plus précise. Enfin WordNetLemmatizer utili-sera, si nécessaire, NLTK afin d’effectuer l’opération d’Etiquetage Morpho-Syntaxique (EMS) utile à la lemmatisation. En définitive, nous utiliseronsTreeTaggerLemmatizer pour lemmatiser le corpus francophone et WordNet-Lemmatizer pour le corpus anglophone. En effet, ce dernier est plus précis,mais n’est utilisable que pour les textes anglais.

Cependant, cette tâche est onéreuse en temps de calcul. Comme toutCorpusAdapter, CorpusLemmatizer retourne un nouvel objet Corpus unefois sa transformation effectuée. Il est donc judicieux de mettre en cache lesdonnées lemmatisées 13.

Enfin, ayant calculé la nature des mots du corpus, la classe Corpus-Lemmatizer pourra filtrer ceux-ci, à l’aide du prédicat passé en paramètrede son constructeur, pour ne garder, par exemple, que les abréviations, adjec-tifs, adverbes, noms et verbes ; réduisant ainsi le nombre de termes distinctsprésents dans le corpus.

4.3 Vectorisation et normalisation

Les différents algorithmes de classification attendent, pour la plupart, unnombre fixé de valeurs numériques, et non des chaînes de caractères dont lenombre de symboles sera variable d’un document à l’autre. Il faudra donc

11. Voir section 2.2.3 page 18.12. Voir http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/ .13. Voir section 4.1 page 41.

43

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

adapter le corpus afin de le rendre conforme aux exigences des algorithmesde classification.

Une fois le corpus «adapté», il sera donc nécessaire de le transformer en unensemble de vecteurs représentant l’occurrence de ses termes distincts dansses différents documents (Bag-Of-Words (BOW) 14). Cette étape se dérouleraen trois phases. La première va être d’isoler les mots du corpus afin de per-mettre la deuxième phase, qui consiste à les compter. La troisième et dernièrephase consistera aux éventuelles normalisations des vecteurs obtenus.

Vectorisation

Les deux premières phases se feront à l’aide de la classe CountVectorizerfournie par la librairie scikit-learn. Celle-ci va utiliser une expression régulièreafin de séparer les mots d’un document, changer leur casse en minuscule, etcréer une matrice dont les lignes représentent les documents ; les colonnes,les termes uniques du corpus ; et les cellules, leur nombre d’occurrences danschacun des documents.

Chaque document n’utilisant qu’une petite partie des termes du corpus,la matrice résultante sera creuse. La classe CountVectorizer nous renverradonc une implémentation optimisée pour représenter la matrice 15.

Enfin, la classe CountVectorizer permet aussi d’ignorer une liste de motsvides 16 (stopwords) et collecter les n-grammes des documents. On peut, parexemple, compter les occurrences des paires de mots (bi grammes). Cepen-dant après de brefs tests initiaux, cette possibilité a été mise de côté, car elleaugmentait considérablement le nombre de caractéristiques fournies à nosclassificateurs et diminuait les performances.

Pondération et normalisation

Comme mentionné à la section 2.2.2 page 14, il est pratique courante deprocéder à une pondération et/ou une normalisation des termes afin d’opti-miser les performances de classification.Cette opération pourra être effectuée

14. Voir section 2.2.2 page 14.15. Package : scipy.sparse16. Voir section 2.2.3 page 16.

44

au moyen de la classe TfidfTransformer fournie par scikit-learn. Commeson nom l’indique, celle-ci appliquera premièrement une pondération TermFrequency-Inverse Document Frequency (TF-IDF) à chaque terme de la ma-trice des occurrences, et deuxièmement, une normalisation de façon à ce quechaque ligne de celle-ci ait une norme euclidienne unitaire.

Scikit-learn a rassemblé ces deux dernières classes dans la classe Tfidf-Vectorizer. C’est cette dernière que nous utiliserons.

4.4 Réduction de dimension

Cette étape, facultative, vise à réduire la dimension de l’espace des ca-ractéristiques du problème. Pour rappel 17, il existe deux méthodes de FIpermettant de réduire le nombre de caractéristiques : soit par Feature Selec-tion, soit par Feature Extraction.

Feature Selection

Les méthodes de FS 18 consistent à sélectionner les caractéristiques ayantobtenu les meilleurs scores à des tests statistiques et à supprimer les autres.Pour se faire, scikit-learn fournit la classe SelectKBest 19 qui sélectionnerales k meilleures caractéristiques selon la fonction d’évaluation donnée à sonconstructeur.

Concernant les fonctions d’évaluation, nous en testerons quatre : Chi-Squared (�2), Mutual Information (MI), Cube Mutual Information (MI3) etBi-Normal Separation (BNS). La première est implémentée par sciki-learn,les trois autres le sont dans le projet, sous la forme de fonctions statiques 20.

17. Voir section 2.3 page 20.18. Voir section 2.3.1 page 21.19. Package : sklearn.feature_selection20. Package : classifier_3cgp.feature_selection.

45

Feature Extraction

Les méthodes de FS seront ensuite comparées avec une technique de FE 21,à savoir, l’indexation sémantique latente 22(Latent Semantic Indexing (LSI)).

À cette fin, nous utiliserons la classe TruncatedSVD 23 qui procédera à desréductions de dimension linéaire à l’aide de la décomposition en valeur singu-lière (Singular Value Decomposition (SVD)) tronquée. Cette implémentationa été préférée à celle de la classe PCA qui lui est fort similaire, car elle permetde travailler avec matrices creuses (de type scipy.sparse).

4.5 Binarisation des catégories

De la même manière que pour les documents du corpus 24, les catégo-ries de celui-ci devront être vectorisées. En effet, les catégories associées àchaque document dans l’objet Corpus sont représentées par une simple listede chaînes de caractères. Le rôle de cette étape sera de créer une matricedont les colonnes représentent chacune des catégories du corpus ; les lignes,ses documents ; et les cellules indiquant juste si un document a été assignéà cette catégorie (1) ou non (0). La binarisation des catégories se fera viaMultiLabelBinarizer de scikit-learn.

4.6 Classification

La 6e étape est la classification à proprement parler. Celle-ci utiliserasoit, un algorithme naïf servant de base de comparaison, soit une des quatreméthodes de ML suivantes : Support Vector Machine, Multinomial NaïveBayes, Bernoulli Naïve Bayes et Stochastic Gradient Descent . Les implémen-tations de celles-ci sont fournies par la librairie scikit-learn. Plus particulière-ment, nous utiliserons les classes LinearSVC, BernoulliNB, MultinomialNBet SGDClassifier.

21. voir section 2.3.2 page 24.22. voir section 2.3.2 page 2423. Package : sklearn.decomposition24. Voir section 4.3 page 43.

46

Ces classes peuvent être paramétrées de multiples façons. Cependant,nous ne nous attarderons qu’à trouver les meilleures valeurs du paramètre C 25

pour la classe LinearSVC et du paramètre alpha pour les classes BernoulliNB,MultinomialNB et SGDClassifier.

La classe LinearSVC est similaire à la classe SVM utilisant un noyau li-néaire (kernel = "linear"). Cependant, elle n’utilise pas la même librairie(libsvm) que SVM. En effet, elle utilise liblinear qui est plus performante pourcette tâche [15]. Concernant les paramètres, nous utiliserons ceux par défaut,notamment, le carré de la fonction hinge loss (l2) comme fonction de perte(loss) 26. Cependant, nos classes sont déséquilibrées : la différence entre lenombre de documents étiquetés d’une classe dans les données d’entraînement,et ceux qui ne le sont pas, est importante. Nous laisserons donc LinearSVCpondérer les poids des classes, inversement proportionnellement à leur fré-quence d’apparition (class_weight = ’auto’).

Classification multi-label

Afin de résoudre le problème de classification multi-label, nous le sépare-rons en plusieurs sous-problèmes de classification binaire . Ceci sera effectuéau travers de la classe OneVsRestClassifier. Celle-ci prendra en paramètreune instance de l’une des classes citées plus tôt. Enfin, notons que nous entraî-nerons les différents sous-problèmes en parallèle pour accélérer le traitement.

4.7 Évaluation

Pour évaluer les modèles générés, nous utiliserons la méthode de k-foldcross-validation 27. La génération des k ensembles d’entraînements et de testsse feront à l’aide de la classe KFold 28, tandis que la cross-validation se feraavec la méthode statique cross_val_score 29. Celle-ci prend en paramètre

25. voir section 2.4.1 page 2726. L2(y, t) = (max{0, 1� yt)})2 Pour plus d’informations, voir [61]27. Voir section 2.1.3 page 12.28. Package : sklearn.cross_validation29. Package : sklearn.cross_validation

47

une fonction de scoring. Nous utiliserons la méthode f1 30 qui calculera leF1-score.

4.8 Exportation

L’objectif du programme développé pour ce travail est de permettre lacomparaison de différentes méthodes de Feature Extraction, de Feature Selec-tion, de traitement automatique du langage naturel et de Machine Learning .Celui-ci a donc été pensé pour aisément générer un ensemble de combinai-sons de ces différentes techniques et de leurs différents paramètres, testerl’efficacité de classification de chacune d’elle, et exporter les résultats.

En effet, Les résultats seront exportés dans un fichier CSV avec une des-cription des paramètres et des méthodes utilisés. Ceux-ci pourront dès lorsêtre analysés à l’aide de simples solutions comme les tableaux croisés dyna-miques d’Excel. De plus, on ajoutera à chaque résultat un identifiant basé surses paramètres (hash). Ceci pour éviter de le recalculer lors de la prochaineexécution du programme, et ainsi de pouvoir compléter les résultats de fa-çon incrémentielle. Ceci a permis d’entraîner quelque 18 000 classificateursdifférents.

Afin de générer les différentes combinaisons, nous utiliserons deux classes,à savoir, ParameterGrid 31 et Pipeline 32. La première est conçue initiale-ment pour permettre la recherche exhaustive du meilleur classificateur enfonction des paramètres donnés 33. La deuxième nous permet de facilementchaîner les différentes étapes exposées précédemment.

30. Package : sklearn.metrics31. Package : sklearn.grid_search32. Package : sklearn.pipeline33. à l’aide de la classe GridSearchCV.

48

Chapitre 5

Résultats et discussions

L’outil développé permettra de comparer et de discuter des résultats ob-tenus en combinant plusieurs des techniques qui ont été présentées dans leschapitres précédents. Nous nous concentrerons, dans un premier temps, àeffectuer nos tests à l’aide du corpus francophone CNGEfr, et de la techniqued’apprentissage Support Vector Machine (SVM). Par la suite, nous compa-rerons les résultats obtenus par les différentes méthodes de Feature Selection(FS) et de Feature Extraction (FE) utilisées avec SVM à d’autres techniquesde Machine Learning (ML). Enfin, nous pourrons confronter les performancesdes différentes techniques utilisées précédemment avec celles obtenues à l’aidedu corpus anglophone WONCAen.

Comme aucune autre étude n’a été portée sur le corpus CNGEfr, nousne disposons donc pas de base comparative. Les résultats obtenus à l’aided’un classificateur «naïf» permettront donc de définir un indice de perfor-mance (F1-score) minimal à atteindre pour nos classificateurs. Le classifica-teur «naïf» utilisé génère ses prédictions en respectant la distribution descatégories des données d’entraînement et obtient un F1-score de 0,093.

5.1 Adaptations du corpus

La première étape de l’analyse va être de trouver quelles méthodes d’adap-tations du corpus sont à utiliser. Nous allons donc comparer les performancesdes différentes techniques de traitement automatique du langage naturel

49

(TALN) 1 utilisées : racinisation 2, lemmatisation 3 et la lemmatisation du-rant laquelle nous avons filtré les mots en fonction de leur nature (EtiquetageMorpho-Syntaxique (EMS) 4) ; à celles obtenues à l’aide des termes du corpusCNGEfr directement 5.

À cette fin, nous utiliserons un classificateur SVM linéaire. La figure 5.1présente les différents scores obtenus par les différentes techniques d’adapta-tions du corpus CNGEfr et d’un classificateur SVM en fonction de son para-mètre C 6.

Figure 5.1 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C pour différentes adaptations du corpus CNGEfr.

1. Voir section 2.2.3 page 15.2. Voir section 2.2.3 page 16.3. Voir section 2.2.3 page 18.4. Voir section 2.2.3 page 17.5. Pour les lemmes filtrés, nous ne gardons ici que les abréviations, adverbes, adjectifs,

noms communs, noms propres ainsi que les différentes formes verbales.6. voir section 2.4.1 page 27

50

Nous comparerons systématiquement nos résultats en fonction de ce pa-ramètre. En effet, il influence fortement les performances selon les carac-téristiques choisies et selon leur normalisation. Enfin, précisons que pourl’entièreté des graphiques exposés, ceux-ci présenteront les F1-scores moyensobtenus par k-fold cross-validation 7 (avec k = 5), et éventuellement leurdéviation standard.

La table 5.1 reprend les valeurs (correspondantes à la figure 5.1 pageprécédente) maximales atteintes par chacune des méthodes d’adaptation ainsique la valeur du paramètre de pénalisation C associée. Celles-ci seront com-parées avec le cas de base (Aucune) : un classificateur SVM linéaire basé surle nombre d’occurrence de chacun des termes originaux du corpus, c’est àdire sans l’utilisation de méthode de TALN, Feature Identification (FI), etc.

Méthode µF1 Gains �F1 C

Aucune 0,367 0,120 9 · 10�4

Racinisation 0,377 +2,75% 0,112 9 · 10�4

Lemmatisation 0,389 +6,06% 0,084 2 · 10�2

Lemmatisation Filtrée 0,409 +11,64% 0,113 2 · 10�2

Table 5.1 – F1-score moyens maximaux atteints par chacune des méthodesd’adaptation appliquées au corpus CNGEfr

La méthode d’adaptation utilisant la lemmatisation avec filtrage des lemmessurpasse les autres méthodes, et apporte un gain conséquent de plus de 11%sur le meilleur score réalisé avec termes initiaux du corpus CNGEfr.

On remarque donc qu’une méthode de réduction du nombre de caractéris-tiques, telle que la lemmatisation, peut apporter des gains de performances.La table 5.2 page 74, compare les caractéristiques principales utilisées parSVM pour identifier l’appartenance à une catégorie à l’aide du corpus initialet de celui obtenu après l’application de la lemmatisation filtrée. On peut re-marquer que, dans le deuxième cas, des termes comme qualitative, qualitatif,entretiens, entretien etc. seront rassemblés en leur lemme. Celui-ci obtien-dra un coefficient plus grand, montrant son impact plus important sur laclassification.


51

5.2 Vectorisations et normalisations

La deuxième étape est d’identifier quelle technique de vectorisation 8 etd’éventuelles normalisations sont à appliquer au corpus. La figure 5.2 pagesuivante présente les différents scores obtenus en fonction du paramètre depénalisation C d’un classificateur SVM linéaire, par les différentes méthodesde vectorisation et normalisation suivantes : Présence/Abscence des termesdans le document (Présence), nombre d’occurrences des termes dans le do-cument (Occurrence), fréquence des termes dans les documents (Tf) et TermFrequency-Inverse Document Frequency (Tf-Idf). On remarque, dans cettefigure, l’importance que peut prendre le paramètre C sur les résultats obtenus.


Occurrence 0,367 0,120 9 · 10�4

Présence 0,348 �5,07% 0,174 7,5 · 10�4

Tf 0,359 �2,05% 0,110 1

Tf-Idf 0,385 +5,04% 0,193 1 · 10�2

Table 5.3 – F1-score moyens maximaux atteints par chacune des méthodesde vectorisation appliquées au corpus CNGEfr.

La table 5.3 présente les résultats obtenus (correspondant à la figure 5.2page suivante) maximaux atteints par chacune des méthodes de vectorisationainsi que la valeur du paramètre de pénalisation C associée.

Il en résulte que la méthode TF-IDF apporte un gain d’environ 5% parrapport à la technique comptant simplement le nombre d’occurrences. Cetteamélioration peut s’expliquer par la pénalisation apportée par TF-IDF. Eneffet, les classificateurs accorderont moins d’importance aux termes présentsdans la majorité des documents ; ceci favorise donc la distinction des carac-téristiques prépondérantes à chaque catégorie. Cependant, ce n’est vrai quepour certaines valeurs du paramètre C ; il faudra donc bien veiller à ce dernier.Enfin, remarquons que les méthodes retenant la présence ou non des termes

8. Voir section 2.2.2 page 14 et section 4.3 page 43.

52

Figure 5.2 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C pour diverses techniques de vectorisation et normalisation ducorpus CNGEfr.

au sein des documents, ainsi que celle retenant leur fréquence n’apportentaucune amélioration.

5.3 Réductions de dimension

Cette section vise à comparer différentes techniques de Feature Identifi-cation (FI). A cette fin, nous commencerons par entraîner un ensemble declassificateurs SVM linéaires afin de trouver une valeur du paramètre de pé-nalisation C cohérente pour l’ensemble des techniques de FI. Nous fixeronsensuite la valeur de ce paramètre et analyserons l’efficacité des différentesméthodes de FI en fonction du nombre N de caractéristiques sélectionnées.Enfin, une fois ces deux paramètres fixés, nous comparerons les performances

53

de ces méthodes en fonction des différents choix de vectorisations, de norma-lisation et de transformations du corpus.

Commençons donc par utiliser chacune des méthodes de FI afin de réduireles vecteurs d’occurrences (Occurrence) à seulement 1 000 caractéristiquessoit 7,91% des caractéristiques totales du corpus), et analyser les perfor-mances de celles-ci à l’aide d’un classificateur SVM linéaire, en fonction deson paramètre de pénalisation (C).

Figure 5.3 – F1-score d’un classificateur SVM linéaire en fonction de son pa-ramètre C, pour différentes techniques de réduction de dimension des vecteursd’occurrences extraits du corpus CNGEfr (N = 1000).

La table 5.4 page suivante reprend les valeurs maximales (correspon-dantes à la figure 5.3) atteintes par chacune des méthodes de FI, ainsi queles valeurs de C correspondantes. Il est intéressant de remarquer que, miseà part Truncated Singular Value Decomposition (tSVD), aucune de ces mé-

54

thodes n’égalise les valeurs atteintes par le cas de base — n’utilisant pas deréduction de dimension (Aucune). Ceci peut s’expliquer par le faible nombrede caractéristiques (N = 1 000) dont disposeront les classificateurs après l’ap-plication des méthodes de FI. Cependant, on remarque directement que tSVDsurpasse les autres méthodes.


Aucune 0,367 0,115 9 · 10�4

�20,265 �27,70% 0,075 1 · 10�2

BNS 0,194 �47,08% 0,063 5 · 10�2

MI 0,284 �22,48% 0,118 2,5 · 10�3

MI3 0,249 �32,08% 0,043 5 · 10�3

tSVD 0,367 +0,06% 0,115 1 · 10�3

Table 5.4 – F1-Measure (F1)-score moyens maximaux atteints par chacunedes méthodes de Feature Identification (N = 1 000).

Fixons maintenant la valeur du paramètre C à une valeur de 1·10�2 afin decomparer l’efficacité des différentes méthodes de FI en fonction du nombrede dimensions choisi. La figure 5.4 page suivante présente les résultatsobtenus par un classificateur SVM linéaire (C = 1 · 10�2) en fonction desdifférentes méthodes de FI et du nombre de caractéristiques sélectionnées.La table 5.5 page suivante reprend, quant à elle, les valeurs maximalescorrespondantes, atteintes par chacune de ces méthodes, ainsi que le nombreN de caractéristiques associé 9.

9. Les tests ont été effectués avec N 2 [10, 5 000] (le corpus CNGEfr est constitué de12 649 caractéristiques).

55

Méthode µF1 Gains �F1 N

Aucune 0,344 0,070 12 649�2

0,328 �4,60% 0,085 5 · 103BNS 0,220 �35,84% 0,096 5 · 103MI 0,317 �7,85% 0,078 5 · 103MI3 0,267 �22,24% 0,056 5 · 103tSVD 0,389 +13,25% 0,060 1 · 102

Table 5.5 – F1-score moyens maximaux atteints par chacune des méthodesde Feature Identification appliquées au corpus CNGEfr, selon le nombre decaractéristiques sélectionnées par un classificateur SVM linéaire (C = 1·10�2).

Figure 5.4 – F1-score d’un classificateur SVM linéaire (C = 1 ·10�2) en fonc-tion du nombre de caractéristiques sélectionnées par les différentes techniquesde réduction de dimension extraites à partir du corpus CNGEfr.

56

Dans ce cas encore, seul Truncated Singular Value Decomposition (tSVD)surpasse le classificateur utilisant l’ensemble des caractéristiques du corpusCNGEfr. En effet, celui-ci améliore le F1-score de 13,25% en réduisant la di-mension à seulement 100 caractéristiques (soit 0,79% des caractéristiquestotales du corpus). L’algorithme tSVD permet donc de réduire de façondrastique le nombre de caractéristiques nécessaires à l’identification des ca-tégories. Celui-ci permet même dans les conditions optimales d’améliorer laprécision du classificateur. En effet, le nombre de caractéristiques à analyserétant réduit, le classificateur semble être moins enclin au «sur-entraînement».

L’étape suivante, nécessaire à l’obtention de la meilleure configuration,est de vérifier si les différentes techniques de TALN influencent les résultatsobtenus par les diverses méthodes de FI.

La figure 5.5 page suivante et la table 5.12 page 79 reprennent lesF1-score d’un classificateur SVM linéaire (C = 1 · 10�2) en fonction des diffé-rentes méthodes de réduction de dimension et techniques de TALN appliquéesau corpus CNGEfr.

57

(a) N = 100 (b) N = 1 000

Figure 5.5 – F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction des différentes méthodes de réduction de dimension et techniques detraitement automatique du langage naturel appliquées au corpus CNGEfr.

Original Racinisation a Lemmatisation b Lemm. Filtrée c

Méthode µF1 Gains �F1 µF1 Gains �F1 µF1 Gains �F1 µF1 Gains �F1

Aucune 0,344 0,070 0,354 +2,96% 0,077 0,360 +4,90% 0,061 0,368 +7,11% 0,067

N = 100�2

0,193 �43,97% 0,080 0,202 �41,14% 0,068 0,191 �44,35% 0,081 0,191 �44,35% 0,081

BNS 0,105 �69,35% 0,054 0,114 �66,84% 0,053 0,123 �64,10% 0,068 0,123 �64,10% 0,068

MI 0,170 �50,63% 0,076 0,186 �46,01% 0,068 0,191 �44,54% 0,061 0,189 �44,97% 0,063

MI3 0,252 �26,75% 0,036 0,240 �30,14% 0,029 0,270 �21,36% 0,023 0,244 �29,13% 0,037

tSVD 0,389 +13,25% 0,060 0,393 +14,48% 0,049 0,390 +13,63% 0,047 0,398 +15,73% 0,057

N = 1 000�2

0,265 �22,87% 0,075 0,291 �15,42% 0,068 0,270 �21,41% 0,076 0,272 �20,93% 0,076

BNS 0,189 �45,13% 0,084 0,197 �42,63% 0,067 0,196 �42,91% 0,077 0,187 �45,66% 0,072

MI 0,283 �17,69% 0,087 0,275 �20,09% 0,076 0,281 �18,12% 0,084 0,287 �16,42% 0,086

MI3 0,248 �27,70% 0,038 0,267 �22,23% 0,028 0,278 �19,18% 0,028 0,249 �27,50% 0,040

tSVD 0,343 �0,24% 0,070 0,358 +4,13% 0,068 0,363 +5,69% 0,054 0,365 +6,22% 0,068

Table 5.6 – F1-score moyens atteints par chacune des méthodes de FeatureIdentification par un classificateur SVM linéaire (C = 1 · 10�2) selon les diffé-rentes techniques de traitement automatique du langage naturel appliquéesau corpus CNGEfr.

a. voir section 2.2.3 page 16b. voir section 2.2.3 page 18c. voir section 2.2.3 page 17 58

De façon similaire aux remarques précédentes, constatons que TruncatedSingular Value Decomposition (tSVD) surpasse les autres méthodes de FI etce, quelles que soient les méthodes de TALN appliquées au corpus. Notonsaussi que les performances des techniques de FI ne sont que très peu impac-tées par les transformations des méthodes de TALN appliquées au corpus.Qui plus est, ces dernières n’apportent que très peu de gains de précisionalors que chacune de ces méthodes impliquent un coût important en termede temps de calculs. Cependant, c’est bien la lemmatisation filtrée utiliséeavec tSVD qui obtient le plus haut F1-score moyen. Celui-ci est de 0,398, soit15,73% de plus que le cas de base : 0,344.

Finalement, vérifions si les différentes techniques de vectorisation et denormalisations influencent les résultats obtenus par les différentes méthodesde FI.

La figure 5.6 page suivante et la table 5.7 page suivante reprennent lesdifférents F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) en fonctiondes différentes méthodes de FI et techniques de vectorisation 10 appliquéesau corpus CNGEfr.


59

(a) N = 100 (b) N = 1 000

Figure 5.6 – F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction des différentes méthodes de réduction de dimension (N = 1 000) ettechniques de vectorisation appliquées au corpus CNGEfr.

Occurrence a Présence b TF c TF-IDF d


Aucune 0,344 0,070 0,268 �22,04% 0,154 0,301 �12,27% 0,154 0,385 +12,05% 0,193

N = 100�2

0,193 �43,97% 0,080 0,187 �45,44% 0,096 0,186 �45,83% 0,096 0,198 �42,45% 0,101

BNS 0,105 �69,35% 0,054 0,123 �64,12% 0,096 0,186 �45,83% 0,096 0,198 �42,46% 0,101

MI 0,170 �50,63% 0,076 0,172 �49,98% 0,086 0,169 �50,79% 0,086 0,174 �49,44% 0,088

MI3 0,252 �26,75% 0,036 0,143 �58,30% 0,065 0,127 �63,14% 0,065 0,142 �58,71% 0,073

tSVD 0,389 +13,25% 0,060 0,326 �5,09% 0,148 0,290 �15,73% 0,148 0,367 +6,75% 0,184

N = 1 000�2

0,265 �22,87% 0,075 0,259 �24,77% 0,100 0,197 �42,70% 0,100 0,260 �24,33% 0,131

BNS 0,189 �45,13% 0,084 0,245 �28,62% 0,117 0,233 �32,28% 0,117 0,260 �24,33% 0,131

MI 0,283 �17,69% 0,087 0,289 �16,03% 0,133 0,265 �23,00% 0,133 0,306 �11,06% 0,153

MI3 0,248 �27,70% 0,038 0,128 �62,67% 0,050 0,095 �72,22% 0,050 0,122 �64,50% 0,061

tSVD 0,343 �0,24% 0,070 0,268 �22,04% 0,154 0,301 �12,29% 0,154 0,385 +12,05% 0,193

Table 5.7 – F1-score moyens atteints par chacune des méthodes de FeatureIdentification (N = 1 000) par un classificateur SVM linéaire (C = 1 · 10�2)selon les différentes techniques de vectorisation du corpus CNGEfr.

a. Voir section 2.2.2 page 14b. Voir section 2.2.2 page 14c. Voir section 2.2.2 page 14d. Voir section 2.2.2 page 14

60

Remarquons ici que les techniques de vectorisation et normalisations n’ap-portent pas de réels gains de précisions. Cette remarques est pourtant à nuan-cer ; effectivement, Term Frequency-Inverse Document Frequency (TF-IDF)semble améliorer les résultats des classificateurs utilisant tSVD et ceux n’uti-lisant pas de méthode de FI. En outre, ces résultats on été obtenus à l’aided’un classificateur SVM linéaire dont le paramètre de pénalisation a été fixé(C = 1 · 10�2). Or, la table 5.3 page 52 et les remarques correspondantesindiquent bien l’attention à porter à ce dernier étant donné que celui-ci peutfortement influencer les résultats.

5.4 Classificateurs

Cette section vise à comparer diverses techniques de Machine Learning(ML) à celle de Support Vector Machine (SVM) linéaire, étudiée dans lessections précédentes. Nous confronterons donc SVM avec les techniques sui-vantes : Bernoulli Naïve Bayes (bNB), Multinomial Naïve Bayes (mNB) etStochastic Gradient Descent (SGD). Les étapes d’analyses seront les mêmes :commencer par analyser les différents F1-score obtenus par ces techniques enfonction de leurs paramètres et des méthodes de traitement automatique dulangage naturel (TALN), avant de comparer leurs performances en fonctiondes diverses méthodes de Feature Identification (FI).

5.4.1 Support Vector Machine linéaire

Afin de permettre la comparaison d’un classificateur Support Vector Ma-chine (SVM) linéaire avec les autres méthodes de Machine Learning (ML),tentons tout d’abord de trouver le meilleur classificateur parmi les différentescombinaisons de techniques de vectorisation, normalisation, traitement au-tomatique du langage naturel (TALN), Feature Identification (FI) ; ainsi queles paramètres optimisant le F1-score pour un classificateur SVM linéaire.

Après avoir entraîné plus de 9 000 classificateurs SVM linéaire, il en résulteque le plus performant obtient un F1-score moyen de 0,410. Celui-ci utilise10�3 pour valeur de son paramètre de pénalisation (C) et deux techniquespermettant de réduire le nombre de caractéristiques du corpus à seulement

61

1 000 caractéristiques. En effet, il utilise Truncated Singular Value Decom-position (tSVD) (N = 1 000) comme méthode de FI. Celle-ci se base sur lenombre d’occurrences, dans les documents, de chaque terme du corpus, aprèsque ceux-ci aient été lemmatisés et filtrés selon leur nature (TALN).

ML TALN Vect./Norm. FI µF1

SVM (C = 10�3) Lemm. Filt. Occurrence tSVD (N = 1000) 0,410

Comme le montre la figure 5.7 page 75, il est assez naturel de voirles courbes des F1-score moyens des classificateurs utilisant les différentesméthodes de FI, approcher de plus en plus celle du classificateur n’en utili-sant pas, à mesure que le nombre, N, de caractéristiques choisies augmente.Nous pouvons aussi remarquer dans la figure 5.7a page 75, qu’un classifica-teur SVM linéaire utilisant la lemmatisation filtrée et un tSVD réduisant lenombre de caractéristiques à seulement 100 (soit 0,79% des caractéristiquestotales du corpus), peut être presque aussi efficace.

5.4.2 Multinomial Naïve Bayes

Les tests concernant l’utilisation d’un classificateur Multinomial NaïveBayes (mNB), présentés à la figure 5.8 page 76, se révèlent peu concluant.Et ce, quellesque soient les méthodes de traitement automatique du langagenaturel (TALN) et de Feature Identification (FI) choisies. En effet, le meilleurclassificateur mNB n’obtient qu’un F1-score moyen de 0,335. Celui-ci utilise,lui aussi, la lemmatisation filtrée et se base simplement sur le nombre d’occur-rences des mots dans les documents. Il n’emploie cependant aucune méthodede FI.


mNB (↵ = 2 · 10�1) Lemm. Filt. Occurrence / 0,335

62

5.4.3 Bernoulli Naïve Bayes

Tout comme les classificateurs Multinomial Naïve Bayes (mNB), ceuxutilisant Bernoulli Naïve Bayes (bNB) n’apportent aucune amélioration.Au contraire, les tests, présentés à la figure 5.9 page 77, reportent quele meilleur classificateur bNB obtient seulement un F1-score moyen de 0,345.Contrairement aux deux premiers classificateurs présentés dans les sectionsprécédentes, celui-ci utilise Term Frequency-Inverse Document Frequency (TF-IDF) comme technique de normalisation. Il réduit ensuite sa dimensionnalitéà seulement 100 caractéristiques à l’aide de Truncated Singular Value De-composition (tSVD).


bNB (↵ = 1) / TF-IDF tSVD (N = 100) 0,345

5.4.4 Stochastic Gradient Descent

Enfin, la figure 5.10 page 78 présente les tests effectués à l’aide de dif-férents classificateurs Stochastic Gradient Descent (SGD). Ceux-ci montrentque cette dernière technique de Machine Learning (ML) surpasse la plu-part du temps les autres techniques dans le cas de nos données. En effet,le meilleur classificateur SGD obtient un F1-score moyen de 0,452. Celui-ciutilise, lui aussi, la lemmatisation filtrée et se base simplement sur le nombred’occurrences des termes dans les documents. Il n’emploie cependant aucuneméthode de Feature Identification (FI). Enfin, on peut remarquer que son pa-ramètre de régularisation, ↵, semble influencer nettement moins les résultatsque pour les paramètres similaires des autres méthodes de ML 11.


SGD (↵ = 10�1) Lemm. Filtr. Occurrence / 0,452

11. C pour Support Vector Machine linéaire ; ↵ pour Multinomial Naïve Bayes, Bernoulli

Naïve Bayes et Stochastic Gradient Descent

63

5.5 Corpus WONCAen

Les corpus CNGEfr et WONCAen étant différents, il sera impossible de com-parer les résultats des diverses techniques, appliquées à ceux-ci, directement.Nous commencerons donc par trouver une base comparative à l’aide d’unclassificateur «naïf». La deuxième étape sera d’entraîner un simple classifica-teur Support Vector Machine (SVM) linéaire n’utilisant aucune méthode detraitement automatique du langage naturel (TALN) ou Feature Identification(FI) qui servira de base de comparaison. Enfin, nous pourrons vérifier si lesdiverses techniques exposées plus haut donneront les mêmes gains/pertes deprécision en les appliquant à un corpus anglophone.

Comme aucune autre étude n’a été non plus portée sur le corpus WONCAen,nous ne disposons donc pas de base comparative. Un classificateur «naïf» adonc été utilisé. Il génère ses prédictions en respectant la distribution descatégories des données d’entraînement et obtient un F1-score de 0,048.

5.5.1 Adaptation du corpus

Comme pour le corpus CNGEfr, commençons par identifier les caractéris-tiques à utiliser. Pour se faire, comparons les performances de classificateursSVM linéaires utilisant les différentes techniques de traitement automatiquedu langage naturel (TALN).

La figure 5.11 page suivante presente les differents scores obtenus parles diverses techniques dadaptations du corpus WONCAen et dun classificateurSVM en fonction de son parametre C. On remarque une tendance généraledes données assez similaire aux scores obtenus pour le corpus CNGEfr présen-tées à la figure 5.1 page 50. Cependant, notons que, pour les textes anglais,les écart-types sont moindres. Cela s’explique certainement par le plus grandnombre de données d’entraînement disponible. Enfin, la table 5.8 page sui-vante montre que les méthodes de TALN ne semble apporter que de trèsfaibles gains de précision.

64

Figure 5.11 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C pour différentes adaptations du corpus WONCAen.


Aucune 0,306 0,027 2,5 · 10�3

Racinisation 0,314 +2,47% 0,021 2,5 · 10�3

Lemmatisation 0,312 +1,80% 0,018 1,0 · 10�3

Lemmatisation Filtrée 0,310 +1,31% 0,016 2,5 · 10�3

Table 5.8 – F1-score moyens maximaux atteints par chacune des méthodesd’adaptation appliquées au corpus WONCAen.

5.5.2 Vectorisations et normalisations

Analysons maintenant les différentes techniques de vectorisation et d’éven-tuelles normalisation. La figure 5.12 page suivante présente les différents

65

scores obtenus en fonction du paramètre de pénalisation C d’un classificateurSVM linéaire, par les différentes méthodes de vectorisation et normalisa-tion suivantes : Présence/Abscence des termes dans le document (Présence),nombre d’occurrences des termes dans le document (Occurrence), fréquencedes termes dans les documents (Tf) et Term Frequency-Inverse DocumentFrequency (Tf-Idf).

Figure 5.12 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C pour diverses techniques de vectorisation et normalisation ducorpus WONCAen.

Les remarques faites à la section 5.2 page 52 sont aussi valables ici. Onremarque, effectivement, une forte similitude entre le graphique présenté à lafigure 5.12 (WONCAen) et celui présenté à la figure 5.2 page 53 (CNGEfr).Enfin, la table 5.9 page suivante reporte le réel gain de précision, de plusde 10%, qu’apporte TF-IDF.

66


Occurrence 0,306 0,027 2,5 · 10�3

Présence 0,267 �12,69% 0,023 1,0 · 10�3

Tf 0,302 �1,43% 0,022 5,0 · 10�1

Tf-Idf 0,339 +10,62% 0,026 1,0 · 10�2

Table 5.9 – F1-score moyens maximaux atteints par chacune des méthodesde vectorisation appliquées au corpus WONCAen.

5.5.3 Réductions de dimension

Passons maintenant en revue les différentes méthodes de FI. Tout commeà la section 5.3 page 53, nous commencerons par entraîner un ensemble declassificateurs SVM linéaires afin de trouver une valeur du paramètre de pé-nalisation C cohérente pour l’ensemble des techniques de FI. Nous fixeronsensuite la valeur de ce paramètre et analyserons l’efficacité des différentesméthodes de FI en fonction du nombre N de caractéristiques sélectionnées.Enfin, une fois ces deux paramètres fixés, nous comparerons les performancesde ces méthodes en fonction des différents choix de vectorisations, de norma-lisation et de transformations du corpus WONCAen ; et ceci, avant d’analyserles similitudes avec les résultats portant sur le corpus CNGEfr.

Commençons donc par utiliser chacune des méthodes de FI afin de réduireles vecteurs d’occurrences (Occurrence) à seulement 1 000 caractéristiquessoit 7,23% des caractéristiques totales du corpus WONCAen), et analyser lesperformances de celles-ci à l’aide d’un classificateur SVM linéaire, en fonctionde son paramètre de pénalisation (C).

La table 5.10 page suivante reprend les valeurs maximales (correspon-dantes à la figure 5.13 page suivante) atteintes par chacune des méthodes deFI, ainsi que les valeurs de C correspondantes. Comme pour le corpus CNGEfr,seul Truncated Singular Value Decomposition (tSVD) atteint les résultats ob-tenus sans l’utilisation de technique de réduction de dimension (Aucune).

67

Figure 5.13 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C, pour différentes techniques de réduction de dimension des vec-teurs d’occurrences extraits du corpus WONCAen (N = 1000).


Aucune 0,306 0,027 2,5 · 10�3

�20,186 �39,21% 0,045 5 · 10�2

BNS 0,080 �73,89% 0,005 1 · 101MI 0,211 �31,15% 0,012 1 · 10�2

MI3 0,139 �54,76% 0,008 5 · 10�2

tSVD 0,306 �0,10% 0,026 2,5 · 10�3

Table 5.10 – F1-Measure (F1)-score moyens maximaux atteints par chacunedes méthodes de Feature Identification (N = 1 000).

68

Fixons maintenant la valeur du paramètre C à une valeur de 1 · 10�2 afinde comparer l’efficacité des différentes méthodes de FI en fonction du nombrede dimensions choisi. La figure 5.14 présente les résultats obtenus par unclassificateur SVM linéaire (C = 1 ·10�2) en fonction des différentes méthodesde FI et du nombre de caractéristiques sélectionnées. La table 5.11 page sui-vante reprend, quant à elle, les valeurs maximales correspondantes, atteintespar chacune de ces méthodes, ainsi que le nombre N de caractéristiques asso-cié 12.

Figure 5.14 – F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction du nombre de caractéristiques sélectionnées par les différentes tech-niques de réduction de dimension extraites à partir du corpus WONCAen.

12. Les tests ont été effectués avec N 2 [10, 5 000] (le corpus WONCAen est constitué de13 827 caractéristiques).

69

Méthode µF1 Gains �F1 N

Aucune 0,268 0,017 13 827�2

0,265 �1,00% 0,031 5 · 103BNS 0,252 �5,85% 0,021 5 · 103MI 0,259 �3,20% 0,014 5 · 103MI3 0,151 �43,66% 0,009 5 · 103tSVD 0,293 +9,35% 0,015 2 · 102

Table 5.11 – F1-score moyens maximaux atteints par chacune des méthodesde Feature Identification appliquées au corpus WONCAen, selon le nombre decaractéristiques sélectionnées par un classificateur SVM linéaire (C = 1·10�2).

On remarque, une fois de plus, que les différents scores obtenus, en utili-sant les différentes méthodes de FI, pour le corpus anglophone sont relative-ment similaires à ceux 13 obtenus pour le corpus CNGEfr.

A la section 5.3 page 59, concernant le corpus CNGEfr, on a conclu queles méthodes de TALN n’influençaient que très peu les résultats obtenus parles diverses méthodes de FI. La figure 5.15 page 79 et la table ?? page ??reprennent les F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction des différentes méthodes de réduction de dimension et techniquesde TALN appliquées au corpus WONCAen ; nous pouvons en tirer la mêmeconclusion.

Finalement, constatons avec la figure 5.16 page 80 et la table 5.13page 80, que les differentes techniques de vectorisation et de normalisationn’influencent que peu les resultats obtenus par les differentes methodes deFI appliquées au corpus WONCAen, comme c’était le cas pour le corpus fran-cophone.

13. Voir la table 5.5 page 56

70

5.5.4 Classificateurs

Tout comme la section 5.4 page 61, cette section va présenter les classi-ficateurs ayant obtenu les meilleurs F1-score moyens sur le corpus WONCAen,et ce, pour chacune des méthodes de Machine Learning (ML).

Support Vector Machine linéaire

Le classificateur SVM linéaire le plus performant obtient un F1-score de0,344. Comme celui présenté à la section 5.4.1 page 61, ce classificateur uti-lise deux techniques permettant de réduire le nombre de caractéristiques ducorpus à seulement 1 000 caractéristiques : la lemmatisation filtrée et tSVD.Cependant, celui-ci a en plus recourt à Term Frequency-Inverse DocumentFrequency (TF-IDF) afin de normaliser le nombre d’occurrence de chaqueterme du corpus WONCAen.


SVM (C = 10�2) Lemm. Filt. TF-IDF tSVD (N = 1000) 0,344

Multinomial Naïve Bayes

Les tests concernant le corpus WONCAen et l’utilisation d’un classificateurMultinomial Naïve Bayes (mNB), présentés à la figure 5.17 page 81, serévèlent peu concluant. Et ce, quelles que soient les méthodes de TALN et deFI choisies. Une remarque similaire avait d’ailleurs été faite à la section 5.4.2page 62 concernant cette technique de ML et le corpus CNGEfr. Le meilleurclassificateur mNB n’obtient qu’un F1-score moyen de 0,230. Celui-ci uti-lise, lui aussi, la lemmatisation filtrée et se base simplement sur le nombred’occurrences des mots dans les documents.


mNB (↵ = 10�1) Lemma. Filtr. Occurrence / 0,230

71

Bernoulli Naïve Bayes

Les tests, présentés à la figure 5.18 page 82, reportent que le meilleurclassificateur Bernoulli Naïve Bayes (bNB) obtient seulement un F1-scoremoyen de 0,216. Comme pour le corpus CNGEfr 14, cette technique est doncla moins performante. Elle utilise TF-IDF comme technique de normalisationet réduit ensuite sa dimensionnalité à seulement 100 caractéristiques à l’aidede tSVD.


bNB (↵ = 10�2) Lemm. Filt. TF-IDF tSVD (N = 100) 0,216

Stochastic Gradient Descent

Enfin, la figure 5.19 page 83 présente les tests effectués à l’aide de diffé-rents classificateurs Stochastic Gradient Descent (SGD) pour le corpus WON-CAen. Le meilleur classificateur SGD obtient un F1-score moyen de 0,338.Celui-ci utilise seulement TF-IDF comme technique de normalisation et,comme celui du corpus CNGEfr 15, n’emploie aucune méthode de FI. No-tons, cette fois, que c’est bien un classificateur SVM linéaire qui obtient lesmeilleurs résultats.


SGD (↵ = 10�3) / TF-IDF / 0,338

5.6 Classificateurs optimaux

Le but de ce travail était de trouver technique automatisée de classifi-cation en investiguant les différentes méthodes de Machine Learning , traite-ment automatique du langage naturel, de Feature Identification, de vectori-sation et normalisation. Cette section présente les classificateurs optimaux

14. Voir section 5.4.3 page 6315. Voir section 5.4.4 page 63

72

trouvés.

Le premier a été entraîné et testé sur le corpus CNGEfr et, est destiné àla classification de textes francophones. Il se base sur SGD et sur le nombred’occurrences de chaque terme du corpus après les avoir lemmatisés et fil-trés. En outre, il n’utilise pas aucune technique de Feature Identification etobtient un F1-score moyen de 0,452.

Le deuxième a été entraîné et testé, lui, sur le corpus WONCAen. Il est doncnaturellement destiné à classifier des articles anglophones. Celui-ci obtientun F1-score de 0,344, se base sur SVM linéaire et utilise tSVD afin de ré-duire le nombre de caractéristiques à seulement 1 000 caractéristiques. Cetteréduction ne sera appliquée qu’après avoir normalisé, à l’aide deTF-IDF, lenombre d’occurrences des termes du corpus, une fois ceux-ci lemmatisés etfiltrés.

Corpus ML TALN Vect./Norm. FI µF1

CNGEfr SGD (↵ = 10�1) Lemm. Filtr. Occurrence / 0,452WONCAen SVM (C = 10�2) Lemm. Filtr. TF-IDF tSVD (N = 1 000) 0,344

73

Aucune Lemm. FiltréeCaractéristique Coef. Caractéristique Coef.

qualitative 0,113 qualitatif 0,203entretiens 0,086 entretien 0,149semi 0,059 semi 0,101analyse 0,049 facultaire 0,058focus 0,039 analyse 0,058représentations 0,036 focus 0,056vécu 0,036 dirigés 0,056thématique 0,032 représentation 0,054dirigés 0,032 thématique 0,053auprès 0,028 gef 0,052directifs 0,028 analyser 0,050relation 0,024 vécu 0,045compétence 0,024 examen 0,043étude 0,023 relation 0,043entretien 0,023 directifs 0,041logiciel 0,022 responsabilité 0,039freins 0,022 group 0,038gef 0,022 auprès 0,038groups 0,021 serment 0,036forums 0,021 hippocrate 0,036

Table 5.2 – Caractéristiques les plus discriminantes pour QR41 en fonctiondes méthodes de TALN.

Compare les 20 caractéristiques les plus discriminantes utilisées par un clas-sificateur SVM afin de distinguer la catégorie QR41 a b avec celle d’un classi-ficateur SVM utilisant la lemmatisation filtrée.

a. Outil de recherche & développement (QR) > Méthodes de recherche (QR4) > EtudeQualitative (QR41)

b. Voir table 3.1 page 36.

74

(a) N = 100 (b) N = 200

(c) N = 500 (d) N = 1 000

(e) N = 2 000 (f) N = 5 000

Figure 5.7 – F1-score d’un classificateur SVM linéaire en fonction de sonparamètre C pour différentes techniques de réduction de dimension des carac-téristiques extraites à partir du corpus CNGEfr après lemmatisation et filtragede ses termes.

75

(a) F1-score d’un classificateur mNB en

fonction de son paramètre ↵ et des diffé-

rentes techniques de traitement automa-

tique du langage naturel appliquées au

corpus CNGEfr.

(b) F1-score d’un classificateur mNB en


rentes techniques de réduction de dimen-

sion (N = 1 000) des caractéristiques ex-

traites à partir du corpus CNGEfr.

(c) F1-score d’un classificateur mNB en

fonction de son paramètre ↵ pour diverses

techniques de vectorisation et normalisa-

tion du corpus CNGEfr.

(d) F1-score d’un classificateur mNB (↵

= 0,1) en fonction des différentes mé-

thodes de réduction de dimension et tech-

niques de traitement automatique du lan-

gage naturel appliquées au corpus CNGEfr(N = 1 000).

Figure 5.8 – Multinomial Naïve Bayes (CNGEfr)

76

(a) F1-score d’un classificateur bNB en

fonction de son paramètre ↵ et des dif-

férentes techniques de traitement auto-

matique du langage naturel appliquées au

corpus CNGEfr.

(b) F1-score d’un classificateur bNB en



sion (N = 100) des caractéristiques ex-


(c) F1-score d’un classificateur bNB en




(d) F1-score d’un classificateur bNB (↵




gage naturel appliquées au corpus CNGEfr(N = 100).

Figure 5.9 – Bernoulli Naïve Bayes (CNGEfr)

77

(a) F1-score d’un classificateur SGD en




corpus CNGEfr.

(b) F1-score d’un classificateur SGD en





(c) F1-score d’un classificateur SGD en




(d) F1-score d’un classificateur SGD (↵




gage naturel appliquées au corpus CNGEfr(N = 1 000).

Figure 5.10 – Stochastic Gradient Descent (CNGEfr)

78

(a) N = 100 (b) N = 1 000

Figure 5.15 – F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction des différentes méthodes de réduction de dimension et techniques detraitement automatique du langage naturel appliquées au corpus WONCAen.

Original Racinisation a Lemmatisation b Lemm. Filtrée c


Aucune 0,268 0,017 0,198 �25,97% 0,019 0,262 �2,24% 0,012 0,339 +26,41% 0,026

N = 100�2

0,124 �53,79% 0,010 0,125 �53,54% 0,014 0,125 �53,43% 0,012 0,127 �52,58% 0,012BNS 0,044 �83,65% 0,009 0,046 �83,01% 0,005 0,044 �83,46% 0,010 0,044 �83,68% 0,015MI 0,134 �50,13% 0,008 0,133 �50,46% 0,010 0,135 �49,47% 0,013 0,132 �50,62% 0,013MI3 0,125 �53,46% 0,008 0,137 �49,03% 0,007 0,128 �52,15% 0,005 0,126 �53,03% 0,008tSVD 0,267 �0,29% 0,014 0,270 +0,71% 0,014 0,267 �0,33% 0,019 0,266 �0,72% 0,016

N = 1 000�2

0,185 �30,81% 0,042 0,200 �25,53% 0,052 0,189 �29,28% 0,046 0,195 �27,08% 0,041BNS 0,060 �77,73% 0,011 0,068 �74,45% 0,006 0,062 �77,00% 0,007 0,115 �57,22% 0,012MI 0,211 �21,32% 0,012 0,215 �19,94% 0,009 0,219 �18,28% 0,010 0,225 �16,13% 0,014MI3 0,136 �49,21% 0,008 0,144 �46,17% 0,010 0,139 �48,27% 0,007 0,134 �50,17% 0,012tSVD 0,267 �0,29% 0,017 0,281 +4,92% 0,009 0,277 +3,25% 0,015 0,286 +6,73% 0,016

Table 5.12 – F1-score moyens atteints par chacune des méthodes de FeatureIdentification par un classificateur SVM linéaire (C = 1 · 10�2) selon les diffé-rentes techniques de traitement automatique du langage naturel appliquéesau corpus CNGEfr.

a. voir section 2.2.3 page 16b. voir section 2.2.3 page 18c. voir section 2.2.3 page 17

79

(a) N = 100 (b) N = 1 000

Figure 5.16 – F1-score d’un classificateur SVM linéaire (C = 1 · 10�2) enfonction des différentes méthodes de réduction de dimension (N = 1 000) ettechniques de vectorisation appliquées au corpus WONCAen.

Occurrence a Présence TF TF-IDFMéthode µF1 Gains �F1 µF1 Gains �F1 µF1 Gains �F1 µF1 Gains �F1

Aucune 0,268 0,017 0,198 �25,97% 0,019 0,262 �2,24% 0,012 0,339 +26,41% 0,026

N = 100�2

0,124 �53,79% 0,010 0,116 �56,85% 0,019 0,120 �55,35% 0,009 0,116 �56,80% 0,019BNS 0,044 �83,65% 0,009 0,046 �83,00% 0,008 0,039 �85,36% 0,006 0,037 �86,32% 0,010MI 0,134 �50,13% 0,008 0,143 �46,47% 0,008 0,136 �49,30% 0,007 0,140 �47,87% 0,005MI3 0,125 �53,46% 0,008 0,103 �61,66% 0,011 0,087 �67,66% 0,010 0,090 �66,32% 0,010tSVD 0,267 �0,29% 0,014 0,249 �6,91% 0,024 0,224 �16,59% 0,013 0,270 +0,92% 0,017

N = 1 000�2

0,185 �30,81% 0,042 0,174 �35,07% 0,016 0,173 �35,30% 0,016 0,190 �28,94% 0,015BNS 0,060 �77,73% 0,011 0,057 �78,58% 0,009 0,051 �81,04% 0,010 0,061 �77,16% 0,008MI 0,211 �21,32% 0,012 0,240 �10,37% 0,011 0,206 �23,18% 0,004 0,234 �12,64% 0,009MI3 0,136 �49,21% 0,008 0,094 �64,93% 0,012 0,040 �85,11% 0,011 0,068 �74,75% 0,010tSVD 0,267 �0,29% 0,017 0,198 �25,97% 0,019 0,262 �2,25% 0,012 0,339 +26,41% 0,026

Table 5.13 – F1-score moyens atteints par chacune des méthodes de FeatureIdentification (N = 1 000) par un classificateur SVM linéaire (C = 1 · 10�2)selon les différentes techniques de vectorisation du corpus CNGEfr.

a. Voir section 2.2.2 page 14

80

(a) F1-score d’un classificateur mNB en




corpus WONCAen.

(b) F1-score d’un classificateur mNB en




traites à partir du corpus WONCAen.

(c) F1-score d’un classificateur mNB en



tion du corpus WONCAen.

(d) F1-score d’un classificateur mNB (↵ =

0,1) en fonction des différentes méthodes

de réduction de dimension et techniques

de traitement automatique du langage

naturel appliquées au corpus WONCAen (N= 1 000).

Figure 5.17 – Multinomial Naïve Bayes (WONCAen)

81

(a) F1-score d’un classificateur bNB en

fonction de son paramètre ↵ et des dif-

férentes techniques de traitement auto-

matique du langage naturel appliquées au

corpus WONCAen.

(b) F1-score d’un classificateur bNB en





(c) F1-score d’un classificateur bNB en




(d) F1-score d’un classificateur bNB (↵ =

0,1) en fonction des différentes méthodes

de réduction de dimension et techniques

de traitement automatique du langage

naturel appliquées au corpus WONCAen (N= 100).

Figure 5.18 – Bernoulli Naïve Bayes (WONCAen)

82

(a) F1-score d’un classificateur SGD en




corpus WONCAen.

(b) F1-score d’un classificateur SGD en





(c) F1-score d’un classificateur SGD en




(d) F1-score d’un classificateur SGD (↵

= 10

�3

) en fonction des différentes mé-

thodes de réduction de dimension et

techniques de traitement automatique

du langage naturel appliquées au corpus

WONCAen (N = 1 000).

Figure 5.19 – Stochastic Gradient Descent (WONCAen)

83

Chapitre 6

Conclusion

L’objectif de ce travail était de trouver une méthode automatisée capabled’analyser le contenu d’articles traitants de médecine générale non clinique etde prédire les catégories 3CGP/FM correspondantes. Le but était donc d’inves-tiguer diverses techniques de Machine Learning afin de résoudre un problèmede Text Classification.

Les principales difficultés provenaient de la faible quantité de donnéesd’exemples disponibles, du nombre important de catégories à identifier, et dela forte spécificité du champ d’application de 3CGP/FM rendant les catégoriesdifficiles à discerner. Afin de remédier à ces problématiques, nous avons ré-pondu à trois questions posées 1.

La première question était de savoir quelle combinaison des techniquesde traitement automatique du langage naturel et de Feature Identificationutiliser afin de faire face aux problèmes de chevauchement des catégories etde la faible quantité d’échantillons étiquetés disponibles ?

Afin de répondre à cette question, plus de neuf mille classificateurs ontété entraînés, testés et comparés. Ceux-ci utilisaient une combinaison de mé-thodes de traitement automatique du langage naturel telles que la racinisa-tion, la lemmatisation et la lemmatisation dont les mots ont été filtrés enfonction de leur nature (Etiquetage Morpho-Syntaxique) ; de techniques deFeature Identification telles que Chi-Squared , Bi-Normal Separation, Mutual

1. Voir section 1.1 page 6

84

Information, Cube Mutual Information, Truncated Singular Value Decom-position ; et d’autres techniques de vectorisation et normalisation du corpustelles que Bag-Of-Words, Term Frequency-Inverse Document Frequency (TF-IDF), etc.

En comparant les F1-scores moyens obtenus par chacune de ses combi-naisons, on a conclu que bien que les méthodes de traitement automatiquedu langage naturel améliorent toutes la fiabilité des classificateurs, seule lalemmatisation filtrée apporte un réel gain de précision 2. Concernant les tech-niques de vectorisation et normalisation, TF-IDF est à favoriser 3. Quant auxméthodes de Feature Identification, seul Truncated Singular Value Decompo-sition (tSVD) est à utiliser. En effet, bien que cette dernière méthode di-minue le nombre de caractéristiques à seulement 0,79% des caractéristiquestotales du corpus, elle apporte des gains de précision de plus 13%, alors queles autres dégradent de façon significative les scores obtenus par les classi-ficateurs 4. Enfin, on a aussi pu s’apercevoir que le choix des méthodes detraitement automatique du langage naturel n’influence globalement pas lesgains d’efficacité apportés par les techniques de Feature Identification.

La deuxième question posée était de savoir si l’efficacité démontrée de cestechniques était similaire pour le corpus francophone et pour l’anglophone ?

A cette fin, plus de deux mille autres classificateurs ont été entraînés avecdiverses combinaisons des techniques présentées plus haut. Ceux-ci ont été,cette fois, entraînés et testés sur le corpus anglophone WONCAen. On a alorsanalysé les F1-scores moyens obtenus par chacun de ceux-ci. Plus particu-lièrement, nous avons comparé les gains apportés par chacune des méthodesde traitement automatique du langage naturel, de Feature Identification, devectorisation et de normalisation 5.

Nous avons pu en conclure que l’efficacité de ces différentes techniquessemble être dans l’ensemble similaire pour le corpus francophone et celuianglophone. Cependant, on a pu remarquer que les méthodes de traitementautomatique du langage naturel n’apportent plus que d’insignifiants gains

2. Voir section 5.1 page 493. Voir section 5.2 page 524. Voir section 5.3 page 535. Voir section 5.5 page 64

85

de précision une fois appliqués au corpus anglophone. De la même manière,tSVD semble moins performant sur les textes anglais, tandis que pour lanormalisation TF-IDF, c’est l’inverse.

La troisième et dernière question visait à savoir si chaque technique deMachine Learning s’accorde sur le même ensemble de caractéristiques opti-males ?

L’idée a donc été de comparer les quelque onze mille classificateurs précé-dents, tous basés sur Support Vector Machine (SVM) avec un noyau linéaire,avec d’autres méthodes de Machine Learning . C’est donc presque six milleautres classificateurs qui ont été entraînés et testés sur les corpus CNGEfret WONCAen. Ces derniers ont permis de comparer l’efficacité des différentestechniques de traitement automatique du langage naturel, de Feature Identi-fication, de vectorisation et de normalisation ; appliquées à un classificateurSVM linéaire face à d’autres méthodes de Machine Learning telles que : Ber-noulli Naïve Bayes (bNB), Multinomial Naïve Bayes (mNB) et StochasticGradient Descent (SGD).

Ces nouveaux classificateurs montrent que les techniques de MachineLearning ne semblent pas s’accorder sur le même ensemble de caractéris-tiques optimales. En effet, bNB et SVM obtiennent de meilleurs scores enutilisant tSVD alors que les résultats des classificateurs utilisant SGD sontau plus haut quand ils se passent de techniques de Feature Identification(FI) 6. On a aussi pu s’apercevoir que les méthodes de Machine LearningbNB et mNB obtiennent de piètres résultats face à SVM et SGD.

L’objectif principal de ce travail était de trouver une méthode automatiséecapable d’analyser le contenu d’articles traitants de médecine générale nonclinique et de prédire les catégories 3CGP/FM correspondantes.

Deux classificateurs optimaux ont été sélectionnés parmi les quelquesquinze mille analysés 7 . Le premier a été entraîné et testé sur le corpusWONCAen. Il est donc destiné à classifier des articles anglophones. Celui-ci ob-tient un F1-score de 0,344 et se base sur SVM. Le deuxième a été entraîné

6. Voir section 5.4 page 617. Voir section 5.6 page 72

86

et testé, lui, sur le corpus CNGEfr et, est destiné à la classification de textesfrancophones. Il se base sur SGD et obtient un F1-score de 0,452.

Pour aller encore plus loin, plusieurs pistes d’améliorations pourraient êtreexplorées. Une idée serait notamment d’exploiter le caractère hiérarchique de3CGP/FM.

87

Annexes


QC patient’s category catégorie de patientsQC1 age group groupe d’âgeQC11 infant nourrissonQC12 child enfantQC13 adolescent adolescentQC15 adult adulteQC16 elderly personne âgéeQC2 gender issue question de genreQC21 men’s health santé de l’hommeQC22 women’s health santé de la femmeQC23 sex difference différence de sexeQC24 transgender transgenreQC3 social high risk haut risque socialQC31 ethnic subgroup sous-groupe ethniqueQC32 migrant & refugee migrant et réfugiéQC33 homeless sans-abriQC34 prisoner prisonnierQC4 addict dépendantQC41 prescribed drug addict dépendant de médicament sous prescriptionQC42 street drug addict dépendant de drogue de rueQC43 game addict dépendant du jeuQC5 assault violenceQC51 battered woman femme battueQC52 victim of abuses victime d’abusQC53 torture tortureQC54 ritual mutilation mutilation rituelleQD doctor’s issue enjeu du médecinQD1 communicator communicateurQD11 encounter management gestion de la rencontreQD12 doctor-patient relationship relation médecin-patientQD13 counselling counsellingQD14 systemic evaluation évaluation systémiqueQD15 motivational interviewing entrevue motivationnelleQD2 doctor as caregiver médecin comme soignantQD21 problem solving résolution de problèmesQD22 comprehensiveness globalitéQD23 health education éducation à la santéQD24 clinical skill compétence cliniqueQD25 continuity of care continuité des soinsQD26 palliative care soins palliatifsQD28 family planing planification familialeQD29 out of hour care garde médicaleQD3 care manager gestionnaire de soinsQD31 health risk management gestion du risque de santéQD32 health issue management gestion des problèmes de santéQD33 health status assessment évaluation de l’état de santéQD34 multimorbidity multimorbiditéQD35 genetic issues question génétiqueQD4 clinical prevention prévention cliniqueQD41 primary prevention prévention primaireQD42 secondary prevention prévention secondaireQD43 tertiary prevention prévention tertiaireQD44 quaternary prevention prévention quaternaireQD440 overinformation surinformationQD441 medically unexplained symptom symptôme médicalement inexpliquéQD442 overmedicalisation surmédicalisationQD443 deprescription déprescriptionQD444 shared decision making prise de décision partagéeQD445 incidentaloma fortuitomeQD446 disease mongering fabrication de maladie

Continue à la page suivante

I


QC patient’s category catégorie de patientsQD447 overscreening surdépistageQD448 overtreatment surtraitementQD449 overdiagnosis surdiagnosticQD5 complementary medicine médecine complémentaireQD51 homeopathy homéopathieQD6 medico legal issue question medico-légaleQD7 professional image & identity image et identité professionnelleQD8 health provider personal life vie personnelle du prestataire de santéQE medical ethics éthique médicaleQE1 provider personal ethical view éthique personnelle du dispensateur de santéQE2 professional ethics éthique professionnelleQE3 bioethics bioéthiqueQE31 euthanasia euthanasieQE4 infoethics info-éthiqueQE41 confidentiality confidentialitéQE42 informed consent consentement éclairéQH hazards risques et dangersQH1 environmental hazard risque environnementalQH11 indoor pollution pollution intérieureQH12 outdoor pollution pollution extérieureQH2 biological hazard risque biologiqueQH3 nuclear hazard risque nucléaireQO other autreQO1 unable to code ; too generic impossible à coder, trop génériqueQO2 unable to code, unclear impossible à coder, imprécisQO21 acronym acronymeQO22 unable to code, verbosity impossible à coder, verbositéQO23 structure of the abstract not respected structure du résumé non respectéeQO3 out of scope of family medicine hors du champ de la médecine de familleQO4 consider new code considérez nouveau codeQO5 flawed concept notion erronéeQP patient issue enjeu du patientQP1 diagnostic process processus diagnostiqueQP11 availability of diagnostic process disponibilité du processus diagnostiqueQP12 safety of diagnostic process sécurité du processus diagnostiqueQP2 therapeutic process processus thérapeutiqueQP21 availability of therapeutic process disponibilité du processus thérapeutiqueQP22 over the counter médicament sans ordonnanceQP23 comfort of therapeutic process confort du processus thérapeutiqueQP24 safety of therapeutic process sécurité du processus thérapeutiqueQP3 organization of practice & health care organisation du cabinet et des soins de santéQP31 availability of health care disponibilité des soins de santéQP32 accessibility of health care accessibilité des soins de santéQP33 acceptability of health care acceptabilité des soins de santéQP34 safety of health care sécurité des soins de santéQP37 quality of health care qualité des soins de santéQP4 patient view opinion du patientQP41 patient appraisal évaluation du patientQP42 patient satisfaction satisfaction du patientQP43 patient knowledge connaissances du patientQP44 patient autonomy/dependency autonomie et dépendance du patientQP45 patient cultural background contexte culturel du patientQP46 patient expense dépense du patientQP5 patient health habit habitude de santé du patientQP51 patient nutrition nutrition du patientQP52 patient’s sexuality sexualité du patientQP53 self-care & hygiene du patient auto-soin et l’hygiène du patientQP6 patient’s participation participation du patientQP61 social network réseau socialQR research & development tool outil de recherche & développementQR1 science philosophy philosophie des sciencesQR2 epidemiology of primary care épidémiologie des soins primairesQR21 pharmacoepidemiology pharmaco-épidémiologieQR22 community health study étude de santé communautaireQR26 clinical trial essai cliniqueQR3 functional status état fonctionnelQR4 research method méthodes de rechercheQR41 qualitative study étude qualitativeQR42 research network réseau de rechercheQR43 longitudinal study étude longitudinaleQR44 cross-sectional study étude transversaleQR45 retrospective study étude rétrospectiveQR46 mixed study étude mixteQR47 action research recherche-actionQR48 delphi study étude delphiQR49 case report rapport de casQR5 classification & terminology classification & terminologieQR6 research tools outils de rechercheQR61 scale & questionnaire échelle et questionnaireQR62 vignette, audio, video vignette, audio, vidéo

Continue à la page suivante

II


QC patient’s category catégorie de patientsQR63 simulated patient patient simuléQR7 health economy économie de la santéQR8 primary care planning & organization planification et organisation des soins primairesQS structure of practice structure de la pratiqueQS1 infrastructure of practice infrastructure de la pratiqueQS11 primary care setting établissement de soins primairesQS12 economy of practice économie de la pratiqueQS15 health information management gestion de l’information de santéQS16 practice equipment équipement de la pratiqueQS161 billing system système de facturationQS17 practice security sécurité de la pratiqueQS18 ambulatory emergency setting service d’urgence ambulatoireQS2 practice relationship relation de la pratiqueQS21 practice collaboration collaboration de la pratiqueQS22 referral and counter-referral référence et contre-référenceQS23 coordination of care coordination des soinsQS24 transdisciplinarity transdisciplinaritéQS3 professional body organisme professionnelQS4 primary care provider fournisseur de soins primairesQS41 family doctor, general practitioner médecin de famille, médecin généralisteQS42 nurse practitioner infirmière praticienneQS43 primaty care physiotherapist physiothérapeute de soins primairesQS44 primary care social worker travailleur de services sociaux primairesQS45 primary care psychologist psychologue de soins primairesQS46 midwife sage-femmeQS47 family caregiver aidant familialQS48 primary care pharmacist pharmacien de soins primairesQT knowledge management in health care gestion des connaissances en soins de santéQT1 teaching enseignementQT11 pedagogic method méthode pédagogiqueQT12 teaching organization organisation de l’enseignementQT13 teaching & training evaluation évaluation de l’enseignement et de la formationQT4 training formationQT41 undergraduate étudiantQT42 vocational training formation professionnelleQT43 continuous medical education éducation médicale continueQT44 supervision and Balint supervision et balintQT45 trainer and supervisor formateur et superviseurQT46 academic organisation organisation académiqueQT47 training organization organisme de formationQT5 quality assurance assurance de qualitéQT51 evidence based medicine médecine fondée sur des preuvesQT52 guidelines recommandation de bonne pratiqueQT53 critical reading & review lecture critique et revue de littératureQT54 peer review examen par les pairsQT55 accreditation process processus d’accréditationQT56 quality indicator indicateur de qualitéQT6 knowledge dissemination diffusion des connaissancesQT61 publishing publicationQT62 online publishing publication en ligneQT63 digital library bibliothèque numériqueQT64 email communication communication par courrielQT7 health data reporting notification de données de santéQT71 sentinel network réseau sentinelleQT72 adverse event reporting notification d’effets indésirablesQT73 health database base de données de santé

Table A.1 – Catégories Core Content Classification in General Practice /Family medicine

III

id5

titleVous avez dit Hemoccult ?

bodyLe taux de participation au depistage oganise du cancer colorectal en France est

insuffisant. L’implication�du�medecin�generaliste(MG)�est�indispensable�pour�garantir�une�bonne�participation�de�ses�patients.�Parmi�les�obstacles�evoques�par�les�medecins�dans�les�travaux�qualitatifs�deja�realises,�figuraient�le�manque�de�temps,�la�multiplicite�des�motifs�de�consultation�et�l’oubli de proposer le test. Quelles sontles circonstances de delivrance du test Hemoccult dans la pratique des MG ?

Participation a l’etude�ECOGEN,�etude�transversale�multicentrique�realisee�en�population�de�medecine�generale.�54�internes�en�stage�de�medecine�generale�ont�recueilli�et�code�selon�la�CISP2�le�contenu�des�consultations�de�leurs�maitres�de�stage�une�journee�par�semaine�pendant�5�mois.�Selection�et�analyse�des�consultations�avec�remise�du�test�Hemoccult.

20781�consultations�ont�ete�saisies�et�analysees,�179�consultations�comportaient�une�remise�du�test�Hemoccult.�En�moyenne�2,64�IC95%�[2,40-2,88]�problemes�de�sante�etaient�abodes�en�plus�de�la�remise�du�test.�Les�consultations�avec�remise�du�test�Hemoccult�etaient�plus�longues�de�1.96�minute�IC95%�[0.78��3.14]�en�moyenne�(p=0.001).�70%�des�tests�ont�ete�remis�a�la�demande�du�patient�vs�30%�a�l’initiative du medecin. La duree deconsultation et le nombre de problemes associes etaient similaires dans les deuxgroupes.

Cette etude confirme que les medecins generalistes ont plusieurs autres problemes a traiteren plus de la remise du test Hemoccult los de la consultation. La duree globale de

consultation est peu allongee par la remise du test, ceci est un argument fot apresenter pour encourager les MG a participer plus activement au depistage du cancercoloectal.

Figure A.1 – Exemple de document tiré de CNGEfr

IV

<?xml version="1.0" encoding="UTF-8"?><numero><![CDATA[22]]></numero><auteur><![CDATA[Denis Pouchain]]></auteur><organisation><![CDATA[CNGE]]></organisation><co-Auteurs><![CDATA[D. Pouchain - CNGE JL.

Bosson - CHU Grenoble JF Bergmann - CHU Lariboisière]]></co-Auteurs><topic><![CDATA[Circulatory]]></topic><type><![CDATA[Oral Communication]]></type><titre><![CDATA[INCIDENCE OF SYMPTOMATIC THROMBOEMBOLISM AND DESCRIPTION OF

THROMBOPROPHYLAXIS PRACTICES]]></titre><article><![CDATA[Background. As recommendations are based on hospital studies, the

incidence of venous thromboembolic events (VTE) in bedridden patients for acute medicaldisease, treated at home by GPs’ is not known.<br />

Aims. To assess the incidence of clinical VTE at 21 days. To describe how GPs’ decide aprevention of DVT regarding a protocol table based on classical risk factors.<br />

Method. Prospective multicentre epidemiological study, conducted with 2 895 GPs randomlydrawn from the French database. Patients of at least 40 years old, having an acutemedical illness leading to at least 48 hours, and reduced mobility period justifying ahome visit were consecutively included.<br />

Results.17 194 subjects were included and 16 532 (96.1%) were analysed. Patients had one ormore medical diseases associated: hypertension (39%), venous insufficiency of lower

limbs with varicose veins (30%), serious infectious pathology (29%), acuterheumatologic episode (27%), and diabetes (15%). Medical history of included patientswas: DVT (14%), cardiac failure (12%), cancer (9%), MI and stroke (5%). Among includedpatients, 2 982 (18%) were considered at high risk. 5 782 (35%) subjects were treatedwith prophylactic anticoagulant drugs. Median DVT occurrence time was 7 days. 164 DVTwere diagnosed and 128 were confirmed, that is an incidence of 1% (CI95% 0.84-1.14].Finally, 182 events were collected with 33 PE, and the incidence of clinical VTE was1.10% (CI95% 0.94-1.26).<br />

Conclusion. ETAPE study shows the reality of a high venous thromboembolic risk population,leading to a 1.1% incidence of events, which is to compare to the rate (range 1.3-3.3%)in orthopaedic surgery.<br />

]]></article>

Figure A.2 – Exemple de document tiré de WONCAen

V

CNGEfr(493 documents francophones)

WONCAen(974 documents anglophones)

O R L Lf O R L Lf

CaractèresMoy. 2 219 1 944 2 234 1 683 1 640 1 495 1 632 1 075Std. 618 543 622 473 188 169 188 161

MotsMoy. 343 343 345 212 258 257 258 144Std. 96 96 96 60 28 28 28 19

FeaturesTotal 12 649 8 034 9 500 9 438 13 827 11 273 12 754 9 882

Table A.2 – Statistiques des corpus CNGEfr et WONCAen en fonction destechniques de Feature Extraction (FE) utilisées.

Où O est le corpus original, R correspond à l’application d’une méthode deRacinisation a, L celle d’une Lemmatisation b, et Lf celle d’une lemmatisationà laquelle on a filtré les mots en fonction de leur POS-tag c.

a. voir section 2.2.3 page 16b. voir section 2.2.3 page 18c. voir section 2.2.3 page 17

VI

Fonction Dénoté par Forme mathématique

Chi-Squared �2(t

k

, ci

)

|Tr|·[P (tk,ci)·P (tk,ci)�P (tk,ci)·P (tk,ci)]2

P (tk)·P (tk)·P (ci)·P (ci)

NGL coefficient NGL(tk

, ci

)

p|Tr| ·[P (tk,ci)·P (tk,ci)�P (tk,ci)·P (tk,ci)]p

P (tk)·P (tk)·P (ci)·P (ci)

Mutual Information MI(tk

, ci

) log

P (tk,ci)P (tk)·P (ci)

Cube Mutual Information MI3(tk

, ci

) log

P (tk,ci)3

P (tk)·P (ci)

Bi-Normal Separation BNS(tk

, ci

) |F�1(P (t

k

|ci

))� F�1(P (t

k

|ci

))|

Document Frequency #(tk

, ci

) P (tk

|ci

)

DIA association factor z(tk

, ci

) P (ci

|tk

)

Term Strengh TS(tk

) P (tk

2 d1|tk 2 d2) où d1, d2 2 D

Information Gain IG(tk

, ci

)

Pc2{ci,ci}

Pt2{tk,tk} P (t, c) · log P (t,c)

P (t)·P (c)

Accuracy Balanced Acc2(tk

, ci

) |P (tk

|ci

)� P (tk

|ci

)|

Relevency Score TS(tk

, ci

) log

P (tk|ci)+d

P (tk|ci)+d

Odds Ratio Numerator OddN(tk

, ci

) P (tk

|ci

) · (1� P (tk

|ci

))

Odds Ratio Odds(tk

, ci

)

P (tk|ci)·(1�P (tk|ci))(1�P (tk|ci))·P (tk|ci)

GSS Coefficient GSS(tk

, ci

) P (tk

, ci

) · P (

¯tk

, ci

)� P (tk

, ci

) · P (

¯tk

, ci

)

Power Pow(tk

, ci

) (1� P (tk

|ci

))

p � (1� P (tk

|ci

))

p où p 2 N

Probability Ratio PR(tk

, ci

) P (tk

|ci

)/P (tk

|ci

)

Table A.3 – Formules des principales fonctions de Feature Selection

où |Tr| est le nombre de documents dans l’ensemble de test. P (tk

) est laprobabilité que le terme t

k

apparaisse dans un document ; P (

¯tk

), celle qu’il n’yapparaisse pas. P (c

i

) est la probabilité qu’un document aléatoire soit classédans c

i

; P (ci

), celle qu’il ne le soit pas. P (tk

, ci

) est la probabilité conjointequ’un document soit classé dans c

i

et qu’il contienne tk

; et, P (tk

|ci

) est laprobabilité conditionnelle du terme t

k

sachant la classe ci

. Enfin, où F�1 estla fonction inverse de la probabilité cumulée de la loi normale standard.

VII

Loss Stochastic Gradient Algorithm

Adaline [71]Q

adaline

=

12

�y � w>

�(x)�2

w w + �t

�yt

� w>�(x

t

)

��(x

t

)Features �(x) 2 Rd, Classes y = ±1

Perceptron [53]Q

perceptron

= max

�0,�yw>

�(x)

w w + �t

⇢yt

�(xt

) if yt

w>�(x

t

) 0,0 otherwiseFeatures �(x) 2 Rd, Classes y = ±1

K-Means [34]Q

kmeans

= min

k

12 (z � w

k

)

2k⇤

= argmin

k

(zt

� wk

)

2

nk

⇤ nk

⇤+ 1

wk

⇤ wk

⇤+

1nk⇤

zt

� wk

⇤

(counts provide optimal learning rates !)

Data z 2 Rd

Centroids w1 . . . wk

2 Rd

Counts n1 . . . nk

2 N, initially 0

SVM [11]Q

svm

= max

�0, 1� yw>

�(x)

w w � �t

⇢�w if y

t

w>�(x

t

) > 1,�w � y

t

�(xt

) otherwiseFeatures �(x) 2 Rd, Classes y = ±1

Hyperparameter � > 0

Lasso [63]Q

lasso

= �|w|1 + 12

�y � w>

�(x)�2

ui

⇥ui

� �t

��

yt

� w>�(x

t

)

��

i

(xt

)

�⇤+

vi

⇥vi

� �t

��

yt

� w>�(x

t

)

��

i

(xt

)

�⇤+

with notation [x]+ = max{0, x}w = (u1 � v1, . . . , ud

� vd

)

Features �(x) 2 Rd, Classes y = ±1

Hyperparameter � > 0

Table A.4 – Algorithmes du gradient pour plusieurs systèmes d’apprentis-sages [5]

VIII

Termes et Abréviations

F1 F1-Measure.�2 Chi-Squared .CNGEfr CNGEfr.WONCAen WONCAen.3CGP/FM Core Content Classification in General Practice / Family

medicine.

AB AdaBoost .Acc Accuracy .Acc2 Accuracy Balanced .

bNB Bernoulli Naïve Bayes.BNS Bi-Normal Separation.BOW Bag-Of-Words.

DF Document Frequency .DIA DIA association factor .

EMS Etiquetage Morpho-Syntaxique.

FE Feature Extraction.FI Feature Identification.FS Feature Selection.

GD Gradient Descent .GO Gene Ontology .GSS GSS Coefficient .

ICPC International Classification of Primary Care.

IX

IDF Inverse Document Frequency.IG Information Gain.

kNN k Nearest-Neighbor .

LSI Latent Semantic Indexing.

MEC Maximum Entropy Classification.MeSH Medical Subject Headings .MI Mutual Information.MI3 Cube Mutual Information.ML Machine Learning .mNB Multinomial Naïve Bayes .

NB Naïve Bayes .NGL NGL coefficient .NLP Natural Language Processing .NLTK Natural Language Processing Toolkit.

OddN Odds Ratio Numerator .Odds Odds Ratio.

POS Part-Of-Speech.Pow Power .PR Probability Ratio.

RS Relevency Score.

SGD Stochastic Gradient Descent .SL Supervised Learning .SVD Singular Value Decomposition.SVM Support Vector Machine.

TALN traitement automatique du langage naturel.TC Text Classification.TD Training Data.TF Term Frequency .

X

TF-IDF Term Frequency-Inverse Document Frequency .TI Test Instancers .TS Term Strengh.tSVD Truncated Singular Value Decomposition.

UMLS R� Unified Medical Language System R�.

WONCA World Organization of National Colleges, Academies and Aca-demic Associates of General Practitioners/Family Physicians .

Wonca World Organization of Family Doctors .

XI

Références

[1] Loïc Antoine. Apprentissage automatique pour le traitement des lan-gages naturels. Master’s thesis, Université de Liège, 2014.

[2] Steven Bird, Ewan Klein, et Edward Loper. Natural language processingwith Python. " O’Reilly Media, Inc.", 2009.

[3] Steven Bird, Ewan Klein, et Edward Loper. Natural Language Processingwith Python. O’Reilly Media, Inc., 1st edition, 2009. ISBN 0596516495,9780596516499.

[4] Léon Bottou. Large-scale machine learning with stochastic gradientdescent. In Proceedings of COMPSTAT’2010, pages 177–186. Springer,2010.

[5] Léon Bottou. Stochastic gradient descent tricks. In Neural Networks :Tricks of the Trade, pages 421–436. Springer, 2012.

[6] Eric Brill. Transformation-based error-driven learning and natural lan-guage processing : A case study in part-of-speech tagging. Comput.Linguist., 21(4) :543–565, December 1995. ISSN 0891-2017. URLhttp://dl.acm.org/citation.cfm?id=218355.218367.

[7] Christopher JC Burges. A tutorial on support vector machines for pat-tern recognition. Data mining and knowledge discovery, 2(2) :121–167,1998.

[8] David Maxwell Chickering. Learning bayesian networks is np-complete.In Learning from data, pages 121–130. Springer, 1996.

[9] D Paice Chris. Another stemmer. In ACM SIGIR Forum, volume 24,pages 56–61, 1990.

[10] Kenneth Ward Church et Patrick Hanks. Word association norms, mu-tual information, and lexicography. Computational linguistics, 16(1) :22–29, 1990.

XII

http://dl.acm.org/citation.cfm?id=218355.218367

[11] Corinna Cortes et Vladimir Vapnik. Support-vector networks. Machinelearning, 20(3) :273–297, 1995.

[12] Béatrice Daille. Approche mixte pour l’extraction de terminologie : sta-tistique lexicale et filtres linguistiques. PhD thesis, 1994.

[13] John E Dennis Jr et Robert B Schnabel. Numerical methods for uncons-trained optimization and nonlinear equations, volume 16. Siam, 1996.

[14] Richard O Duda, Peter E Hart, et David G Stork. Pattern classification.2000.

[15] Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, etChih-Jen Lin. Liblinear : A library for large linear classification. J.Mach. Learn. Res., 9 :1871–1874, June 2008. ISSN 1532-4435. URLhttp://dl.acm.org/citation.cfm?id=1390681.1442794.

[16] George Forman. An extensive empirical study of feature selection me-trics for text classification. J. Mach. Learn. Res., 3 :1289–1305, March2003. ISSN 1532-4435. URL http://dl.acm.org/citation.cfm?id=944919.944974.

[17] George Forman. Bns feature scaling : an improved representation overtf-idf for svm text classification. In Proceedings of the 17th ACM confe-rence on Information and knowledge management, pages 263–270. ACM,2008.

[18] Lise Getoor et Ben Taskar. Introduction to statistical relational learning.MIT press, 2007.

[19] Simon Haykin et Neural Network. A comprehensive foundation. NeuralNetworks, 2(2004), 2004.

[20] Dino Isa, Lam Hong Lee, VP Kallimani, et Rajprasad Rajkumar. Textdocument preprocessing with the bayes formula for classification usingthe support vector machine. Knowledge and Data Engineering, IEEETransactions on, 20(9) :1264–1272, 2008.

[21] Ravi Ashwin Ittoo. Natural language processing meets business : al-gorithms for mining meaning from corporate texts. PhD thesis, 2012.Relation : http ://www.rug.nl/ Rights : University of Groningen.

[22] Marc Jamoulle. Using the international classification for primary care(icpc) and the core content classification for general practice (3cgp) to

XIII




classify conference abstracts. letter. The Portuguese Journal of GeneralPractice (RPCG), 29(5), 2013. URL http://hdl.handle.net/2268/171601.

[23] Marc Jamoulle. Content analysis of abstracts of communications ofgp during congresses, a step forward. WICC open day, 2014. URLhttp://hdl.handle.net/2268/177395.

[24] Marc Jamoulle et Christophe Berkhout. Analyse de contenu et indexa-tion des résumés de communications des congrès cnge clermont 2013 etlille 2014. 14eme congres de la Confederation des Généralistes Ensei-gnants. Lille 2014, 2014. URL http://hdl.handle.net/2268/179603.

[25] Thorsten Joachims. A probabilistic analysis of the rocchio algorithmwith tfidf for text categorization. Technical report, DTIC Document,1996.

[26] Thorsten Joachims. Text categorization with support vector machines :Learning with many relevant features. Springer, 1998.

[27] Vojislav Kecman. Support vector machines basics. School of Engineering,University of Auckland, 2004.

[28] Svetlana Kiritchenko, Stan Matwin, et A. Fazel Famili. Functional an-notation of genes using hierarchical text categorization. In in Proc. ofthe BioLINK SIG : Linking Literature, Information and Knowledge forBiology (held at ISMB-05, 2005.

[29] Pat Langley, Wayne Iba, et Kevin Thompson. An analysis of bayesianclassifiers. In AAAI, volume 90, pages 223–228, 1992.

[30] Claudia Leacock et Martin Chodorow. Combining local context andwordnet similarity for word sense identification. WordNet : An electroniclexical database, 49(2) :265–283, 1998.

[31] Edda Leopold et Jörg Kindermann. Text categorization with sup-port vector machines. how to represent texts in input space ? Ma-chine Learning, 46(1-3) :423–444, 2002. ISSN 0885-6125. doi :10.1023/A:1012491419635. URL http://dx.doi.org/10.1023/A%3A1012491419635.

[32] Shoushan Li, Rui Xia, Chengqing Zong, et Chu-Ren Huang. A frame-work of feature selection methods for text categorization. In Proceedingsof the Joint Conference of the 47th Annual Meeting of the ACL and the

XIV

http://hdl.handle.net/2268/171601




http://dx.doi.org/10.1023/A%3A1012491419635

http://dx.doi.org/10.1023/A%3A1012491419635

4th International Joint Conference on Natural Language Processing ofthe AFNLP : Volume 2-Volume 2, pages 692–700. Association for Com-putational Linguistics, 2009.

[33] Tao Liu, Zheng Chen, Benyu Zhang, Wei-ying Ma, et Gongyi Wu. Impro-ving text classification using local latent semantic indexing. In Data Mi-ning, 2004. ICDM’04. Fourth IEEE International Conference on, pages162–169. IEEE, 2004.

[34] James MacQueen et alii. Some methods for classification and analy-sis of multivariate observations. In Proceedings of the fifth Berkeleysymposium on mathematical statistics and probability, volume 1, pages281–297. Oakland, CA, USA., 1967.

[35] Christopher D Manning, Prabhakar Raghavan, et Hinrich Schütze. In-troduction to information retrieval, volume 1. Cambridge universitypress Cambridge, 2008.

[36] Mitchell P Marcus, Mary Ann Marcinkiewicz, et Beatrice Santorini.Building a large annotated corpus of english : The penn treebank. Com-putational linguistics, 19(2) :313–330, 1993.

[37] Andrew McCallum, Kamal Nigam, et alii. A comparison of event modelsfor naive bayes text classification. In AAAI-98 workshop on learning fortext categorization, volume 752, pages 41–48. Citeseer, 1998.

[38] George A Miller. Wordnet : a lexical database for english. Communica-tions of the ACM, 38(11) :39–41, 1995.

[39] Daniil Mirylenka, Marco Rospocher, Ivan Donadello, Elena Cardillo, etLuciano Serafini. Exploring an ontology via text similarity : an experi-mental study.

[40] Tom M Mitchell. Machine learning. wcb, 1997.

[41] Klaus-Robert Müller, Sebastian Mika, Gunnar Rätsch, Koji Tsuda, etBernhard Schölkopf. An introduction to kernel-based learning algo-rithms. Neural Networks, IEEE Transactions on, 12(2) :181–201, 2001.

[42] Kamal Nigam, Andrew Kachites McCallum, Sebastian Thrun, et TomMitchell. Text classification from labeled and unlabeled documents usingem. Machine learning, 39(2-3) :103–134, 2000.

XV

[43] Jana Novovicova et Antonin Malik. Information-theoretic feature se-lection algorithms for text classification. In Neural Networks, 2005.IJCNN’05. Proceedings. 2005 IEEE International Joint Conference on,volume 5, pages 3272–3277. IEEE, 2005.

[44] Róbert Ormándi, István Hegedűs, et Márk Jelasity. Asynchronous peer-to-peer data mining with stochastic gradient descent. In Euro-Par 2011Parallel Processing, pages 528–540. Springer, 2011.

[45] Chris D Paice. An evaluation method for stemming algorithms. In Pro-ceedings of the 17th annual international ACM SIGIR conference on Re-search and development in information retrieval, pages 42–50. Springer-Verlag New York, Inc., 1994.

[46] Hans Paulussen et Willy Martin. Dilemma-2 : a lemmatizer-tagger formedical abstracts. In Proceedings of the third conference on Applied na-tural language processing, pages 141–146. Association for ComputationalLinguistics, 1992.

[47] Judea Pearl. Probabilistic reasoning in intelligent systems : Networks ofplausible inference. 1988.

[48] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Gri-sel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas,A. Passos, D. Cournapeau, M. Brucher, M. Perrot, et E. Duchesnay.Scikit-learn : Machine learning in Python. Journal of Machine LearningResearch, 12 :2825–2830, 2011.

[49] Martin F Porter. An algorithm for suffix stripping. Program, 14(3) :130–137, 1980.

[50] Martin F Porter. Snowball : A language for stemming algorithms, 2001.

[51] Ramana Rao. From unstructured data to actionable intelligence. ITprofessional, 5(6) :29–35, 2003.

[52] Soumya Raychaudhuri, Jeffrey T. Chang, Patrick D. Sutphin, et Russ B.Altman. Associating genes with gene ontology codes using a maximumentropy analysis of biomedical literature. Genome Research, 12(1) :203–214, 2002. doi : 10.1101/gr.199701. URL http://genome.cshlp.org/content/12/1/203.abstract.

[53] F Rosenbaltt. The perceptron–a perciving and recognizing automa-tion. Technical report, Report 85-460-1 Cornell Aeronautical Labora-tory, Ithaca, 1957.

XVI

http://genome.cshlp.org/content/12/1/203.abstract

http://genome.cshlp.org/content/12/1/203.abstract

[54] David E Rumelhart, Geoffrey E Hinton, et Ronald J Williams. Learninginternal representations by error propagation. Technical report, DTICDocument, 1985.

[55] Gerard Salton et Christopher Buckley. Term-weighting approaches inautomatic text retrieval. Information processing & management, 24(5) :513–523, 1988.

[56] Helmut Schmid. Treetagger| a language independent part-of-speech tag-ger. Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart,43 :28, 1995.

[57] Bernhard Scholkopf et Alexander J Smola. Learning with kernels : sup-port vector machines, regularization, optimization, and beyond. MITpress, 2001.

[58] Sam Scott et Stan Matwin. Feature engineering for text classification.In ICML, volume 99, pages 379–388, 1999.

[59] Fabrizio Sebastiani. Machine learning in automated text categorization.ACM computing surveys (CSUR), 34(1) :1–47, 2002.

[60] Newton Spolaôr et Grigorios Tsoumakas. Evaluating feature selectionmethods for multi-label text classification. In BioASQ workshop, pages1–12, 2013.

[61] Ingo Steinwart. Sparseness of support vector machines. The Journal ofMachine Learning Research, 4 :1071–1105, 2003.

[62] Sona Taheri et Musa Mammadov. Learning the naive bayes classifierwith optimization models. International Journal of Applied Mathematicsand Computer Science, 23(4) :787–795, 2013.

[63] Robert Tibshirani. Regression shrinkage and selection via the lasso.Journal of the Royal Statistical Society. Series B (Methodological), pages267–288, 1996.

[64] Kristina Toutanova et Christopher D Manning. Enriching the knowledgesources used in a maximum entropy part-of-speech tagger. In Procee-dings of the 2000 Joint SIGDAT conference on Empirical methods innatural language processing and very large corpora : held in conjunc-tion with the 38th Annual Meeting of the Association for ComputationalLinguistics-Volume 13, pages 63–70. Association for Computational Lin-guistics, 2000.

XVII

[65] Kristina Toutanova, Dan Klein, Christopher D Manning, et Yoram Sin-ger. Feature-rich part-of-speech tagging with a cyclic dependency net-work. In Proceedings of the 2003 Conference of the North AmericanChapter of the Association for Computational Linguistics on HumanLanguage Technology-Volume 1, pages 173–180. Association for Compu-tational Linguistics, 2003.

[66] Vladimir Vapnik. The nature of statistical learning theory. SpringerScience & Business Media, 2013.

[67] Vladimir N Vapnik et A Ya Chervonenkis. On the uniform convergenceof relative frequencies of events to their probabilities. Theory of Proba-bility & Its Applications, 16(2) :264–280, 1971.

[68] Jorge Vivaldi et Horacio Rodríguez. Improving term extraction by com-bining different techniques. Terminology, 7(1) :31–48, 2001.

[69] Shasha Wang, Liangxiao Jiang, et Chaoqun Li. Adapting naive bayestree for text classification. Knowledge and Information Systems, pages1–13, 2014.

[70] Kai Wei. A naïve bayes spam filter. Faculty of Computer Science,University of Berkely, 2003.

[71] Bernard WIDROW, Marcian E HOFF, et alii. Adaptive switching cir-cuits. 1960.

[72] Peter Wiemer-Hastings, K Wiemer-Hastings, et A Graesser. Latentsemantic analysis. In Proceedings of the 16th international joint confe-rence on Artificial intelligence, pages 1–14. Citeseer, 2004.

[73] Peter Willett. The porter stemming algorithm : then and now. Program,40(3) :219–223, 2006.

[74] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, QiangYang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, S YuPhilip, et alii. Top 10 algorithms in data mining. Knowledge and Infor-mation Systems, 14(1) :1–37, 2008.

[75] Yiming Yang et Xin Liu. A re-examination of text categorization me-thods. In Proceedings of the 22nd annual international ACM SIGIRconference on Research and development in information retrieval, pages42–49. ACM, 1999.

XVIII

[76] Yiming Yang et Jan O Pedersen. A comparative study on feature selec-tion in text categorization. In ICML, volume 97, pages 412–420, 1997.

[77] Tong Zhang. Solving large scale linear prediction problems using sto-chastic gradient descent algorithms. In Proceedings of the twenty-firstinternational conference on Machine learning, page 116. ACM, 2004.

XIX

Multi-Label Text Classiﬁcation of Medical Abstractsdocpatient.net/tfe/Rigaux _2015.pdf · En...

Documents

Transcript of Multi-Label Text Classiﬁcation of Medical Abstractsdocpatient.net/tfe/Rigaux _2015.pdf · En...