Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette ›...

39
PEPS AnimalHumanité Philippe Gambette, Tita Kyriacopoulou, Nadège Lechevrel, Claude Martineau Anatomie, animaux, vocabulaire de la vivisection : construire des ressources lexicales pour visualiser une thématique dans un corpus littéraire 2 décembre 2016 Colloque AnimalHumanité EnvA

Transcript of Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette ›...

Page 1: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

PEPSAnimalHumanité

Philippe Gambette, Tita Kyriacopoulou, Nadège Lechevrel, Claude Martineau

Anatomie, animaux, vocabulaire de la vivisection :construire des ressources lexicales pour visualiserune thématique dans un corpus littéraire

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 2: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Contexte

2 décembre 2016 Colloque AnimalHumanité EnvASources photos : EnvA

musée Fragonard

bibliothèque de l'EnvA

corpus numérique

● construction de ressources lexicales

● annotations● visualisations

Unitex + TreeCloud

Page 3: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Faire une analyse des textes avec des outils existants (Unitex, TreeCloud)

- Extraction d’information pertinente

- Annotation des textes

Unitex/GramLab analyse les textes à l’aide de Dictionnaires et Grammaires Électroniques (méthode symbolique/linguistique)

Treecloud fait une représentation d’un texte sous forme de nuages arborés (méthode statistique)

Analyser les textes avec Unitex/GramLab et faire une représentation par TreeCloud

Besoin des ressources lexicales électroniques

Objectif

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 4: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

1. Présentation du corpus

2. Annotation/analyse avec Unitex

3. Création des ressources linguistiques

4. Visualisations

Plan

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 5: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

1) Présentation du corpus

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 6: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Constitution du corpus (1)

2 décembre 2016 Colloque AnimalHumanité EnvA

Références transmises par les collègues littéraires

Page 7: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Constitution du corpus (2)

2 décembre 2016 Colloque AnimalHumanité EnvA

Auteurs : Anonyme, Balzac, Barrès, Baude, Bernard, Celse, Condillac, Delille, Flaubert, Haraucourt, Janin, La Bédollière, La Fontaine, Michelet, Montaigne, Nodier, Prudhomme, Rabelais, Sand, Stahl

Sources : Wikisource, OBVIL, Gallica, Frantext, Montaigne Project / Villey Edition, Bibliothèques virtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée de La Fontaine, archive.org

Page 8: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Constitution du corpus (2)

2 décembre 2016 Colloque AnimalHumanité EnvA

Auteurs : Anonyme, Balzac, Barrès, Baude, Bernard, Celse, Condillac, Delille, Flaubert, Haraucourt, Janin, La Bédollière, La Fontaine, Michelet, Montaigne, Nodier, Prudhomme, Rabelais, Sand, Stahl

Sources : Wikisource, OBVIL, Gallica, Frantext, Montaigne Project / Villey Edition, Bibliothèques virtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée de La Fontaine, archive.org

"sample of convenience"(Algee-Hewitt, McGurl, 2015

Literary Lab pamphlet 8)

Page 9: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Textes du corpus

34 textes (3 Mo)

environ 500 000 mots simples, 6 000 mots composés (mots reconnus avec dictionnaires d'Unitex)

2 décembre 2016 Colloque AnimalHumanité EnvA

→ Corpus de “petite” taille○ nécessité de mutualiser les méthodes linguistiques

et statistiques afin d’avoir des résultats pertinents

→ Corpus du 19ème siècle et avant

→ Corpus de thématique spécialisée

Page 10: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2) Annotation/analyse avec Unitex

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 11: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Analyse des textes avec Unitex

Création d'un programme Perl :● analyse d'un ensemble de textes avec Unitex● affichage de résultats sous forme de texte surligné (en html)

programme PERL

page web du texte annoté

corpus numérique

ressources linguistiques

Unitex

textes balisés

Page 12: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Exemple d’annotation avec Unitex

Page 13: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Bilan des premières analyses

1. Ressources existantes (Unitex/GramLab)

• Dictionnaires (mots simples et composés)• Traits existants (Animal,Chimie,...)

2. Étude et analyse du corpus

Ressources insuffisantes ou inadéquates

3. Constructions de ressources

•à partir de règles linguistiques et du corpus•base de données du Musée Fragonard (enrichie)

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 14: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

3) Création des ressources linguistiques

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 15: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Granularité insuffisante

Ajout de traits : raffinement de traits

•Trait Animal Trait Partie du corps

Partie_CorpsPartie_Corps_Animal

Animal_domestiqueMammifèreOiseauInsecteReptileAnimalPré_AnimalCat_Animal

2 décembre 2016 Colloque AnimalHumanité EnvA

Création des ressources linguistiques (1)

Page 16: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Enrichissement de dictionnaireAjout d’entrées et de traits Etude, Expérimentation, Partie corps animal,

2 décembre 2016 Colloque AnimalHumanité EnvA

Création des ressources linguistiques (2)

Extrait d’un dictionnaire de mots composés

propriété.N21 mécanique.A31,N+_Etudepropriété.N21 physique.A31,N+_Etudepropriété.N21 protoplasmique.A31,N+_Etudescience.N21 vitale.A76,N_Etudescience.N21 vraie.A32,N+_Etudescience.N21 étroite.A32,N+_Etudesciences.N21 biologiques.A31,N,P+_Etudesciences.N21 de.PREP la.DET nature.N,N+_Etudesciences.N21 expérimentales.A31,N,P+_Etudesciences.N21 mathématiques.A31,N,P+_Etudesciences.N21 médicales.A76,N,P+_Etudesciences.N21 naturelles.A40,N,P+_Etude

Plus de 2500 entrées spécifiquement créées

Page 17: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Ajout de règles linguistiquesrecherche du mot propriétés suivi d’un adjectif se terminant par iques

propriétés mécaniques

propriétés physiques propriétés mécaniques et physiques

propriétés protoplasmiques

2 décembre 2016 Colloque AnimalHumanité EnvA

Création des ressources linguistiques (3)

propriétés <A><<iques>>

Page 18: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Résultats d’annotation avec Unitex (1)

http://eclavit.univ-mlv.fr/animalhumanite

Page 19: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Résultats d’annotation avec Unitex (2)

23 catégories :

http://eclavit.univ-mlv.fr/animalhumanite

19438 occurrences reconnues - 3204 motifs différents

Page 20: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Analyse des textes avec Unitex

ajout de ressources

enrichissement des ressources

programme PERL

page web du texte annoté

corpus numérique

ressources linguistiques

Unitex

textes balisés

Page 21: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

animauxanatomie

anomaliesENVA

mots dans au moins 15 descriptions de pièces du musée Fragonard de l'EnvA (3084 recensées dans la collection EnvA BIU Santé)

Création des ressourcesà partir de la base du musée Fragonard

Page 22: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

3) Visualisations

2 décembre 2016 Colloque AnimalHumanité EnvA

Page 23: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Exploration des collectionsdu Musée Fragonard

2 décembre 2016 Colloque AnimalHumanité EnvA

Version interactive pour parcourir les collections :http://treecloud.univ-mlv.fr/treecloud-linker/fragonard/

Page 24: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Version interactive pour parcourir les collections :http://treecloud.univ-mlv.fr/treecloud-linker/fragonard/

Exploration des collectionsdu Musée Fragonard

Page 25: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Visualisations TreeCloud : expérimentations

2 décembre 2016 Colloque AnimalHumanité EnvA

Nuage arboré des 100 mots les plus fréquents dans les contextes (10 mots avant, 10 mots après) des mots de la catégorie "expérimentations"

Page 26: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

Nuage arboré des 100 mots les plus fréquents dans les contextes (10 mots avant, 10 mots après) des mots de la catégorie "expérimentations"

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud : expérimentations

Page 27: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud : étude

Nuage arboré des 100 mots les plus fréquents dans les contextes (10 mots avant, 10 mots après) des mots de la catégorie "étude"

Page 28: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud : étude

Nuage arboré des 100 mots les plus fréquents dans les contextes (10 mots avant, 10 mots après) des mots de la catégorie "étude"

Page 29: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud :parties du corps animal

Nuage arboré des 100 mots les plus fréquents dans les contextes

(10 mots avant, 10 mots après) des mots de la catégorie "parties

du corps animal"

Page 30: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud :parties du corps animal

Nuage arboré des 100 mots les plus fréquents dans les contextes

(10 mots avant, 10 mots après) des mots de la catégorie "parties

du corps animal"

Page 31: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud :parties du corps animal

Page 32: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud :parties du corps animal

Page 33: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Visualisations TreeCloud :parties du corps animal

Page 34: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Annotation par le lexiquedu musée Fragonard

http://eclavit.univ-mlv.fr/animalhumanite

Page 35: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Localisation des annotations dans le corpus

http://voyant-tools.org/?corpus=806d14bd9d0111504fdca2b02bdfacb2 Voyant Tools, Stéfan Sinclair & Geoffrey Rockwell

Page 36: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Localisation des annotations dans le corpus

http://voyant-tools.org/?corpus=806d14bd9d0111504fdca2b02bdfacb2 Voyant Tools, Stéfan Sinclair & Geoffrey Rockwell

Page 37: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

Localisation des annotations dans le corpus

localisation dans Introduction à l'étude de la médecine expérimentale (1865) de Claude Bernard

http://voyant-tools.org/?corpus=806d14bd9d0111504fdca2b02bdfacb2 Voyant Tools, Stéfan Sinclair & Geoffrey Rockwell

Page 38: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

● Mise à disposition de la chaîne de traitement par une interface web

● Extensions conséquentes d’Unitex donneront accès à des analyses plus fines : grammaires locales étendues (thèse en cours)

● Amélioration de l'interopérabilité des outils d’analyses d'Université Paris-Est (Unitex, Treecloud, TextObserver, CorTex) dans le cadre du projet PEPS ECLAVIT (jusqu’à fin 2017)

Perspectives

Page 39: Philippe Gambette, Tita Kyriacopoulou, Nadège …igm.univ-mlv.fr › ~gambette › Re20161202.pdfvirtuelles humanistes, Centre Flaubert, Les classiques des sciences sociales, Musée

2 décembre 2016 Colloque AnimalHumanité EnvA

● Unitexhttp://www-igm.univ-mlv.fr/~unitex

● TreeCloudhttp://treecloud.univ-mlv.fr

Adresses des logiciels du LIGM utilisés