www.atilf.fr
Pour une lexicographie fermement pilotée par la lexicologie : les projets en linguistique
historique française et romane du laboratoire ATILF de Nancy
30 mai [email protected]
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Équipe « Linguistique historique »
Linguistique historique française et romane Recherches fondamentales : lexicologie,
lexicographie, métalexicographie, syntaxe historiques françaises, galloromanes et romanes
Projets lexicographiques Méthodologie largement commune,
mutualisation des ressources documentaires, développement informatique cohérent
Élaboration ou mise à jour de dictionnaires de référence (DMF, TLF-Étym, FEW, DÉRom)
Lexicographie en tant que mode d’exposition
Analyse et Traitement Informatique de la Langue Française
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Dictionnaire du Moyen Français
IIIe Colloque international sur le moyen français (1980)
1330–1500 Dirigé par Robert Martin (1982–2000),
Bernard Combettes (2000–2002), Hiltrud Gerner (2003–2007), Sylvie Bazin-Tacchella (2008–)
Volume A‑ah (DMF0, 1998) Publication électronique par étapes
successives (base de données lexicales évolutive encodée au format XML)
Analyse et Traitement Informatique de la Langue Française
Robert Martin : préface du DMF
« L’idée centrale qui guide le projet du DMF est que l’informatique autorise désormais une lexicographie évolutive : il ne s’agit plus de rédiger le dictionnaire lettre par lettre, ce qui le laisserait dans l’inachèvement aussi longtemps que la lettre ultime n’est pas atteinte, mais plutôt de procéder par une suite d’étapes dont chacune possède sa propre clôture tout en restant ouverte à tous les développements ultérieurs. La facilité avec laquelle les outils informatiques permettent d’augmenter, de corriger, de restructurer les données ne peut rester sans incidence sur la technique lexicographique. L’option choisie pour le DMF s’appuie fortement sur l’idée que les dictionnaires d’aujourd’hui, non pas commerciaux mais scientifiques, ne devraient plus être des produits figés que seules peuvent modifier d’hypothétiques rééditions, inévitablement coûteuses et elles-mêmes figées pour longtemps, mais au contraire des bases informatisées, faciles d’accès et ouvertes à peu de frais à tous les enrichissements et à toutes les améliorations que l’on peut estimer souhaitables. »
Analyse et Traitement Informatique de la Langue Française
Étapes du DMF
DMF1 (2002)13 lexiques (Machaut, Pizan etc.), 26 500 entrées
DMF2 (2007, CILPR 25)16 lexiques + lexique complémentaire (vocables rares), plus de 60 000 entrées
DMF 200920 lexiques, 1 500 synthèses exhaustives,50% des synthèses de lexiques
DMF 2010 (CILPR 26)21 lexiques, 2 000 synthèses exhaustives,100% des synthèses de lexiques
Analyse et Traitement Informatique de la Langue Française
Des objectifs d’envergure en synchronie
Limites chronologiques (1330–1500) : avènement des Valois (1328) – début des guerres d’Italie (1497) ; pronom sujet proclitique obligatoire ; complémentarité Tobler-Lommatzsch et Huguet
Nomenclature : unités lexicales (noms, adjectifs, verbes, adverbes, interjections, numéraux), y compris hapax, à l’exclusion (pour l’instant) des unités grammaticales
Position centrale en lexicologie/lexicographie du moyen français
Analyse et Traitement Informatique de la Langue Française
Potentiel heuristique pour l’étymologie
Renvois systématiques au FEW ; ajouts : « *FEW »
DMF1 : 97 rattachements étymologiques à la tranche alphabétique B- du volume 1 du FEW
Exemple Lexique de la langue scientifique : 339 ajouts d’unités lexicales, 74 nouveaux étymons ainsi que des centaines d’antédatations par rapport au FEW (cf. Gerner & Martin 2005)
Dictionnaire étymologique du moyen français !
Analyse et Traitement Informatique de la Langue Française
Consultation du dictionnaire
Dictionnaire du Moyen Français
Analyse et Traitement Informatique de la Langue Française
De multiples exploitations du dictionnaire (1/2)
Lexicologie :adresse n.f. « habileté » (dp. 1559, TLF)DMF : ca 1350/1400→ TLF-Étym
Pragmatique :enfin adv. « citons pour terminer (dernier élément d’une énumération) » (dp. 1587, Hansen 2005 : 47)DMF Recherche plein texte : ca 1400→ Buchi & Städtler 2008
Analyse et Traitement Informatique de la Langue Française
De multiples exploitations du dictionnaire (2/2)
Morphologie constructionnelle :Apothéloz 2003 : préfixe IN- du français contemporain(1) in-1 : allomorphie /in-/ + V (inutile), /ɛ̃--/ + C bruyante (imbattable), /i-/ + C sonante (illégal) ; soit négatif (inutile), soit superlatif (inqualifiable « d’une extrême bassesse »)(2) in‑2 : + C sonante (/ɛ̃--/ : [ɛ̃Xnɔmabl]) ; négatif (inréparable « qui ne peut pas être réparé »)
DMF « Recherche d’une entrée », « + options », « inr- » :28 réponses, dont inracontable (1419)→ Buchi à paraître
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Bien plus qu’un dictionnaire !
Métamorphose progressive du DMF en un véritable espace en ligne de recherche et de rédaction, avec quatre niveaux de consultation reliées par une navigation hypertextuelle : dictionnaire, lexiques, base textuelle, outil d’aide à l’édition
Lien direct sur un article Analyse de mots-formes Lemmatisation d’un texte Construction semi-automatique de
glossaires Élaboration d’index lemmatisés Réalisation d’éditions électroniques en
ligne
Analyse et Traitement Informatique de la Langue Française
Lemmatiseur
État de langue non standardisé → lemmatiseur LGeRM (Lemmes, Graphies lemmatisées et Règles Morphologiques (Gilles Souvay)
Accès au lemme pertinent à partir de n’importe quelle variante flexionnelle ou graphique
Navigation (par un double clic de souris) à l’intérieur du dictionnaire, voire entre la base Frantext et le DMF
Rattache chaque mot-forme au lexème dont il relève (ex. traveilhiéz → TRAVAILLER)
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Mots fantômes ?
Pseudo-lexèmes disposant à tort d'un statut lexicographique (y compris sens fantômes et lemmatisations erronées)
Godefroy :LABAILLE, s. f., syn. d’escope, mod. écope, sorte de
pelle creuse qui sert à vider l’eau entrée dans une embarcation :
Et en doivent les vaisseaulx qui viennent esditz havres chargez de blez en grenier chascun vaissel plaine une escope ou labaille ou l’en puche l’eaue. (1413, Denombr du baill. de Constentin, Arch. P 304, fo 116 vo.) Von Wartburg 1968 in FEW 23, 108b (Mots d’origine inconnue ou incertaine)
Analyse et Traitement Informatique de la Langue Française
Une solution en vue
Chauveau 2006 in FEW s.v. BĀJULA « bonne d’enfants » : *labaille = mélecture de la baille (baille n.f. « baquet de bois en forme de demi-tonneau ou de cône tronqué, spécialement utilisé sur les bateaux », dp. 1340)
Mais distance sémantique « écope »/« bonne » !
Base des mots fantômes centralise les identifications de mots fantômes dispersées dans des articles de revues, des communications, des comptes rendus et des articles lexicographiques, sans parler des rattachements inédits
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Godefroy
Fr. Godefroy, Dictionnaire de l'ancienne langue française et de tous ses dialectes du IXe au XVe siècle, 1881–1902
10 volumes, 8 000 pages, pas de bibliographie
Problématique : sigles pour Dit de buffet(mil. 13e s.) : « Dit de buffet », « Dit du buffet », « Du Vilain au buffet », sans datation
Cf. Ringenbach 2010
Analyse et Traitement Informatique de la Langue Française
Exemple d’exploitation
Étude diachronique de IN-Godefroy :Quant est de toy, tu mors et pinces Par ton envye inraisonnable Plus c’un serpent (Envye, Estat et Simplesse, p. 6, ap. Ler. de Lincy et Michel, Farces, Moral. et Serm. joy., t. I)
Bibliographie Godefroy : milieu 16e siècle
Dernière attestation de inraisonnable, évincé par irraisonnable (dp. 14e siècle)
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Un programme de recherche collaboratif
Révision sélective des notices étymologiques duTrésor de la Langue Française (1971–1994)
Étymologie-histoire, cf. Baldinger 1959 : 239 : « l’étymologie, [...] c’est [...] la biographie du mot »
Fédère les forces vives de l’étymologie française à travers le monde (Sarah Leroy ; Frankwalt Möhren, Thomas Städtler ; Franz Rainer ; Takeshi Matsumura ; etc.) TLF s.v. phonologie :1. 1846 (Besch. : Phonologie. [...] Gramm. Traité sur les sons) ; 2. 1929 « science qui a pour objet l'étude fonctionnelle des sons » (Trubetzkoy). Comp. de l'élém. formant phon(o)-* « voix » et du suff. -logie*.
TLF-Étym
Analyse et Traitement Informatique de la Langue Française
Triple plus-value
Étymologies inéditesbienfaisance : calque du latin et non pas création françaisebigler : continuateur du protoroman et non pas emprunt au latinfare : emprunt au breton et non pas d’origine inconnue
Antédatationsfabulateur : 1541 → ca 1360/1380laconique : 1529 → ca 1372/1374ostensoir : 1771 → 1673
Rétrodatationsféodalement : 1483 → 1514 iota : ca 1240 → ca 1300
vélocipède : 1804 → 1818
Analyse et Traitement Informatique de la Langue Française
Et surtout, au niveau conceptuel :
Élaboration d’une typologie de 22 sous-classes étymologiques, dotées de formules analytiques précises et cohérentes
Lexique héréditaireS.v. claie : « Continuateur régulier du protoroman régional */'kleta/ » (TLF : « du gaul. cleta »)
EmpruntsS.v. riesling : « Transfert linguistique : emprunt à l’allemand Riesling » (TLF : « mot all. »)
Créations internesS.v. cerbère : « Formation française : translation déonomastique du nom propre de créature mythologique Cerbère » (TLF : « Empr. au lat. Cerberus »)
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Un digne héritage
Walther von Wartburg, Französisches Etymologisches Wörterbuch, 25 vol., 1922–2002
Ouvrage majeur de l’étymologie romane depuis le début de sa parution
Renouvellement constant afin de conserver ce statut
Refonte de la tranche alphabétique B- (publication sur Internet)
Informatisation planifiée (thèse Pascale Renders)
Analyse et Traitement Informatique de la Langue Française
Jean-Paul Chauveau : préface du FEW
« La traduction du titre de l’ouvrage : Dictionnaire étymologique français et son sous-titre : Une représentation du trésor lexical galloroman [...] déterminent la perspective et l’objet que lui avait assignés Wartburg. Le FEW vise à fournir le tableau le plus complet possible du lexique galloroman dans une perspective génétique. Véritable Thesaurus galloromanicus, le FEW s’efforce de rassembler toutes les données accumulées par la lexicographie du français, du francoprovençal, de l’occitan et du gascon, de leurs parlers dialectaux, de leurs argots et de leurs technolectes, tant dans leurs états passés que modernes. Ces données, après analyse des évolutions phonétiques, morphologiques et sémantiques qui les ont marquées, sont classées, avec les références précises aux sources, dans des articles qui décrivent et expliquent le développement depuis l'étymon jusqu’aux aboutissements contemporains dans toutes ses ramifications morphologiques et sémantiques. »
Analyse et Traitement Informatique de la Langue Française
Intérêt de la refonte ? Exemple : BĀSIOLUM
Christel Nissille(aujourd’hui rédactrice au Glossaire des patois de la Suisse romande)
Lexème latin que les romanistes de renom ont rejeté comme étymon de formes galloromanes et que von Wartburg seul a retenu
En nourrissant par les données collectées par la lexicographie moderne et contemporaine l’hypothèse de von Wartburg et en exploitant toutes les possibilités de celle-ci, l’article parvient à en tirer l’étymologie, jusque là disputée et irrésolue, de mfr. bisel « facette d’un diamant », (> fr. biseau « bord taillé obliquement », angl. bezel « facette d’un diamant », occit. bisèu « biseau », esp. port. bisel, cat. bisell)
Représentants héréditaires directs (baiseul « baiser ; baisure du pain ») manquent aussi bien aux dictionnaires canoniques des états anciens des langues traitées qu’à ceux du français moderne et contemporain et ne se rencontrent que dans les parlers dialectaux de trois domaines linguistiques galloromans : français, francoprovençal et occitan – ce sont des matériaux qui n’ont une chance d’être étudiés que dans le cadre du FEW
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Dictionnaire étymologique roman de référence
*Dübendorf 1861† Bonn 1936
Romanisches Etymologisches Wörterbuch
Wilhelm Meyer-Lübke
REW :1930–19353 (1911–19201)
Analyse et Traitement Informatique de la Langue Française
Du REW au DÉRom
« Nouveau REW »(cf. J. M. Piel, colloque TLF Strasbourg 1957)
CILPR 21 Palerme (1995) : Table ronde « È oggi possibile o augurabile un nuovo REW ? »
« Le besoin où nous sommes d’un ‘nouveau Meyer-Lübke’ a été plusieurs fois évoqué. Le secret espoir des organisateurs était que quelqu’un dans l’assistance se lève et dise : ‘C’est moi !’ […] Mais cet espoir a été déçu… Alors que faire ? » (Chambon & Sala, Actes CILPR 21, 3, 1019)
Analyse et Traitement Informatique de la Langue Française
Du REW au DÉRom
Dictionnaire Étymologique Roman
Projet européen, surtout franco-allemand
Financé par l’ANR (Agence Nationale de la Recherche) et la DFG (Deutsche Forschungs-gemeinschaft) 2008–2010 (et 2012–2014 ?)
50 linguistes romanistes1 ingénieur informaticien2 documentalistes
Analyse et Traitement Informatique de la Langue Française
École d’été franco-allemande en étymologie romane (juillet 2010)
Analyse et Traitement Informatique de la Langue Française
Méthodologie
Première raison d’être d’un dictionnaire étymologique consacré à une famille linguistique : reconstruction du lexique de l’ancêtre commun
Cadre théorique :grammaire comparée-reconstruction(cf. A. Fox, Linguistic Reconstruction, 1995)
Objectif du DÉRom :reconstruction du lexique protoroman
Approche discutée en linguistique romane(cf. A. Vàrvaro in Revue de linguistique romane 75 [2011] et réponse Buchi & Schweickard)
Analyse et Traitement Informatique de la Langue Française
Chambon 2010 : 3 :
« […] les mots du latin écrit de l’Antiquité ne sauraient être placés à l’origine des mots héréditaires du français ou des autres langues (gallo)romanes […]. Le seul moyen de faire venir à l’existence l’étymon (oral) d’un mot héréditaire est de le reconstruire sur la base de la comparaison entre formes orales affines, c’est-à-dire dont on a montré qu’elles étaient reliées par un ensemble de correspondances phoniques régulières. […] l’établissement des étymons des mots héréditaires correspond au segment de la recherche étymologique où celle-ci coïncide avec la grammaire comparée-reconstruction des parlers romans. »
Cognats
Analyse et Traitement Informatique de la Langue Française
Question de directionnalité
REW :« Qu’est devenu le lexique latin [classique] ? »
Même questionnement qu’en étymologie slave, germanique, austronésienne, bantoue etc.
DÉRom :« D’où vient le lexique roman ? »
Analyse et Traitement Informatique de la Langue Française
Notation des étymons
Conséquence de l’option« grammaire comparée-reconstruction » :
DÉRom : */'ɸak-e-/
Étymons du lexique héréditaireen notation phonologique avec astérisque
REW : *abbĭbĕrāre
DÉRom : notation des étymons en graphie conventionnelle réservée aux latinismes
Fr. Noël < protorom. */na'tal-e/Fr. natal adj. < lat. natalis
* = « reconstruit »
* = « non attesté »
Analyse et Traitement Informatique de la Langue Française
Statut du latin écrit de l’Antiquité
Témoignage du latin écrit de l’Antiquité→ pratiques idiosyncrasiques en étymologie romane
Les langues romanes ne sont-elles pas des langues « normales » ?
Idée sous-jacente du DÉRom : le latin ne constitue une plus-value pour les études romanes que s’il complète la méthodologie générale plutôt que de s’y substituer
Analyse et Traitement Informatique de la Langue Française
Détour par une anecdote
Mesures imprécises
Confiance
Confiance
Calculs imprécis
Analyse et Traitement Informatique de la Langue Française
Appliqué à l’étymologie
Protoroman reconstruit
Confiance
+Données du latin écrit
Analyse et Traitement Informatique de la Langue Française
La pertinence d’une méthodologie se mesure à ses résultats
Signifié :*/'βɪndɪk‑a‑/ « sauver ; venger » (REW : « venger »)*/'mεnt‑e/ « esprit ; tempe ; manière » (REW : « esprit »)*/sa'gɪtt‑a/ « flèche ; courson ; éclair » (REW : « flèche »)
DÉRom /
Signifiant : */a'pril-e/ et */a'pril‑i‑u/ (REW : aprīlis) */'ɛ̃rb-a/ ~ */'ɛ̃rβ-a/ (REW : hĕrba) */ɸe'βrari-u/ (REW : februarius)
Catégorie grammaticale :*/'barb‑a/1 s.f. et */'barb‑a/2 s.m. (REW : barba [s.f.])*/βi'n‑aki‑a/ s.f. (REW : vīnāceus adj.)
Analyse et Traitement Informatique de la Langue Française
Sommaire
1. Caractérisation générale2. Dictionnaire du Moyen Français (DMF)
2.1. Cœur du dispositif : le dictionnaire2.2. Portail de référence pour l’étude du moyen français
3. Critique métalexicographique3.1. Base des mots fantômes3.2. Bibliographie Godefroy
4. TLF-Étym (Trésor de la Langue Française et étymologie)
5. Französisches Etymologisches Wörterbuch (FEW)6. Dictionnaire Étymologique Roman (DÉRom)7. Conclusion
Analyse et Traitement Informatique de la Langue Française
Nous sommes des lexicologues avant d’être des lexicographes !
Mots fantômes → Steinfeld 2010 (mfr. de note)
TLF-Étym → Andronache 2009 (continuité)
FEW → Chauveau 2009 (sémantique historique)
DÉRom → Buchi et al. 2010 ; Buchi & Schweickard 2008 ; 2009 ; 2010 (changement de paradigme en étymologie romane)
Analyse et Traitement Informatique de la Langue Française
Pour en savoir plus
Pierrel & Buchi 2009
HAL (Hyper Article en Ligne)
Journée d’étude TLF-Étym (Buchi 2006/2007)
Séminaire de méthodologie (Buchi 2005–2007)
Analyse et Traitement Informatique de la Langue Française
Non pas zbógom, mais na svídenje!
27e Congrès International de Linguistique et de Philologie Romanes
Nancy, ATILF 15-20 juillet 2013 Venez nombreux !
Hvála lépa, da ste prišlí!
Top Related