Xavier Tannier [email protected] Indexation avancée Indexation et Recherche d'Information.
Transcription, annotation et indexation de manuscrits anciens
description
Transcript of Transcription, annotation et indexation de manuscrits anciens
Transcription, annotation et indexation de
manuscrits anciensSylvie Calabretto
LIRIS - INSA DE LYONJournée Connaissances et Document - 6 octobre 2003
Le projet européen BAMBI
BAMBI : Better Access to Manuscripts and Browsing of Images (Programme Libraries) Composition du consortium :
» ACTA S.p.A (Italie)» Biblioteca Nazionale Centrale di Roma (Italie)» Comitato Nazionale delle Ricerche - Istituto di Linguistica
Computazionale di Pisa (Italie)» Consorzio Pisa Ricerche (Italie)» Max Planck Institut für Rechtsgeschichte (Allemagne)» LISI (France)
Objectifs Consultation de manuscrits par un plus large
public Préservation des manuscrits Meilleure lisibilité des textes Informations précises et outils de recherche
pour les chercheurs en Histoire des Textes Possibilité de partager des annotations
La station philologique
La station permet de : Visualiser l’image d’un document source (un manuscrit) avec
une haute résolution, transcrire, annoter et indexer le texte contenu dans les images, visualiser la transcription et l’index dans une fenêtre adjacente
à celle du document source, faire correspondre automatiquement chaque mot de la
transcription avec la portion de l’image source dans lequel le mot est trouvé,
» exporter des information sur les manuscrits au format SGML/HyTime
La station BAMBI
Méta-donnéesCittàSegnatura msSupportoDataConsistenzaTipologia Scrittura
Intestazione: AutoreTitoloIncipit
Segnatura microfilmMarca pellicolaPassoN°fotogrammiData riproduzioneNoteFotogrammi globali
Cod. MS
Session de Recherche
Recherche multi-critères» par métadonnées
• auteur, date, bibliothèque, ...» par mots-clés
Aide à la transcription
Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion» abréviations syllabiques (« It » pour Item)» abréviations par suspension (« ac. » pour
Accurcius)» utilisation de signes spéciaux ( pour « et »)
Indexation :Index verborum et Index locorum
Annotations Deux types d’annotation :
» les commentaires libres (fond),» les variantes de textes (synonymes ou
corrections de syntaxe) (forme).
Correspondance mot/image
Correction manuelle
Le filtre SGML/HyTime
Exporter les informations relatives à une page de manuscrit au format SGML.» SGML est une Norme Internationale» elle assure la pérennité de l’information» elle assure l’indépendance des informations
par rapport aux logiciels et aux matériels» elle permet la génération d ’une application
BAMBI Web (information exchange through INTERNET)
La DTD BAMBI
Les informations à modéliser :» Description du manuscrit (titre, auteur,
bibliothèque, ...)» Les bookmarks» Liens entre chaque mot de la transcription et le
mot correspondant dans l’image
La DTD BAMBI (1/3)<!-- DTD for a class of document exported from BAMBI project -- ><!ENTITY % doctype "MANUSCRI" >
<!-- Document STRUCTURE --><!-- ELEMENTS MIN CONTENT (EXCEPTIONS) -- >
<!ELEMENT %doctype; - - (InfoManu, Pages*, Fin?) ><!ELEMENT InfoManu - -
(UserName,Title,Author,Library,Incipit,Material,Date,Size,Languages,Handwriting,Bookmark*) >
<!ELEMENT UserName - - (#PCDATA) ><!ELEMENT Title - - (#PCDATA) ><!ELEMENT Author - - (#PCDATA) ><!ELEMENT Library - - (#PCDATA) ><!ELEMENT Incipit - - (#PCDATA) ><!ELEMENT Material - - (#PCDATA) ><!ELEMENT Date - - (#PCDATA) ><!ELEMENT Size - - (#PCDATA) ><!ELEMENT Languages - - (#PCDATA) ><!ELEMENT Handwriting - - (#PCDATA) > <!ELEMENT (Bookmark | Fin)- - (#PCDATA) >
La DTD BAMBI (2/3)<!-- Page STRUCTURE -->
<!ELEMENT Pages - - (Image,Transcri)+ >
<!ELEMENT Image - - (CoorMots*) +graphic >
<!ENTITY % CoordXY "(X1,Y1,X2,Y2)" ><!ELEMENT CoorMots - - (%CoordXY;) >
<!ELEMENT (X1,Y1,X2,Y2) - - (#PCDATA) >
<!ENTITY % Annot "(Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)" >
<!ELEMENT Transcri - - (Curpage,(Column,Ligne,Mots+,(%Annot;)*))*><!ELEMENT Curpage - - (#PCDATA) ><!ELEMENT Column - - (#PCDATA) ><!ATTLIST Column NumCol CDATA #REQUIRED ><!ELEMENT Ligne - - (#PCDATA) ><!ATTLIST Ligne NumLine CDATA #REQUIRED ><!ELEMENT Mots - - (#PCDATA|Mots*) ><!ATTLIST Mots Police CDATA #IMPLIED >
La DTD BAMBI (3/3)<!ELEMENT (Annot1|Annot2|Annot3|Annot4|Annot5|Annot6)
- - (#PCDATA) >
<!-- Attribute definition Lists -->
<!-- Entity-name contents --><!ENTITY MAP1 "<X1> <!USEMAP MAP-INX1>" ><!ENTITY MAP2 "</X1> <Y1> <!USEMAP MAP-INY1>" ><!ENTITY MAP3 "</Y1> <X2> <!USEMAP MAP-INX2>" ><!ENTITY MAP4 "</X2> <Y2> <!USEMAP MAP-INY2>" ><!ENTITY MAP5 "</Y2> </CoorMots>" >
<!-- Mapname delimiter Entity-name --><!SHORTREF MAP-X1 "(" MAP1 ><!SHORTREF MAP-INX1 "," MAP2 ><!SHORTREF MAP-INY1 "," MAP3 ><!SHORTREF MAP-INX2 "," MAP4 ><!SHORTREF MAP-INY2 ")" MAP5 >
<!-- Mapname element --><!USEMAP MAP-X1 CoorMots >
Description de manuscrit
(Instanciation de DTD)
<INFOMANU><USERNAME>Mario</USERNAME><TITLE>Diario del viaggio in Terra Santa 1559</TITLE><AUTHOR>Luca da Gubbio</AUTHOR><LIBRARY>1</LIBRARY><INCIPIT>Unknown</INCIPIT><MATERIAL>Cartaceo</MATERIAL><DATE>Sec. XVI 2° Meta</DATE><SIZE>CC 98</SIZE><HANDWRITING>8</HANDWRITING><BOOKMARK> Diario del viaggio in Terra Santa 1559 : c4r</BOOKMARK><BOOKMARK> Diario del viaggio in Terra Santa 1559 : c5r</BOOKMARK></INFOMANU>
Liens entre parties d’image et partie de
texte<IMAGE><HYLOC><HOTSPOT ID=H1_1_1 GRAPHIC = Image5 REF=T1_1_1 RX= «205,02» RY=«75,64»
RW=«128,52» RH=«69,54».....</HYLOC></IMAGE><TRANSCRI><CURPAGE>c4r</CURPAGE><COLUMN NumCol=1><LINE Numline=1>
<LINK ID=T1_1_1 LINKEND=H1_1_1>I(tem)</LINK>...............
</LINE></COLUMN></TRANSCRI>
Architecture BAMBI
HyTimeEngine
HyTimeApplication
Hyperdocument
BAMBIDatabase
SGMLParser
BAMBI DTD
SGML and Hytime Documents BAMBI
Application
Application HyTime
L’après BAMBI
» Projet SyDoM (Système Documentaire Multilingue)
• 1 thèse (+ 1 en octobre), 2 stagiaires CNAM
» Projet STEMA (Station de Travail pour l ’Etude des Manuscrits Anciens sur le Web)
• Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR- Pise
Projet DiPhiloS• Ministero per i Beni e le Attività Culturali
Le projet SyDoM Objectif :
» Méthode d’indexation sémantique et de recherche de documents multilingues
Propositions :» Un nouveau modèle de graphes pour représenter
les documents et les requêtes » Définition d'un nouveau thésaurus» Définition d’un nouvel opérateur de projection
Prototype SyDoM
Niveau conceptuel
tc1
Ensemble des types de concepts
Ensemble des types de relationsT2
tr1 tr2
machine qui transforme une forme d’énergie
en énergie mécanique
observation permettant de contrôler les données et
les conditions étudiées
T
tc1.1 tc1.2
tc1.2.1
tc2
tc2.1 Relation de spécialisatio
n
Niveau terminologique
ExpérimentationMoteu
r
Experimentation
Engine
Ensemble des vocabulaires
Ensemble des types de concepts
Vocabulaire anglais
Vocabulaire français
tc1
T
tc1.1 tc1.2
tc1.2.1
tc2
tc2.1
Les Graphes Sémantiques
« Tom réalise une expérimentation sur un moteur »
tc1.1tr1
tr2
1 12 2tc2.1 tc1.2
Personne Expérimentation
Moteuragent
patient
1 12 2
Un type de concept
Un terme label d’un type de concept
Un arc
Prototype SyDoM
Perspectives
BAMBI/DiPhiloS en open source
Module de traitement d’image à réécrire Module d’indexation sémantique
multilingue à intégrer
PublicationsBONNATERRE O., BOZZI A., CALABRETTO S. and al., Better Access to Manuscripts and Browsing of Images : Aims and results of an European
Research project in the field of digital Libraries BAMBI Lib-3114.CLUEB (Bologne), 1997, 176 pages, ISBN N° 88-8091-569-X.
CALABRETTO S., PINON J.M., BOZZI A.BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens.Revue Document Numérique. Ed. HERMES, Volume 2, n° 3-4, Numéro spécial sur les
Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127
CALABRETTO S., BOZZI A. The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images).
International Journal of Digital Libraries. 1998. Volume 1, Issue 3http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/
BOZZI A., CALABRETTO S. Digital Library and Computational Philology : the BAMBI (LIB -3114) project.
Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N°1324 (Springer Verlag). Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540-63554-8
CALABRETTO S., PINON J.M. Modelling of a medieval manuscript database with HyTime. In: Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97. New Models and
Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1-891365-00-2
PINON J.M., CALABRETTO S., BOZZI A. Numérisation des manuscrits médiévaux : le projet européen BAMBI.In : Colloque du Centre Jacques Cartier. Vers une nouvelle érudition. Numérisation et recherche en
histoire du livre. Lyon, 6-7 décembre 1999
Publications