2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

25
Atelier de formation Encodage XML avec Oxygen editor Emmanuelle Morlock (CNRS - UMR 5189 HISoMA) Lyon, 12 septembre 2014

Transcript of 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Page 1: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Atelier de formationEncodage XML avec Oxygen editor

Emmanuelle Morlock (CNRS - UMR 5189 HISoMA)

Lyon, 12 septembre 2014

Page 2: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

menu

● but de l’atelier● introduction rapide à XML et oXygen● pratique du logiciel● approfondissements selon les questions des

participants

Page 3: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

objectifs● comprendre les principes d’XML et son utilité● faciliter la prise en main d’un éditeur XML offrant des

fonctionnalités avancées● vue globale du processus de l’édition d’un fichier à l’

affichage sous forme de page web● échanger (questions, pratiques, ‘trucs’, interrogations…)

au final, l’ambition est de créer un réseau interne au labo pour développer l’entraide et valoriser les expertises...

Page 4: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

XML en 4 points1. Une description des données (sans affichage) : XML ne

fait rien2. Pas de balises prédéfinies : l’utilisateur peut librement

créer ses propres balises3. Possibilité d’utiliser des “grammaires” de balises

formaliser des conventions et donner de la rigueur (DTD, schémas)

4. Auto-descriptif et lisible par l’homme et la machine

Page 5: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

balisage : délimiter des contenus

<balise>chaîne de caractères</balise>Balise : “tag”, élément de marquage…Un langage de balisage enrichit l’information textuelle en délimitant des séquences à l’intérieur d’un flux (comme html). C’est une explicitation des distinctions que l’on considère comme pertinentes.

balise ouvrante balise fermanteContenu

Page 6: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

balisage : distinctions au choixComparer :

● bla bla <titre>Phèdre</titre> bla bla

● bla bla <persName>Phèdre</persName> bla

Page 7: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

organisation ● arborescence d’éléments imbriqués hiérarchiquement● avec des attributs pour préciser le sens ou ajouter des

informations

● exemple de la recette de cuisine :...

Page 8: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

<recette> <titre>Lait de poule</titre>

<ingredients> <ingredient><qté>1</qté><nom>oeuf</nom></ingredient> <ingredient><qté>10 cl</qté><nom>de lait chaud</nom></ingredient> <ingredient><nom>sucre en poudre</nom></ingredient> </ingredients>

<preparation> <explications>Verser le tout dans un verre à anse. Sucrer selon son goût. Remuer et ajouter un peu de noix de muscade râpée. </explications>

<durée/> </preparation></recette>

Page 9: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

[ [lait de poule][ [ [1] [oeuf] ] [ [10 cl][de lait chaud] ] ] [ [Verser le tout dans un verre à anse. Sucrer selon son goût. Remuer et ajouter un peu de noix de muscade

râpée. ] ]

Page 10: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

recette

titre

ingrédients

préparation

ingrédient

ingrédient

ingrédient

qté

nom

qté

nom

qté

nom

explications

durée

Page 11: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen
Page 12: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Attributs

<date when=”2014-09-12”>le 9e jour de septembre</balise>

Ici l’attribut permet d’exprimer sous une forme normée et exploitable par un programme informatique la date inscrite dans le document.

Remarque : par convention, on fait précéder l’attribut du signe@ quand on en parle (l’attribut @when).

attribut valeur

Page 13: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

le début du fichier XML

Commence par une déclaration qui indique :

● la version de XML● le type d’encodage des caractères

<?xml version="1.0" encoding="UTF-8"?>

Page 14: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

conformité / validité● document bien formé : conforme aux règles de

syntaxe générales (par ex. fermeture des balises, chevauchements interdits)

● document valide : suit des règles spécifiques définis dans une DTD ou un schéma (définit les autorisations d'imbrications et l'ordre d'apparition des éléments et de leurs attributs)

Page 15: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

schéma ou DTD

● pas obligatoire mais compense la liberté laissée à chacun d’inventer ses balises

● avant tout : se mettre d’accord sur un langage commun… et expliciter des propriétés, des contraintes sur les relations entre éléments, etc.

Page 16: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

vérifications automatiques

● des logiciels et des outils permettent de vérifier qu’un fichier est conforme à une DTD ou un schéma

● les logiciels d’édition XML permettent aussi d’afficher dans le contexte d’usage les propriétés possibles définies par le schéma

Page 17: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

ex. dans Oxygen editor

Page 18: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Transformation d’un fichier XML

On a souvent besoin de réorganiser les éléments d’un fichier XML avant de les afficher, par ex. pour satisfaire les exigences différenciées de différents supports...

C’est le langage de transformation XSLT qui permet de faire cela.

Page 19: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen
Page 20: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Processus de traitement simplifié

1. Saisie et structuration2. Validation selon un schéma 3. Transformation via XSLT4. affichage du résultat dans le navigateur

Page 21: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

principaux angages et outils XML

● produire : ○ langage XML, éditeurs XML

● parser, transformer et formater○ ex. : langage XSL, moteurs XSLT

● exploiter○ recherches avec le langage XPath : adresser des

parties de documents○ requêtes complexes avec le langage XQuery

Page 22: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Découverte d’oXygen avec la TEI

● création d’un fichier XML TEI● saisie en mode texte d’un court texte et

expérimentation des aides à la saisie (conformité, aides contextuelles, validité)

● transformations ● scénarios de validation

Page 23: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Oxygen editor

● un éditeur XML aux fonctionnalités très complètes :○ édition selon plusieurs modes (texte, grille, auteur…)○ intégration des outils du domaine XML

■ recherche dans l’arborescence XML avec le langage XPath

■ processeurs XSLT pour les transformations■ Xquery■ schematron, Xproc, interfaçage avec BDD, etc.

Page 24: 2014 09 12_atelier-humanites-numerique-hisoma-seance-1-oxygen

Structure d’un fichier TEI

<TEI>

<teiHeader/>

<facsimile/>

<sourceDoc/>

<text/>

</TEI>

métadonnées

images (optionnel)

représentation “génétique”(optionnel) du document source

représentation du texte à travers sa structure logique