Métadonnées de thèse

61
Métadonnées de thèse [email protected] 1 stage enssib | Valorisation des thèses | 2 décembre 2010

description

Présentation (2 h) donnée lors d'un stage enssib sur la valorisation des thèses.2 décembre 2010.Neige.

Transcript of Métadonnées de thèse

Page 1: Métadonnées de thèse

1

Métadonnées de thèse

[email protected]

stage enssib | Valorisation des thèses | 2 décembre 2010

Page 2: Métadonnées de thèse

2

Plan

Introduction – de quoi parle-t-on ? Des métadonnées dans tous les états TEF Identifiants IdRef RDF Les métadonnées dans les thèses

Page 3: Métadonnées de thèse

3

INTRODUCTIONDe quoi parle-t-on ?

Page 4: Métadonnées de thèse

4

Introduction

De quoi parle-t-on ?

• Métadonnées = ?• Thèse = ?

Page 5: Métadonnées de thèse

5

Métadonnées = ?

• Information structurée et réutilisable sur (…)

• Exemples– Une page de titre papier est structurée, mais n’est

pas réutilisable– Une notice MARC = un ensemble de

métadonnées

Page 6: Métadonnées de thèse

6

• Cette thèse a pour directeur Untel

Page 7: Métadonnées de thèse

7

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire

Page 8: Métadonnées de thèse

8

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise

Page 9: Métadonnées de thèse

9

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’

Page 10: Métadonnées de thèse

10

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

Page 11: Métadonnées de thèse

11

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue

Page 12: Métadonnées de thèse

12

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

Page 13: Métadonnées de thèse

13

• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise

• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’

• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’

• Etc.

Où s’arrêter ?

Page 14: Métadonnées de thèse

14

Métadonnées

Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière

Web de données (RDF) cf. + loin

• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à

l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues, administratives,

normes…)

Page 15: Métadonnées de thèse

15

Page 16: Métadonnées de thèse

16

Les métadonnées de thèse,c’est…

• toute information structurée …• … qui concerne de près ou de loin la thèse

» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :

• Document• Personne• Organisme• Concept

Page 17: Métadonnées de thèse

17

Thèse = ?

• En apparence, c’est un objet précis• En fait, différentes entités derrière le mot

« Thèse »» Et chacune a ses propres métadonnées

Page 18: Métadonnées de thèse

18

http://thesedemerde.fr

Page 19: Métadonnées de thèse

19

• Thèse comme Texte (« rédaction »)• Thèse comme Edition (« quatre fois plus de

pages »)

Page 20: Métadonnées de thèse

20

• Thèse comme Œuvre • Thèse comme Texte (« version »)• Thèse comme Edition/Format (« manuscrit »)

Page 21: Métadonnées de thèse

21

• Thèse comme Période, Processus administratif (« moitié »)

Page 22: Métadonnées de thèse

22

• Thèse comme Diplôme (« inscription »)

Page 23: Métadonnées de thèse

23

LES MÉTADONNÉES DE THÈSE DANS TOUS LES ÉTATS

Circulation et recyclage

Page 24: Métadonnées de thèse

24

• Différentes phases• Différents formats• Circulation & recyclage• Pas de multiple saisie

Page 25: Métadonnées de thèse

25

Où sont les métadonnées ? Sous quelle forme ?

Applications de gestion (APOGEE) Bases de données

Bureautique Excel

Exports d’applications CSV

Web services d’application (APOGEE) XML

Processus d’échange avec STAR TEF

Catalogage MARC

Diffusion du document HTML HTML (page de titre)

Diffusion du document PDF Métadonnées embarquées XML

Page Web de présentation HTML

Moteurs de recherche ?

Serveurs OAI-PMH XML (différents vocabulaires XML)

… …

Page 26: Métadonnées de thèse

26

• Il n’existe pas un format canonique pour les métadonnées de thèse

• Il n’existe pas un état de complétude (géométrie variable, selon contexte)

• Il n’existe pas qu’un circuit linéaire (workflow à la carte)

• Mais il existe des conditions favorables à la circulation et au recyclage des métadonnées

Page 27: Métadonnées de thèse

27

Conditions favorables

• Information la plus découpée possible » nom et prénom séparés

• Information la plus homogène possible» Peu importe la structure des dates, mais ne pas varier

• Information la plus précise possible» Pas de majuscules non ACCENTUEES !» Utiliser des listes fermées (diplômes, disciplines..)» Garder le maximum de précision et de richesse au fil des

conversions

• Avoir des outils qui permettent de maîtriser les flux entrants et sortants

• Disposer de compétences XSLT

Page 28: Métadonnées de thèse

28

TEFUne forme parmi d’autres pour les métadonnées de thèse

Page 29: Métadonnées de thèse

29

TEF

• Format XML• Pour les thèses numériques natives• Recommandation AFNOR (2006) ?

<chut>Obligation ABES</chut>» TEF, fait sur mesure pour STAR» Pour répondre aux missions de STAR» Format d’import de STAR

Page 30: Métadonnées de thèse

30

Missions de STAR > Aspects de TEF

• Signalement Sudoc• TEF : méta biblio, autorités…

• Archivage pérenne• TEF : gestion d’éditions différentes, avec métadonnées de

fichiers associées

• Respect du droit de la PI et des restrictions de diffusion

• TEF : gestion fine des droits

• Respect de la validation Jury• TEF : différentes versions possibles

Page 31: Métadonnées de thèse

31

Page 32: Métadonnées de thèse

32

TEF et les FRBR

• FRBR : modélisation de l’information bibliographique par l’iFLA (1998)

• Clarification conceptuelle– A chaque niveau ses métadonnées• Œuvre• Expression (= Version selon TEF)• Manifestation (= Edition selon TEF)• Exemplaire (Pas dans TEF)

Page 33: Métadonnées de thèse

33

Le cas simple

Page 34: Métadonnées de thèse

34

Un cas plus complexe

Page 35: Métadonnées de thèse

35

Un autre cas plus

complexe

Page 36: Métadonnées de thèse

36

Générer du TEF pour importer dans STAR

• Partir de n’importe quelles données structurées

• Convertir en TEF, complet ou non» STAR : pas tout ou rien

Page 37: Métadonnées de thèse

37

IDENTIFIANTS

Page 38: Métadonnées de thèse

38

http://www.theses.fr/2009TOUR3802

• URL pérenne de la description HTML de la thèse comme œuvre

• Point de départ vers documents, métadonnées, ressources liées…

Page 39: Métadonnées de thèse

39

http://www.theses.fr/2009TOUR3802/document

• URL pérenne de document (s)• Renvoie vers une des éditions sur un des

serveurs de diffusion• Selon un ordre défini

• Action : Get it !

Page 40: Métadonnées de thèse

40

http://www.theses.fr/2009TOUR3802/id

• Identifiant de la thèse comme œuvre• Aujourd’hui pur identifiant pour le RDF• Demain, identifiant et URL

• Même si l’œuvre n’est pas un document accessible sur le Web. Seules ses éditions (manifestations) y sont.

Page 41: Métadonnées de thèse

41

• Avec le portail des thèses (2011) :– http://www.theses.fr/2009TOUR3802.rdf– http://www.theses.fr/2009TOUR3802.xml– http://www.theses.fr/2009TOUR3802/dc.xml– http://www.theses.fr/2009TOUR3802/marc.xml– …

Page 42: Métadonnées de thèse

42

IDENTIFIER LES ENTITÉS LIÉES AUX THÈSES

IdRef www.idref.fr

Page 43: Métadonnées de thèse

43

Besoin de référentiels

• Identifier les personnes, organismes, concepts…

• Autorités Sudoc >> IdRef

• D’autres entités > d’autres référentiels• Laboratoires ?• Entreprises ?• Contrat CIFRE ?• Projets ANR ?

Page 44: Métadonnées de thèse

44

IdRef

• Nouvelle application ABES (octobre 2010)• Objectifs :– Interroger, modifier, créer les autorités Sudoc• À partir du site Web www.idref.fr• A partir d’une autre application « branchée » sur IdRef

» STAR (oct. 2010), Calames (aujourd’hui !), ORI-OAI (2011) et d’autres applications de l’ens. sup. & rech. fr.

Page 45: Métadonnées de thèse

45

Page 46: Métadonnées de thèse

46

Politique des URL

• http://www.idref.fr/026690276» URL des métadonnées de la personne (HTML ou RDF)

• http://www.idref.fr/026690276/id» URL de la personne» Redirige (303) vers les métadonnées

• http://www.idref.fr/026690276.rdf» URL des métadonnées RDF de la personne

• http://www.idref.fr/026690276.html» URL des métadonnées HTML de la personne

• http://www.idref.fr/026690276.xml» URL des métadonnées UNIMARC/XML de la personne

Page 47: Métadonnées de thèse

47

Prière

Faîtes le maximum de liens vers des référentiels et leurs identifiants !

» Membres du jury» Entreprises» Entreprises» Projets ANR

Le Web vous le rendra…

Page 48: Métadonnées de thèse

48

VERS UN WEB DE MÉTADONNÉESRDF

Page 49: Métadonnées de thèse

49

RDF

• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui

• Resource Description Framework• Cadre général pour décrire n’importe quoi

» Tout peut être « resource » à décrire

• RDF, modèle universel pour intégrer toute information au Web de données

Page 50: Métadonnées de thèse

50

http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id

Cette thèse …… a pour auteur …… untel.

Page 51: Métadonnées de thèse

51

http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id

La relation creator est également identifiée par une URL

Page 52: Métadonnées de thèse

52

Démo

Page 53: Métadonnées de thèse

53

Comment publier ses métadonnées en RDF ?

• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :

www.theses.fr/{Numéro_national_de_Thèse}

• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef

Page 54: Métadonnées de thèse

54

Et si je veux voir ce RDF ?

- Mais le RDF est pour les machines !- Mais je veux voir !

Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa

Page 55: Métadonnées de thèse

55

Nos métadonnées et les moteurs

• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…

• Sindice» Moteur spécialisé dans les données sémantiques

• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…

Page 56: Métadonnées de thèse

56

Diffuser les métadonnées sur le Web de données, c’est …

• Valoriser les thèses• Valoriser les personnes et les organismes liées

aux thèses• Enrichir nos propres métadonnées• Enrichir les métadonnées des autres• Découvrir de nouveaux usages et utilisateurs

de nos données• Publier à la cantonade ≠ échanger entre partenaires

Page 57: Métadonnées de thèse

57

LES MÉTADONNÉES DANS LA THÈSE

Page 58: Métadonnées de thèse

58

Les métadonnées dans la thèse

• La thèse contient des informations structurées• Page de titre• Table des matières• Autres tables• Plan de la thèse• Bibliographie

• Ces métadonnées ne sont – pas explicites– pas caractérisées de manière sémantique

Page 59: Métadonnées de thèse

59

Les métadonnées dans la thèse

• La thèse contient des informations précises mais non structurées de manière sémantique :

= la prose scientifique

• RDFa montre la possibilité de truffer la prose de métadonnées

– Au moins, structurer le résumé en RDF ?

Page 60: Métadonnées de thèse

60

Page 61: Métadonnées de thèse

61

Quels outils pour une écriture sémantique ?

• Styles Word ?» Mais pour baliser le sens, pas la forme !

• Plugin Bureautique ?» Ex : Word Add-in For Ontology Recognition» Ex: Extension sémantique pour Open Office

• Editeur HTML 5 ?» Microdata

• Rival de RDFa