Mikroformate fuer bibliographische Daten

48
Carsten Schulze 06.11.08 FHP:-) FHP:-) 1 Fachbereich für Informationswissenschaften der Fachhochschule Fachbereich für Informationswissenschaften der Fachhochschule Potsdam Potsdam Mikroformate für Bibliographische Daten Vergleich verschiedener Konzepte zur semantischen Annotation Carsten M. Schulze 6. November 2008

description

Die elektronische Literaturverwaltung ist ein unverzichtbares Instrument für das wissenschaftliche Arbeiten. Wissenschaftler nutzen verschiedene Literaturverwaltungssysteme, um die informationelle Grundlage ihrer Arbeit zu organisieren. Der manuelle oder halbautomatische Import von bibliographischen Daten aus verschiedenen Kontexten in diese Systeme ist zum Teil zeitaufwendig und fehlerbehaftet. Verschiedene Konzepte von Mikroformatierungen bieten die Möglichkeit, bibliographische Daten in HTML semantisch zu annotieren, um somit eine maschinelle Prozessierbarkeit zu erreichen, die nicht nur den Import von bibliographischen Daten in Literaturverwaltungssysteme effizienter gestaltet. Der Vortrag gründet sich auf die am Fachbereich für nformationswissenschaften der FH Potsdam abgelegten Diplomarbeit "Mikroformate für bibliographische Daten: Vergleich verschiedener Konzepte zur semantischen Annotation". Er soll die Notwendigkeit für Mikroformate für bibliographische Daten verdeutlichen und besteht zudem aus einer mit Beispielen angereicherten Erläuterung der einzelnen Konzepte COinS, unAPI, hCitation, eRDF und RDFa, sowie deren Vergleich.

Transcript of Mikroformate fuer bibliographische Daten

Page 1: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

1

Fachbereich für Informationswissenschaften der Fachhochschule Fachbereich für Informationswissenschaften der Fachhochschule PotsdamPotsdam

Mikroformate für Bibliographische DatenVergleich verschiedener Konzepte zur semantischen

Annotation

Carsten M. Schulze

6. November 2008

Page 2: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

2

ÜbersichtÜbersicht

Warum brauchen wir Mikroformate für bibliographische Daten?

– Der Kontext von bibliographischen Daten im Web– Produktion und Nachnutzung von bibliographischen Daten

für die Wissenschaft– Probleme der Nachnutzung von bibliographischen Daten– Lösungsansätze

Mikroformate für bibliographische Daten

– COinS, unAPI, Citation Microformat, (eRDF) und RDFa

Page 3: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

3

Bibliographische DatenBibliographische Daten

Zur Identifikation und zur formalen Beschreibung einer Schrift wichtige Daten in standardisierter Reihenfolge [DIN 1505, 1]

bibliographische Angaben in digitaler Form

– Formalerschließung. NICHT Sacherschließung

keine definierte Präsentationsform– abhängig von Wissensgemeinde

keine definierten Bestandteile– abhängig von Kontext

Überbegriff: Metadaten– formal, inhaltlich, Nutzung, Rechte

Page 4: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

4

Bibliographische Daten: PräsentationsformenBibliographische Daten: Präsentationsformen

bibliographische Daten

Page 5: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

5

<HTML><HTML>

Page 6: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

6

Bibliographische Daten: Entstehung und Bibliographische Daten: Entstehung und RezeptionRezeption

Wissenschaftler

bibliographische Daten

Organisation von Information

Page 7: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

7

LiteraturverwaltungLiteraturverwaltung

Wissenschaftler

LiteraturverwaltungLiteraturverwaltung

Page 8: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

8LiteraturverwaltungLiteraturverwaltung

Literaturverwaltung: ImportLiteraturverwaltung: Import

bibliographische Daten im Web

Copy&Paste

Page 9: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

9LiteraturverwaltungLiteraturverwaltung

Literaturverwaltung: ImportLiteraturverwaltung: Import

bibliographische Daten im Web

bibliographische Daten alstextbasiertes Austauschformat

Importfilter + Copy&Paste

Page 10: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

10LiteraturverwaltungLiteraturverwaltung

Literaturverwaltung: ImportLiteraturverwaltung: Import

bibliographische Daten im Web

bibliographische Daten alstextbasiertes Austauschformat

bibliographische Datenals standardisiertesÜbergabeprotokoll

Effizienz durch direkten Import

Page 11: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

11LiteraturverwaltungLiteraturverwaltung

Literaturverwaltung: ImportLiteraturverwaltung: Import

bibliographische Daten im Web

bibliographische Daten alstextbasiertes Austauschformat

bibliographische Datenals standardisiertesÜbergabeprotokoll

Importfilter + Copy&Paste

Effizienz durch direkten Import

Copy&Paste

Interoperabilität ???Interoperabilität ???

Page 12: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

12

Metadateneinbindung in HTMLMetadateneinbindung in HTML

Eine Möglichkeit:

– Einbindung im <head>-Bereich von HTML-Seiten– bekannt durch Dublin Core

Dublin Core Metadata Initiative (DCMI)

– Dublin Core Metadata Element Set (DCMES)– Dublin Core Metadata Terms (DCTERMS)– Beschreibung von Webressourcen

andere Vokabulare:

– FOAF , address, Time etc.

Page 13: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

13

Metadateneinbindung in HTML: NachteileMetadateneinbindung in HTML: Nachteile

Inhalt 1Inhalt 2Inhalt 3Inhalt 4

...

Autor, Titel, Datum etc.

Metadateneinbindung im <head>-Bereich

Web Dokument

Page 14: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

14

Beispiel I

Page 15: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

15

Mehrdeutigkeit----

ambiguity

Page 16: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

16

Metadateneinbindung in HTML: NachteileMetadateneinbindung in HTML: Nachteile

Inhalt 1Inhalt 2Inhalt 3Inhalt 4

...

Autor, Titel, Datum etc.

Metadateneinbindung im <head>-Bereich

Web Dokument

Page 17: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

17

Semantic Web: RDFSemantic Web: RDF

beschreibt Ressourcen und ihre Beziehungen

ausgedrückt durch Tripel

– Ressource, Eigenschaft, Wert

domänenkontrollierte Bedeutung

– Namespaces

Prädikat /SubjektObjektSubjekt

Page 18: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

18

RDF-Syntax: XML SerialisierungRDF-Syntax: XML Serialisierung

<rdf:RDF

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:dcterms="http://purl.org/dc/terms/"

xmlns:bibo="http://purl.org/ontology/bibo/">

<rdf:Description rdf:about="http://www.collidoscope.de/markup/APA.html#ref5">

<dcterms:date>1993</dcterms:date>

<bibo:contributer rdf:parseType="Resource">

<rdf:type rdf:resource="http://xmlns.com/foaf/0.1/Person"/>

<foaf:family_name xml:lang="en">Okuda</foaf:family_name>

<foaf:givenname xml:lang="en">M.</foaf:givenname>

</bibo:contributer>

</rdf:Description>

[...]

Page 19: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

19

RDF-Syntax: TurtleRDF-Syntax: Turtle

@prefix dcterms: <http://purl.org/dc/terms/>.

@prefix foaf: <http://xmlns.com/foaf/0.1/>.

@prefix bibo: <http://purl.org/ontology/bibo/>

:ref5 dcterms:date "1993" ;

bibo:contributer [ a foaf:Person;

foaf:family_name "Okuda"@en ;

foaf:givenname "M."@en ] .

[...]

Page 20: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

20

Semantic Web: ProblemeSemantic Web: Probleme

Nicht zur Rezeption durch Menschen geeignet

„schwer zu verstehende“ Spezifikationen

bisher wenig Anwendungen

Nutzen schwer zu vermitteln

Henne-Ei-Problem

Page 21: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

21

MikroformateMikroformate

„Semantic Web von Unten“

entstanden im Web 2.0-Kontext

– Microformats.org– Kontakt-, Kalender-, Lizenzinformationen etc.

Datenformatierungen: zeichnen Daten dort semantisch aus, wo sie rezipiert werden: in HTML

– humans first machines second...

nutzen die HTML-Infrastruktur

– HTML-Attribut @class etc.

Semantik stützt sich auf Konventionen

Page 22: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

22

MICROFORMTAS„Designed for humans first and machines second,

microformats are a set of simple, open data formats

built upon existing and widely adopted standards.“microformats.org

Page 23: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

23

Beispiel II

Page 24: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

24

Mikroformate: DefinitionMikroformate: Definition

Meine Definition:

Jede Konvention, die (X)HTML-Infrastruktur nutzt, um Daten semantisch zu annotieren.

Mikroformat ∉ Microformat / Microformat Mikroformat∈

Mikroformate● COinS● (unAPI)● Microformats● eRDF / RDFa

Microformats● hCard● hCalendar● hCitation● etc.

Page 25: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

25

Mikroformate: VorteileMikroformate: Vorteile

eher zugänglich als SW-Technologien

– humans fist...– einfache Syntax

keine Redundanzen

– abhängig vom MF-Konzept

Einbindung ins SW (durch GRDDL ...)

direkter Nutzen / Problemlösung

z. T. schon Anwendungen vorhanden

Interaktion mit dem Browser

– Screen Scraping

The Web

Page 26: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

26

Mikroformate für bibliographische DatenMikroformate für bibliographische Daten

LiteraturverwaltungLiteraturverwaltung

SW-ApplikationenSW-Applikationen

Page 27: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

27

COinS

Page 28: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

28

OpenURL COinSOpenURL COinS

http://www.openurl.de/?

ctx_ver=Z39.88-2004&rft_val_fmt=info:ofi/fmt:kev:mtx:jou

rnal&rft.title=Ariadne&rft.aulast=Chudnov&rft.atitle=Openi

ng+up+OpenURLs+with+Autodiscovery&rft.issue=43&rft.iss

n=1361-3200&rft.date=2005-04&rft_id=http://www.aria

dne.ac.uk/issue43/chudnov/&url_ver=Z39.88-2004

Basis-URL

OpenURL KEV ContextObject

Page 29: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

29

OpenURL COinSOpenURL COinS

Context Object in SPAN (COinS)

OpenURL Standard Z39.88

– Key Encoded Value (KEV) ContextObject● Key[1]=Value[1]&Key[2]=Value[2]&Key[n]=Value[n]

COinS Syntax:

<span class=“Z3988“ title=“OpenURL-KEV-ContextObject“>

Page 30: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

30

Beispiel III

Page 31: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

31

COinS: DiskussionCOinS: Diskussion

Vorteile:

– einfache Syntax, hohe Softwareunterstützung, weite Verbreitung

Nachteile:

– begrenzt durch OpenURL-Standard (skaliert nicht)– keine Relationen, redundante Daten

Page 32: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

32

unAPI

Page 33: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

33

unAPIunAPI

Aussprache beliebig

besteht aus drei Teilen:

– Mikroformat / Konvention zur Identifikation● <abbr class=“unapi-id“ title=“urn:isbn:1590598148“>

– <link>-Tag automatische Erkennung der unAPI-Server● <link rel=“unapi-server“ type=“application/xml“ title=“unAPI“

href=“unapi.php“ />– unAPI-Server bestehend aus drei HTTP-Funktionen

strukturierteDatenbasis++

Page 34: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

34

unAPI: Content NegotiationunAPI: Content Negotiation

Anwendung unAPI-Server1. Anfrage: http://example.com/unapi.php

2. Antwort: Liste von Formaten in XML

3. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148

4. Antwort: Liste von Formaten für die übergebene ID in XML

5. Anfrage: http://example.com/unapi.php?id=urn:isbn:1590598148&format=mods

6. Antwort: Datensatz in dem gewünschten Format

Page 35: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

35

Beispiel IV

Page 36: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

36

unAPI: DiskussionunAPI: Diskussion

Vorteile:

– frei definierbare Datenformate– keine Redundanzen– Transport digitaler Objekte

Nachteile:

– erhöhter Programmieraufwand– strukturierte Datenbasis erforderlich– kein bidirektionaler Transport

Page 37: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

37

hCite / h3988

Page 38: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

38

Citation MicroformatCitation Microformat

nutzt bereits bestehende Microformats (Compound)

soll definierte Probleme lösen

Definition der Bestandteile basiert auf formalen Verfahren

– real world examples● Bestandteile bibliographischer Beschreibung● Kategorien bibliographischer Formate

es existieren mittlerweile zwei Markup-Vorschläge

– hCite und h3988

Page 39: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

39

hCite: SyntaxhCite: Syntax

<div class=“hcite“>

<div class=“monograph“> / <div class=“type“>Monograph

<span class="author firstauthor">

<span class="family-name">Allsopp</span>,

<span class="given-name">John</span>

</span>

(<span class="year">2006</span>):

<span class="title">Microformats: empowering your Markup for Web 2.0</span>

</div>

</div>

Darstellung:

Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0

Page 40: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

40

h3988: Syntaxh3988: Syntax

Darstellung:

Allsopp, John (2006): Microformats: empowering your Markup for Web 2.0

<div class=“h3988 mfo“>

<span class="au vcard">

<span class="fn n">

<span class="family-name">Allsopp</span>,

<span class="given-name">John</span>

</span>

(<span class="date">2006</span>):

<span class="btitle">Microformats: empowering your Markup for Web 2.0</span>

</div>

Page 41: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

41

Citation Microformat: DiskussionCitation Microformat: Diskussion

Vorteile:

– einfache Syntax– keine Redundanzen– hohe Softwareunterstützung (ist zu erwarten)

Nachteile:

– Anpassungen nur durch quasidemokratischen Prozess (skaliert nicht)

– wenig oder keine Relationen

Page 42: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

42

RDFa

Page 43: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

43

eRDF & RDFaeRDF & RDFa

ähnliche Ansätze: Einbettung von RDF in HTML

unterschiedliche Ausdrucksfähigkeit

RDF

(X)HTML + eRDF XHTML + RDFa

RDF-Teilmenge

RDF-Teilmenge

Interpretation durch RDFa-Parser

Interpretation durch eRDF-Parser

Page 44: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

44

RDFaRDFa

erweitert XHTML mit neuen Attribute:

– @about, @property, @resource, @datatype, @typeof

Nutzung von Compact URIs (CURIEs)

xmlns:bibo=“http://purl.org/ontology/bibo/“

<span typeof=“bibo:Article“>

--> http://purl.org/ontology/bibo/Article

Page 45: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

45

Beispiel V

Page 46: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

46

RDFa: DiskussionRDFa: Diskussion

Vorteile RDFa:

– Nutzung von Namespaces (skaliert)– hohe RDF-Aussagekraft– Relationen– W3C-Recommendation (14.10.2008)– Daten sind Teil des Semantic Web

Nachteile RDFa

– teilweise komplizierte Verschachtelung notwendig

– noch wenig Anwendungen

Page 47: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

47

ZusammenfassungZusammenfassung

interoperable bibliographische Daten sind für ein effizientes wissenschaftliches Arbeiten unverzichtbar

Semantic Web Technologien sind teilweise kompliziert und es gibt nur wenige Anwendungen

Mikroformate sind eine einfache Art Daten semantisch in HTML auszuzeichnen

es gibt mehrere Konzepte von Mikroformaten für bibliographische Daten

ein Vergleich dieser Konzepte ist nur für den konkreten Anwendungsfall sinnvoll

Page 48: Mikroformate fuer bibliographische Daten

Car

sten

Schu

lze

06.1

1.08

FHP:-)

FHP:-)

48

Vielen Dank für ihre Vielen Dank für ihre Aufmerksamkeit!Aufmerksamkeit!

www.collidoscope.dewww.collidoscope.de