Was Wissenschaftler wirklich Wollen

38
Was Wissenschaftler wirklich wollen Such- und Metadatenstrategien für digitale Repositorien am Beispiel von "Goobi"

description

Goobi Präsentation auf dem BibTag 2010 in Leipzig

Transcript of Was Wissenschaftler wirklich Wollen

Page 1: Was Wissenschaftler wirklich Wollen

Was Wissenschaftlerwirklich wollen

Such- und Metadatenstrategien für digitale Repositorien am Beispiel von "Goobi"

Page 2: Was Wissenschaftler wirklich Wollen

Seien wir ehrlich:

Page 3: Was Wissenschaftler wirklich Wollen

WIR WISSEN ES NICHT.

Page 4: Was Wissenschaftler wirklich Wollen

Endnutzer – wer ist das?

• Wissenschaftler

• Schüler/Studierende

• Laien

• Google (und andere Dienste)

Page 5: Was Wissenschaftler wirklich Wollen

Nutzungsarten• Suche / Retrieval

– Das einzelne Objekt als Ziel

• Semantische / qualitative Analysen– Themenkarrieren– Netzwerke (Personen)– Die Summe der Objekte - das Repository - als Werkzeug

und Untersuchungsgegenstand

• Text- und Editionsarbeit– Virtuelle Forschungsumgebungen– Teilobjekte (Abschnitte, Sätze, Worte) als erweiterbare und

kombinierbare Einheiten

Page 6: Was Wissenschaftler wirklich Wollen

Dimensionen der DigitalisierungDimensionen der Digitalisierung

Page 7: Was Wissenschaftler wirklich Wollen

ZENDEF

Page 8: Was Wissenschaftler wirklich Wollen

ZENDEF• Zitierbar• Erreichbar• (nach)Nutzbar• Durchsuchbar• Erweiterbar• Findbar

Page 9: Was Wissenschaftler wirklich Wollen

ZENDEF• Zitierbar

– Persistente Identifier Struktur (PID)

• Erreichbar

– Digitalisiert, Stabilität, Performance

• (nach)Nutzbar

– Qualität, flexible Datenformate

• Durchsuchbar

– Metadaten (Bibl. & Struktur), Volltexte

• Erweiterbar

– Virtuelle Forschungsumgebungen

• Findbar

– OPAC, Google & co

Page 10: Was Wissenschaftler wirklich Wollen

• Erreichbar / Nutzbar– Massendigitalisierung mit Scanrobotern– Kristina Lippold, Dresden

• Durchsuchbar / Findbar– OCR Renderfarmen und TEI– Christian Mahnke, Göttingen

• Nachnutzbar– Standards für Datenformate und -übertragung– Sebastian Meyer, Dresden

• Durchsuchbar / Findbar– Strukturmetadatengenerierung– Ralf Stockmann, Göttingen

• Nachnutzbar– Das Digitalisat im Netz - Werkzeuge für die Nutzer– Sebastian Meyer, Dresden

• Zusammenfassung und Fazit– Ralf Stockmann, Göttingen

Page 11: Was Wissenschaftler wirklich Wollen

Strukturmetadatengenerierung

Page 12: Was Wissenschaftler wirklich Wollen

Erschließungstiefe

Bibliographische MetadatenBibliographische Metadaten

Struktur- MetadatenStruktur- Metadaten

VolltexteVolltexte

Manuelle Erschließung

Manuelle Erschließung

Bibliotheken Wissenschaftler

Page 13: Was Wissenschaftler wirklich Wollen

Beispiel Strukturmetadaten

Page 14: Was Wissenschaftler wirklich Wollen

Strukturmetadaten = digitales Inhaltsverzeichnis navigier- und durchsuchbar machen

Page 15: Was Wissenschaftler wirklich Wollen

Der Aufwand

1. Paginierungssequenzen erstellenVerhältnis von gescannter zu aufgedruckter Seite

2. Abstrakte Strukturen aufbauenDas Kapitel liegt in Ebene drei und reicht von Seite x bis xx

3. Das einzelne Strukturelement mit konkreten Metadaten füllenDas Kapitel hat den Titel X und den Autor XX

Page 16: Was Wissenschaftler wirklich Wollen

Paginierungssequenzen

Page 17: Was Wissenschaftler wirklich Wollen

17

OCR gestützte Anreicherung

Page 18: Was Wissenschaftler wirklich Wollen

Der Aufwand

• Derzeit: für viele Materialien nur händische Verfahren sinnvoll

• Bei Antiqua und begrenzt jüngerer Fraktur OCR-gestützte, Halbautomatiken denkbar

Page 19: Was Wissenschaftler wirklich Wollen

Aufwand je ProjektVD18

Rezensionszeitschriften DigiZeitschriften

Mathematik

Page 20: Was Wissenschaftler wirklich Wollen

RusDML – worst case

Page 21: Was Wissenschaftler wirklich Wollen

Typische Laufzeiten im Produktionsprozess

300 Seiten Band (Mathematik)

• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme

• Digitalisierung (40 Minuten)• Qualitätskontrolle (10 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (40 Minuten)• Import (5 Minuten)

600 Seiten Band (DigiZeitschriften)

• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme

• Digitalisierung (70 Minuten)• Qualitätskontrolle (18 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (8 Stunden)• Import (10 Minuten)

Page 22: Was Wissenschaftler wirklich Wollen

Lohnt der ganze Aufwand

Und was können wir durch Volltexte subsumieren?

Page 23: Was Wissenschaftler wirklich Wollen

Projekt: eAqua• Kooperation:

– Institut für Informatik - Computerlinguistik, Leipzig (Büchler, Eckart, Heyer, Baumgardt)

– SUB Göttingen (Stockmann, Kothe, Mahnke)

• Konkreter Vergleich: semantische Graphen zwischen Strukturdaten und Volltexten

Page 24: Was Wissenschaftler wirklich Wollen

Semantische Suche „Sozialismus“ auf Strukturdaten

Page 25: Was Wissenschaftler wirklich Wollen

Semantische Suche „Mephisto“ auf Strukturdaten

Page 26: Was Wissenschaftler wirklich Wollen

Semantische Suche „Mephisto“ auf Volltexten

Page 27: Was Wissenschaftler wirklich Wollen

Ergebnisse

• Strukturmetadaten unentbehrlich für das Aufbauen digitaler Inhaltsverzeichnisse (Navigation)

• Im Bereich der Suche werden (OCR) Volltexte mittelfristig bessere Ergebnisse liefern

• Semantische Relevanz von Strukturmetadaten schwankt extrem mit der Beschaffenheit des Materials

Page 28: Was Wissenschaftler wirklich Wollen

Die Zukunft

• Projekt: Europeana Connect

• Visualisierung von Daten interaktiv in Raum und Zeit („4D“)

• Kooperation von – SUB Göttingen (Mahnke / Stockmann)– Institut für Informatik (Scheuermann /

Jänicke)

Page 29: Was Wissenschaftler wirklich Wollen

29

Goethe

Semantische / qualitative Analysen

Page 30: Was Wissenschaftler wirklich Wollen

30

GoetheSchiller

Page 31: Was Wissenschaftler wirklich Wollen

Ausblick und Fazit

Page 32: Was Wissenschaftler wirklich Wollen

Goobi Verbreitung

www.goobi.org

Page 33: Was Wissenschaftler wirklich Wollen

Goobi Homepage

www.goobi.org

Page 34: Was Wissenschaftler wirklich Wollen

Goobi Blog

www.goobi.org/blog

Page 35: Was Wissenschaftler wirklich Wollen

Goobi Forum

in Kürze über Homepage zu erreichen

Page 36: Was Wissenschaftler wirklich Wollen

Wir wissen vielleicht nicht, was Wissenschaftler

wollen...

...aber wir können relativ genau sagen, was sie NICHT wollen

Page 37: Was Wissenschaftler wirklich Wollen

Überwindung der Provinienz

• Es interessiert keinen Wissenschaftler, in welcher Bibliothek seine Forschungsliteratur steht.

• Noch viel weniger interessiert ihn, in welchem Repository er die digitale Fassung gefunden hat.

• Digitale Werkzeuge MÜSSEN system- und applikationsübergreifend funktionieren:– Bookmarking– Vernetzung– Kommentierung– Kollaboration

Page 38: Was Wissenschaftler wirklich Wollen

ACHTUNG!

• Wir versündigen uns an einer ganzen Generation von Wissenschaftlern, wenn wir Produktkonkurrenz auf dem Rücken der Forscher austragen

• Wir brauchen keinen Wettbewerb um lokal implementierte Features, sondern einen Wettbewerb um die beste Implementierung offener Standards

• Im Zweifelsfall werden die Wissenschaftler in Zukunft dahin gehen wo Vernetzung funktioniert (Google)