Was Wissenschaftler wirklich Wollen
-
Upload
ralf-stockmann -
Category
Education
-
view
1.272 -
download
0
description
Transcript of Was Wissenschaftler wirklich Wollen
Was Wissenschaftlerwirklich wollen
Such- und Metadatenstrategien für digitale Repositorien am Beispiel von "Goobi"
Seien wir ehrlich:
WIR WISSEN ES NICHT.
Endnutzer – wer ist das?
• Wissenschaftler
• Schüler/Studierende
• Laien
• Google (und andere Dienste)
Nutzungsarten• Suche / Retrieval
– Das einzelne Objekt als Ziel
• Semantische / qualitative Analysen– Themenkarrieren– Netzwerke (Personen)– Die Summe der Objekte - das Repository - als Werkzeug
und Untersuchungsgegenstand
• Text- und Editionsarbeit– Virtuelle Forschungsumgebungen– Teilobjekte (Abschnitte, Sätze, Worte) als erweiterbare und
kombinierbare Einheiten
Dimensionen der DigitalisierungDimensionen der Digitalisierung
ZENDEF
ZENDEF• Zitierbar• Erreichbar• (nach)Nutzbar• Durchsuchbar• Erweiterbar• Findbar
ZENDEF• Zitierbar
– Persistente Identifier Struktur (PID)
• Erreichbar
– Digitalisiert, Stabilität, Performance
• (nach)Nutzbar
– Qualität, flexible Datenformate
• Durchsuchbar
– Metadaten (Bibl. & Struktur), Volltexte
• Erweiterbar
– Virtuelle Forschungsumgebungen
• Findbar
– OPAC, Google & co
• Erreichbar / Nutzbar– Massendigitalisierung mit Scanrobotern– Kristina Lippold, Dresden
• Durchsuchbar / Findbar– OCR Renderfarmen und TEI– Christian Mahnke, Göttingen
• Nachnutzbar– Standards für Datenformate und -übertragung– Sebastian Meyer, Dresden
• Durchsuchbar / Findbar– Strukturmetadatengenerierung– Ralf Stockmann, Göttingen
• Nachnutzbar– Das Digitalisat im Netz - Werkzeuge für die Nutzer– Sebastian Meyer, Dresden
• Zusammenfassung und Fazit– Ralf Stockmann, Göttingen
Strukturmetadatengenerierung
Erschließungstiefe
Bibliographische MetadatenBibliographische Metadaten
Struktur- MetadatenStruktur- Metadaten
VolltexteVolltexte
Manuelle Erschließung
Manuelle Erschließung
Bibliotheken Wissenschaftler
Beispiel Strukturmetadaten
Strukturmetadaten = digitales Inhaltsverzeichnis navigier- und durchsuchbar machen
Der Aufwand
1. Paginierungssequenzen erstellenVerhältnis von gescannter zu aufgedruckter Seite
2. Abstrakte Strukturen aufbauenDas Kapitel liegt in Ebene drei und reicht von Seite x bis xx
3. Das einzelne Strukturelement mit konkreten Metadaten füllenDas Kapitel hat den Titel X und den Autor XX
Paginierungssequenzen
17
OCR gestützte Anreicherung
Der Aufwand
• Derzeit: für viele Materialien nur händische Verfahren sinnvoll
• Bei Antiqua und begrenzt jüngerer Fraktur OCR-gestützte, Halbautomatiken denkbar
Aufwand je ProjektVD18
Rezensionszeitschriften DigiZeitschriften
Mathematik
RusDML – worst case
Typische Laufzeiten im Produktionsprozess
300 Seiten Band (Mathematik)
• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme
• Digitalisierung (40 Minuten)• Qualitätskontrolle (10 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (40 Minuten)• Import (5 Minuten)
600 Seiten Band (DigiZeitschriften)
• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme
• Digitalisierung (70 Minuten)• Qualitätskontrolle (18 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (8 Stunden)• Import (10 Minuten)
Lohnt der ganze Aufwand
Und was können wir durch Volltexte subsumieren?
Projekt: eAqua• Kooperation:
– Institut für Informatik - Computerlinguistik, Leipzig (Büchler, Eckart, Heyer, Baumgardt)
– SUB Göttingen (Stockmann, Kothe, Mahnke)
• Konkreter Vergleich: semantische Graphen zwischen Strukturdaten und Volltexten
Semantische Suche „Sozialismus“ auf Strukturdaten
Semantische Suche „Mephisto“ auf Strukturdaten
Semantische Suche „Mephisto“ auf Volltexten
Ergebnisse
• Strukturmetadaten unentbehrlich für das Aufbauen digitaler Inhaltsverzeichnisse (Navigation)
• Im Bereich der Suche werden (OCR) Volltexte mittelfristig bessere Ergebnisse liefern
• Semantische Relevanz von Strukturmetadaten schwankt extrem mit der Beschaffenheit des Materials
Die Zukunft
• Projekt: Europeana Connect
• Visualisierung von Daten interaktiv in Raum und Zeit („4D“)
• Kooperation von – SUB Göttingen (Mahnke / Stockmann)– Institut für Informatik (Scheuermann /
Jänicke)
29
Goethe
Semantische / qualitative Analysen
30
GoetheSchiller
Ausblick und Fazit
Goobi Verbreitung
www.goobi.org
Goobi Homepage
www.goobi.org
Goobi Blog
www.goobi.org/blog
Goobi Forum
in Kürze über Homepage zu erreichen
Wir wissen vielleicht nicht, was Wissenschaftler
wollen...
...aber wir können relativ genau sagen, was sie NICHT wollen
Überwindung der Provinienz
• Es interessiert keinen Wissenschaftler, in welcher Bibliothek seine Forschungsliteratur steht.
• Noch viel weniger interessiert ihn, in welchem Repository er die digitale Fassung gefunden hat.
• Digitale Werkzeuge MÜSSEN system- und applikationsübergreifend funktionieren:– Bookmarking– Vernetzung– Kommentierung– Kollaboration
ACHTUNG!
• Wir versündigen uns an einer ganzen Generation von Wissenschaftlern, wenn wir Produktkonkurrenz auf dem Rücken der Forscher austragen
• Wir brauchen keinen Wettbewerb um lokal implementierte Features, sondern einen Wettbewerb um die beste Implementierung offener Standards
• Im Zweifelsfall werden die Wissenschaftler in Zukunft dahin gehen wo Vernetzung funktioniert (Google)