Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im ...
Transcript of Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im ...
Universität InnsbruckChristoph-Probst-Platz, Innrain 52
6020 Innsbruckhttp://info.uibk.ac.at p //
Alte Kataloge ganz neu. Vorstellung einiger Anwendungen im Umfeld digitalisierter Zettelkataloge
Günter MühlbergerGünter MühlbergerAbteilung für Digitalisierung und elektronische
Archivierung Archivierung
Universitäts- und Landesbibliothek Tirol
Agenda
1. Vorstellung und kurze Bilanz2. Online Verbesserungg3. Digitalisierung/eBook on Demand4 Abgleich mit Worldcat4. Abgleich mit Worldcat5. Autorenregistrierung für nicht mehr lieferbare Bücher
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation2
Digitalisierung und elektronische Archivierung
S it 2002 Abt il d ULB Ti l• Seit 2002 Abteilung an der ULB Tirol– 3 fest angestellte MitarbeiterInnen– 10 Vollzeitäquivalente über Drittmittel10 Vollzeitäquivalente über Drittmittel– Mehrere hundert Aufträge pro Jahr– 2009: ca. 500.000 Seiten manuell gescannte Bücher
7 Mill S it it D k t– ca. 7 Mill. Seiten mit Dokumentenscannern• 2004
– Digitalisierte Kataloge gehen onlineDigitalisierte Kataloge gehen online– Derzeit 16 Kataloge online
• 2010– EU Projekte: ARROW, EuropeanaTravel, EuropeanaConnect, EOD
Network, IMPACT, PrestoPRIME– Abschluss des Digitalisierungsprojekts „Deutsche Dissertationen“ (216.000
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation
Abschluss des Digitalisierungsprojekts „Deutsche Dissertationen (216.000 Dissertationen, 22 Mill. Seiten)
3
Digitalisierte Kataloge
A b t• Angebot– Bieten volltes Programm; diverse Institute haben bereits Gebrauch gemacht: Institute
der Uni Innsbruck, UB Graz, Landesbibliothek OÖ, Theologische PrivatuniversitätLinz MedUni Wien Piaristen Wien Jesuitenkolleg Innsbruck etcLinz, MedUni Wien, Piaristen Wien, Jesuitenkolleg Innsbruck, etc.
• Anwendung– Scannen der Kärtchen mit Dokumentenscanner
OCR Erkenn ng– OCR Erkennung– Blättern in der ursprünglichen Struktur– Suche über Metadaten (z.b. jedes 20igte Kärtchen)
S h üb V llt t– Suche über Volltext– Gehostete Version
• Mengen– 19 Kataloge, ca. 2,5 Mill. Kärtchen online, ca. 1,5 Mill. in der Pipeline (UB Bratislava)
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation4
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation5
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation6
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation7
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation8
Benutzung
B h• Besuche– Zw. 4000 und 6000 pro Monat = 150 bis 200 pro Tag– Ca 20 000 bis 30 000 Seitenaufrufe d h 4-6 Seiten pro BesuchCa. 20.000 bis 30.000 Seitenaufrufe, d.h. 4 6 Seiten pro Besuch– Ca. 3 Minuten pro Besuch– Ca. 50% der Zugriffe kommen direkt von Google, ca. 40% von
verweisenden Websites nur 10% sind direkte Zugriffeverweisenden Websites, nur 10% sind direkte Zugriffe• Wichtigste Suchbegriffe des letzten Monats
– "ephemerides vindobonenses“p– sanctorum brixinensis 1832– physica plinii
"nicolaus de prettis" innsbruck– "nicolaus de prettis" innsbruck– michalke j. rudolf
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation9
Google Index
• Wichtigste Suchbegriffe des letzten Monats, davon an 2. Stellebei Google Suche
" h id i d b “– "ephemerides vindobonenses“– sanctorum brixinensis 1832
physica plinii– physica plinii– "nicolaus de prettis" innsbruck
michalke j rudolf– michalke j. rudolf• Google Indexierung
Bis 2009 über Website seither SiteXML– Bis 2009 über Website, seither SiteXML– Abhängigkeit von der Geschäftspolitik Googles
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation10
Feature: Online-Verbesserung
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation11
Online-Verbesserung
J dü f ‘ d d ?• Ja, dürfen‘s denn das?– Keine Registrierung, kein Captcha,...– Verbesserung wird sofort übernommen– Bei der nächsten Suche profitiert der Benutzer bereits davon– In 5 Jahren ca. 30.000 Kärtchen korrigiert worden (bei ca. 10% aller Besuche wird
davon Gebrauch gemacht – einige wenige machen viel!)All Ä d d i h t d Z it Z it d h h W – Alle Änderungen werden gespeichert und von Zeit zu Zeit durchgesehen: Wenn Missbrauch geschieht, kann alter Zustand wieder hergestellt werden, bzw. der Benutzer gesperrt werden
– Ein einziger bekannter Missbrauch in 6 Jahren!Ein einziger bekannter Missbrauch in 6 Jahren!• Effekte
– Benutzer lernen Fehler der OCR kennen und damit umzugehen• Schluss• Schluss
– Bibliotheken sollten viel mehr Vertrauen in Benutzer haben – und ihnen auf Augenhöhe entgegenkommen
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation12
Digitalisierung on Demand – eBooks on Demand
• Books2u! – gescheitert• Katalog 2004
f– Neuer Anlauf– Button: Dieses Buch als PDF bestellen!– Sofort Bestellungen (aus dem Ausland aus 20 verschiedenen Ländern im– Sofort Bestellungen (aus dem Ausland, aus 20 verschiedenen Ländern im
ersten Jahr)• EOD
– Zentrale Infrastruktur für Workflow, eBook Erzeugung, Auslieferung, Kundenbetreuung, elektronische Abrechnung,...Noch heuer 30 Bibliotheken online– Noch heuer 30 Bibliotheken online
– Netzwerk erhält sich bereits teilweise selbst, soll in 2-3 Jahren auf eigenenFüßen stehen
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation13
Neue Ideen: Abgleich mit sauberen Beständen
• WorldCat– Größter Katalog der Welt– Wahrscheinlich mehr als 90% aller Bücher in Innsbruck sind dort
enthalten– API vorhanden (allerdings lizensiert für OCLC Mitgliedsbibliotheken)– Research Zugang für DEA
• Idee– OCR Text nehmen, gegen den WorldCat laufen lassen und die beste, g g
Übereinstimmung automatisch heraussuchen und bewerten– Prototyp
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation14
Ansatz
• Projekt– Umgesetzt zusammen mit Inst. für Informatik, Univ. Prof. Günter Specht und
Robert Pinna durchgeführt von Markus RueppRobert Pinna, durchgeführt von Markus Ruepp– Laufende Betreuung durch DEA
• ErgebnisseErgebnisse– Query (= die Wörter, die an WorldCat übergeben werden) zusammenstellen
ist am schwierigsten: Geht in ca. 30% der Fälle schiefW Q h d i d di E b i h i l h d– Wenn Query steht, dann sind die Ergebnisse sehr vielversprechend
– Algorithmus muss robust gegen Längenverhältnisse und OCR Fehler sein– Es wird daher zuerst ein allgemeiner Vergleich angestellt und dann die – Es wird daher zuerst ein allgemeiner Vergleich angestellt und dann die
strukturierten Daten aus dem WorldCat innerhalb der unstrukturierten Dateneinzeln gematcht
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation15
Field guessing
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation16
Möglicher Einsatz
• Batch-Prozess– Alle Kärtchen in einem großen Projekt gegen WorldCat laufen lassen– Benchmarks festlegen– Die gut erkannten Kärtchen automatisch mit Record ersetzen (aber
Link auf Kärtchen beibehalten in den Metadaten)Link auf Kärtchen beibehalten in den Metadaten)• Korrektur durch Benutzer
Benutzer führt selbst Abfrage durch Button– Benutzer führt selbst Abfrage durch – Button– Benutzer vergleicht das Kärtchen mit den Ergebnisse und bestätigt
die Richtigkeitg– Vorteil: durch die OCLC ID ist dieser Eintrag mit allen derzeitigen und
künftigen Services von OCLC automatisch verknüpft!
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation17
Neueste Idee: “Ich-bin-der-Autor Button”
P bl l• Problemlage– Nicht mehr lieferbare Bücher vor 1995: Die Rechte für Online-Verfügbarkeit
liegen in der Regel bei den Autoren, da diese Nutzungsart nicht bekanntg g , gwar.
– Verwertungsgesellschaften haben noch kein Mandat, dass sie z.B. Bibliotheken die Digitalisierung “erlauben” könnten – gegen Lizenzgebührg g g g g
• Lösung– Den Autoren (oder ihren Erben) die einfache Möglichkeit geben, ihre
Wünsche in Bezug auf Digitalisierung zu äußernWünsche in Bezug auf Digitalisierung zu äußern.– Der Katalog als Ausgangspunkt– Google Settlement als Vorbild, allerdings nicht opt-out, sondern opt-in– Ziel: Möglichst viele Autoren überzeugen, dass sie ihre (alten) Bücher für
Open Access oder zumind. für digitalen Zugang in Bibliotheken freigeben
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation18
Voraussichtlicher Ablauf
B tt i K t l “Si d Si di A t i d A t di W k d k• Button im Katalog: “Sind Sie die Autorin, der Autor dieses Werkes oder kennenSie die Person, die dieses Werk verfasst hat?”
– Wenn ja, dann Klick auf den Button.I f ti U h b ht d d B d t d A t fü di Di it li i / – Informationen zum Urheberrecht und der Bedeutung des Autors für die Digitalisierung / Online-Verfügbarkeit
– Argumente für Open Access und warum dies für Bibliotheken und ihre Benutzer wichtigistist
– Bitte sich zu registrieren und bekannt zu geben, welche Optionen man bevorzugt• Registrierung
Online aber mit unterschriebenem Formular– Online, aber mit unterschriebenem Formular– Dieses wird automatisch erzeugt und per E-Mail zugesendet. – mit eindeutigem
Barcode versehen– Retour unterschrieben per Post– Retour unterschrieben per Post– Bei uns eingescannt und automatisch in die Datenbank integriert– Verlinkung mittels OCLC würde die Weitergabe dieser Information an alle anderen
Biblitoheken ermöglichen
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation
Biblitoheken ermöglichen
19
Weitere Überlegungen
Id lf ll• Idealfall– Benutzer erklärt, dass das Buch mittels Open Access zur Verfügung stehen soll– Bibliothek digitalisiert das Buch – durch OCLC Identifier werden auch alle anderen
Bibliotheken da on in Kenntnis geset t b Ben t er erhalten a s dem lokalenBibliotheken davon in Kenntnis gesetzt, bzw. Benutzer erhalten aus dem lokalenKatalog einen Link auf die digitalisierte Version
• VorteileFür den Ben t er transparent Opt in ist fairer als opt o t– Für den Benutzer transparent, Opt-in ist fairer als opt-out
– Andere Benutzer können selbst auf die Suche nach dem Autor gehen– Bibliotheken haben guten Ruf und können glaubwürdig als Repräsentanten der
Interessen ihrer Benutzer auftretenInteressen ihrer Benutzer auftreten– Werk steht online und frei zur Verfügung
• NachteileFü di W k i h i d ld t b ht t t d i R l– Für die Werke, wo sich niemand meldet, braucht man trotzdem eine Regelung(=Orphan works)
– Manche Rechteinhaber haben ev. Scheu, dass ihr altes Werk weltweit verfügbar ist
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation20
Vi l D k fü Vielen Dank für Ihre Aufmerksamkeit!Ihre Aufmerksamkeit!
Günter Mühlberger | University Innsbruck Library | Dept.. forr Digitisation & digital Preservation21