DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
-
Upload
ralf-stockmann -
Category
Technology
-
view
532 -
download
1
description
Transcript of DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“
Workflow Volltextgenerierung über OCR
Ralf Stockmann
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 2
Digitalisierung OCR Bereitstellung
Oberflächliche Sicht eines OCR-Workflows
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 3
Digitalisierung OCR Bereitstellung
Fehlende Workflowschritte an den Schnittstellen
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 4
Digitalisierung OCR Bereitstellung
Fehlende Workflowschritte gewichtet nach Aufwand
Vorbereitung für OCR
12.04.2023 | S. 5
Welche Sprache hat das Dokument?
Welche Schrift (Fraktur / Antiqua)?
Datumabweichende Schreibweisen / Historische Lexika
Region
unverlässliche Daten hierzu im OPAC...?
Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich
12.04.2023 | S. 6
Jahre
Sca
ns
pro
Tag
Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren
12.04.2023 | S. 7
Jahre
Sca
ns
pro
Tag
OCR
12.04.2023 | S. 8
Tagesaktuelle OCR für Strukturdatenerfassung
12.04.2023 | S. 9
Tagesaktuelle OCR für Strukturdatenerfassung
Das Problem ist nicht nur die Tagesproduktion...
12.04.2023 | S. 10
Jahre
Sca
ns
pro
Tag
OCR
12.04.2023 | S. 11
Jahre
Sca
ns
pro
Tag
OCR
Arc
hiv
alle
r bis
heri
gen
Sca
ns
...sondern unser bestehender Berg der letzten 12 Jahre
Massen-OCR
Beispiel: Staatsbibliothek zu Berlin
Ca. 15 Mio. Images vorliegend
OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)
Ca. 3.472 Tage oder 9,5 Jahre
Ziel: 5 Tage also ca. Faktor 700
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 12
Paketierung – Sammlung von Images
12.04.2023 | S. 13
Scans
Paketierung – Verteilung auf OCR-Cluster
12.04.2023 | S. 14
Scans
CPU CPU CPURenderfarm
Paketierung – Zusammenführung der Ergebnisse
12.04.2023 | S. 15
Scans
CPU CPU CPURenderfarm
Ergebnis
Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall?
12.04.2023 | S. 16
Scans
CPU CPU CPURenderfarm
Ergebnis
Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server
12.04.2023 | S. 17
Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management
12.04.2023 | S. 18
Datenformate – Quelle ist Sammlung von Images
12.04.2023 | S. 19
Scans
Datenformate Alt: eine XML-Datei Pro Seite
12.04.2023 | S. 20
Scans
ALTO
Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML
12.04.2023 | S. 21
Scans
ALTO
TEI
<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>
Datenmanagement – viele Importformate
12.04.2023 | S. 22
Import
ALTO
TEI
FinereaderXML
LaTeX
...
hOCR
Datenmanagement – nur ein Zentralformat?
12.04.2023 | S. 23
ALTO
TEI
FinereaderXML
LaTeX
...
Zentralformat?
Import Archiv
hOCR
Datenmanagement – auf jeden Fall flexible Exportformate benötigt
12.04.2023 | S. 24
Zentralformat?
TEI
Mobi
ePub
LaTeX
hOCR
Markdown
...
Import ExportArchiv
ALTO
TEI
FinereaderXML
LaTeX
...
hOCR
Volltexte sind agil
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 25
Quelle für Agilität: Korrekturen
Nutzerfreundliches Crowdsourcing direkt im Browser
Bessere OCR-Engines bei tendenziell sinkenden Preisen
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 26
Quelle für Agilität: Veredelung
Normdaten Personen Orte Zeit Schlagwörter
Annotationen
Referenzen
...
Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ...
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 27
Problemfelder agiler Volltextdaten
Gleichermaßen für Korrekturen wie Veredelung
Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)
Persistente Adressierung
Versionierung?
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 28
Lösung: Volltexte auf GitHub?!(unser Grundgesetz ist schon da...)
S. 29http://gg.docpatch.org
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 30
Digitalisierung OCR Bereitstellung
12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann
S. 31
D OCR B... ... ... ... ... ...
Wenig bis keine Grundlagen für diese Bereiche vorhanden
Identifizierte Aktionsfelder
1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen
2. Interoperabilitätsbibliothek für Volltextformate
3. Getrennte (?) Strategien für den Abbau des vorhandenen Scan-Berges die laufende Produktion in den Einrichtungen
4. Robuste und transparente Workflows zur Anbindung von
eigenen Renderfarmen zentralen Renderfarmen Dienstleistern ...auch in Mischformen
5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen
12.04.2023 | S. 33
Projekte werden
nicht aufgrund schlechter
OCR-Qualitätscheitern –
sondern aufgrund
nicht verstandener undwenig beherrschter
Workflows
Workflow Volltextgenerierung über OCRRalf Stockmann