IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
Hildelies Balk, IMPACT Project Director, KB Nationalbibliothek der Niederlande
Ein Überblick über das IMPACT Projekt
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
2
Aufbau der Präsentation
� Herausforderungen bei der Digitalisierung von historischen Texten
� Das IMPACT Projekte und seine Ziele
� Ergebnisse des IMPACT Projekts
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
3
Herausforderungen
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
4
DutchNewspaperonline
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
5
Eine Nachricht an die Benutzer
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
6
VVt Venetien den 1.Junij, Anno 1618.
DJgn i f paffato te S' aö'Jifeert mo?üen/bah .)etgi'uotbciraetail)i.r/JtmelchontDecht te /
sbnbe bele btr felbrr geiufttceert baer bnber eeniglje jprant o^fen/bie ftcb .met
beSpaenfcbeu enbeeemgljen bifet Cbeiiupcen berbonbru befe
Herausforderungen für die Zeichenerkennung
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
7
Papier gewellt (auf Grund von Feuchtigkeit)
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
8
Durchscheinen von Text
Niedrige Qualität der Vorlage: unscharf,
ausgefranst, schlechter Druck
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
9
Frakturschriften
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
10
Handgeschriebene Anmerkungen
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
11
Komplexes Layout der Seiten
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
12
Herausforderungen durch historische Sprache: archaische Schreibweisen, orthographische Variationen, Flexion und vieles mehr
Historische Schreibweisen des niederländischen Worts ‘wereld’(die Welt):
werelt weerelt wereld weerelds wereldt werelden weereld werrelts waerelds weerlytwereldts vveerelts waereld weerelden waerelden weerlt werlt werelds sweerelszwerlys swarels swerelts werelts swerrels weirelts tsweerelds werret vverelt werltswerrelt worreld werlden wareld weirelt weireld waerelt werreld werld vvereld weereltswerlde tswerels werreldts weereldt wereldje waereldje weurlt wald weëled
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
13
Herausforderungen auf institutioneller Ebene: Fehlen von Erfahrungswerten und Expertise →→→→ Ineffizienz
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
14
Das IMPACT Projekte und seine Ziele
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
15
IMPACT nimmt sich der Probleme anIMPACT – Improving Access to Text (2008-2011)� Large-scale integrating research project� Konsortium von 26 Partnern
� Guter Mix aus öffentlichen und kommerziellen Organisationen
� Benutzer, Wissenschaftler und Industrie arbeiten gemeinsam an Lösungen
� Partner mit etablierten internationalen Beziehungen
� Koordiniert von der Nationalbibliothek der Niederlande (KB)
� Gefördert durch die EU (FP7 ICT Work Programme)
� Ab 2012: nachhaltiges Kompetenzzentrum mit alternativen Ressourcen
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
16
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
17
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
18
Ziele des IMPACT Projekts
Verbesserungen bei der Massendigitalisierung von historischen Drucken durch:
� Innovationen bei OCR Software und Sprachtechnologien → Tools für jeden Schritt eines Digitalisierungsworkflows, vom Scannen bis zur Bereitstellung
� Teilen von Expertise und Verbreitung von Wissen in ganz Europa
� Sicherstellen dass Tools und Services nach dem Ende des Projektsverfügbar bleiben
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
19
Ergebnisse aus dem IMPACT Projekt
� Einige Beispiele
� Zusammenfassung
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
20
Vorverarbeitung: Neue Ansätze zur Bildverbesserung
Randentfernung und Textbegradigung, entwickelt durch NCSR und USAL
vorher nachher
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
21
OCR: Verbesserte kommerzielle Tools (verfügbar): ABBYY FineReader Engine 10
� Historische Europäische Schriften:
FRE10 Erkennung von historischen Schriften:
� 25% genauer als FRE9
� 38% genauer als FR XIX
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
22
OCR Korrektur: Zwei effektive Tools bereit zur Implementierung
� Beide machen Gebrauch von Freiwilligen
� CONCERT von IBM: collaborative correction, integriert die Adaptive OCR
→ vielversprechende Piloten in mehreren Bibliotheken
� LMU Post correction toolbasierend auf Sprachtechnologie
→ Piloten stehen kurz bevor
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
23
Sprachtechnologien: Lexika für neuen europäische Sprachen
Korrektur des langen S mit Hilfe des IMPACT Lexikon für historisches
Niederländisch
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
24
Nachbearbeitung: Erkennung des Satzspiegel
� Functional Extension Parser von UIBK
� Erkennung der Strukturmerkmaleeines Dokuments
� Anreicherung der OCR Resultate mit Strukturinformation
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
25
Evaluierung: IMPACT Framework
� Modulare und transparente Methode um spezifische Workflows zu evaluieren
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
26
Evaluierung: IMPACT Dataset� Mehr als eine halbe Million repräsentative Seiten aus digitalisierten historischen
Dokumenten (Zeitungen, Bücher, Pamphlete, Protokolle) aus den Sammlungen von
11 Europäischen Bibliotheken, mit unique IDs und Metadaten
� Wertvolle Ressource für zukünftige Forschung in OCR und Sprachtechnologien
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
27
IMPACT Ergebnisse: Zusammenfassung � Auf dem Markt: Verbesserte kommerzielle OCR
� Bereit für Tests unter realen Bedingungen:
– Adaptive OCR Engine
– Tools für OCR Korrektur unter Einbeziehung Freiwilliger
– Computerlexica für neun Sprachen
� Schon bald verfügbar:
– Digitalisierungframework mit Evaluierungstools und Dataset
– Datenbank mit Digitalisierungswissen, Richtlinien und Lernmaterialien
– Service für Strukturanreicherung, Satzspiegelerkennung
� Für die weitere Entwicklung:
– Neue Ansätze zur Vorverarbeitung, OCR und Nachkorrektur
– Tools zum Erstellen von Lexica
� Extra: Einzigartiges Netzwerk bringt Experten aus verschiedenen Bereichen zusammen
� Kompetenzzentrum wird im Rahmen der Abschlusskonferenz am 24-25 Oktober 2011 gestartet
Twitter: @impactocr, #impactproject
IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.
28
Fragen?
� www.impact-project.eu
Vielen Dank für Ihre Aufmerksamkeit!
Twitter: @impactocr, #impactproject
Top Related