Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
DTA – Deutsches Textarchiv
Tag der Geisteswissenschaften
Berlin-Brandenburgische
Akademie der Wissenschaften
31. Oktober 2007
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
I Rahmenbedingungen
II Korpuszusammensetzung
III Arbeitsablauf
IV Werkzeuge
V Ziele
Deutsches TextarchivÜbersicht
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivRahmendaten
Arbeitsgruppe
Antragsteller: Prof. W. Klein (MPI f. Psycholinguistik), Prof. M. Bierwisch (BBAW),Prof. M. Grötschel (ZIB)
Projektleitung: Dr. A. Geyken
Mitarbeiter: C. Fritze, O. Duntze (Projektkoordination, Textbeschaffung,Textstrukturierung etc.); A. Siebert (Computerlinguistik, Webprogrammierung); B. Jurish (Computerlinguistik)
Förderung
- DFG-Projekt
- Gesamtlaufzeit 7 Jahre
- Bewilligung für die ersten drei Jahre (Juli 2007 – Juni 2010)
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivRahmendaten
Projektziele
- Digitalisierung von ca. 750 Texten aus dem Zeitraum von 1780–1900
- Bereitstellung als Volltexte (XML/TEI-P5)
- Bereitstellung der Bilddigitalisate
- Verknüpfung von Text und Bild
- Insgesamt ca. 200.000–250.000 Seiten
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivKorpuszusammensetzung – Textsorten
Lyrik 4,3%
Technik / Medizin12,1%
Naturwissen-schaften17,1%
Gesellschafts-wissenschaften
17,6%
Geisteswissen-schaften19,5%
Prosa 26,2%
Drama 2,7%
Journalismus0,4%
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivKorpuszusammensetzung – Zeitlicher Verlauf
0
5000
10000
15000
20000
250001
77
6-1
78
0
17
81
-17
85
17
86
-17
90
17
91
-17
95
17
96
-18
00
18
01
-18
05
18
06
-18
10
18
11
-18
15
18
16
-18
20
18
21
-18
25
18
26
-18
30
18
31
-18
35
18
36
-18
40
18
41
-18
45
18
46
-18
50
18
51
-18
55
18
56
-18
60
18
61
-18
65
18
66
-18
70
18
71
-18
75
18
76
-18
80
18
81
-18
85
18
86
-18
90
18
91
-18
95
18
96
-19
00
Jahr
Se
iten
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivArbeitsablauf
Bilddigitalisierung
- überwiegend Digitalisierung durch externen Dienstleister
- für kleineren Teil hausinterne Digitalisierung
- Qualitätsanforderungen:
- 300 dpi
- 24 bit Farbtiefe
- Komplettdigitalisierung inkl. Einband, Spiegel, Vorsatz etc.
- Master werden als unkomprimierte TIFFs archiviert
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivArbeitsablauf
Volltexterfassung
- ›komplexe‹ Texte über Dienstleister
- Erfassungsgenauigkeit ca. 99,98 %
- Möglichkeit der Vorstrukturierung beim Dienstleister:
kursiver Text <i>kursiver Text</i>
- automatisierte Umwandlung in TEI-konformes Markup:
<i>kursiver Text</i> <hi rend=''italic''>kursiver Text</hi>
- manuelle Nachauszeichnung bei Problemfällen
- ›einfache‹ Texte mit OCR
- Erkennungsgenauigkeit deutlich geringer als bei manueller Texterfassung, daher Nachkorrektur notwendig
- ggf. automatisierte Textauszeichnung bei klar definierbaren Strukturen möglich
- manuelle Textauszeichnung, z. T. unterstützt in Korrekturumgebung
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivWerkzeuge
Korrekturumgebung
- Text-Bild-Koppelung
- ermöglicht effiziente Korrektur von OCR-Fehlern
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivWerkzeuge
Korrekturumgebung
- Text-Bild-Koppelung
- ermöglicht effiziente Korrektur von OCR-Fehlern
- ermöglicht visuell basiertes Tagging
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivWerkzeuge
Phonetische Suche
- Problem: in historischen Sprachstufen verschiedene graphematische Realisierungen
- u.a. bei Diphthongen, T vs. Th usw.
- z.B.: Teil → Theil, Teyl, Theyl, Tail …
- Normalisierter Text ist für historisches Textkorpus nicht wünschenswert
→ Unterschiedliche Schreibweisen sollen durch intelligente Suche abgefangen werden
Morphologische Analyse
- Texte werden durch automatisierte Verfahren linguistisch annotiert
- ermöglicht komplexe linguistische Abfragen
- Basis für korpusbasierte sprachwissenschaftliche Untersuchungen
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivWerkzeuge
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches TextarchivZiele
Das »Aktive Archiv«
- Die Texte des DTA werden der Öffentlichkeit im »open access« bereitgestellt
- Das DTA ist den Grundsätzen der »Berliner Erklärung« vom Oktober 2003 verpflichtet
- Die Nutzer sollen die Texte online bearbeiten können, z. B. durch
- linguistische Annotation
- Auszeichnung von Textstrukturen
- Freitextanmerkungen
- Lesezeichen
- …
- Möglichkeit der Integration weiterer Texte durch die Nutzer
→ Entwicklung vom »passiven Archiv« zum »aktiven online-Arbeitsplatz«
Berlin-Brandenburgische Akademie der Wissenschaften • Jägerstrasse 22/23 • 10117 Berlin www.bbaw.de
C. Fritze / O. Duntze : Das Deutsche Textarchiv Tag der Geisteswissenschaften, 31. Oktober 2007
Deutsches Textarchiv
Kontakt
Berlin-Brandenburgische Akademie der WissenschaftenDeutsches TextarchivJägerstr. 22/2310117 Berlin
www.deutsches-textarchiv.de
Top Related