Post on 05-Apr-2015
Eine Biografie aus ADB/NDB als XMLDatenbanken vs. MarkupProf Dr. Manfred ThallerWS 2009 / 2010
Referent: Bilal Erkin
XML – (eXtensible Markup Language)•Auszeichnungssprache zur Darstellung hierarchisch
strukturierter Daten
•Namen der Elemente und Attribute sind frei wählbar
•Dateistruktur durch DTD oder XML Schema definierbar
•Heute: Metasprache in Text (TEI, XHTML), Grafik (SVG, X3D), Geodaten, Video (SMIL), Webservices (SOAP, WSDL), Datenbanken (Xquery) …
2
Vorteile von XML•Für Mensch und Maschine verständliche
Informationen (semantic Web)
•Lizenzfreiheit
•Plattformunabhängigkeit
•Medienneutralität▫Einsatz in verschiedenen Systemen▫Konvertierung in andere Dateiformate
3
Quelle für die Auszeichnung•Biografie aus ADB / NDB am
Beispiel von „Curt Goetz“
•Grafik
•Ohne OCR (Texterkennung)▫Deshalb nicht durchsuchbar
•Große Dateigröße
4
Ziel der Auszeichnung in XML• Druchsuchbarer Text (geringe Dateigröße und
suchmaschinenkonform)
• Verlinkungen innerhalb des Textes für schnelle Navigation
• (Evtl. Kopplung an die Originalgrafik bei älteren Texten)
• Schnelle Konvertierung in andere Formate (PDF, Datenbanken, CD-ROM)
• Semantische Struktur
• Für jede Personenbiografie eine Datei
5
Das wichtigste Element: <person>•Element <person> ist das Kernstück einer
Biografie
•Alle vorkommenden Personen werden damit ausgezeichnet und bekommen eine eindeutige ID
•Berufe und Personenbeschreibungen werden an die ID gekoppelt.
•Für die inter-biografische Verbindung wichtig!
6
Beispiel des Elements <person>• <person geschlecht="männlich„ id="Goetz_Curt_1">
• Attribute
▫ geschlecht = (männlich | weiblich)
▫ ID besteht aus Nachname_Vorname_Zahl Die Zahl in der ID soll verschiede Personen mit gleichem Vor- und
Nachnamen unterscheiden
• Dateinamen sind identisch mit Person ID (Goetz_Curt_1.xml)
7
Analyse der Kurzinfo•Name, Vorname•Beruf•Geburtsdatum / -ort; Sterbadatum / -ort•Konfession
•Orthographisch:▫Hervorhebungen (fett bei „Goetz“; kursiv bei „Curt“)▫Entities (Stern, Kreuz )
8
Auszeichnung der Kurzinfo
•Name wird hervorgehoben•Entities werden eingefügt († für Kreuz)•Beruf wird an person gekoppelt durch person_ref•Beruf bekommt eine Kategorie
9
Absätze im Original•Absätze werden durch
<absatz>...</absatz> gekennzeichnet
10
Analyse der Familie•Vater•Mutter•Ehepartner(in)•Kinder
• Ineinander verschachtelte Personenbeschreibungen (teilweise sehr komplex)
•Symbole, für die es keine Entities gibt (Eheringe)
11
Auszeichnung des Vaters• Abschnitt innerhalb <familie>
• Personen bekommen ID
• Nähere Beschreibungen in <beschreibung> mit Referenz an die Person ID durch Attribut person_ref
12
Auszeichnung der Mutter• Komplexe Verschachtelung
• Struktur Nur noch im Strukturbaum ersichtlich
13
Auszeichnung des Ehepartners• Eheringe als Bilddatei!
• Mehrere <ehepartner> möglich
• <scheidung> kann eingefügt werden (bei Goetz nicht nötig)
• Kinder als <kind_der_ehe vater_id=„xy“ mutter_id=„xy“>
14
Analyse der „eigentlichen“ Biografie•Durchgehender Text
•Weitere Personen kommen vor
• In anderen Biografien: Studium, Institut und Studienjahre
•Mehrere Absätze
15
Auszeichnung der „eigentlichen“ Biografie•Wird von <biographie>
umschlossen
• Personen werden ausgezeichnet mittels ID
16
Analyse der Werke•Kategorie (Werkstyp)•Titel•Erscheinungsjahr•Sonstige Bemerkungen
17
Auszeichnung der Werke• <werk> bekommt Attrribute
typ und jahr• Titel in <werk_name>• Sonstiges innerhalb <werk>
18
Seitenumbrüche im Original•Seitenumbrüche werden in der XML
repräsentiert durch<seite umbruch="588|589"/>
•Übergang von einer Seite zur anderen durch |
•Auch Seitenzahlen nach anderem Format möglich(XV|XVI; 10a|10b; 45.1|45.2 …)
Vorteil: PDF wird 1:1 repräsentiert
19
Analyse des Literaturnachweises•Autor•Titel•Erscheinungsjahr•Verlag oder Seitennummer
•Literaturnachweise getrennt durch Semikolon
•Querverweise zu anderen Personen (Wilhelm Rocco)
20
Auszeichnung des LiteraturnachweisesEinzelne Einträge in <lit-eintrag>
• Sinvoll in autor, titel, jahr usw. zu trennen?
•Kopplung der Einträge an ID (wegen W. Rocco) ?
21
Analyse des Fundstelle•Werk•Autor•Seitenzahlen•Bandnummer
•Mehrere Funstellen möglich
•Unterscheidung zwischen Haupteintrag und Nebeneintrag
22
Auszeichnung der Fundstelle•Am Anfang der Datei in <meta>
• <fundstelle> hat alle Angaben als Attribute und als Text
•Autor separat in <autor> getaggt mit persönlicher ID
23
Standartisierung der Struktur•Für eine einheitliche Struktur für alle Einträge in
der ADB / NDB:
▫Mehrere verschiedene Strukturtypen taggen
▫Eine DTD oder ein XML-Schema definieren
•Dokumentation der DTD▫Welche Elemente können in welchen enthalten
sein?
24
25