TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

34
TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen

Transcript of TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Page 1: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

TEI (Text Encoding Initiative)

Ein Standard für die elektronische Erfassung von Textquellen

Page 2: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

TEI – Wer und Was

• 1987: Initiative verschiedener international verteilter Institutionen; 2000: TEI Consortium

• TEI Guidelines: Standardisiertes Regelwerk für die elektronische Erfassung von Texten – Sowohl rein strukturell (Vewendung der Markupsprachen SGML/ XML)

als auch semantisch (bzgl. Aussagen über den Text – Metadaten also)– Spezialisiert für geisteswissenschaftliche Texte– ständig weiterentwickelt/ gepflegt

• TEI -Format– Nicht-proprietär– Portabel

• Da TEI auf SGML bzw. XML aufsetzt, werden lediglich die Struktur und Aussagen über den Text an sich erfasst – Die Art der Darstellung des Textdokuments über den Computer wird NICHT erfasst!

TEI Homepage

Page 3: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Entity: Archival Storage

Page 4: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Entity: Archival Storage

Page 5: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Quot. marks

Page 6: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.
Page 7: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Nicht-standard

verschlüss.

Page 8: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.
Page 9: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.
Page 10: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.
Page 11: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Grundstruktur eines TEI-konformen Dokuments

• Neben der „Vollversion“ gibt es auch eine abgespeckte Version der TEI Guidelines: TEI Lite.

• Sie umfasst diejenigen Regeln, die als elementar für die TEI-konforme Erfassung eines Dokuments, sei es Prosa, Dichtung, Drama etc., erachtet werden (ca. 150 von 450 Elementen (P4)).

• TEI-konforme Dokumente sind in ihrer Struktur an die Vorgaben der verwendeten Auszeichnungssprache gebunden.

• XML: Ein TEI-konformes Dokument besteht somit strukturell aus der eigentlichen Instanz und einer dazugehörigen DTD. In ihnen werden Elemente, Attribute und Entities in Tagstruktur gebunden.

• Innerhalb der DTD wird unter Anwendung der TEI-Regeln definiert, welche Elemente, Attribute und Entities an welchen Stellen erlaubt sind, wie sie verwendet und verschachtelt werden können.

Page 12: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Grundstruktur

Die Instanz des Dokuments besteht mindestens aus einem Header-Teil und einem Text-Teil:

<?xml version="1.0"?> <!DOCTYPE TEI.2 SYSTEM „http://hki.uni-koeln.de/dtd/test.dtd">

<TEI.2>      <teiHeader> [header content] </teiHeader>      <text> [text content] </text> </TEI.2>

Page 13: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Grundstruktur

Die entsprechende DTD sieht demnach so aus:

<?xml encoding="UTF-8"?>

<!ELEMENT TEI.2 (teiHeader, text)>

<!ELEMENT teiHeader (content model) >

<!ELEMENT text (content model) >

‚teiHeader‘ und ‚text‘ können/ müssen bestimmte weitere Elemente aufnehmen.

Page 14: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Grundstruktur

Das ‚text‘- Element ist der Container für das eigentliche Dokument:

<?xml encoding="UTF-8"?>

<!ELEMENT TEI.2 (teiHeader, text)>

<!ELEMENT teiHeader (content model) >

<!ELEMENT text (front?, body, back?)>

Jedes Dokument muß ein ‚body‘-Element besitzen und kann ein ‚front‘ bzw. ‚back‘- Element besitzen. Ein Buch hat z.B. meistens eine Titelseite, Inhaltsverzeichnis oder Index, welche dann Teil der ‚front‘ bzw. ‚back‘- Elemente wären.

Page 15: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Grundstruktur

Welche Elemente innerhalb des ‚body‘- Elements aufgenommen werden, hängt von der Art des Dokuments ab; eine Instanz eines Dokuments könnte so aussehen:

<?xml version="1.0"?> <!DOCTYPE TEI.2 SYSTEM „nikolaus.dtd">

<TEI.2>      <teiHeader>[header content]</teiHeader>      <text>           <front>[front content]</front>           <body>                <head>Der Nikolaus</head>                <div type="chapter" n="1">                     <head>Erstes Kapitel</head>                     <p>Er reitet hoch zu Ross</p>                </div>           </body>           <back>[back content]</back>      </text> </TEI.2>

Page 16: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Tagsets

TEI unterstützt verschiedene Dokumentarten und Anforderungen über Bündel von Elementen (Tagsets, Module), die eigens dafür kreiert wurden. Einige Tag Sets sind in allen TEI-DTDs enthalten, andere können nur gruppenweise verwendet werden, wieder andere können frei kombiniert werden.

Man unterscheidet– ‚Core‘ Tag Sets: in allen TEI-DTDs vorhanden

– Base Tag Sets: Eine DTD kann immer nur eines dieser Tagsets enthalten.

– Additional Tag Sets: Eine DTD kann eines oder mehrere zusätzlich enthalten.

Page 17: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Tagsets

Es gibt zwei Module, die immer in jeder TEI-DTD

vorhanden sein müssen:

‚Core‘ , enthält Elemente, die für alle Textgattungen gelten, z.B. <p> (paragraph)

‚header‘, enthält Elemente des Containers <teiHeader>

Core Tag Sets

Page 18: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Tagsets

Daneben gibt es Base Tag Sets, die optional verwendet werden können (aber immer genau eines). Ihre Elemente definieren den Grundaufbau verschiedener Textgattungen, z.B. enthält das Base Module für die Textgattung Dichtung Elemente wie Strophe oder Zeile, Prosa enthält dagegen typische Elemente wie Abschnitt und Kapitel.

Base Tag Sets

Page 19: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Tagsets

Additional Tag Sets stellen Elemente zur Verfügung, die speziellen Zwecken dienen.

Additional Tag Sets

z.B. Manuscript Description

Page 20: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

TEI Header

Jedes TEI-konforme Dokument enthält ein obligatorisches Tagset, das allgemeine Informationen über den eigentlichen Text aufnimmt. <teiHeader> ist somit das Tag Set, das die eigentlichen allgemeinen Metadaten aufnimmt.

4 Hauptteile:

<fileDesc>

<encodingDesc>

<profileDesc>

<revisionDesc>

Page 21: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

TEI Header Elemente

Ein minimaler TEI Header hat folgende Struktur:

<teiHeader>

<fileDesc>

<titleStmt> ... </titleStmt>

<publicationStmt> ... <publicationStmt>

<sourceDesc> ... <sourceDesc>

</fileDesc>

</teiHeader>

Page 22: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

File Description

<fileDesc>

enthält die bibliographische Beschreibung des Dokuments

• <titleStmt> Titelinformationen, Autor, …

• <editionStmt> Editorische Informationen

• <extent> Größe des Dokuments

• <publicationStmt> publikatorische Informationen

• <seriesStmt> Information zur Serie des Dokuments (falls Teil einer solchen)

• <notesStmt> ergänzende Informationen, die nicht in den anderen Kategorien auftauchen

• <sourceDesc> bibliograph. Beschreibung des Texts aus der die elektron. Version generiert wurde

Page 23: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Beispiele

<teiHeader>

<titleStmt>

<title>Two stories by Edgar Allen Poe: a machine readable transcription</title>

<author>Poe, Edgar Allen (1809-1849)</author>

<respStmt>

<resp>compiled by</resp>

<name>James D. Benson</name>

</respStmt>

</titleStmt>

Page 24: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Beispiele

<editionStmt>

<edition n="U2">Third draft, substantially revised

<date>1987</date>

</edition>

</editionStmt>

<extent>4532 bytes</extent>

<publicationStmt>

<publisher>Oxford University Press</publisher>

<pubPlace>Oxford</pubPlace>

<date>1989</date>

<idno type="ISBN"> 0-19-254705-5</idno>

<availability>Copyright 1989, Oxford University

Press</availability>

</publicationStmt>

Page 25: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Beispiele

<sourceDesc>

<bibl>The first folio of Shakespeare, prepared by Charlton

Hinman (The Norton Facsimile, 1968)</bibl>

</sourceDesc>

Page 26: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Encoding description

<encodingDesc>

Spezifiziert die Methoden und editorischen Prinzipien die die Transkription des Dokuments begleitet haben

• <projectDesc> Ziel und Zweck der elektron. Erfassung

• <samplingDecl> Beschreibung der Hintergründe undMethoden für Textsamples

<encodingDesc>

<projectDesc>Texts collected for use in the Claremont

Shakespeare Clinic, June 1990.

</projectDesc>

</encodingDesc>

<encodingDesc>

<samplingDecl>Samples of 2000 words taken from the beginning

of the text</samplingDecl>

</encodingDesc>

Page 27: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Encoding description

• <editorialDecl> : Details der editor. Prinzipien

<editorialDecl><p>Errors in transcription controlled by using theWordPerfect spelling checker.</p><p>All quotation marks converted to entityreferences &odq; and &cdq;.</p></editorialDecl>

• <tagsDecl> : detaillierte Infos zu den verwendeten Tags

<tagsDecl><tagUsage gi="text" occurs=1><tagUsage gi="body" occurs=1><tagUsage gi=p occurs="12"><tagUsage gi="hi" occurs=6>

</tagsDecl>

Page 28: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Encoding description

<refsDecl> spezifiziert kanonische Referenzen.

<refsDecl>

<p>The N attribute on each DIV1 and DIV2 contains the

canonical reference for each such division in the form

XX.yyy where XX is the book number in roman numeral and

yyy is the section number in arabic.</p>

</refsDecl>

• <classDecl> Taxonomie

<classDecl>

<taxonomy id="LCSH">

<bibl>Library of Congress Subject Headings</bibl>

</taxonomy>

</classDecl>

Page 29: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Profile description

<profileDesc> zur Beschreibung verschiedener deskriptiver Aspekte eines Texts

• <creation> Info zur Entstehung eines Texts

<creation><date value="1992-08">August 1992</date><name type="place">Taos, New Mexico</name>

</creation>

• <langUsage> beschreibt die Sprache, Dialekte etc. innerhalb eines Textdokuments

Page 30: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Profile description

• <textClass> gruppiert Information die das Thema eines Texts beschreibt (über standardisiertes Klassifikationsschema, Thesaurus etc.)

<textClass>

<keywords scheme="LCSH">

<list>

<item>English literature -- History and criticism -- Data processing.</item>

<item>English literature -- History and criticism -- Theory etc.</item>

<item>English language -- Style -- Dataprocessing.</item>

</list>

</keywords>

</textClass>

Page 31: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Revision description

<revisionDesc> stellt die Möglichkeit zur Dokumentation von Änderungen bereit

<revisionDesc><change>

<date>6/3/91:</date><respStmt> <name>EMB</name> <resp>ed.</resp></respStmt><item>File format updated</item>

</change><change>

<date>5/25/90:</date><respSmt>

<name>EMB</name><resp>ed.</resp><item>Stuart’s corrections entered</item>

</respSmt></change>

</revisionDesc>

Page 32: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Darstellung von TEI-Dateien

• TEI-Dateien können (bei Verwendung von XML) mittels XSLT in andere Formate umgewandelt werden (z.B. HTML, PDF)

• Eine relativ einfache Methode zur akkuraten Darstellung von TEI-Dateien ist die Verwendung von Cascading Style Sheets (Bündel von Regeln zur Darstellung von einer Instanz eines Dokuments)

Bsp.: A Midsummer night‘s dream

TEI-Datei

DTD

CCS dazu

Das Ergebnis

Page 33: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Projekte, die TEI verwenden

Projekte (TEI Website)

Page 34: TEI (Text Encoding Initiative) Ein Standard für die elektronische Erfassung von Textquellen.

Tool zur Erstellung von TEI-DTDs

The TEI Pizza Chef

(http://www.tei-c.org/pizza.html)