Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern

Zur Strukturierung von

einsprachigen und kontrastiven elektronischen W

orterb

uchern

Ulrich Heid

Institut f

ur maschinelle Sprachverarbeitung { Computerlinguistik {

der Universit

at Stuttgart

Azenbergstr. 12

D 70174 Stuttgart

[email protected]

Inhaltsverzeichnis

1 Einleitung 1

1.1 Problemstellung : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 1

1.1.1 Probleme der Lexikonstrukturierung : : : : : : : : : : : : : : : : : 3

1.1.2 Rahmenbedingungen : : : : : : : : : : : : : : : : : : : : : : : : : : 4

1.1.3 Vorgehensweise : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 5

1.1.4 Struktur dieses Buchs : : : : : : : : : : : : : : : : : : : : : : : : : 6

1.2 Einige Grundbegrie : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 7

1.2.1 Elektronische W

orterb

ucher : : : : : : : : : : : : : : : : : : : : : : 7

1.2.2 Probleme der kontrastiven lexikalischen Beschreibung : : : : : : : : 14

2 Lexikographische Aspekte 19

2.1 Multifunktionale W

orterb

ucher : : : : : : : : : : : : : : : : : : : : : : : : 19

2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen : : 19

2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen : : : : : : : : : : 27

2.2 Strukturierung zweisprachiger W

orterb

ucher : : : : : : : : : : : : : : : : : 42

2.2.1 Vorbemerkung: Deskription vs. Pr

asentation in der Lexikographie : 42

2.2.2 Direktionale vs. Nicht-direktionale zweisprachige W

orterb

ucher : : : 44

2.2.3 Die Strukturierung der Van Dale-W

orterb

ucher : : : : : : : : : : : 53

2.3 Lexikographische Anforderungsdenition : : : : : : : : : : : : : : : : : : : 65

2.4 Exkurs: Metalexikographie vs. W

orterbuch-Design : : : : : : : : : : : : : : 68

3 Constraint-basierte W

orterb

ucher 71

3.1 Der TFS-Formalismus : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 71

3.1.1 Datentyp von TFS : : : : : : : : : : : : : : : : : : : : : : : : : : : 72

3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz f

ur

die lexikalische Repr

asentation : : : : : : : : : : : : : : : : : : : : : 73

3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz

f

ur die Erstellung von (lexikalischen) Spezikationen : : : : : : : : 82

3.1.4 Das Lexikon als Spezikation: Vorteile und Probleme bei der Ver-

wendung von TFS f

ur die lexikalische Modellierung : : : : : : : : : 84

3.2 W

orterbucharchitektur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89

3.2.1

Uberblick : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89

3.2.2 Klassikatorische und stratikationelle W

orterb

ucher : : : : : : : : 90

3.2.3 Modularit

at und Interaktion der Module : : : : : : : : : : : : : : : 92

3.2.4 Dokumentation der lexikalischen Beschreibungen : : : : : : : : : : : 94

3.2.5 Zugrisneutralit

at : : : : : : : : : : : : : : : : : : : : : : : : : : : : 95

3.2.6 Vergleich der Spezikation mit der Anforderungsdenition : : : : : 98

4 Einsprachige W

orterb

ucher 99

4.1 Bausteine der Eintr

age : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 99

4.2 Beschreibung mit Frame-Semantics : : : : : : : : : : : : : : : : : : : : : : 101

4.2.1 Semantische Rollen f

ur das Wahrnehmungsszenarium : : : : : : : : 102

4.2.2 Sorten : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 106

4.2.3 Rollenkonstellationen : : : : : : : : : : : : : : : : : : : : : : : : : : 108

4.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : : : : : 115

4.3.1 Grammatische Funktionen : : : : : : : : : : : : : : : : : : : : : : : 116

4.3.2 Syntaktische Kategorien : : : : : : : : : : : : : : : : : : : : : : : : 119

4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen

Kategorien : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 122

4.3.4 Ableitbarkeit von Lexikoneintr

agen f

ur LFG und HPSG aus DELIS-

Eintr

agen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 123

4.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : : : : : 124

4.5 Zur

Ubertragbarkeit des Ansatzes : : : : : : : : : : : : : : : : : : : : : : : 128

4.5.1 Fragment : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 128

4.5.2 Lexikalisch-semantische Beschreibung : : : : : : : : : : : : : : : : : 129

4.5.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : 130

4.5.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : 132

4.6 Probleme der Lexikonmodellierung : : : : : : : : : : : : : : : : : : : : : : 135

4.6.1 Typen vs. Features : : : : : : : : : : : : : : : : : : : : : : : : : : : 135

4.6.2 Klassikation von Beschreibungsmitteln vs. Klassikation von lexi-

kalischen Objekten: Rollen vs. Sorten : : : : : : : : : : : : : : : : : 137

4.6.3 Subklassizierung nach zus

atzlichen Merkmalen? : : : : : : : : : : 139

5 Abfrage 145

5.1 Ad-hoc-Abfrage im TFS-Lexikon : : : : : : : : : : : : : : : : : : : : : : : 146

5.1.1 Ad-hoc-Abfrage in stratikationellen Lexika : : : : : : : : : : : : : 146

5.1.2 Ad-hoc-Abfrage mit Variablen : : : : : : : : : : : : : : : : : : : : : 148

5.1.3 Nutzung der Ad-hoc-Abfrage in W

orterbuchanwendungen { Ver-

gleich mit Datenbanken : : : : : : : : : : : : : : : : : : : : : : : : 152

5.2 Anwendung: Lexikonexport : : : : : : : : : : : : : : : : : : : : : : : : : : 155

5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage : 156

5.2.2 Pr

asentation der Information f

ur Zielanwendungen : : : : : : : : : 159

5.2.3 Ablaufschema des W

orterbuchexports : : : : : : : : : : : : : : : : : 162

5.2.4 Robustheit des Exports gegen

uber

Anderungen des Lexikons : : : : 165

5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche165

5.3 Diskussion: Abfragemethoden : : : : : : : : : : : : : : : : : : : : : : : : : 167

5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.

Closed World Assumption : : : : : : : : : : : : : : : : : : : : : : : 168

5.3.2 \Lexikographische" Anfrage vs. Benutzung von Lexikoneintr

agen in

einem NLP-System : : : : : : : : : : : : : : : : : : : : : : : : : : : 170

6 Kontrastive W

orterb

ucher 179

6.1 Klassizierung von

Ubersetzungsproblemen : : : : : : : : : : : : : : : : : : 180

6.1.1 Motivation f

ur die Einf

uhrung einer Problemklassikation : : : : : : 180

6.1.2 Ans

atze zur Klassikation von kontrastiven Problemen in der For-

schung zur maschinellen

Ubersetzung : : : : : : : : : : : : : : : : : 183

6.1.3 Neuere Ans

atze zur Klassikation von

Ubersetzungsproblemen: Di-

vergenzen vs. Mismatches : : : : : : : : : : : : : : : : : : : : : : : 186

6.2 Klassikationsvorschlag : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 194

6.3 Beispieldiskussion : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 197

6.3.1 Subkategorisierungsunterschiede: \syntaktische Divergenz" : : : : : 197

6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion : : : : : : 201

6.3.3 \Inkorporation" von Argumenten und Adjunkten: \conational"

und \lexical" divergence : : : : : : : : : : : : : : : : : : : : : : : : 206

6.3.4 Divergenzen mit Auswirkungen auf das zu

ubersetzende Lexem : : 209

6.3.5 Head Switching: \demotional/promotional divergence" : : : : : : : 212

6.3.6 Divergenzen mit Auswirkung auf das zu

ubersetzende Lexem und

auf die syntagmatische Umgebung : : : : : : : : : : : : : : : : : : : 214

6.4 W

orterb

ucher f

ur maschinelle

Ubersetzung : : : : : : : : : : : : : : : : : : 214

6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem

transferbasierten M

U-W

orterbuch auf der Grundlage von LFG : : : 215

6.4.2 Behandlung von Divergenz in einem HPSG-basierten Interlingua-

Ansatz : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 218

6.5 Kontrastive constraint-basierte W

orterb

ucher : : : : : : : : : : : : : : : : 222

6.5.1 Kontrastives Fragment : : : : : : : : : : : : : : : : : : : : : : : : : 222

6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Seman-

tics-Beschreibungen : : : : : : : : : : : : : : : : : : : : : : : : : : : 223

6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment : 225

6.5.4 Lexikographische Anwendung : : : : : : : : : : : : : : : : : : : : : 227

7 Zusammenfassungen 233

7.1 Deutsche Zusammenfassung : : : : : : : : : : : : : : : : : : : : : : : : : : 233

7.2 Resume Francais : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 237

7.3 English Summary : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 242

Literatur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 247

Vorwort

Dieses Buch richtet sich an Computerlinguisten, Lexikographen und Metalexikographen.

Es versucht einige Prinzipien aufzuzeigen, nach denen elektronische monolinguale und

kontrastive W

orterb

ucher strukturiert sein sollten, wenn sie f

ur verschiedene Anwendun-

gen, in Computerlinguistik und Lexikographie, benutzbar sein sollen.

Probleme der W

orterbuchstrukturierung wurden seit l

angerer Zeit sowohl in der Me-

talexikographie, als auch in der Computerlinguistik und ihrer sich neu entwickelnden

Teildisziplin, der \Computational Lexicography", diskutiert; es scheint aber, als h

atte es

bislang wenig Austausch zwischen den beiden Bereichen gegeben. Und dies, obwohl sich

aus den Erfahrungen metalexikographischer W

orterbuchanalysen durchaus Zielsetzungen

f

ur eine computerlinguistische W

orterbucharchitektur gewinnen lassen, und obwohl um-

gekehrt der computerlinguistische Blick auf bestehende W

orterb

ucher die metalexikogra-

phische Sicht und bestehende Ans

atze zur W

orterbuchklassikation erweitern kann. Ein

Teil der hier gef

uhrten Diskussion versucht, diese Art von Austausch voranzutreiben:

auf der Grundlage von Erfahrungen aus computerlinguistischen und metalexikographi-

schen W

orterbuchanalysen werden Vorschl

age f

ur die Architektur elektronischer Lexika

entwickelt. Zu ihren Merkmalen geh

oren Modularisierung, Verzicht auf fest vorgegebene

Zugrisstrukturen und eine einheitliche Repr

asentation von linguistischen Beschreibungen

verschiedener Ebenen.

Die vorgeschlagene Architektur wurde in einer Reihe von W

orterbuchfragmenten pro-

totypisch realisiert: ein Constraint-Logik-Formalismus (hier wurde TFS, Typed Feature

Structures, verwendet), erlaubt die Umsetzung der Architekturprinzipien in einfacher Wei-

se. Anhand von Beispielen aus der Arbeit im europ

aischen Forschungsprojekt DELIS wird

gezeigt, welche Vorteile sich aus dem Ansatz f

ur die Abfrage, den Export und die Wie-

derverwendung lexikalischer Beschreibungen ergeben und wie einsprachige Fragmente aus

kontrastiver Sicht kombiniert werden k

onnen.

Der computerlinguistische Anwendungskontext, vor dessen Hintergrund die hier zu-

sammengestellten Vorschl

age f

ur kontrastive Lexika zu sehen sind, ist die (interlingua-

orientierte) maschinelle

Ubersetzung. Die kontrastive Anwendung wird aber eher als Va-

lidierung der W

orterbucharchitektur verstanden, nicht als Selbstzweck.

Ich m

ochte an dieser Stelle allen danken, die an der Entstehung dieses Buches betei-

ligt waren: vor allem Prof. Christian Rohrer, der die hier beschriebenen Arbeiten angeregt

und mit konstruktiver Kritik begleitet hat, Prof. Franz Josef Hausmann, der meine Be-

geisterung f

ur W

orterb

ucher geweckt und unterst

utzt hat, und, nicht zuletzt, meinen

Stuttgarter Kollegen und den ausw

artigen Kooperationspartnern der Projekte Eurotra-7

und DELIS, die stets zu Diskussionen, Kommentaren, Fragen und Vorschl

agen bereit wa-

ren. Besonders danken m

ochte ich Regina Steding: ohne sie w

urde dieses Buch nicht in

dieser Form vorliegen.

Stuttgart, im April 1996

Ulrich Heid

Kapitel 1

Einleitung

1.1 Problemstellung

Die Bedeutung von lexikalischen Beschreibungen f

ur sprachverarbeitende Systeme steht

auer Frage. W

orterb

ucher

1

sind eine der zentralen linguistischen Wissensquellen die-

ser Systeme, und Fragen der praktischen Realisierung von elektronischen W

orterb

uchern

sind in den letzten Jahren zunehmend ins Zentrum des Interesses ger

uckt. Hierzu geh

oren

die Diskussion um M

oglichkeiten der Wiederverwertung von bestehenden W

orterb

uchern,

Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpo-

ra, sowie

Uberlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen

aus der lexikographischen Arbeit f

ur manuelle und maschinelle Konsultation.

Obwohl das Interesse an W

orterb

uchern in der maschinellen Sprachverarbeitung in

der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig For-

schungsarbeiten, die sich mit der Strukturierung von W

orterb

uchern befassen, mit Fra-

gen der Organisation und Repr

asentation lexikalischer Informationen, sozusagen der \Sy-

stemarchitektur" von W

orterb

uchern. Solche Fragestellungen werden jedoch dann rele-

vant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre

Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein

Forschungsgebiet, wo sich dieses Dezit besonders bemerkbar macht, ist die maschinelle

Ubersetzung. Dabei ist die maschinelle

Ubersetzung gleichzeitig eine derjenigen Anwen-

dungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an

die lexikalische Beschreibung und Repr

asentation stellen.

Viele Autoren, die

uber maschinelle

Ubersetzungssysteme schreiben, gehen nicht oder

nicht sehr ausf

uhrlich auf die lexikalischen Ressourcen ein, die den betreenden Systemen

zugrundeliegen. Wenn die W

orterb

ucher diskutiert werden, dann in der Regel im Zusam-

menhang mit der Systemarchitektur, als Komponenten der Wissensquellen, auf welche das

System bei der

Ubersetzung in irgendeiner Weise zur

uckgreift. Details

uber den Aufbau

und Organisation der W

orterb

ucher werden jedoch oftmals nicht gegeben, oder es nden

sich lediglich Diskussionen einzelner

Ubersetzungsbeispiele, aus denen sich allenfalls mehr

oder weniger gut rekonstruieren l

at, wie einzelne W

orterbucheintr

age eines gegebenen

Systems aussehen k

onnten.

DieW

orterb

ucher eines sprachverarbeitenden Systems h

angen nat

urlich eng mit dessen

Grammatiken zusammen. Wenn jedoch ein (umfangreiches) W

orterbuch f

ur verschiede-

ne Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder

Grammatiktheorien beruhen, dann kann die Frage der W

orterbuchorganisation nicht ein-

fach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr mu man

sich dann Gedanken

uber \multifunktionale W

orterb

ucher" machen, sowohl aus theoreti-

scher Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den sp

aten 80er

Jahren mit

Uberlegungen zu \reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1

und den neuen Band von

[

H

otker/Ludewig (Ed.) 1996

]

). Die praktische Seite wird einer-

1 Die Termini W

orterbuch und Lexikon werden hier synonym verwendet.

seits im Rahmen des \Linguistic Engineering" diskutiert, andererseits zum Teil schon seit

geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspek-

te und die Methoden und Verfahren von computerlinguistischer und lexikographischer,

bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden

zu sein: mindestens werden in Ver

oentlichungen aus der Computerlinguistik und Com-

putational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der

Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch

versucht, hier ansatzweise eine Br

ucke zu schlagen: wo immer m

oglich, wird die lexikogra-

phische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert,

und umgehrt wird zun

achst untersucht, welche Ergebnisse aus der Lexikographie und

Metalexikographie f

ur die \Computational Lexicography" ausgen

utzt werden k

onnen.

Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter

diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG,

[

Pollard/Sag

1994

]

,

[

Pollard/Sag 1987

]

) als einer der wichtigsten Grammatikformalismen f

ur computer-

linguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rah-

men war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren

2

. Andere

Arbeiten zur Organisation von W

orterb

uchern f

ur die Sprachverarbeitung konzentrieren

sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Mor-

phosyntax (

[

Domenig 1987

]

,

[

Domenig 1989

]

,

[

Domenig/ten Hacken 1992

]

), oder sie sind

st

arker an Fragen der Wissensrepr

asentation und der hierf

ur relevanten Formalismen inter-

essiert (z.B.

[

Daelemans/Van der Linden 1992

]

). In der Lexikographie bzw. Metalexikogra-

phie wurde mit

[

DANLEX 1987

]

ein Vorschlag f

ur die Strukturierung von W

orterb

uchern

gemacht, der prim

ar auf die (computergest

utzte) Erstellung und auf die

Uberwachung

der Testgestalt (z.B. Eintragsmodelle) von W

orterb

uchern f

ur die interaktive Benutzung

(durch \menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Sy-

steme.

In diesem Buch wird der Versuch unternommen, Vorschl

age f

ur die Strukturierung

einsprachiger und zweisprachiger W

orterb

ucher zu machen. Dabei werden

Uberlegungen

zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von \mul-

tifunktionalen" W

orterb

uchern, mit Vorschl

agen zur formalen Modellierung einsprachi-

ger W

orterb

ucher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen

f

ur maschinelle

Ubersetzung zusammengebracht. Den Rahmen f

ur die Spezikation von

Architekturvorschl

agen f

ur W

orterb

ucher bilden constraint-basierte Formalismen zur Re-

pr

asentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSG-

Grammatiken verwendet werden.

3

2 Die Vorschl

age zur Lexikonstrukturierung, die sich in

[

Pollard/Sag 1987

]

benden, sind allerdings

in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder

erweitert worden. Der einzige gr

oere Versuch in dieser Richtung seit der Arbeit von

[

Flickinger

1987

]

sind die Vorschl

age von

[

Sanlippo 1993

]

zur Strukturierung der W

orterb

ucher von Acquilex.

3 Einen

Uberblick

uber constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen

benutzt werden, gibt der Sammelband

[

Uszkoreit (Ed.) 1993

]

. Dort ndet sich auch eine vergleichende

Bewertung der Formalismen. Da die vorliegenden

Uberlegungen in engem Kontakt mit Arbeiten zur

Entwicklung von TFS (Typed Feature Structure Formalismus, vgl.

[

Emele 1996

]

) entstanden ist, lag

es nahe, TFS als Beispielfall f

ur einen solchen Formalismus zu benutzen. Ich m

ochte Martin Emele in

diesem Zusammenhang f

ur viele sehr anregende Diskussionen und auch daf

ur herzlich danken, da er

mich an der Entwicklung von TFS aus der N

ahe hat teilhaben lassen.

1.1.1 Probleme der Lexikonstrukturierung

Gut strukturierte W

orterb

ucher sind f

ur Benutzer und Entwickler

ubersichtlicher und

leichter erweiterbar. Auerdem sollte es eine geeignete W

orterbucharchitektur erlauben,

sowohl monolinguale als auch kontrastive lexikalische Beschreibungen so zu strukturieren,

da bestimmte deskriptive Generalisierungen abgeleitet bzw. ohne Bedarf an zus

atzlichen

Beschreibungen ausgedr

uckt werden k

onnen.

In der praktischen Lexikographie werden bestimmte Strukturierungsprinzipien mehr

oder weniger explizit schon seit langer Zeit eingehalten. Beispielsweise wird in den mei-

sten W

orterb

uchern der Verbwortschatz in einige, allerdings sehr grobe syntaktische Klas-

sen eingeteilt (z.B. transitive Verben, intransitive Verben, reexive Verben). In neueren

W

orterb

uchern gibt es h

aug jeweils spezische Eintragsmuster f

ur die einzelnen Wort-

klassen. Eintr

age zu Substantiven unterscheiden sich dann bereits in ihrer Struktur von

Eintr

agen zu Verben oder zu Pr

apositionen. Die praktische Lexiographie nutzt dazu be-

reits einige Hilfsmittel zur W

orterbuchstrukturierung, z.B. Computerwerkzeuge zur Kon-

sistenzkontrolle f

ur Artikelstrukturen. In diesem Buch soll gezeigt werden, welche weite-

ren Strukturierungs- und Kontrollm

oglichkeiten sich ergeben, wenn z.B. die Eigenschaften

computerlinguistischer Formalismen ausgenutzt werden.

Auch f

ur zweisprachige W

orterb

ucher wurden in der Lexikographie Strukturierungs-

vorschl

age gemacht

4

. Besonders interessant sind in diesem Zusammenhang die zweispra-

chigen W

orterb

ucher des niederl

andischen Verlags Van Dale: bei ihrer Entwicklung wurde

darauf geachtet, da einsprachige und zweisprachige W

orterb

ucher aufeinander bezogen

(und im Idealfall voneinander abgeleitet) sind. Die Van Dale-W

orterb

ucher werden unten

in Abschnitt 2.2.3 recht ausf

uhrlich diskutiert: sie dienen als Modellfall lexikographischer

Strukturierungsprinzipien und gleichzeitig als metalexikographischer Bezugspunkt f

ur die

sp

atere Diskussion

uber kontrastive Modellierungen f

ur die Sprachverarbeitung.

Die Vorschl

age zur W

orterbuchstrukturierung, die in diesem Buch gemacht werden,

zielen auf die Erstellung \multifunktionaler" lexikalischer Ressourcen ab. Idealerweise

sollen verschiedene Anwendungen von einem gemeinsamen W

orterbuch versorgt werden;

es soll sowohl wie ein \traditionelles gedrucktes" W

orterbuch benutzt werden k

onnen,

als auch in Systemen der maschinellen Sprachverarbeitung. Im Fall der zweisprachigen

Modellierungen sollten auch maschinelle

Ubersetzungssysteme mit Daten versorgt wer-

den k

onnen, die auf unterschiedlichen Architekturen und (unikationsbasierten) Gram-

matiktheorien aufsetzen. Eine empirische Klassikation von lexikalischen

Ubersetzungs-

problemen, die zun

achst von den beobachteten Ph

anomenen ausgeht und zu einem System

\kontrastiver Klassen" im Lexikon f

uhrt, eignet sich f

ur diese Aufgabe. Auf der Grundlage

fr

uherer Versuche zur Klassikation von

Ubersetzungsproblemen aus der Forschung zur

maschinellen

Ubersetzung wird eine einfache kontrastive Problemklassikation erarbeitet,

die relativ generelle L

osungsans

atze erlaubt, die ohne Zuhilfenahme weiterer Wissensquel-

len realisiert werden k

onnen (vgl. Abschnitt 6.3).

Die Forderung nach Oenheit hinsichtlich verschiedener Zielanwendungen zieht eine

Reihe weiterer Anforderungen nach sich, die im Detail in Abschnitt 2.1 diskutiert und

in Abschnitt 2.3 zusammengefat werden. Hierzu geh

ort u.a. die Forderung nach einem

modularem Aufbau der W

orterb

ucher. Teilbeschreibungen, beispielsweise von verschiede-

nen Sprachen oder von verschiedenen linguistischen Beschreibungsebenen, sollen separat

4 Vgl. die Diskussion der Zusammenh

ange von Datendeskription und lexikographischer Pr

asentation

unten in Abschnitt 2.2.1. Zur Pr

asentationsseite vgl.

[

Baunebjerg Hansen 1990

]

.

gehalten und wo n

otig explizit miteinander verbunden werden. Damit wird verhindert,

da einerseits analoge Informationen

uber verschiedene Stellen verteilt sind, andererseits

Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll

ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen

linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen

Beschreibungsebene Priorit

at

uber die anderen einzur

aumen. Diese Forderung ist in ge-

wisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische

Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Ortho-

graphie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2

wird gezeigt, inwiefern sich ein solcher Ansatz f

ur ein Lexikonmodell eignet.

1.1.2 Rahmenbedingungen

Die oben vorgetragenen

Uberlegungen werden in diesem Buch anhand von Beispielen

diskutiert. Eine solche Diskussion ist zwangsl

aug auf bestimmte Einzelf

alle und auf die

Beschreibung relativ kleiner W

orterbuchfragmente angewiesen. Im Folgenden werden die

Rahmenbedingungen f

ur die Formalisierung, die behandelten Ph

anomene bzw. W

orter-

buchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt.

F

ur die formale Modellierung der in diesem Buch beschriebenen W

orterbuchfragmente

wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grund-

lagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht

beschrieben: sie sind in

[

Emele 1996

]

detailliert dargestellt; dort nden sich auch Ver-

weise auf die relevante Grundlagenliteratur. TFS wird stellvertretend f

ur die Klasse der

constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlin-

guistik zunehmend Verbreitung gefunden haben. Die W

orterbuchorganisation ist jedoch

eine relativ neue Anwendung von TFS und von Constraint-Formalismen

uberhaupt; au-

erdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen.

Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der W

or-

terbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben

(vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen W

or-

terbuchs mu in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise

sich der Formalismus f

ur die Lexikonrepr

asentation und -strukturierung eignet, sondern es

mu auch dargestellt werden, wie ein elektronisches W

orterbuch benutzt, d.h. interaktiv

abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion ndet sich

in Abschnitt 5.

Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschl

age illustriert wer-

den, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser

Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierf

ur

werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und Lexikalisch-

Funktionaler Grammatik (LFG, vgl.

[

Dalrymple (Ed.) 1995

]

) vorgeschlagen werden. Diese

Grammatik-Formalismen werden als Hintergrund f

ur die Modellierung verwendet, jedoch

wird nicht der Versuch unternommen, s

amtliche Beschreibungen detailliert im Rahmen

der Theorien zu begr

unden oder zu motivieren. Es geht auch nicht darum, neuartige

Beschreibungen f

ur die zur Diskussion stehenden Ph

anomene vorzuschlagen.

Das beschriebene W

orterbuchfragment beruht auf Materialien aus dem DELIS-Projekt

5

;

5 DELIS steht f

ur \Descriptive Lexical Specication and tools for corpus-based lexicon building".

DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europ

aischen Kommission im Rah-

die DELIS-Beschreibungen stellen gen

ugend lexikalische Information bereit, als da LFG-

oder HPSG-Systeme damit versorgt werden k

onnten. Dar

uber hinaus wird in DELIS ver-

sucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschlieen, die

den Prinzipien von Fillmores Frame Semantics folgt. Die Grundlagen hiervon werden

zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt

6

.

Die konkreten W

orterbucheintr

age, die in diesem Zusammenhang diskutiert werden,

stammen aus Fragmenten f

ur Verben der sinnlichen Wahrnehmung f

ur Englisch, Franz

o-

sisch, Italienisch, D

anisch und Niederl

andisch, die exemplarisch in TFS modelliert wurden.

Um die

Ubertragbarkeit der hier vorgeschlagenen Prinzipien zu

uberpr

ufen, wurden in DE-

LIS auerdem Fragmente italienischer, englischer und niederl

andischer Sprechaktverben

modelliert (vgl. Abschnitt 4.5).

Eine der wichtigsten Grundlagen f

ur die hier vorgeschlagene Strukturierung von ein-

und zweisprachigen W

orterb

uchern und f

ur deren Verbindbarkeit untereinander stellt das

Vorliegen von parallelen Grammatiken und Lexika dar. Unter \parallelen" Fragmenten

werden hier linguistische Beschreibungen von S

atzen verstanden, welche

Ubersetzungen

voneinander sind. Auerdem setzt die Erstellung paralleler Fragmente die Benutzung

desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein ge-

meinsames Inventar von Beschreibungsmitteln f

ur die verschiedenen einzelsprachlichen

Modellierungen wird deniert; dieses Inventar wird nur dann erweitert, wenn dies f

ur die

Beschreibung einzelsprachlicher idiosynkratischer Ph

anomene notwendig ist.

1.1.3 Vorgehensweise

Die Erstellung linguistischer Spezikationen hat einige Gemeinsamkeiten mit der Ent-

wicklung von Software. Wie oben angedeutet, fallen Teile der hier gef

uhrten Diskussion

in den Bereich des \Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich

auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt.

Die vorliegende Studie orientiert sich an der Methode des \Rapid Prototyping". Im

Software-Engineering versteht man unter \Rapid Prototyping" eine Arbeitsmethode, bei

der zun

achst eine Anforderungsanalyse erstellt wird, dann eine funktionale und sp

ater for-

male oder technische Spezikation der zu entwickelnden Programme. Zu einem m

oglichst

fr

uhen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verf

ugbar

gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.

men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993{1995

gef

ordert wurde. An DELIS waren Computerlinguisten (Universit

aten Pisa, Clermont-Ferrrand, Am-

sterdam und Kopenhagen), W

orterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog,

Kopenhagen; Oxford University Press), sowie ein Software- und Beratungsunternehmen (Site, Paris;

Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universit

at Stuttgart

in DELIS und Projektkoordinator.

6 Dies ist, soweit sich absehen l

at, die erste constraint-basierteModellierung von Lexikonfragmenten auf

der Grundlage von Frame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstan-

den werden (und auf theorie-interne Diskussionen

uber die syntaktische Modellierung von Einzelf

allen

verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall f

ur einen Beschreibungsansatz:

Fillmores Theorie wird in diesem Buch nicht erweitert, sondern prim

ar als Beispiel f

ur ein lexikalisch-

semantisches Beschreibungsmodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten

von

[

Fillmore/Atkins 1994

]

,

[

Atkins 1994

]

,

[

Atkins et. al. 1994

]

, usw.), weil es eine pr

azise, corpus-

basierte lexikalische Beschreibung unterst

utzt, und weil es die Zusammenh

ange von syntaktischer und

semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen

von Frame Semantics zu rechtfertigen oder gegen andere Beschreibungen abzusetzen.

Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird, iet

in eine Verfeinerung der Spezikationen und der Implementierung zur

uck. Dieser Vorgang

wird als \Prototyping cycle" bezeichnet.

Man kann sich fragen, inwiefern ein solches Vorgehen f

ur die Entwicklung einer W

or-

terbucharchitektur, bzw. von lexikalischen Spezikationen m

oglich und n

utzlich ist. Hier

wird die These vertreten, da es gerade bei der Entwicklung von W

orterbuchfragmenten

notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten er-

geben (z.B. von Texten aus Textcorpora, welche durch ein W

orterbuch abgedeckt werden

sollen), bei der Entwicklung zu ber

ucksichtigen. Je fr

uher im Laufe der Lexikonentwick-

lung Beispielfragmente verf

ugbar sind, desto fr

uher und ezienter kann die Entwicklung

beeinut werden. F

ur den (corpusbasierten) Aufbau von W

orterbuchfragmenten wird

dieses Konzept detaillierter in Abschnitt 2.1.1.3 diskutiert.

Zum Teil richtet sich die Pr

asentation der Architekturvorschl

age in diesem Buch eben-

falls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographi-

schen Praxis (in Kapitel 2) wird eine Anforderungsdenition abgleitet. Nach der Darstel-

lung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale)

Spezikation

7

gegeben (Abschnitt 3.2), die daraufhin

uberpr

uft wird, welche Aspekte

der Anforderungsdenition sie erfat. Beispielimplementierungen werden in der Form von

monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in ver-

schiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikonge-

steuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial

(Kapitel 5).

Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier

separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und

die Verbesserungen sind nat

urlich in die Beschreibung von Spezikation und Realisierung

eingebunden.

Ein Groteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibun-

gen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich

kontrastive Beschreibungen organisieren.

1.1.4 Struktur dieses Buchs

Kapitel 2 beschreibt lexikographische und metalexikographische Aspekte der W

orter-

buchstrukturierung und f

uhrt so aus praktischer Sicht auf die Anforderungsanalyse hin

(Abschnitt 2.1). Kapitel 3 ist dem Repr

asentationsformalismus TFS, seinen Eigenschaf-

ten und seiner Benutzung f

ur lexikalische Modellierung und Abfrage gewidmet

8

; es enth

alt

auerdem die funktionale Spezikation der vorgeschlagenen W

orterbucharchitektur (Ab-

schnitt 3.2). Dem folgt eine Diskussion monolingualer lexikalischer Spezikationen, wie sie

f

ur die Zwecke von DELIS deniert wurden (vgl. Kapitel 4), d.h. eine Beschreibung der

\Implementierung" anhand von Beispielen. In Kapitel 5 werden Probleme der Abfrage und

7 Eine formale Denition, z.B. in Backus-Naur-Form, wird nicht gegeben. Sie k

onnte jedoch auch als

externe Schema-Denition, wiederum im hier verwendeten Formalismus, angegeben werden. Vgl. da-

zu die Diskussion in

[

Emele/Heid 1993

]

, wo gezeigt wird, wie eine formale Meta-Schema-Denition,

eine Schema-Denition und die lexikalischen Klassen- und Instanzen-Denitionen f

ur die W

orter-

buchfragmente von DELIS formuliert werden k

onnen, und wie die verschiedenen Denitionsebenen

zusammenh

angen.

8 Computerlinguisten, die im constraint-basierten Paradigma arbeiten, k

onnen Abschnitt 3.1 ohne In-

formationsverlust

uberschlagen.

der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewut zum Teil

auch Beispiele diskutiert, die

uber die in Kapitel 4 vorgestellten Ph

anomene hinausgehen.

In Kapitel 6 werden M

oglichkeiten der Strukturierung von kontrastiven Beschreibungen

diskutiert. Zun

achst werden empirisch Klassikationen von kontrastiven lexikalischen Pro-

blemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen

Ubersetzung und

in der Lexikographie benutzen lassen.

Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen.

Die Diskussion allgemeiner Aspekte der W

orterbucharchitektur verteilt sich in folgender

Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information

und damit eine der zentralen Anforderungen an die zu erstellenden W

orterbuchkonzepte

untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche

bei zweisprachigen W

orterb

uchern hinzutreten, ieen die in Abschnitt 2.1 zusammenge-

stellten Aspekte in die Anforderungsdenition in Abschnitt 2.3 ein. Die funktionale Spe-

zikation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht

der Anwendung werden M

oglichkeiten der Abfrage der so repr

asentierten lexikalischen

Information in Kapitel 5 diskutiert.

Die kontrastiven Aspekte h

angen, wie oben angedeutet, mit den allgemeinen Fragen

der Lexikonarchitektur und mit den monolingualen W

orterbuchfragmenten eng zusam-

men. Ein

Uberblick

uber die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die

Resultate einer vergleichenden Bewertung der lexikographischen Ans

atze ieen in die

Anforderungsdenition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vor-

schl

age zur Klassizierung lexikalischer

Ubersetzungsprobleme diskutiert, die eine weitere

Grundlage f

ur die Organisation zweisprachiger W

orterb

ucher darstellen. Beispiele f

ur Im-

plementierungen, die aufgrund dieser Klassikation entwickelt werden k

onnen, sind in den

Abschnitten 6.4 und 6.5 angegeben.

Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich eben-

falls als \Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet.

Arbeiten aus der praktischen Lexikographie, die zu \wiederverwendbaren" zweisprachigen

W

orterb

uchern f

uhren, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschl

age f

ur den

\W

orterbuchexport" und f

ur vergleichbare Anwendungen werden in Abschnitt 5 disku-

tiert. F

ur zweisprachige W

orterb

ucher wird in Abschnitt 6.4 auf M

oglichkeiten hingewei-

sen, wie eine allgemeine Ph

anomenklassikation sowohl als Grundlage f

ur transfer-basierte

Systeme, als auch f

ur den Interlingua-Ansatz dienen kann.

1.2 Einige Grundbegrie

1.2.1 Elektronische W

orterb

ucher

Bevor Vorschl

age f

ur die Strukturierung von elektronischen W

orterb

uchern diskutiert wer-

den k

onnen, mu hier zun

achst der Begri \elektronisches W

orterbuch" selbst etwas n

aher

betrachtet werden. Der Begri des \elektronischen W

orterbuchs" ist in den letzten Jahren

als Oberbegri f

ur ganz verschiedene Produkte und Resultate von Forschungs- und Ent-

wicklungsarbeit benutzt worden, und die W

orterb

ucher eines groen maschinellen

Uber-

setzungssystems, werden zum Teil ebenso als \elektronische W

orterb

ucher" bezeichnet,

wie die von verschiedenen Unternehmen angebotenen Produkte im Taschenrechnerformat,

die den Wortschatz eines Reisew

orterbuchs in einem Display anzeigen k

onnen.

Auch in der Diskussion in der Computerlinguistik bzw. Computational Lexicography

wird der Terminus mitunter unscharf verwendet. Dort wird neben dem \electronic dic-

tionary" auch von \lexical databases", \machine readable dictionaries" und \articial

intelligence lexicons" gesprochen, z.B. bei

[

Zampolli 1994

]

und

[

Atkins/Levin/Zampolli

1994

]

.

Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang

mit Ressourcen in einem anderen Format (\machine readable dictionary": meint die in

irgendeiner Form als Textdateien zur Verf

ugung gestellte Version eines gedruckten W

orter-

buchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassizierungen

geben eigentlich keinen Aufschlu

uber relevante Eigenschaften der jeweiligen Ressourcen,

und eine etwas pr

azisere Beschreibung ist notwendig.

Im Bereich der elektronischen W

orterb

ucher gibt es bislang noch keine eindeutig de-

nierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektro-

nischen W

orterb

uchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe

von Parametern, nach denen elektronische W

orterb

ucher beschrieben werden k

onnen.

1.2.1.1 Parameter der Beschreibung elektronischer W

orterb

ucher {

Uberblick

Den ersten Versuch einer Klassikation elektronischer W

orterb

ucher, die

uber die oben ge-

nannten \Etiketten" hinausgeht, haben

[

Martin/Woltering 1989

]

unternommen. Das Ziel

ihrer Typologie elektronischer W

orterb

ucher ist eine \globale" Beschreibung des Stands

von Wissenschaft und Technik in diesem Bereich; Martin/Woltering verwenden eine Reihe

von Parametern, entlang derer sie die in ihrem Forschungs

uberblick zusammengestellten

elektronischen W

orterb

ucher beschreiben und klassizieren. Martin/Woltering streben

keine vollst

andige und strikte Klassikation an:

Physikalische Form der Ressource;

Grad der Formalisierung von Bedeutungsbeschreibungen;

Zusammenhang mit anderen Ressourcen oder mit Computerwerkzeugen;

Anwendungsorientierung der semantischen Beschreibung;

Anwesenheit bzw. Abwesenheit von extralinguistischen Beschreibungen, wie bei-

spielsweise dom

anenspezischer Information.

Die prominentesten Klassen von elektronischen W

orterb

uchern, die anhand dieser Be-

schreibungsparameter von

[


]

identiziert werden, sind folgende

9

:

Papierw

orterb

ucher;

\computer based dictionaries";

\machine readable dictionaries";

Lexikalische Datenbanken und Termbanken;

\machine dictionaries";

9 Einige werden bewut im englischen Original-Wortlaut zitiert, weil eine

Ubersetzung u.U. interpre-

tierenden Charakter h

atte.

\lexical databases";

\Articial Intelligence lexicons".

Die von Martin/Woltering identizierten prominenten Beispielf

alle f

ur W

orterb

ucher und

die Kriterien zeigen, da die in

[


]

beschriebene Klassikation spe-

ziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen

W

orterb

uchern unternommen worden ist. Sie ist f

ur unsere Zwecke nicht allgemein genug.

Obwohl nat

urlich jede Klassikation f

ur einen speziellen Zweck durchgef

uhrt wird, und

obwohl insofern jede Typologie die Aspekte wiederspiegelt, die f

ur die jeweilige Zielsetzung

als besonders relevant erachtet werden, kann man doch versuchen, elektronische lingui-

stische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassikationsver-

suchs ist es, die wichtigsten Aspekte der Form der W

orterb

ucher (Repr

asentationsforma-

lismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur),

sowie des Zusammenhangs zwischen beiden deutlich zu machen.

Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei

[

Martin/Wol-

tering 1989

]

, als nicht-ausschlieliche Parameter) benutzt:

Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource

f

ur eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist,

oder ob sie in dem Sinne \multifunktional" ist, da sie verschiedene lexikographische

und/oder verschiedene NLP-Anwendungen versorgt oder versorgen soll.

Eine inhaltliche Beschreibung der Ressource: hinsichtlich Makrostruktur, Mikro-

struktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen.

Die formale Organisation der Ressource: Zusammenh

ange zwischen deskriptiver Sei-

te und Repr

asentationsseite; Dokumentation.

Technische Eigenschaften der Ressource: hinsichtlich Repr

asentationsformat oder

-formalismus, Speichermedium, zugrundeliegender Software usw.).

Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elek-

tronisch repr

asentierten Ressourcen.

Diese sehr allgemeinen Beschreibungskriterien sind in

ahnlicher Weise f

ur die Zwecke

der Eurotra-7-Studie (vgl.

[

Heid/McNaught 1991

]

) und, darauf aufbauend, f

ur die

Relator-Studie zu linguistischen Ressourcen

10

(

[

Hinkelman (Ed.) 1995

]

) benutzt worden

11

.

Im Falle der beiden genannten Studien kommen zus

atzliche, nicht-linguistische Angaben

10 Relator ist eine von der Europ

aischen Kommission, Luxenburg, DG XIII E4, im Rahmen des

LRE-2-Programms in Auftrag gegebene Studie

uber die M

oglichkeit der Realisierung einer zentralen

europ

aischen Institution f

ur die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE-

62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources

Association, ELRA, gef

uhrt, die, 1995 gegr

undet, von 1996 an eine dem Linguistic Data Consorti-

um, LDC, in den USA vergleichbare Rolle

ubernehmen soll. Relator hat einen ersten Katalog von

linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterf

uhren.

11 Die allgemeinen Beschreibungsparameter wurden f

ur die Zwecke von Relator so weitgehend genera-

lisiert, da sie auf alle Arten von Ressourcen (Textcorpora, W

orterb

ucher, Speech-Samples, Gramma-

tiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen W

or-

terb

ucher wurde vom Autor f

ur die Zwecke von Eurotra-7 entwickelt und dann f

ur Relator

weitergef

uhrt. Sie wurde auch im Projekt Multilex nahezu unver

andert

ubernommen. Die N

ahe

hinzu, wie beispielsweise Information

uber Eigentumsrechte, Verf

ugbarkeit, und

uber die

Autoren der betreenden Ressourcen.

In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im

Rahmen von Relator elektronische W

orterb

ucher beschrieben wurden.

1.2.1.2 Typen elektronischer W

orterb

ucher { gemeinsame Eigenschaften

F

ur jeden der oben angegebenen Beschreibungsparameter werden im Folgenden jeweils

einige relevante Merkmale angegeben.

Anwendungsorientierung: die Anwendungsorientierung eines W

orterbuchs bezeichnet

die angestrebte haupts

achliche Benutzung, die der W

orterbuchentwickler f

ur das W

orter-

buch vorsieht. Auf einer obersten Ebene sollte zwischen \multifunktional" konzipierten

Ressourcen und anwendungsspezischen Ressourcen unterschieden werden

12

.

Gleichzeitig sollte mindestens zwischen dreierlei m

oglichen Anwendungssituationen un-

terschieden werden:

Benutzung der lexikalischen Ressource als gedrucktes W

orterbuch; das W

orterbuch

liegt daneben \maschinenlesbar" vor;

Benutzung der Ressource als interaktiv benutztes elektronisch repr

asentiertes W

or-

terbuch (\Lookup-W

orterb

ucher");

Benutzung der Ressource in einem sprachverarbeitenden System, normalerweise

vollautomatisch und ohne interaktiven Zugri.

Inhaltliche Beschreibung: wie bei gedruckten W

orterb

uchern sind makrostrukturelle und

mikrostrukturelle Aspekte zu unterscheiden.

Makrostrukturelle Kriterien:

{ behandelte Sprache bzw. Sprachen; Sprachrichtung im Falle von

Ubersetzungs-

w

orterb

uchern; behandeltes (Fachsprachen-)Fragment;

{ Lemmabestand: Umfang der Makrostruktur;

{ Lemmaselektion und Kriterien f

ur Lemmastatus linguistischer Objekte (welche

linguistischen Objekte haben Lemmastatus, welche k

onnen einzeln abgefragt

werden: z.B., neben den

ublichen Lemmata, auch ektierte Formen, Mehrwort-

Einheiten, Morpheme, Abk

urzungen etc.);

{ Organisation und Gruppierung der Artikel: z.B. semasiologische vs. onomasio-

logische W

orterbuchorganisation.

zu metalexikographischen Ans

atzen zur Beschreibung von W

orterb

uchern ist deutlich. Die hier be-

schriebene Kriterienliste wurde im Zusammenhang der Eurotra-7-Studie auf rund 30 elektronische

lexikalische Ressourcen des Deutschen und ungef

ahr 100 weitere elektronische W

orterb

ucher verschie-

dener anderer europ

aischer Sprachen angewendet und hat sich als ausreichend hierf

ur erwiesen.

Im Fall der Eurotra-7-Studie wurden sehr detaillierte Beschreibungen von einzelnen prominenten

Ressourcen f

ur sechs europ

aische Sprachen angefertigt (pro Ressource ca. 3-4 Seiten Text mit zusam-

menfassender Tabelle und einzelnen Beispielen aus der Benutzung der jeweiligen W

orterb

ucher); im

Rahmen von Relator wurde lediglich ein allgemeiner

Uberblick

uber die Situation f

ur die wichtigsten

europ

aischen Sprachen angefertigt.

12 Vgl. die detaillierte Diskussion

uber wiederverwendbare lexikalische Beschreibungen und multifunk-

tionale W

orterb

ucher in Abschnitt 2.1.1.

Application

MRD version of human use dict.

other

NLP system dict.

Look-up dict. for human use

Content

Macrostructure

Microstructure

Items with lemma status

Grouping of lemmas

Fragment covered

Elementary units per level

underlying approach

Consistency of markup

markup, repres. language

assessment of transformability

(checking possibilities)

internal structure of entires

lexicographic conventions

Representation

Explicit

Implicit

Relationships

Availability

cost of use/adaptation

cost of resource

not derived

derived from other source(s)

Technical

(cf. usage context)Interfaces and integratability

(formal aspects)Representation language

Storage

legal aspects

(cf. Microstr./Macrostr.)

Levels described

Abbildung 1.1: Schema der Parameter zur Beschreibung elektronischer W

orterb

ucher

(nach Eurotra-7 und Relator)

Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien geh

ort das Inven-

tar der linguistischen Beschreibungsebenen, zu denen das W

orterbuch Informatio-

nen enth

alt, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw.

des Beschreibungsansatzes (z.B. bei Instruktionsb

uchern von gedruckten W

orter-

b

uchern), sowie eine Beschreibung der benutzten linguistisch-lexikographischen Be-

schreibungsmittel und ihrer Dokumentation

13

.

Wie in der traditionellen (meta)lexikographischen Beschreibung, werden folgende

linguistische Beschreibungsebenen unterschieden, f

ur die in einem elektronischen

W

orterbuch Angaben vorhanden sein k

onnen:

{ Orthographische Beschreibung (mit Beschreibung von orthographischen Vari-

anten, Trennm

oglichkeiten usw.);

{ Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt);

{ Morphologische und morphosyntaktische Beschreibung (morphosyntaktische

Eigenschaften von Wortformen, eventuell Zusammenh

ange mit (m

oglicherweise

W

orterbuch-externen) Morphologie-Systemen bzw. Klassizierungen des Fle-

xionsverhaltens);

{ Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebe-

ne (Klassikation des zu beschreibenden linguistischen Objekts hinsichtlich sei-

ner Wortart, sowie der ggf. von ihm subkategorisierten Erg

anzungen);

{ Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Ob-

jekten, die als Pr

adikate aufgefat werden k

onnen und Erg

anzungen subkate-

gorisieren: Angabe der syntaktischen Funktion dieser Erg

anzungen);

{ (lexikalisch) semantische Beschreibung (Denitionen, Sortenangaben, semanti-

sche Merkmale, Bedeutungspostulate usw.; Bedeutungserl

auterung);

{ Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit

anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.);

{ Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, m

ogliche

Inferenzen, andere f

ur die Diskurs-Interpretation relevante Informationen);

{ \Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klas-

sikation nach Stil-, Fachsprachen-, Textsortenkriterien usw.).

Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungs-

theorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist f

ur

jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmit-

tel sie verwendet. Allenfalls mu separat beschrieben werden, welche Beschreibungs-

mittel zum Einsatz kommen. Ebenso mu ggf. deutlich gemacht werden, welche Art

extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Ger

ausche;

Verweise auf Elemente eines Dom

anenmodells, usw.).

Formale Organisation des W

orterbuchs: Die Organisation kann explizit oder implizit er-

folgen. Explizit organisierte W

orterb

ucher sind solche, bei denen jeder Angabetyp separat

identizierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von

13 Auerdem kann an dieser Stelle das Vorhandensein extralinguistischer Information ber

ucksichtigt

werden; vgl.

[


]

.

Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Da-

gegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang

und Ende einer bestimmten Angabe aus dem W

orterbuchtext mit den Mitteln der meta-

lexikographischen W

orterbuchanalyse erschlossen werden mu.

Kennzeichen explizit organisierter W

orterb

ucher ist das Vorhandensein eines irgend-

wie gearteten Markup

14

oder bestimmter, voneinander unterscheidbarer Datentypen zur

Repr

asentation von Angaben unterschiedlichen Typs

15

.

Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource

betreen das Speichermedium und die Repr

asentation des W

orterbuchs (als Datenbank,

Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl

und Formate von Dateien usw.).

Zusammenhang mit anderen Ressourcen: \machine readable dictionaries" stehen oft

in eingem Zusammenhang mit einem gedruckten W

orterbuch. In solchen F

allen hat das

elektronische W

orterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch

bleiben die inhaltlichen und die W

orterbuchorganisatorischen Parameter gleich wie beim

gedruckten W

orterbuch, oder sie lassen sich bei Kenntnis des \zugrundeliegenden W

or-

terbuchs" leichter erschlieen.

1.2.1.3 Relevanz der Beschreibungsparameter f

ur das Design von

elektronischen W

orterb

uchern

Die oben genannten Parameter zur Beschreibung elektronischer W

orterb

ucher k

onnen ei-

nerseits f

ur die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, ande-

rerseits sollten sie in die Anforderungsdenition f

ur die Entwicklung neuer elektronischer

W

orterb

ucher hinein: der Entwickler mu sicherstellen, da f

ur die zu entwickelnde Res-

source hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getroen

werden.

Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen

des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den techni-

schen Eigenschaften der Ressource f

ur die Denition einer geeigneten W

orterbucharchi-

tektur eine Rolle.

In Kapitel 3.2 wird ein Vorschlag f

ur Architekturprinzipien f

ur elektronische W

or-

terbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen

14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language).

15 In W

orterb

uchern von NLP-Systemen k

onnen das z.B. Attribut-Wert-Strukturen sein, bei denen die

einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht

s

amtliche elektronischen W

orterb

ucher sind explizit organisiert. Vielmehr wird gerade in \Lookup"-

Versionen gedruckter W

orterb

ucher, die als Textdateien vorliegen, oft auf eine eindeutige Unterschei-

dung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmen-

ten durch unterschiedliche typographische Auszeichnungskonventionen m

oglich ist. Da in der Regel

die Typographie in W

orterbuchtexten mehrdeutig ist (z.B. k

onnen kursiv gedruckte Teile in ein und

demselben Eintrag durchaus Denitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Ty-

pen von unterschiedlich ausgezeichneten Textst

ucken eindeutig zu rekonstruieren und automatisch zu

inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von

gedruckten W

orterb

uchern, die in Abschnitt 2.1.2.5 diskutiert werden.

Auerdem k

onnen z.B. Hierarchien von Eintr

agen, bei denen Information durch Vererbung bereit-

gestellt wird, implizit organisiert sein: es kann daher n

otig sein, in einem Lexikon-Formalismus die

Unterscheidung zwischen \er-erbter" und \lokal denierter" Information deutlich zu machen (insbe-

sondere f

ur die Zwecke der interaktiven Erweiterung der W

orterb

ucher).

Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, k

onnen wir hier bereits ei-

nige Charakteristika der unten im Detail beschriebenen W

orterb

ucher anhand der oben

diskutierten Parameter zusammenstellen.

Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie ver-

schiedene sprachverarbeitende Anwendungen bedienen soll. Auerdem soll es m

oglich

sein, aus der zu entwickelnden Ressource Material f

ur ein interaktiv abzufragendes

elektronisch repr

asentiertes W

orterbuch abzuleiten. Anwendungsspezische Pr

asen-

tationformen sollen

uber eine spezielle Export-Komponente aus der formal repr

asen-

tierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2).

Inhaltliche Beschreibung:

{ Makrostruktur: die Beispielfragmente stammen aus Franz

osisch und Deutsch,

Englisch und Niederl

andisch, sowie Italienisch; die Fragmente beinhalten nur

Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind

die Architekturvorschl

age auch

uber diesen Bereich hinaus generalisierbar.

{ Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf

die orthographische, kategorial- und funktional-syntaktische und lexikalisch-

semantische Beschreibung. Zum Teil werden \lexikalisch-pragmatische" Aspek-

te mitber

ucksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG

(Head-Driven Phrase Structure Grammar, vgl.

[

Pollard/Sag 1994

]

) inspiriert,

der Theorie aber nicht so weitgehend verpichtet, da angestrebt w

urde neue

Vorschl

age zur lexikalischen oder linguistischen Beschreibung mit HPSG zu

machen. Dies erkl

art sich schon aus der Zielsetzung der \Multifunktionalit

at".

F

ur die lexikalisch-semantische Beschreibung wird Fillmores Frame Semantics

benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall f

ur die An-

wendung der Lexikonarchitektur.

Organisation der Ressource: das W

orterbuch soll durchg

angig explizit organisiert

sein. Der Repr

asentationsformalismus TFS (Typed Feature Structures) wird ver-

wendet. Er wird in Abschnitt 3.1 detailliert beschrieben.

Technische Eigenschaften: die Benutzung von TFS als Repr

asentationsformalismus

f

uhrt dazu, da TFS-Denitionen als Textdateien (ASCII les) repr

asentiert werden.

Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzi-

piert

16

. Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungs-

mittel; die Fragmente sind eineinander

ubersetzbar).

1.2.2 Probleme der kontrastiven lexikalischen Beschreibung

Die Vorschl

age zur W

orterbuchstrukturierung, die hier entwickelt werden, sind vor dem

Hintergrund von maschinellen

Ubersetzungssystemen (M

U-Systemen) zu sehen. Die wich-

tigsten Aspekte von maschinellen

Ubersetzungssystemen werden in diesem Zusammen-

hang als bekannt vorausgesetzt. In einschl

agigen

Uberblicksdarstellungen werden die Grund-

16 Die TFS-Modellierung beruht auf informeller lexikographischer Beschreibungsarbeit, die von den

Mitgliedern des DELIS-Projekts geleistet wurde; die DELIS-Partner haben aber nicht selbst TFS-

Modellierungen produziert.

prinzipien der bestehenden M

U-Systeme detailliert beschrieben

17

. Die meisten regelbasier-

ten maschinellen

Ubersetzungssysteme (also nicht solche, die statistische Verfahren zur

Berechnung der wahrscheinlichsten

Ubersetzungs

aquivalente verwenden) folgen entweder

dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf stratika-

tionelle Beschreibungsans

atze zur

uck.

Im Falle des Transfer-Ansatzes wird davon ausgegangen, da das

Ubersetzungssystem

zun

achst quellsprachliche S

atze analysiert und die aus den Quellsprachs

atzen abgeleiteten

abstrakten Repr

asentationen auf andere abstrakte Repr

asentationen abbildet, aus welchen

zielsprachliche S

atze generiert werden k

onnen.

Demgegen

uber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Re-

pr

asentationen so zu formulieren, da sie gleichermaen geeignet sind, quellsprachliche

und zielsprachliche

Auerungen oder Teile davon ad

aquat zu beschreiben. Wo dies m

oglich

ist, entf

allt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezi-

schen abstrakten Repr

asentationen.

...

...

SYN: f-str.

MO/SY: c-str.

SYN: f-str.

MO/SY: c-str.

...

SEM: lex. sem. SEM: lex. sem.

...

...

...

Abbildung 1.2: Vereinfachtes Schema des Transfer-Ansatzes

In den Abbildungen 1.2 und 1.3 sind die beiden Ans

atze schematisch und anhand ei-

ner sehr vereinfachten linguistischen Beschreibung (nur morphosyntaktische, syntaktische

und semantische Beschreibungen) dargestellt. Beim Transferansatz (Abbildung 1.2 wer-

den die funktional-syntaktischen Strukturen und/oder die Pr

adikat-Argument-Strukturen

von Quell- und Zielsprache durch gerichtete Abbildungen verbunden.

In einem interlingua-basierten Modell wird dagegen angenommen, da es eine Re-

pr

asentation gibt, die die Bedeutung sowohl der quell- als auch der zielsprachlichen

Aue-

rungen auszudr

ucken vermag. Das Schema in Abbildung 1.3 ist bewut analog zu Ab-

bildung 1.2 gehalten; dort ist die semantische Teilbeschreibung hinterlegt: sie dient als

gemeinsame Repr

asentation f

ur Quell- und Zielsprache

18

.

Man hat, beispielsweise in Vorbereitungsdiskussionen f

ur das Verbmobil-Projekt

19

,

ausf

uhrlich

uber die Zusammenh

ange zwischen Transfer- und Interlingua-Ansatz disku-

17 Vgl. beispielsweise

[

Nirenburg (Ed.) 1987

]

, dort insbesondere die Einf

uhrung von

[

Tucker 1987

]

; vgl.

auch

[

Arnold et al. 1994

]

. Einen

Uberblick

uber maschinelle

Ubersetzungssysteme, die in der Praxis

angewendet werden, geben

[

Slocum 1988

]

, sowie, f

ur ein deutsches Publikum

[

Schwanke 1991

]

.

18 In beiden Ans

atzen wird Interaktion zwischen den einzelnen ebenenspezischen Teilbeschreibungen,

beispielsweise durch relationale Abbildungen, vorausgesetzt

19 Verbmobil ist ein Verbundprojekt des Bundesministeriums f

ur Bildung, Wissenschaft, Forschung

und Technologie zur maschinellen

Ubersetzung gesprochener Sprachen.

...

...

SYN: f-str.

MO/SY: c-str.

...

...

SYN: f-str.

MO/SY: c-str.

SEM: lex. sem.

...

SEM: lex. sem.

...

Abbildung 1.3: Vereinfachtes Schema des Interlingua-Ansatzes

tiert. In Verbmobil

20

wird ein Transfer-Ansatz verfolgt, bei dem Information mitbenutzt

werden kann, die

uber die quell- und zielsprachlichen Beschreibungen generalisiert werden

kann, z.B. zur Repr

asentation von lokalen oder temporalen Relationen (in Verbmobil

wurde vorgeschlagen, die \Analysetiefe" variabel zu halten, d.h. je nach dem Bedarf der

Ubersetzung mehr oder weniger abstrakte (semantische und ggf. dom

anenspezische) In-

formation in die Repr

asentationen einzubinden).

" !

6

?

phon hI miss my dictionaryi

+

English HPSG

+

2

6

6

6

6

6

6

6

6

6

6

6

6

6

6

6

6

4

phon hI miss my dictionaryi

: : : jloc

2

6

6

6

6

6

6

6

6

6

6

4

cat

2

4

head verb

subcath i

3

5

cont

2

6

6

4

reln miss

exper

1

jfspeaker(

1

)g

theme

2

jf

1

's dict.(

2

)g

3

7

7

5

| {z }

3

7

7

7

7

7

7

7

7

7

7

5

dtrs : : :

3

7

7

7

7

7

7

7

7

7

7

7

7

7

7

7

7

5

2

6

6

6

6

6

6

6

6

6

6

6

6

6

6

6

4

phon hMon dictionnaire me manquei

: : : jloc

2

6

6

6

6

6

6

6

6

6

4

cat

2

4

head verb

subcath i

3

5

cont

2

6

6

4

reln miss

exper

1

jfspeaker(

1

)g

theme

2

jf

1

's dict.(

2

)g

3

7

7

5

3

7

7

7

7

7

7

7

7

7

5

dtrs : : :

3

7

7

7

7

7

7

7

7

7

7

7

7

7

7

7

5

*

French HPSG

*

?

2

6

6

6

6

4

: : : jlocjcont

2

6

6

4

reln miss

exper

1

jfspeaker(

1

)g

theme

2

jf

1

's dict.(

2

)g

3

7

7

5

| {z }

3

7

7

7

7

5

Abbildung 1.4: Schema der interlingua-basierten

Ubersetzung mit HPSG (aus

[

Heid/Kuhn

1994

]

)

In Kapitel 4 werden Beispiele f

ur monolinguale lexikalische Beschreibungen gegeben. Diese

20 Im Rahmen der vorliegenden Arbeit konnten aus Gr

unden der

Uberlagerung der Erscheinungstermine

die neuesten Arbeiten des Verbmobil-Projekts nicht oder nur zu einem geringen Teil ber

ucksichtigt

werden. Die Vorbereitungsdiskussion ist z.B. in

[

Kay/Gawron/Norvig 1994

]

dargestellt.

k

onnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlingua-

basiertes experimentelles M

U-System eingebracht werden, dessen Grundlagen und Funk-

tionsweise zuerst in

[

Heid/Kuhn 1994

]

beschrieben worden sind. F

ur die Quellsprache und

die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die ange-

reicherten Pr

adikat-Argument-Strukturen (Werte des \CONT(ent)"-Attributs) werden als

gemeinsame abstrakte Repr

asentation von Quell- und Zielsprache benutzt.

In diesem System enthalten die Lexikoneintr

age gleichberechtigte Teilbeschreibungen

der Wortformen (Lautgestalt, bzw. Orthographie unter dem \PHON(ology)"-Attribut), der

syntaktischen Struktur (unter dem Attribut \CAT(egory)") und der semantischen Struk-

tur (Pr

adikat-Argument-Strukturen, unter dem Attribut \CONT(ent))". Liegen im oben

diskutierten Sinne parallele Grammatiken vor, so k

onnen quell- und zielsprachliche Gram-

matiken und Lexika miteinander kombiniert werden.

Die Analyse der Quellsprache besteht darin, da ein Satz, von dem zun

achst nur die

Zeichenkette bekannt ist, mit den Denitionen von Grammatik und Lexikon verglichen

wird. Das Ergebnis ist eine vollst

andig spezizierte Struktur, in der zus

atzlich zur Zeichen-

kette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung aus-

gegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit

dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollst

andig spe-

zizierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette erg

anzt

werden, jetzt anhand der zielsprachlichen Spezikation. Man kann den ersten Vorgang

(von der Textform zur vollst

andigen Beschreibung) als \Analyse", den zweiten Vorgang

(von der Bedeutungsbeschreibung zur vollst

andigen Beschreibung, inklusive Textform)

als \Generierung" bezeichnen. F

ur die Zwecke der

Ubersetzung wird die Analyse mit der

Quellsprach-Grammatik durchgef

uhrt, die Generierung mit der Zielsprach-Grammatik.

In Abbildung 1.4 ist dieser

Ubersetzungsansatz anhand von HPSG f

ur Englisch und

Franz

osisch schematisch dargestellt.

In den Abschnitten 2.3 und 3.2 werden Vorschl

age f

ur die Architektur monolingualer

W

orterb

ucher gemacht. Dabei spielt die Verwendbarkeit der lexikalischen Beschreibun-

gen f

ur verschiedene Anwendungen eine groe Rolle. Da der Transfer-Ansatz und der

Interlingua-Ansatz L

osungen derselben konstrastiven lexikalischen Probleme bereitstellen

m

ussen, w

are es w

unschenswert, auch ein kontrastives W

orterbuch so anzulegen, da es

verschiede Anwendungen versorgen kann, in diesem Fall Systeme, die auf dem Transfer-

Ansatz bzw. auf dem Interlingua-Ansatz beruhen. Ein W

orterbuch, welches beide Arten

von Beschreibungen unterst

utzen soll, mu hinreichend detaillierte Informationen von

s

amtlichen relevanten Beschreibungsebenen enthalten.

Kapitel 2

Lexikographische Aspekte der

W

orterbuchstrukturierung

2.1 Wiederverwendbare lexikalische Beschreibungen { Multifunktionale

W

orterb

ucher

Seit den sp

aten 80er Jahren wurde in der Computerlinguistik

uber die Schaung umfang-

reicher Lexika f

ur die Sprachverarbeitung diskutiert, und auf die Notwendigkeit der Erstel-

lung wiederverwendbarer

1

W

orterb

ucher hingewiesen. Aufgabe und Zielsetzung von For-

schungsvorhaben und Studien wie z.B. Eurotra-7 (1990/91), Lexic (1990/91)

2

, Mul-

tilex (1991-93), zum Teil auch Acquilex und DELIS (1993-95) war es, Konzepte f

ur die

Wiederverwendung lexikalischer Information zu entwickeln; das Forschungsprojekt Mul-

tilex ist beispielsweise mit dem Ziel angetreten, in verschiedenen Typen von Sprachver-

arbeitungssystemen verwendbare (\multifunktionale") W

orterb

ucher zu entwickeln oder

an ihrer Denition zu arbeiten (vgl.

[

Modiano 1994

]

). Die Fragestellung hat bis heute

nichts an Aktualit

at verloren, wie der neueste Sammelband von

[

H

otker/Ludewig (Ed.)

1996

]

zeigt, der verschiedenen Ans

atzen zur Wiederverwendung lexikalischer Information

gewidmet ist.

In diesem Kapitel wird zun

achst die bisherige Diskussion

uber die Wiederverwendung

lexikalischer Information zusammengefat. Aus bisherigen Denitionen von multifunk-

tionalen W

orterb

uchern werden die f

ur die vorliegende Arbeit relevanten Aspekte als

Komponenten einer Anforderungsdenition f

ur die W

orterbuchorganisation extrahiert.

2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen

Die Diskussion um die Wiederverwendung von lexikalischer Information in der Compu-

terlinguistik ist mit der Dissertation von Robert Amsler 1980 (vgl.

[

Amsler 1980

]

) in

Gang gekommen, der als wohl erster Computerlinguist Satzb

ander eines monolingualen

(englischen) W

orterbuchs analysiert hat (das Merriam Webster Pocket Dictionary), mit

dem Ziel, aus den Eintr

agen des W

orterbuchs Beschreibungen zu extrahieren, die als le-

xikalische Informationsquelle f

ur ein sprachverarbeitendes System dienen k

onnen. In der

Folgezeit wurden verschiedene vergleichbare Untersuchungen an anderen englischen W

or-

1 Zum Teil wird auch von Wiederverwertung, wiederverwertbarenW

orterb

uchern, etc. gesprochen. Hier

wird durchg

angig der Begri \Wiederverwendung" (etc.) benutzt. Die beiden Termini werden hier

synonym verwendet.

[

H

otker/Ludewig 1996

]

(die Einleitung zu

[

H

otker/Ludewig (Ed.) 1996

]

) unter-

scheiden zwischen \Wiederverwendung" (ohne Modikation der bestehenden Beschreibungen) und

\Wiederverwertung" (Nutzbarmachung f

ur neue Anwendungen durch Modikation der bestehenden

Beschreibungen). Der erste Fall ist rein hypothetisch: eine Reinterpretation (vgl. unten, Abschnitt

2.1.2) ist nahezu immer n

otig. Hier wird also der Terminus \Wiederverwendung" durchg

angig im

Sinne von H

otker/Ludewigs Begri \Wiederverwertung" benutzt (vgl. auch

[

Kanngiesser 1995

]

).

2 Vgl. den Abschlubericht

[

Van der Eijk et al. 1991

]

.

terb

uchern angestellt, insbesondere am Longman Dictionary of Contemporary English,

LDOCE

3

.

Amslers Arbeit und die Experimente mit LDOCE zielen auf die Nutzung vorhande-

ner traditioneller W

orterb

ucher als Ressourcen f

ur NLP-Systeme. Gleichzeitig mit diesen

Arbeiten kamen auch Diskussionen dar

uber in Gang, welche Organisation linguistischer

Beschreibungen, welcher Aufbau und welche Repr

asentationsform f

ur das W

orterbuch

eines Sprachverarbeitungssystems zu w

ahlen seien, das von vorneherein f

ur verschiedene

Anwendungen konzipiert sein w

urde. Es hatte sich herausgestellt, da die Entwicklung von

NLP-Systemen unter anderem deswegen relativ inezient verlief, weil f

ur jedes System,

ein kleines W

orterbuch entwickelt werden mute, das bestenfalls einige hundert Eintr

age

umfate; bis heute werden zum Teil nebeneinander W

orterb

ucher f

ur \toy applications"

entwickelt, die nur kleine, zum Teil

uberlappende Fragmente abdecken, ohne da ein be-

stehendes W

orterbuch als Grundlage eines anderen, neu zu entwickelnden W

orterbuchs

genommen w

urde.

Im wesentlichen sind es also praktische Gr

unde, die den Ansto f

ur Forschungen

uber

die Wiederverwendbarkeit von W

orterb

uchern gegeben haben. Zum einen der Versuch,

die sehr groen Datenmengen, die in \traditionellen" gedruckten W

orterb

uchern ent-

halten sind, f

ur die Sprachverarbeitung nutzbar zu machen; zum anderen der Versuch,

einmal f

ur sprachverarbeitende Systeme einer bestimmten Art vorbereitete W

orterb

ucher

neben dieser urspr

unglichen Anwendung auch f

ur andere NLP-Anwendungen nutzbar zu

machen

4

. In diesem Zusammenhang kam der Begri der \wiederverwendbaren linguisti-

schen Ressource" (reusable linguistic resource) in der Diskussion auf

5

.

In den Arbeiten von Eurotra-7 und in Anwendungen der Resultate dieser Studie

wird der Terminus \wiederverwendbare linguistische Ressource" in zwei Bedeutungen de-

niert:

1. Der Begri \wiederverwendbare linguistische Ressource" bezeichnet eine linguisti-

sche Wissensquelle, die in einer anderen Anwendung benutzt werden kann als der-

jenigen, f

ur die sie urspr

unglich geschaen wurde.

Diese Benutzung auerhalb der urspr

unglich intendierten Anwendung kann verschie-

dene Arbeitsschritte der Reinterpretation und Reformatierung, der Extraktion von

3 Die Ergebnisse umfangreicher Forschungen verschiedener Gruppen (insbesondere in Cambridge und

Amsterdam) sind in

[

Boguraev/Briscoe 1989

]

zusammengefat. Die neueste und umfangreichste Ana-

lyse eines gedruckten W

orterbuchs, bei der die Nutzung als Wissensquelle f

ur ein sprachverarbeitendes

System angestrebt wird, ist

[

Sinclair/Hoelter/Peters (Ed.) 1994

]

: dort wurde versucht, aus dem Col-

lins Cobuild Student's Dictionary syntaktisch-semantische Information zu extrahieren und in ein mit

HPSG verarbeitbares Format umzusetzen.

4 Die neueste und detaillierteste Beschreibung der Forschungen zur Wiederverendung von lexikalischen

Ressourcen ndet sich in

[

Zampolli 1994

]

und in

[

Atkins/Levin/Zampolli 1994

]

: 26. Dort wird die

Entwicklung der computerlinguistischen Diskussion detailliert chronologisch nachgezeichnet, bis zum

Beginn der Eurotra-7-Studie. An dieser Stelle braucht deswegen auf die Arbeiten bis 1990 nicht

in allen Details eingegangen zu werden. Die zitierten Artikel, ebenso wie die anderen Arbeiten in

dem Band von

[

Atkins/Zampolli (Ed.) 1994

]

geben einen

Uberblick auf den Stand von ca. 1990/91.

Hier werden statt einer Fortschreibung eines breiten

Uberblicks gezielt die relevanten Resultate von

Eurotra-7 (vgl.

[

Heid/McNaught 1991

]

und

[

Mc Naught 1990

]

) und den Nachfolgeaktivit

aten der

Eurotra-7-Studie beschrieben.

5 Erstmalig deniert von McNaught in einer Arbeitssitzung 1987, dann von Calzolari aufgenommen und

schlielich in den Arbeiten der Eurotra-7-Studie detailliert diskutiert; vgl.

[

Heid/McNaught 1991

]

,

[

Heid 1991a

]

. Der Bericht

[

Heid/McNaught 1991

]

kann von der Europ

aischen Kommission bezogen

werden, wurde aber nicht in Buchform publiziert.

Teilen der Beschreibungen aus der urspr

unglichen Ressource oder der kompletten

Transformation der gesamten Ressource notwendig machen.

Beispiele: die maschinenlesbare Version eines gedruckten W

orterbuchs wird so adap-

tiert, da sie neben der urspr

unglichen, interaktiven Benutzung auch f

ur ein sprach-

verarbeitendes System verwendet werden kann.

Oder: ein W

orterbuch, welches ursp

unglich f

ur ein maschinelles

Ubersetzungssystem

konzipiert ist, wird (z.B. mit einem zus

atzlichen Ausgabe-Interface) auch als \Look-

up-W

orterbuch", f

ur interaktive Abfrage verwendet.

2. Der Begri \wiederverwendbare lexikalische Ressource" bezeichnet eine linguisti-

sche Wissensquelle, die schon von ihrer Konzeption an so speziziert und realisiert

worden ist, da die Benutzung in verschiedenen Situationen oder Systemen (sowohl

verschiedenen Sprachverarbeitungsanwendungen, als auch verschiedenen (interakti-

ven) Benutzungssituationen mit \menschlichen Benutzern") in die Design-Kriterien

miteiniet. Solche linguistischen Wissensquellen werden auch als \multifunktiona-

le" Ressourcen bezeichnet.

Beispiele: Ein W

orterbuch, welches innerhalb einer Firma f

ur verschiedene Sprach-

verarbeitungsanwendungen gemeinsam benutzt wird; oder: eine lexikographische

Ressource eines Verlags, aus welcher verschiedene anwendungsspezische gedruck-

te W

orterb

ucher oder interaktiv zu verwendende elektronische Produkte hergestellt

werden

6

.

Der Unterschied zwischen den beiden Lesarten des Terminus \wiederverwendbare lin-

guistische Ressource" liegt also darin, da nach der ersten Auassung von Wiederver-

wendbarkeit schon bestehende Beschreibungen f

ur neue Anwendungen nutzbar gemacht

werden sollen, ohne da auf das Format der Quell-Materialien noch eine Einunahme

m

oglich w

are (die \Um-Nutzung" erfolgt post mortem). Dagegen ist es f

ur die zweite Les-

art von \Wiederverwendung" konstitutiv, da die Mehrfach-Verwendung schon von der

Spezikationsphase an eingeplant wird.

Diese Kriterien gelten sinngem

a f

ur W

orterb

ucher, Grammatiken, annotierte Text-

corpora und sogar f

ur bestimmte Arten von Sprachverarbeitungswerkzeugen. Deswegen

wird hier der allgemeine Begri \Ressource" benutzt.

2.1.1.1 Lexikalische Wiederverwendung in der praktischen Lexikographie

In der praktischen Lexikographie wird der Gedanke der multifunktionalen lexikalischen

Ressource, in einer anderen Terminologie und zum Teil mit einer vordergr

undig zun

achst

anderen Zielsetzung als in der Sprachverarbeitung schon seit langem diskutiert.

Da W

orterbuchverlage ihre Produkte \wiederverwenden", indem sie Beschreibungen

aus einem W

orterbuch in ein anderes

ubernehmen, ist bekannt. Weniger als 25%

Uber-

lappung zwischen W

orterb

uchern ist nicht anst

oig

7

. In bestimmten F

allen werden auch

6 Quemada nennt eine solche Ressource base de donnees predictionnairique; Atkins spricht im Fall der

lexikographischen Faktensammlung, die dem Oxford/Hachette-W

orterbuch zugrundeliegt, von

\(lled)framework"; auf diese Art von Ressourcen wird unten noch detaillierter eingegangen (vgl.

Abschnitt 2.1.1.1).

7 Hausmann diskutiert Methoden der direkten

Ubernahme von lexikalischen Beschreibungen in ver-

schiedenen W

orterb

uchern unter dem Schlagwort \W

orterbuchkriminalit

at". Uns ist folgender Vor-

aus dem Lemmabestand und der Mikrostruktur von bestehenden W

orterb

uchern Teile

\herausgestrichen", wenn ein neues W

orterbuch (oder eine neue Auage des zur Rede

stehenden W

orterbuchs) hergestellt werden soll. Diese Verfahren stehen hier jedoch nicht

zur Diskussion.

Der wichtigste Aspekt der Wiederverwendung lexikalischer Information in der prakti-

Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern

Documents

Transcript of Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern