Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern
-
Upload
james-brown -
Category
Documents
-
view
16 -
download
0
description
Transcript of Zur Strukturierung Von Einsprachigen Und Kontrastiven Online-Wörterbüchern
-
Zur Strukturierung von
einsprachigen und kontrastiven elektronischen W
orterb
uchern
Ulrich Heid
Institut f
ur maschinelle Sprachverarbeitung { Computerlinguistik {
der Universit
at Stuttgart
Azenbergstr. 12
D 70174 Stuttgart
-
Inhaltsverzeichnis
1 Einleitung 1
1.1 Problemstellung : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 1
1.1.1 Probleme der Lexikonstrukturierung : : : : : : : : : : : : : : : : : 3
1.1.2 Rahmenbedingungen : : : : : : : : : : : : : : : : : : : : : : : : : : 4
1.1.3 Vorgehensweise : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 5
1.1.4 Struktur dieses Buchs : : : : : : : : : : : : : : : : : : : : : : : : : 6
1.2 Einige Grundbegrie : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 7
1.2.1 Elektronische W
orterb
ucher : : : : : : : : : : : : : : : : : : : : : : 7
1.2.2 Probleme der kontrastiven lexikalischen Beschreibung : : : : : : : : 14
2 Lexikographische Aspekte 19
2.1 Multifunktionale W
orterb
ucher : : : : : : : : : : : : : : : : : : : : : : : : 19
2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen : : 19
2.1.2 Reinterpretierbarkeit lexikalischer Beschreibungen : : : : : : : : : : 27
2.2 Strukturierung zweisprachiger W
orterb
ucher : : : : : : : : : : : : : : : : : 42
2.2.1 Vorbemerkung: Deskription vs. Pr
asentation in der Lexikographie : 42
2.2.2 Direktionale vs. Nicht-direktionale zweisprachige W
orterb
ucher : : : 44
2.2.3 Die Strukturierung der Van Dale-W
orterb
ucher : : : : : : : : : : : 53
2.3 Lexikographische Anforderungsdenition : : : : : : : : : : : : : : : : : : : 65
2.4 Exkurs: Metalexikographie vs. W
orterbuch-Design : : : : : : : : : : : : : : 68
3 Constraint-basierte W
orterb
ucher 71
3.1 Der TFS-Formalismus : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 71
3.1.1 Datentyp von TFS : : : : : : : : : : : : : : : : : : : : : : : : : : : 72
3.1.2 Eigenschaften aus dem objektorientierten Paradigma: Relevanz f
ur
die lexikalische Repr
asentation : : : : : : : : : : : : : : : : : : : : : 73
3.1.3 Eigenschaften aus dem constraint-basierten Paradigma: Relevanz
f
ur die Erstellung von (lexikalischen) Spezikationen : : : : : : : : 82
3.1.4 Das Lexikon als Spezikation: Vorteile und Probleme bei der Ver-
wendung von TFS f
ur die lexikalische Modellierung : : : : : : : : : 84
3.2 W
orterbucharchitektur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89
3.2.1
Uberblick : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 89
3.2.2 Klassikatorische und stratikationelle W
orterb
ucher : : : : : : : : 90
3.2.3 Modularit
at und Interaktion der Module : : : : : : : : : : : : : : : 92
3.2.4 Dokumentation der lexikalischen Beschreibungen : : : : : : : : : : : 94
3.2.5 Zugrisneutralit
at : : : : : : : : : : : : : : : : : : : : : : : : : : : : 95
3.2.6 Vergleich der Spezikation mit der Anforderungsdenition : : : : : 98
4 Einsprachige W
orterb
ucher 99
4.1 Bausteine der Eintr
age : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 99
4.2 Beschreibung mit Frame-Semantics : : : : : : : : : : : : : : : : : : : : : : 101
4.2.1 Semantische Rollen f
ur das Wahrnehmungsszenarium : : : : : : : : 102
4.2.2 Sorten : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 106
4.2.3 Rollenkonstellationen : : : : : : : : : : : : : : : : : : : : : : : : : : 108
4.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : : : : : 115
4.3.1 Grammatische Funktionen : : : : : : : : : : : : : : : : : : : : : : : 116
-
4.3.2 Syntaktische Kategorien : : : : : : : : : : : : : : : : : : : : : : : : 119
4.3.3 Abbildungen zwischen grammatischen Funktionen und syntaktischen
Kategorien : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 122
4.3.4 Ableitbarkeit von Lexikoneintr
agen f
ur LFG und HPSG aus DELIS-
Eintr
agen : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 123
4.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : : : : : 124
4.5 Zur
Ubertragbarkeit des Ansatzes : : : : : : : : : : : : : : : : : : : : : : : 128
4.5.1 Fragment : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 128
4.5.2 Lexikalisch-semantische Beschreibung : : : : : : : : : : : : : : : : : 129
4.5.3 Syntaktische Beschreibung : : : : : : : : : : : : : : : : : : : : : : : 130
4.5.4 Abbildungen zwischen den Beschreibungsebenen : : : : : : : : : : : 132
4.6 Probleme der Lexikonmodellierung : : : : : : : : : : : : : : : : : : : : : : 135
4.6.1 Typen vs. Features : : : : : : : : : : : : : : : : : : : : : : : : : : : 135
4.6.2 Klassikation von Beschreibungsmitteln vs. Klassikation von lexi-
kalischen Objekten: Rollen vs. Sorten : : : : : : : : : : : : : : : : : 137
4.6.3 Subklassizierung nach zus
atzlichen Merkmalen? : : : : : : : : : : 139
5 Abfrage 145
5.1 Ad-hoc-Abfrage im TFS-Lexikon : : : : : : : : : : : : : : : : : : : : : : : 146
5.1.1 Ad-hoc-Abfrage in stratikationellen Lexika : : : : : : : : : : : : : 146
5.1.2 Ad-hoc-Abfrage mit Variablen : : : : : : : : : : : : : : : : : : : : : 148
5.1.3 Nutzung der Ad-hoc-Abfrage in W
orterbuchanwendungen { Ver-
gleich mit Datenbanken : : : : : : : : : : : : : : : : : : : : : : : : 152
5.2 Anwendung: Lexikonexport : : : : : : : : : : : : : : : : : : : : : : : : : : 155
5.2.1 Auswahl des zu exportierenden Teilfragments mit Ad-hoc-Abfrage : 156
5.2.2 Pr
asentation der Information f
ur Zielanwendungen : : : : : : : : : 159
5.2.3 Ablaufschema des W
orterbuchexports : : : : : : : : : : : : : : : : : 162
5.2.4 Robustheit des Exports gegen
uber
Anderungen des Lexikons : : : : 165
5.2.5 Eine Anwendung des Lexikonexports: Lexikongesteuerte Corpussuche165
5.3 Diskussion: Abfragemethoden : : : : : : : : : : : : : : : : : : : : : : : : : 167
5.3.1 Interpretation der Hierarchie unter der Open World Assumption vs.
Closed World Assumption : : : : : : : : : : : : : : : : : : : : : : : 168
5.3.2 \Lexikographische" Anfrage vs. Benutzung von Lexikoneintr
agen in
einem NLP-System : : : : : : : : : : : : : : : : : : : : : : : : : : : 170
6 Kontrastive W
orterb
ucher 179
6.1 Klassizierung von
Ubersetzungsproblemen : : : : : : : : : : : : : : : : : : 180
6.1.1 Motivation f
ur die Einf
uhrung einer Problemklassikation : : : : : : 180
6.1.2 Ans
atze zur Klassikation von kontrastiven Problemen in der For-
schung zur maschinellen
Ubersetzung : : : : : : : : : : : : : : : : : 183
6.1.3 Neuere Ans
atze zur Klassikation von
Ubersetzungsproblemen: Di-
vergenzen vs. Mismatches : : : : : : : : : : : : : : : : : : : : : : : 186
6.2 Klassikationsvorschlag : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 194
6.3 Beispieldiskussion : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 197
6.3.1 Subkategorisierungsunterschiede: \syntaktische Divergenz" : : : : : 197
6.3.2 Thematische Divergenz und Syntax-Semantik-Interaktion : : : : : : 201
-
6.3.3 \Inkorporation" von Argumenten und Adjunkten: \conational"
und \lexical" divergence : : : : : : : : : : : : : : : : : : : : : : : : 206
6.3.4 Divergenzen mit Auswirkungen auf das zu
ubersetzende Lexem : : 209
6.3.5 Head Switching: \demotional/promotional divergence" : : : : : : : 212
6.3.6 Divergenzen mit Auswirkung auf das zu
ubersetzende Lexem und
auf die syntagmatische Umgebung : : : : : : : : : : : : : : : : : : : 214
6.4 W
orterb
ucher f
ur maschinelle
Ubersetzung : : : : : : : : : : : : : : : : : : 214
6.4.1 Monolinguale und kontrastive Subkategorisierungsklassen in einem
transferbasierten M
U-W
orterbuch auf der Grundlage von LFG : : : 215
6.4.2 Behandlung von Divergenz in einem HPSG-basierten Interlingua-
Ansatz : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 218
6.5 Kontrastive constraint-basierte W
orterb
ucher : : : : : : : : : : : : : : : : 222
6.5.1 Kontrastives Fragment : : : : : : : : : : : : : : : : : : : : : : : : : 222
6.5.2 Die TFS-Kodierung des kontrastiven Vergleichs von Frame Seman-
tics-Beschreibungen : : : : : : : : : : : : : : : : : : : : : : : : : : : 223
6.5.3 Die Behandlung von kontrastiven Problemen im DELIS-Fragment : 225
6.5.4 Lexikographische Anwendung : : : : : : : : : : : : : : : : : : : : : 227
7 Zusammenfassungen 233
7.1 Deutsche Zusammenfassung : : : : : : : : : : : : : : : : : : : : : : : : : : 233
7.2 Resume Francais : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 237
7.3 English Summary : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 242
Literatur : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : : 247
-
Vorwort
Dieses Buch richtet sich an Computerlinguisten, Lexikographen und Metalexikographen.
Es versucht einige Prinzipien aufzuzeigen, nach denen elektronische monolinguale und
kontrastive W
orterb
ucher strukturiert sein sollten, wenn sie f
ur verschiedene Anwendun-
gen, in Computerlinguistik und Lexikographie, benutzbar sein sollen.
Probleme der W
orterbuchstrukturierung wurden seit l
angerer Zeit sowohl in der Me-
talexikographie, als auch in der Computerlinguistik und ihrer sich neu entwickelnden
Teildisziplin, der \Computational Lexicography", diskutiert; es scheint aber, als h
atte es
bislang wenig Austausch zwischen den beiden Bereichen gegeben. Und dies, obwohl sich
aus den Erfahrungen metalexikographischer W
orterbuchanalysen durchaus Zielsetzungen
f
ur eine computerlinguistische W
orterbucharchitektur gewinnen lassen, und obwohl um-
gekehrt der computerlinguistische Blick auf bestehende W
orterb
ucher die metalexikogra-
phische Sicht und bestehende Ans
atze zur W
orterbuchklassikation erweitern kann. Ein
Teil der hier gef
uhrten Diskussion versucht, diese Art von Austausch voranzutreiben:
auf der Grundlage von Erfahrungen aus computerlinguistischen und metalexikographi-
schen W
orterbuchanalysen werden Vorschl
age f
ur die Architektur elektronischer Lexika
entwickelt. Zu ihren Merkmalen geh
oren Modularisierung, Verzicht auf fest vorgegebene
Zugrisstrukturen und eine einheitliche Repr
asentation von linguistischen Beschreibungen
verschiedener Ebenen.
Die vorgeschlagene Architektur wurde in einer Reihe von W
orterbuchfragmenten pro-
totypisch realisiert: ein Constraint-Logik-Formalismus (hier wurde TFS, Typed Feature
Structures, verwendet), erlaubt die Umsetzung der Architekturprinzipien in einfacher Wei-
se. Anhand von Beispielen aus der Arbeit im europ
aischen Forschungsprojekt DELIS wird
gezeigt, welche Vorteile sich aus dem Ansatz f
ur die Abfrage, den Export und die Wie-
derverwendung lexikalischer Beschreibungen ergeben und wie einsprachige Fragmente aus
kontrastiver Sicht kombiniert werden k
onnen.
Der computerlinguistische Anwendungskontext, vor dessen Hintergrund die hier zu-
sammengestellten Vorschl
age f
ur kontrastive Lexika zu sehen sind, ist die (interlingua-
orientierte) maschinelle
Ubersetzung. Die kontrastive Anwendung wird aber eher als Va-
lidierung der W
orterbucharchitektur verstanden, nicht als Selbstzweck.
Ich m
ochte an dieser Stelle allen danken, die an der Entstehung dieses Buches betei-
ligt waren: vor allem Prof. Christian Rohrer, der die hier beschriebenen Arbeiten angeregt
und mit konstruktiver Kritik begleitet hat, Prof. Franz Josef Hausmann, der meine Be-
geisterung f
ur W
orterb
ucher geweckt und unterst
utzt hat, und, nicht zuletzt, meinen
Stuttgarter Kollegen und den ausw
artigen Kooperationspartnern der Projekte Eurotra-7
und DELIS, die stets zu Diskussionen, Kommentaren, Fragen und Vorschl
agen bereit wa-
ren. Besonders danken m
ochte ich Regina Steding: ohne sie w
urde dieses Buch nicht in
dieser Form vorliegen.
Stuttgart, im April 1996
Ulrich Heid
-
Kapitel 1
Einleitung
1.1 Problemstellung
Die Bedeutung von lexikalischen Beschreibungen f
ur sprachverarbeitende Systeme steht
auer Frage. W
orterb
ucher
1
sind eine der zentralen linguistischen Wissensquellen die-
ser Systeme, und Fragen der praktischen Realisierung von elektronischen W
orterb
uchern
sind in den letzten Jahren zunehmend ins Zentrum des Interesses ger
uckt. Hierzu geh
oren
die Diskussion um M
oglichkeiten der Wiederverwertung von bestehenden W
orterb
uchern,
Forschungen zur lexikalischen Akquisition, zum Beispiel auf der Grundlage von Textcorpo-
ra, sowie
Uberlegungen zur parallelen Nutzbarmachung von lexikalischen Beschreiungen
aus der lexikographischen Arbeit f
ur manuelle und maschinelle Konsultation.
Obwohl das Interesse an W
orterb
uchern in der maschinellen Sprachverarbeitung in
der Zeit seit ca. 1985 stark zugenommen hat, gibt es nach wie vor relativ wenig For-
schungsarbeiten, die sich mit der Strukturierung von W
orterb
uchern befassen, mit Fra-
gen der Organisation und Repr
asentation lexikalischer Informationen, sozusagen der \Sy-
stemarchitektur" von W
orterb
uchern. Solche Fragestellungen werden jedoch dann rele-
vant, wenn es um die Realisierung konkreter sprachverarbeitender Systeme geht, um ihre
Wartung, Erweiterung, Anpassung an neue Anwendungs- und Gegenstandsbereiche. Ein
Forschungsgebiet, wo sich dieses Dezit besonders bemerkbar macht, ist die maschinelle
Ubersetzung. Dabei ist die maschinelle
Ubersetzung gleichzeitig eine derjenigen Anwen-
dungen von Sprachverarbeitungskomponenten, die die komplexesten Anforderungen an
die lexikalische Beschreibung und Repr
asentation stellen.
Viele Autoren, die
uber maschinelle
Ubersetzungssysteme schreiben, gehen nicht oder
nicht sehr ausf
uhrlich auf die lexikalischen Ressourcen ein, die den betreenden Systemen
zugrundeliegen. Wenn die W
orterb
ucher diskutiert werden, dann in der Regel im Zusam-
menhang mit der Systemarchitektur, als Komponenten der Wissensquellen, auf welche das
System bei der
Ubersetzung in irgendeiner Weise zur
uckgreift. Details
uber den Aufbau
und Organisation der W
orterb
ucher werden jedoch oftmals nicht gegeben, oder es nden
sich lediglich Diskussionen einzelner
Ubersetzungsbeispiele, aus denen sich allenfalls mehr
oder weniger gut rekonstruieren l
at, wie einzelne W
orterbucheintr
age eines gegebenen
Systems aussehen k
onnten.
DieW
orterb
ucher eines sprachverarbeitenden Systems h
angen nat
urlich eng mit dessen
Grammatiken zusammen. Wenn jedoch ein (umfangreiches) W
orterbuch f
ur verschiede-
ne Anwendungen eingesetzt werden soll, die u.U. auf verschiedenen Grammatiken oder
Grammatiktheorien beruhen, dann kann die Frage der W
orterbuchorganisation nicht ein-
fach als Teilproblem der Grammatikentwicklung betrachtet werden. Vielmehr mu man
sich dann Gedanken
uber \multifunktionale W
orterb
ucher" machen, sowohl aus theoreti-
scher Sicht, als auch aus praktischer. Die theoretische Diskussion hat in den sp
aten 80er
Jahren mit
Uberlegungen zu \reusable resources" begonnen (vgl. unten, Abschnitt 2.1.1
und den neuen Band von
[
H
otker/Ludewig (Ed.) 1996
]
). Die praktische Seite wird einer-
1 Die Termini W
orterbuch und Lexikon werden hier synonym verwendet.
-
seits im Rahmen des \Linguistic Engineering" diskutiert, andererseits zum Teil schon seit
geraumer Zeit in der praktischen Lexikographie realisiert. Diese verschiedenen Aspek-
te und die Methoden und Verfahren von computerlinguistischer und lexikographischer,
bzw. metalexikographischer Arbeit scheinen bislang weitgehend getrennt verfolgt worden
zu sein: mindestens werden in Ver
oentlichungen aus der Computerlinguistik und Com-
putational Lexicography relativ selten Ergebnisse der lexikographischen Arbeit und der
Metalexikographie aufgenommen und verarbeitet, und umgekehrt. Das vorliegende Buch
versucht, hier ansatzweise eine Br
ucke zu schlagen: wo immer m
oglich, wird die lexikogra-
phische Relevanz der vorgeschlagenen computerlinguistischen Modellierungen diskutiert,
und umgehrt wird zun
achst untersucht, welche Ergebnisse aus der Lexikographie und
Metalexikographie f
ur die \Computational Lexicography" ausgen
utzt werden k
onnen.
Fragen der Lexikonstrukturierung sind in der Computerlinguistik etwas detaillierter
diskutiert worden, seit sich Head-Driven Phrase Structure Grammar (HPSG,
[
Pollard/Sag
1994
]
,
[
Pollard/Sag 1987
]
) als einer der wichtigsten Grammatikformalismen f
ur computer-
linguistische Modellierungen etabliert hat. Die Zielsetzung von Arbeiten in diesem Rah-
men war es, Generalisierungen im Lexikon in geeigneter Weise zu modellieren
2
. Andere
Arbeiten zur Organisation von W
orterb
uchern f
ur die Sprachverarbeitung konzentrieren
sich auf einzelne Teilbereiche der lexikalischen Beschreibung, z.B. Morphologie und Mor-
phosyntax (
[
Domenig 1987
]
,
[
Domenig 1989
]
,
[
Domenig/ten Hacken 1992
]
), oder sie sind
st
arker an Fragen der Wissensrepr
asentation und der hierf
ur relevanten Formalismen inter-
essiert (z.B.
[
Daelemans/Van der Linden 1992
]
). In der Lexikographie bzw. Metalexikogra-
phie wurde mit
[
DANLEX 1987
]
ein Vorschlag f
ur die Strukturierung von W
orterb
uchern
gemacht, der prim
ar auf die (computergest
utzte) Erstellung und auf die
Uberwachung
der Testgestalt (z.B. Eintragsmodelle) von W
orterb
uchern f
ur die interaktive Benutzung
(durch \menschliche" Benutzer) abzielt, nicht auf den Einbau in sprachverarbeitende Sy-
steme.
In diesem Buch wird der Versuch unternommen, Vorschl
age f
ur die Strukturierung
einsprachiger und zweisprachiger W
orterb
ucher zu machen. Dabei werden
Uberlegungen
zur Wiederverwendung lexikalischer Information, insbesondere zur Gestaltung von \mul-
tifunktionalen" W
orterb
uchern, mit Vorschl
agen zur formalen Modellierung einsprachi-
ger W
orterb
ucher und zur Strukturierung von kontrastiven lexikalischen Beschreibungen
f
ur maschinelle
Ubersetzung zusammengebracht. Den Rahmen f
ur die Spezikation von
Architekturvorschl
agen f
ur W
orterb
ucher bilden constraint-basierte Formalismen zur Re-
pr
asentation linguistischen Wissens, wie sie unter anderem zur Kodierung von HPSG-
Grammatiken verwendet werden.
3
2 Die Vorschl
age zur Lexikonstrukturierung, die sich in
[
Pollard/Sag 1987
]
benden, sind allerdings
in den wenigsten Grammatik-Systemen, die auf HPSG beruhen, implementiert, angewendet oder
erweitert worden. Der einzige gr
oere Versuch in dieser Richtung seit der Arbeit von
[
Flickinger
1987
]
sind die Vorschl
age von
[
Sanlippo 1993
]
zur Strukturierung der W
orterb
ucher von Acquilex.
3 Einen
Uberblick
uber constraint-basierte Formalismen, die zur Kodierung von linguistischem Wissen
benutzt werden, gibt der Sammelband
[
Uszkoreit (Ed.) 1993
]
. Dort ndet sich auch eine vergleichende
Bewertung der Formalismen. Da die vorliegenden
Uberlegungen in engem Kontakt mit Arbeiten zur
Entwicklung von TFS (Typed Feature Structure Formalismus, vgl.
[
Emele 1996
]
) entstanden ist, lag
es nahe, TFS als Beispielfall f
ur einen solchen Formalismus zu benutzen. Ich m
ochte Martin Emele in
diesem Zusammenhang f
ur viele sehr anregende Diskussionen und auch daf
ur herzlich danken, da er
mich an der Entwicklung von TFS aus der N
ahe hat teilhaben lassen.
-
1.1.1 Probleme der Lexikonstrukturierung
Gut strukturierte W
orterb
ucher sind f
ur Benutzer und Entwickler
ubersichtlicher und
leichter erweiterbar. Auerdem sollte es eine geeignete W
orterbucharchitektur erlauben,
sowohl monolinguale als auch kontrastive lexikalische Beschreibungen so zu strukturieren,
da bestimmte deskriptive Generalisierungen abgeleitet bzw. ohne Bedarf an zus
atzlichen
Beschreibungen ausgedr
uckt werden k
onnen.
In der praktischen Lexikographie werden bestimmte Strukturierungsprinzipien mehr
oder weniger explizit schon seit langer Zeit eingehalten. Beispielsweise wird in den mei-
sten W
orterb
uchern der Verbwortschatz in einige, allerdings sehr grobe syntaktische Klas-
sen eingeteilt (z.B. transitive Verben, intransitive Verben, reexive Verben). In neueren
W
orterb
uchern gibt es h
aug jeweils spezische Eintragsmuster f
ur die einzelnen Wort-
klassen. Eintr
age zu Substantiven unterscheiden sich dann bereits in ihrer Struktur von
Eintr
agen zu Verben oder zu Pr
apositionen. Die praktische Lexiographie nutzt dazu be-
reits einige Hilfsmittel zur W
orterbuchstrukturierung, z.B. Computerwerkzeuge zur Kon-
sistenzkontrolle f
ur Artikelstrukturen. In diesem Buch soll gezeigt werden, welche weite-
ren Strukturierungs- und Kontrollm
oglichkeiten sich ergeben, wenn z.B. die Eigenschaften
computerlinguistischer Formalismen ausgenutzt werden.
Auch f
ur zweisprachige W
orterb
ucher wurden in der Lexikographie Strukturierungs-
vorschl
age gemacht
4
. Besonders interessant sind in diesem Zusammenhang die zweispra-
chigen W
orterb
ucher des niederl
andischen Verlags Van Dale: bei ihrer Entwicklung wurde
darauf geachtet, da einsprachige und zweisprachige W
orterb
ucher aufeinander bezogen
(und im Idealfall voneinander abgeleitet) sind. Die Van Dale-W
orterb
ucher werden unten
in Abschnitt 2.2.3 recht ausf
uhrlich diskutiert: sie dienen als Modellfall lexikographischer
Strukturierungsprinzipien und gleichzeitig als metalexikographischer Bezugspunkt f
ur die
sp
atere Diskussion
uber kontrastive Modellierungen f
ur die Sprachverarbeitung.
Die Vorschl
age zur W
orterbuchstrukturierung, die in diesem Buch gemacht werden,
zielen auf die Erstellung \multifunktionaler" lexikalischer Ressourcen ab. Idealerweise
sollen verschiedene Anwendungen von einem gemeinsamen W
orterbuch versorgt werden;
es soll sowohl wie ein \traditionelles gedrucktes" W
orterbuch benutzt werden k
onnen,
als auch in Systemen der maschinellen Sprachverarbeitung. Im Fall der zweisprachigen
Modellierungen sollten auch maschinelle
Ubersetzungssysteme mit Daten versorgt wer-
den k
onnen, die auf unterschiedlichen Architekturen und (unikationsbasierten) Gram-
matiktheorien aufsetzen. Eine empirische Klassikation von lexikalischen
Ubersetzungs-
problemen, die zun
achst von den beobachteten Ph
anomenen ausgeht und zu einem System
\kontrastiver Klassen" im Lexikon f
uhrt, eignet sich f
ur diese Aufgabe. Auf der Grundlage
fr
uherer Versuche zur Klassikation von
Ubersetzungsproblemen aus der Forschung zur
maschinellen
Ubersetzung wird eine einfache kontrastive Problemklassikation erarbeitet,
die relativ generelle L
osungsans
atze erlaubt, die ohne Zuhilfenahme weiterer Wissensquel-
len realisiert werden k
onnen (vgl. Abschnitt 6.3).
Die Forderung nach Oenheit hinsichtlich verschiedener Zielanwendungen zieht eine
Reihe weiterer Anforderungen nach sich, die im Detail in Abschnitt 2.1 diskutiert und
in Abschnitt 2.3 zusammengefat werden. Hierzu geh
ort u.a. die Forderung nach einem
modularem Aufbau der W
orterb
ucher. Teilbeschreibungen, beispielsweise von verschiede-
nen Sprachen oder von verschiedenen linguistischen Beschreibungsebenen, sollen separat
4 Vgl. die Diskussion der Zusammenh
ange von Datendeskription und lexikographischer Pr
asentation
unten in Abschnitt 2.2.1. Zur Pr
asentationsseite vgl.
[
Baunebjerg Hansen 1990
]
.
-
gehalten und wo n
otig explizit miteinander verbunden werden. Damit wird verhindert,
da einerseits analoge Informationen
uber verschiedene Stellen verteilt sind, andererseits
Informationen verschiedener Natur miteinander vermengt werden, wo dies nicht sinnvoll
ist. Ein weiteres Ziel in diesem Zusammenhang ist es, die Information von verschiedenen
linguistischen Beschreibungsebenen gleichrangig zu behandeln, also keiner linguistischen
Beschreibungsebene Priorit
at
uber die anderen einzur
aumen. Diese Forderung ist in ge-
wisser Weise von den Grundprinzipien von HPSG inspiriert: dort werden linguistische
Objekte (Zeichen) durch gleichberechtigte Teilbeschreibungen auf der Ebene der Ortho-
graphie, der Syntax, der Semantik und, ggf., der Pragmatik beschrieben. In Abschnitt 3.2
wird gezeigt, inwiefern sich ein solcher Ansatz f
ur ein Lexikonmodell eignet.
1.1.2 Rahmenbedingungen
Die oben vorgetragenen
Uberlegungen werden in diesem Buch anhand von Beispielen
diskutiert. Eine solche Diskussion ist zwangsl
aug auf bestimmte Einzelf
alle und auf die
Beschreibung relativ kleiner W
orterbuchfragmente angewiesen. Im Folgenden werden die
Rahmenbedingungen f
ur die Formalisierung, die behandelten Ph
anomene bzw. W
orter-
buchfragmente und eine Reihe weiterer Randbedingungen kurz zusammengestellt.
F
ur die formale Modellierung der in diesem Buch beschriebenen W
orterbuchfragmente
wird der TFS-Formalismus (Typed Feature Structures) verwendet. Die formalen Grund-
lagen von TFS und die Implementierung des hier benutzten TFS-Systems werden nicht
beschrieben: sie sind in
[
Emele 1996
]
detailliert dargestellt; dort nden sich auch Ver-
weise auf die relevante Grundlagenliteratur. TFS wird stellvertretend f
ur die Klasse der
constraint-basierten Formalismen benutzt, die in den letzten Jahren in der Computerlin-
guistik zunehmend Verbreitung gefunden haben. Die W
orterbuchorganisation ist jedoch
eine relativ neue Anwendung von TFS und von Constraint-Formalismen
uberhaupt; au-
erdem geht es darum, die lexikographische Nutzbarkeit solcher Formalismen zu zeigen.
Daher ist es sinnvoll, informell und anhand von Beispielen aus dem Bereich der W
or-
terbuchstrukturierung die relevanten Eigenschaften des TFS-Formalismus zu beschreiben
(vgl. Abschnitt 3.1). Im Hinblick auf die praktische Anwendung eines elektronischen W
or-
terbuchs mu in diesem Zusammenhang aber nicht nur diskutiert werden, in welcher Weise
sich der Formalismus f
ur die Lexikonrepr
asentation und -strukturierung eignet, sondern es
mu auch dargestellt werden, wie ein elektronisches W
orterbuch benutzt, d.h. interaktiv
abgefragt oder in eine Anwendung eingebunden werden kann. Diese Diskussion ndet sich
in Abschnitt 5.
Der Gegenstandsbereich, anhand dessen die Strukturierungsvorschl
age illustriert wer-
den, ist die Beschreibung von Verben, insbesondere der Verbsubkategorisierung; dieser
Bereich ist in Linguistik und Lexikographie gut untersucht und dokumentiert. Hierf
ur
werden Modellierungen zugrundegelegt, wie sie im Rahmen von HPSG und Lexikalisch-
Funktionaler Grammatik (LFG, vgl.
[
Dalrymple (Ed.) 1995
]
) vorgeschlagen werden. Diese
Grammatik-Formalismen werden als Hintergrund f
ur die Modellierung verwendet, jedoch
wird nicht der Versuch unternommen, s
amtliche Beschreibungen detailliert im Rahmen
der Theorien zu begr
unden oder zu motivieren. Es geht auch nicht darum, neuartige
Beschreibungen f
ur die zur Diskussion stehenden Ph
anomene vorzuschlagen.
Das beschriebene W
orterbuchfragment beruht auf Materialien aus dem DELIS-Projekt
5
;
5 DELIS steht f
ur \Descriptive Lexical Specication and tools for corpus-based lexicon building".
DELIS ist ein Forschungs- und Entwicklungsprojekt, das von der Europ
aischen Kommission im Rah-
-
die DELIS-Beschreibungen stellen gen
ugend lexikalische Information bereit, als da LFG-
oder HPSG-Systeme damit versorgt werden k
onnten. Dar
uber hinaus wird in DELIS ver-
sucht, an die syntaktische eine lexikalisch-semantische Beschreibung anzuschlieen, die
den Prinzipien von Fillmores Frame Semantics folgt. Die Grundlagen hiervon werden
zusammen mit den Beispiel-Modellierungen in Kapitel 4 dargestellt
6
.
Die konkreten W
orterbucheintr
age, die in diesem Zusammenhang diskutiert werden,
stammen aus Fragmenten f
ur Verben der sinnlichen Wahrnehmung f
ur Englisch, Franz
o-
sisch, Italienisch, D
anisch und Niederl
andisch, die exemplarisch in TFS modelliert wurden.
Um die
Ubertragbarkeit der hier vorgeschlagenen Prinzipien zu
uberpr
ufen, wurden in DE-
LIS auerdem Fragmente italienischer, englischer und niederl
andischer Sprechaktverben
modelliert (vgl. Abschnitt 4.5).
Eine der wichtigsten Grundlagen f
ur die hier vorgeschlagene Strukturierung von ein-
und zweisprachigen W
orterb
uchern und f
ur deren Verbindbarkeit untereinander stellt das
Vorliegen von parallelen Grammatiken und Lexika dar. Unter \parallelen" Fragmenten
werden hier linguistische Beschreibungen von S
atzen verstanden, welche
Ubersetzungen
voneinander sind. Auerdem setzt die Erstellung paralleler Fragmente die Benutzung
desselben Grammatikformalismus bzw. desselben deskriptiven Ansatzes voraus: ein ge-
meinsames Inventar von Beschreibungsmitteln f
ur die verschiedenen einzelsprachlichen
Modellierungen wird deniert; dieses Inventar wird nur dann erweitert, wenn dies f
ur die
Beschreibung einzelsprachlicher idiosynkratischer Ph
anomene notwendig ist.
1.1.3 Vorgehensweise
Die Erstellung linguistischer Spezikationen hat einige Gemeinsamkeiten mit der Ent-
wicklung von Software. Wie oben angedeutet, fallen Teile der hier gef
uhrten Diskussion
in den Bereich des \Linguistic Engineering". Dementsprechend ist es sinnvoll, wenn sich
auch die Arbeitsmethode an Vorgehensweisen aus dem Software-Engineering anlehnt.
Die vorliegende Studie orientiert sich an der Methode des \Rapid Prototyping". Im
Software-Engineering versteht man unter \Rapid Prototyping" eine Arbeitsmethode, bei
der zun
achst eine Anforderungsanalyse erstellt wird, dann eine funktionale und sp
ater for-
male oder technische Spezikation der zu entwickelnden Programme. Zu einem m
oglichst
fr
uhen Zeitpunkt in der Softwareentwicklung soll eine erste Implementierung verf
ugbar
gemacht werden (ein Prototyp), welcher zu Testzwecken an die Benutzer gegeben wird.
men des Forschungsprogramms LRE (Linguistic Research and Engineering) im Zeitraum 1993{1995
gef
ordert wurde. An DELIS waren Computerlinguisten (Universit
aten Pisa, Clermont-Ferrrand, Am-
sterdam und Kopenhagen), W
orterbuchverlage bzw. -herausgeber (Van Dale; Den Danske Ordbog,
Kopenhagen; Oxford University Press), sowie ein Software- und Beratungsunternehmen (Site, Paris;
Lingsoft, Helsinki, Linguacubun, London) beteiligt. Der Autor war Vertreter der Universit
at Stuttgart
in DELIS und Projektkoordinator.
6 Dies ist, soweit sich absehen l
at, die erste constraint-basierteModellierung von Lexikonfragmenten auf
der Grundlage von Frame Semantics. Wie LFG und HPSG hier als deskriptiver Hintergrund verstan-
den werden (und auf theorie-interne Diskussionen
uber die syntaktische Modellierung von Einzelf
allen
verzichtet wird), dient auch Frame Semantics hier als ein Beispielfall f
ur einen Beschreibungsansatz:
Fillmores Theorie wird in diesem Buch nicht erweitert, sondern prim
ar als Beispiel f
ur ein lexikalisch-
semantisches Beschreibungsmodell genommen, welches lexikographisch relevant ist (vgl. die Arbeiten
von
[
Fillmore/Atkins 1994
]
,
[
Atkins 1994
]
,
[
Atkins et. al. 1994
]
, usw.), weil es eine pr
azise, corpus-
basierte lexikalische Beschreibung unterst
utzt, und weil es die Zusammenh
ange von syntaktischer und
semantischer Beschreibung explizit macht. Es geht also nicht darum, die deskriptiven Entscheidungen
von Frame Semantics zu rechtfertigen oder gegen andere Beschreibungen abzusetzen.
-
Das Feedback, welches aus den Tests dieser ersten Implementierung gewonnen wird, iet
in eine Verfeinerung der Spezikationen und der Implementierung zur
uck. Dieser Vorgang
wird als \Prototyping cycle" bezeichnet.
Man kann sich fragen, inwiefern ein solches Vorgehen f
ur die Entwicklung einer W
or-
terbucharchitektur, bzw. von lexikalischen Spezikationen m
oglich und n
utzlich ist. Hier
wird die These vertreten, da es gerade bei der Entwicklung von W
orterbuchfragmenten
notwendig ist, Anforderungen der Benutzer und Anforderungen, die sich aus den Daten er-
geben (z.B. von Texten aus Textcorpora, welche durch ein W
orterbuch abgedeckt werden
sollen), bei der Entwicklung zu ber
ucksichtigen. Je fr
uher im Laufe der Lexikonentwick-
lung Beispielfragmente verf
ugbar sind, desto fr
uher und ezienter kann die Entwicklung
beeinut werden. F
ur den (corpusbasierten) Aufbau von W
orterbuchfragmenten wird
dieses Konzept detaillierter in Abschnitt 2.1.1.3 diskutiert.
Zum Teil richtet sich die Pr
asentation der Architekturvorschl
age in diesem Buch eben-
falls nach den Hauptphasen des Prototyping-Zyklus: aus der Diskussion der lexikographi-
schen Praxis (in Kapitel 2) wird eine Anforderungsdenition abgleitet. Nach der Darstel-
lung des TFS-Formalismus, der als Modellierungshilfsmittel dient, wird eine (funktionale)
Spezikation
7
gegeben (Abschnitt 3.2), die daraufhin
uberpr
uft wird, welche Aspekte
der Anforderungsdenition sie erfat. Beispielimplementierungen werden in der Form von
monolingualen Lexikonfragmenten (in Kapitel 4) dargestellt, und ihre Benutzung in ver-
schiedenen Anwendungen wird diskutiert, z.B. beim Lexikonexport und bei der lexikonge-
steuerten Corpusanalyse bzw. der Validierung des Lexikons anhand von Corpusmaterial
(Kapitel 5).
Um Redundanz zu vermeiden, sind allerdings nicht alle Phasen des Prototyping hier
separat dokumentiert worden: die Testphase, das sich hieraus ergebende Feedback und
die Verbesserungen sind nat
urlich in die Beschreibung von Spezikation und Realisierung
eingebunden.
Ein Groteil der Diskussion in diesem Buch bezieht sich auf einsprachige Beschreibun-
gen: erst auf der Grundlage wohlstrukturierter monolingualer Beschreibungen lassen sich
kontrastive Beschreibungen organisieren.
1.1.4 Struktur dieses Buchs
Kapitel 2 beschreibt lexikographische und metalexikographische Aspekte der W
orter-
buchstrukturierung und f
uhrt so aus praktischer Sicht auf die Anforderungsanalyse hin
(Abschnitt 2.1). Kapitel 3 ist dem Repr
asentationsformalismus TFS, seinen Eigenschaf-
ten und seiner Benutzung f
ur lexikalische Modellierung und Abfrage gewidmet
8
; es enth
alt
auerdem die funktionale Spezikation der vorgeschlagenen W
orterbucharchitektur (Ab-
schnitt 3.2). Dem folgt eine Diskussion monolingualer lexikalischer Spezikationen, wie sie
f
ur die Zwecke von DELIS deniert wurden (vgl. Kapitel 4), d.h. eine Beschreibung der
\Implementierung" anhand von Beispielen. In Kapitel 5 werden Probleme der Abfrage und
7 Eine formale Denition, z.B. in Backus-Naur-Form, wird nicht gegeben. Sie k
onnte jedoch auch als
externe Schema-Denition, wiederum im hier verwendeten Formalismus, angegeben werden. Vgl. da-
zu die Diskussion in
[
Emele/Heid 1993
]
, wo gezeigt wird, wie eine formale Meta-Schema-Denition,
eine Schema-Denition und die lexikalischen Klassen- und Instanzen-Denitionen f
ur die W
orter-
buchfragmente von DELIS formuliert werden k
onnen, und wie die verschiedenen Denitionsebenen
zusammenh
angen.
8 Computerlinguisten, die im constraint-basierten Paradigma arbeiten, k
onnen Abschnitt 3.1 ohne In-
formationsverlust
uberschlagen.
-
der Anwendung constraint-basierter Lexika besprochen. Dabei werden bewut zum Teil
auch Beispiele diskutiert, die
uber die in Kapitel 4 vorgestellten Ph
anomene hinausgehen.
In Kapitel 6 werden M
oglichkeiten der Strukturierung von kontrastiven Beschreibungen
diskutiert. Zun
achst werden empirisch Klassikationen von kontrastiven lexikalischen Pro-
blemen vorgestellt, dann wird gezeigt, wie sich diese in der maschinellen
Ubersetzung und
in der Lexikographie benutzen lassen.
Man kann auch Teile dieses Buchs selektiv lesen und nur bestimmte Themen verfolgen.
Die Diskussion allgemeiner Aspekte der W
orterbucharchitektur verteilt sich in folgender
Weise: in Abschnitt 2.1 werden Probleme der Wiederverwendung lexikalischer Information
und damit eine der zentralen Anforderungen an die zu erstellenden W
orterbuchkonzepte
untersucht. Zusammen mit den Resultaten einer Diskussion der Besonderheiten, welche
bei zweisprachigen W
orterb
uchern hinzutreten, ieen die in Abschnitt 2.1 zusammenge-
stellten Aspekte in die Anforderungsdenition in Abschnitt 2.3 ein. Die funktionale Spe-
zikation der allgemeinen Architekturprinzipien erfolgt in Abschnitt 3.2. Aus der Sicht
der Anwendung werden M
oglichkeiten der Abfrage der so repr
asentierten lexikalischen
Information in Kapitel 5 diskutiert.
Die kontrastiven Aspekte h
angen, wie oben angedeutet, mit den allgemeinen Fragen
der Lexikonarchitektur und mit den monolingualen W
orterbuchfragmenten eng zusam-
men. Ein
Uberblick
uber die lexikographische Praxis wird in Abschnitt 2.2 gegeben. Die
Resultate einer vergleichenden Bewertung der lexikographischen Ans
atze ieen in die
Anforderungsdenition in Abschnitt 2.3 ein. In Abschnitt 6.1 werden bestehende Vor-
schl
age zur Klassizierung lexikalischer
Ubersetzungsprobleme diskutiert, die eine weitere
Grundlage f
ur die Organisation zweisprachiger W
orterb
ucher darstellen. Beispiele f
ur Im-
plementierungen, die aufgrund dieser Klassikation entwickelt werden k
onnen, sind in den
Abschnitten 6.4 und 6.5 angegeben.
Die Frage der Wiederverwendbarkeit der lexikalischen Beschreibungen zieht sich eben-
falls als \Leitmotiv" durch dieses Buch. Abschnitt 2.1 ist dieser Problematik gewidmet.
Arbeiten aus der praktischen Lexikographie, die zu \wiederverwendbaren" zweisprachigen
W
orterb
uchern f
uhren, werden in Abschnitt 2.2 vorgestellt. Praktische Vorschl
age f
ur den
\W
orterbuchexport" und f
ur vergleichbare Anwendungen werden in Abschnitt 5 disku-
tiert. F
ur zweisprachige W
orterb
ucher wird in Abschnitt 6.4 auf M
oglichkeiten hingewei-
sen, wie eine allgemeine Ph
anomenklassikation sowohl als Grundlage f
ur transfer-basierte
Systeme, als auch f
ur den Interlingua-Ansatz dienen kann.
1.2 Einige Grundbegrie
1.2.1 Elektronische W
orterb
ucher
Bevor Vorschl
age f
ur die Strukturierung von elektronischen W
orterb
uchern diskutiert wer-
den k
onnen, mu hier zun
achst der Begri \elektronisches W
orterbuch" selbst etwas n
aher
betrachtet werden. Der Begri des \elektronischen W
orterbuchs" ist in den letzten Jahren
als Oberbegri f
ur ganz verschiedene Produkte und Resultate von Forschungs- und Ent-
wicklungsarbeit benutzt worden, und die W
orterb
ucher eines groen maschinellen
Uber-
setzungssystems, werden zum Teil ebenso als \elektronische W
orterb
ucher" bezeichnet,
wie die von verschiedenen Unternehmen angebotenen Produkte im Taschenrechnerformat,
die den Wortschatz eines Reisew
orterbuchs in einem Display anzeigen k
onnen.
Auch in der Diskussion in der Computerlinguistik bzw. Computational Lexicography
-
wird der Terminus mitunter unscharf verwendet. Dort wird neben dem \electronic dic-
tionary" auch von \lexical databases", \machine readable dictionaries" und \articial
intelligence lexicons" gesprochen, z.B. bei
[
Zampolli 1994
]
und
[
Atkins/Levin/Zampolli
1994
]
.
Die Termini heben technische Kriterien (databases) hervor, oder den Zusammenhang
mit Ressourcen in einem anderen Format (\machine readable dictionary": meint die in
irgendeiner Form als Textdateien zur Verf
ugung gestellte Version eines gedruckten W
orter-
buchs, in der Regel aus dem Satzband hergeleitet). Solche eher intuitiven Klassizierungen
geben eigentlich keinen Aufschlu
uber relevante Eigenschaften der jeweiligen Ressourcen,
und eine etwas pr
azisere Beschreibung ist notwendig.
Im Bereich der elektronischen W
orterb
ucher gibt es bislang noch keine eindeutig de-
nierte Terminologie. Aus diesem Grund ist es sinnvoll, einige Charakteristika von elektro-
nischen W
orterb
uchern im folgenden kurz zu diskutieren. Hieraus ergibt sich eine Reihe
von Parametern, nach denen elektronische W
orterb
ucher beschrieben werden k
onnen.
1.2.1.1 Parameter der Beschreibung elektronischer W
orterb
ucher {
Uberblick
Den ersten Versuch einer Klassikation elektronischer W
orterb
ucher, die
uber die oben ge-
nannten \Etiketten" hinausgeht, haben
[
Martin/Woltering 1989
]
unternommen. Das Ziel
ihrer Typologie elektronischer W
orterb
ucher ist eine \globale" Beschreibung des Stands
von Wissenschaft und Technik in diesem Bereich; Martin/Woltering verwenden eine Reihe
von Parametern, entlang derer sie die in ihrem Forschungs
uberblick zusammengestellten
elektronischen W
orterb
ucher beschreiben und klassizieren. Martin/Woltering streben
keine vollst
andige und strikte Klassikation an:
Physikalische Form der Ressource;
Grad der Formalisierung von Bedeutungsbeschreibungen;
Zusammenhang mit anderen Ressourcen oder mit Computerwerkzeugen;
Anwendungsorientierung der semantischen Beschreibung;
Anwesenheit bzw. Abwesenheit von extralinguistischen Beschreibungen, wie bei-
spielsweise dom
anenspezischer Information.
Die prominentesten Klassen von elektronischen W
orterb
uchern, die anhand dieser Be-
schreibungsparameter von
[
Martin/Woltering 1989
]
identiziert werden, sind folgende
9
:
Papierw
orterb
ucher;
\computer based dictionaries";
\machine readable dictionaries";
Lexikalische Datenbanken und Termbanken;
\machine dictionaries";
9 Einige werden bewut im englischen Original-Wortlaut zitiert, weil eine
Ubersetzung u.U. interpre-
tierenden Charakter h
atte.
-
\lexical databases";
\Articial Intelligence lexicons".
Die von Martin/Woltering identizierten prominenten Beispielf
alle f
ur W
orterb
ucher und
die Kriterien zeigen, da die in
[
Martin/Woltering 1989
]
beschriebene Klassikation spe-
ziell im Hinblick auf die Untersuchung der semantischen Beschreibungen in elektronischen
W
orterb
uchern unternommen worden ist. Sie ist f
ur unsere Zwecke nicht allgemein genug.
Obwohl nat
urlich jede Klassikation f
ur einen speziellen Zweck durchgef
uhrt wird, und
obwohl insofern jede Typologie die Aspekte wiederspiegelt, die f
ur die jeweilige Zielsetzung
als besonders relevant erachtet werden, kann man doch versuchen, elektronische lingui-
stische Ressourcen etwas genereller zu beschreiben. Der Zweck unseres Klassikationsver-
suchs ist es, die wichtigsten Aspekte der Form der W
orterb
ucher (Repr
asentationsforma-
lismus, Strukturierung, Organisation usw.), ihres Inhalts (Mikro- und Makrostruktur),
sowie des Zusammenhangs zwischen beiden deutlich zu machen.
Dazu werden die folgenden Beschreibungskriterien (wiederum, wie bei
[
Martin/Wol-
tering 1989
]
, als nicht-ausschlieliche Parameter) benutzt:
Die Anwendungsorientierung der Ressource: Antwort auf die Frage, ob die Ressource
f
ur eine bestimmte Art von Anwendung (interaktiv oder automatisch) konzipiert ist,
oder ob sie in dem Sinne \multifunktional" ist, da sie verschiedene lexikographische
und/oder verschiedene NLP-Anwendungen versorgt oder versorgen soll.
Eine inhaltliche Beschreibung der Ressource: hinsichtlich Makrostruktur, Mikro-
struktur, Umfang der Ressource und theoretischer Fundierung der Beschreibungen.
Die formale Organisation der Ressource: Zusammenh
ange zwischen deskriptiver Sei-
te und Repr
asentationsseite; Dokumentation.
Technische Eigenschaften der Ressource: hinsichtlich Repr
asentationsformat oder
-formalismus, Speichermedium, zugrundeliegender Software usw.).
Zusammenhang der zu beschreibenden Ressource mit anderen, gedruckten oder elek-
tronisch repr
asentierten Ressourcen.
Diese sehr allgemeinen Beschreibungskriterien sind in
ahnlicher Weise f
ur die Zwecke
der Eurotra-7-Studie (vgl.
[
Heid/McNaught 1991
]
) und, darauf aufbauend, f
ur die
Relator-Studie zu linguistischen Ressourcen
10
(
[
Hinkelman (Ed.) 1995
]
) benutzt worden
11
.
Im Falle der beiden genannten Studien kommen zus
atzliche, nicht-linguistische Angaben
10 Relator ist eine von der Europ
aischen Kommission, Luxenburg, DG XIII E4, im Rahmen des
LRE-2-Programms in Auftrag gegebene Studie
uber die M
oglichkeit der Realisierung einer zentralen
europ
aischen Institution f
ur die Katalogisierung und den Vertrieb linguistischer Ressourcen (LRE-
62.056). Das Projekt (12-1993 bis 08-1995) hat zur Errichtung der European Linguistic Resources
Association, ELRA, gef
uhrt, die, 1995 gegr
undet, von 1996 an eine dem Linguistic Data Consorti-
um, LDC, in den USA vergleichbare Rolle
ubernehmen soll. Relator hat einen ersten Katalog von
linguistischen Ressourcen produziert; ELRA soll diese Arbeit weiterf
uhren.
11 Die allgemeinen Beschreibungsparameter wurden f
ur die Zwecke von Relator so weitgehend genera-
lisiert, da sie auf alle Arten von Ressourcen (Textcorpora, W
orterb
ucher, Speech-Samples, Gramma-
tiken, Werkzeuge) angewendet werden konnten. Die speziellere Typologie der elektronischen W
or-
terb
ucher wurde vom Autor f
ur die Zwecke von Eurotra-7 entwickelt und dann f
ur Relator
weitergef
uhrt. Sie wurde auch im Projekt Multilex nahezu unver
andert
ubernommen. Die N
ahe
-
hinzu, wie beispielsweise Information
uber Eigentumsrechte, Verf
ugbarkeit, und
uber die
Autoren der betreenden Ressourcen.
In Abbildung 1.1 sind die wichtigsten Kriterien zusammengestellt, nach denen im
Rahmen von Relator elektronische W
orterb
ucher beschrieben wurden.
1.2.1.2 Typen elektronischer W
orterb
ucher { gemeinsame Eigenschaften
F
ur jeden der oben angegebenen Beschreibungsparameter werden im Folgenden jeweils
einige relevante Merkmale angegeben.
Anwendungsorientierung: die Anwendungsorientierung eines W
orterbuchs bezeichnet
die angestrebte haupts
achliche Benutzung, die der W
orterbuchentwickler f
ur das W
orter-
buch vorsieht. Auf einer obersten Ebene sollte zwischen \multifunktional" konzipierten
Ressourcen und anwendungsspezischen Ressourcen unterschieden werden
12
.
Gleichzeitig sollte mindestens zwischen dreierlei m
oglichen Anwendungssituationen un-
terschieden werden:
Benutzung der lexikalischen Ressource als gedrucktes W
orterbuch; das W
orterbuch
liegt daneben \maschinenlesbar" vor;
Benutzung der Ressource als interaktiv benutztes elektronisch repr
asentiertes W
or-
terbuch (\Lookup-W
orterb
ucher");
Benutzung der Ressource in einem sprachverarbeitenden System, normalerweise
vollautomatisch und ohne interaktiven Zugri.
Inhaltliche Beschreibung: wie bei gedruckten W
orterb
uchern sind makrostrukturelle und
mikrostrukturelle Aspekte zu unterscheiden.
Makrostrukturelle Kriterien:
{ behandelte Sprache bzw. Sprachen; Sprachrichtung im Falle von
Ubersetzungs-
w
orterb
uchern; behandeltes (Fachsprachen-)Fragment;
{ Lemmabestand: Umfang der Makrostruktur;
{ Lemmaselektion und Kriterien f
ur Lemmastatus linguistischer Objekte (welche
linguistischen Objekte haben Lemmastatus, welche k
onnen einzeln abgefragt
werden: z.B., neben den
ublichen Lemmata, auch ektierte Formen, Mehrwort-
Einheiten, Morpheme, Abk
urzungen etc.);
{ Organisation und Gruppierung der Artikel: z.B. semasiologische vs. onomasio-
logische W
orterbuchorganisation.
zu metalexikographischen Ans
atzen zur Beschreibung von W
orterb
uchern ist deutlich. Die hier be-
schriebene Kriterienliste wurde im Zusammenhang der Eurotra-7-Studie auf rund 30 elektronische
lexikalische Ressourcen des Deutschen und ungef
ahr 100 weitere elektronische W
orterb
ucher verschie-
dener anderer europ
aischer Sprachen angewendet und hat sich als ausreichend hierf
ur erwiesen.
Im Fall der Eurotra-7-Studie wurden sehr detaillierte Beschreibungen von einzelnen prominenten
Ressourcen f
ur sechs europ
aische Sprachen angefertigt (pro Ressource ca. 3-4 Seiten Text mit zusam-
menfassender Tabelle und einzelnen Beispielen aus der Benutzung der jeweiligen W
orterb
ucher); im
Rahmen von Relator wurde lediglich ein allgemeiner
Uberblick
uber die Situation f
ur die wichtigsten
europ
aischen Sprachen angefertigt.
12 Vgl. die detaillierte Diskussion
uber wiederverwendbare lexikalische Beschreibungen und multifunk-
tionale W
orterb
ucher in Abschnitt 2.1.1.
-
Application
MRD version of human use dict.
other
NLP system dict.
Look-up dict. for human use
Content
Macrostructure
Microstructure
Items with lemma status
Grouping of lemmas
Fragment covered
Elementary units per level
underlying approach
Consistency of markup
markup, repres. language
assessment of transformability
(checking possibilities)
internal structure of entires
lexicographic conventions
Representation
Explicit
Implicit
Relationships
Availability
cost of use/adaptation
cost of resource
not derived
derived from other source(s)
Technical
(cf. usage context)Interfaces and integratability
(formal aspects)Representation language
Storage
legal aspects
(cf. Microstr./Macrostr.)
Levels described
Abbildung 1.1: Schema der Parameter zur Beschreibung elektronischer W
orterb
ucher
(nach Eurotra-7 und Relator)
-
Mikrostrukturelle Kriterien: zu den mikrostrukturellen Kriterien geh
ort das Inven-
tar der linguistischen Beschreibungsebenen, zu denen das W
orterbuch Informatio-
nen enth
alt, eine Beschreibung der zugrundeliegenden linguistischen Theorie bzw.
des Beschreibungsansatzes (z.B. bei Instruktionsb
uchern von gedruckten W
orter-
b
uchern), sowie eine Beschreibung der benutzten linguistisch-lexikographischen Be-
schreibungsmittel und ihrer Dokumentation
13
.
Wie in der traditionellen (meta)lexikographischen Beschreibung, werden folgende
linguistische Beschreibungsebenen unterschieden, f
ur die in einem elektronischen
W
orterbuch Angaben vorhanden sein k
onnen:
{ Orthographische Beschreibung (mit Beschreibung von orthographischen Vari-
anten, Trennm
oglichkeiten usw.);
{ Phonetisch-phonologische Beschreibung (Angabe der Lautgestalt);
{ Morphologische und morphosyntaktische Beschreibung (morphosyntaktische
Eigenschaften von Wortformen, eventuell Zusammenh
ange mit (m
oglicherweise
W
orterbuch-externen) Morphologie-Systemen bzw. Klassizierungen des Fle-
xionsverhaltens);
{ Syntaktische Beschreibung auf der kategorialen bzw. phrasenstrukturellen Ebe-
ne (Klassikation des zu beschreibenden linguistischen Objekts hinsichtlich sei-
ner Wortart, sowie der ggf. von ihm subkategorisierten Erg
anzungen);
{ Relationale bzw. funktional-syntaktische Beschreibung (bei linguistischen Ob-
jekten, die als Pr
adikate aufgefat werden k
onnen und Erg
anzungen subkate-
gorisieren: Angabe der syntaktischen Funktion dieser Erg
anzungen);
{ (lexikalisch) semantische Beschreibung (Denitionen, Sortenangaben, semanti-
sche Merkmale, Bedeutungspostulate usw.; Bedeutungserl
auterung);
{ Relational-semantische Beschreibung (lexikalisch-semantische Relationen mit
anderen linguistischen Objekten; (Quasi-)Synonymie, Hyp(er)onymie usw.);
{ Text-semantische Beschreibung (z.B. Vor- und Nach-Bedingungen, m
ogliche
Inferenzen, andere f
ur die Diskurs-Interpretation relevante Informationen);
{ \Lexikalisch-pragmatische Beschreibung" (diasystematische Markierung, Klas-
sikation nach Stil-, Fachsprachen-, Textsortenkriterien usw.).
Die Beschreibung der formalen Grundlagen bzw. der linguistischen Beschreibungs-
theorie kann durch einfachen Verweis auf diese Theorie erfolgen. In der Regel ist f
ur
jede linguistische Theorie bekannt, bzw. nachvollziehbar, welche Beschreibungsmit-
tel sie verwendet. Allenfalls mu separat beschrieben werden, welche Beschreibungs-
mittel zum Einsatz kommen. Ebenso mu ggf. deutlich gemacht werden, welche Art
extralinguistischer Information vorhanden ist (z.B. Verweise auf Bilder, Ger
ausche;
Verweise auf Elemente eines Dom
anenmodells, usw.).
Formale Organisation des W
orterbuchs: Die Organisation kann explizit oder implizit er-
folgen. Explizit organisierte W
orterb
ucher sind solche, bei denen jeder Angabetyp separat
identizierbar ist und Anfang und Ende jeder einzelnen Angabe (Terminus im Sinne von
13 Auerdem kann an dieser Stelle das Vorhandensein extralinguistischer Information ber
ucksichtigt
werden; vgl.
[
Martin/Woltering 1989
]
.
-
Wiegands metalexikographischer Theorie) anhand der Markierungen feststellbar sind. Da-
gegen sind implizit organisierte Ressourcen solche, bei denen der Angabetyp und Anfang
und Ende einer bestimmten Angabe aus dem W
orterbuchtext mit den Mitteln der meta-
lexikographischen W
orterbuchanalyse erschlossen werden mu.
Kennzeichen explizit organisierter W
orterb
ucher ist das Vorhandensein eines irgend-
wie gearteten Markup
14
oder bestimmter, voneinander unterscheidbarer Datentypen zur
Repr
asentation von Angaben unterschiedlichen Typs
15
.
Technische Eigenschaften: die technischen Eigenschaften einer lexikalischen Ressource
betreen das Speichermedium und die Repr
asentation des W
orterbuchs (als Datenbank,
Textdatei, Datentypen einer Programmiersprache, komprimiert/unkomprimiert, Anzahl
und Formate von Dateien usw.).
Zusammenhang mit anderen Ressourcen: \machine readable dictionaries" stehen oft
in eingem Zusammenhang mit einem gedruckten W
orterbuch. In solchen F
allen hat das
elektronische W
orterbuch zwar andere technische Eigenschaften als das gedruckte, jedoch
bleiben die inhaltlichen und die W
orterbuchorganisatorischen Parameter gleich wie beim
gedruckten W
orterbuch, oder sie lassen sich bei Kenntnis des \zugrundeliegenden W
or-
terbuchs" leichter erschlieen.
1.2.1.3 Relevanz der Beschreibungsparameter f
ur das Design von
elektronischen W
orterb
uchern
Die oben genannten Parameter zur Beschreibung elektronischer W
orterb
ucher k
onnen ei-
nerseits f
ur die Beschreibung bestehender lexikalischer Ressourcen benutzt werden, ande-
rerseits sollten sie in die Anforderungsdenition f
ur die Entwicklung neuer elektronischer
W
orterb
ucher hinein: der Entwickler mu sicherstellen, da f
ur die zu entwickelnde Res-
source hinsichtlich der hier beschriebenen Parameter geeignete Entscheidungen getroen
werden.
Hierbei spielen insbesondere die makro- und mikrostrukturellen Kriterien, sowie Fragen
des Zusammenhangs zwischen den angestrebten Organisationsprinzipien und den techni-
schen Eigenschaften der Ressource f
ur die Denition einer geeigneten W
orterbucharchi-
tektur eine Rolle.
In Kapitel 3.2 wird ein Vorschlag f
ur Architekturprinzipien f
ur elektronische W
or-
terbucher gemacht; in Kapitel 4 werden Beispielfragmente diskutiert, die nach diesen
14 Beispielsweise die Annotation von Textdateien mit SGML (Standard Generalized Markup Language).
15 In W
orterb
uchern von NLP-Systemen k
onnen das z.B. Attribut-Wert-Strukturen sein, bei denen die
einzelnen Attribute durch unterschiedliche Attributnamen voneinander unterschieden werden. Nicht
s
amtliche elektronischen W
orterb
ucher sind explizit organisiert. Vielmehr wird gerade in \Lookup"-
Versionen gedruckter W
orterb
ucher, die als Textdateien vorliegen, oft auf eine eindeutige Unterschei-
dung zwischen Angabetypen verzichtet, selbst wenn eine eindeutige Unterscheidung von Textsegmen-
ten durch unterschiedliche typographische Auszeichnungskonventionen m
oglich ist. Da in der Regel
die Typographie in W
orterbuchtexten mehrdeutig ist (z.B. k
onnen kursiv gedruckte Teile in ein und
demselben Eintrag durchaus Denitionen oder Beispiele sein), ist es nicht trivial, aufgrund der Ty-
pen von unterschiedlich ausgezeichneten Textst
ucken eindeutig zu rekonstruieren und automatisch zu
inferieren, welche Angabetypen vorliegen. Vgl. hierzu auch die Probleme der Reinterpretation von
gedruckten W
orterb
uchern, die in Abschnitt 2.1.2.5 diskutiert werden.
Auerdem k
onnen z.B. Hierarchien von Eintr
agen, bei denen Information durch Vererbung bereit-
gestellt wird, implizit organisiert sein: es kann daher n
otig sein, in einem Lexikon-Formalismus die
Unterscheidung zwischen \er-erbter" und \lokal denierter" Information deutlich zu machen (insbe-
sondere f
ur die Zwecke der interaktiven Erweiterung der W
orterb
ucher).
-
Prinzipien erstellt worden sind. Ohne vorgreifen zu wollen, k
onnen wir hier bereits ei-
nige Charakteristika der unten im Detail beschriebenen W
orterb
ucher anhand der oben
diskutierten Parameter zusammenstellen.
Anwendungsorientierung: die Ressource soll multifunktional sein, insofern sie ver-
schiedene sprachverarbeitende Anwendungen bedienen soll. Auerdem soll es m
oglich
sein, aus der zu entwickelnden Ressource Material f
ur ein interaktiv abzufragendes
elektronisch repr
asentiertes W
orterbuch abzuleiten. Anwendungsspezische Pr
asen-
tationformen sollen
uber eine spezielle Export-Komponente aus der formal repr
asen-
tierten Beschreibung abgeleitet werden; vgl. Abschnitt 5.2).
Inhaltliche Beschreibung:
{ Makrostruktur: die Beispielfragmente stammen aus Franz
osisch und Deutsch,
Englisch und Niederl
andisch, sowie Italienisch; die Fragmente beinhalten nur
Verben aus dem lexikalisch-semantischen Feld der Wahrnehmung, jedoch sind
die Architekturvorschl
age auch
uber diesen Bereich hinaus generalisierbar.
{ Mikrostruktur: die hier vorgestellten Modellierungen konzentrieren sich auf
die orthographische, kategorial- und funktional-syntaktische und lexikalisch-
semantische Beschreibung. Zum Teil werden \lexikalisch-pragmatische" Aspek-
te mitber
ucksichtigt. Der zugrundeliegende Beschreibungsansatz ist von HPSG
(Head-Driven Phrase Structure Grammar, vgl.
[
Pollard/Sag 1994
]
) inspiriert,
der Theorie aber nicht so weitgehend verpichtet, da angestrebt w
urde neue
Vorschl
age zur lexikalischen oder linguistischen Beschreibung mit HPSG zu
machen. Dies erkl
art sich schon aus der Zielsetzung der \Multifunktionalit
at".
F
ur die lexikalisch-semantische Beschreibung wird Fillmores Frame Semantics
benutzt; auch hier gilt dasselbe: die Theorie dient als Beispielfall f
ur die An-
wendung der Lexikonarchitektur.
Organisation der Ressource: das W
orterbuch soll durchg
angig explizit organisiert
sein. Der Repr
asentationsformalismus TFS (Typed Feature Structures) wird ver-
wendet. Er wird in Abschnitt 3.1 detailliert beschrieben.
Technische Eigenschaften: die Benutzung von TFS als Repr
asentationsformalismus
f
uhrt dazu, da TFS-Denitionen als Textdateien (ASCII les) repr
asentiert werden.
Zusammenhang mit anderen Ressourcen: die Beispielfragmente wurden neu konzi-
piert
16
. Die einzelsprachlichen Teilfragmente sind parallel (gleiche Beschreibungs-
mittel; die Fragmente sind eineinander
ubersetzbar).
1.2.2 Probleme der kontrastiven lexikalischen Beschreibung
Die Vorschl
age zur W
orterbuchstrukturierung, die hier entwickelt werden, sind vor dem
Hintergrund von maschinellen
Ubersetzungssystemen (M
U-Systemen) zu sehen. Die wich-
tigsten Aspekte von maschinellen
Ubersetzungssystemen werden in diesem Zusammen-
hang als bekannt vorausgesetzt. In einschl
agigen
Uberblicksdarstellungen werden die Grund-
16 Die TFS-Modellierung beruht auf informeller lexikographischer Beschreibungsarbeit, die von den
Mitgliedern des DELIS-Projekts geleistet wurde; die DELIS-Partner haben aber nicht selbst TFS-
Modellierungen produziert.
-
prinzipien der bestehenden M
U-Systeme detailliert beschrieben
17
. Die meisten regelbasier-
ten maschinellen
Ubersetzungssysteme (also nicht solche, die statistische Verfahren zur
Berechnung der wahrscheinlichsten
Ubersetzungs
aquivalente verwenden) folgen entweder
dem Transfer-Ansatz oder dem Interlingua-Ansatz. Beide Verfahren gehen auf stratika-
tionelle Beschreibungsans
atze zur
uck.
Im Falle des Transfer-Ansatzes wird davon ausgegangen, da das
Ubersetzungssystem
zun
achst quellsprachliche S
atze analysiert und die aus den Quellsprachs
atzen abgeleiteten
abstrakten Repr
asentationen auf andere abstrakte Repr
asentationen abbildet, aus welchen
zielsprachliche S
atze generiert werden k
onnen.
Demgegen
uber wird im Rahmen des Interlingua-Ansatzes versucht, abstrakte Re-
pr
asentationen so zu formulieren, da sie gleichermaen geeignet sind, quellsprachliche
und zielsprachliche
Auerungen oder Teile davon ad
aquat zu beschreiben. Wo dies m
oglich
ist, entf
allt die Notwendigkeit einer eigenen Abbildung zwischen den einzelsprachspezi-
schen abstrakten Repr
asentationen.
...
...
SYN: f-str.
MO/SY: c-str.
SYN: f-str.
MO/SY: c-str.
...
SEM: lex. sem. SEM: lex. sem.
...
...
...
Abbildung 1.2: Vereinfachtes Schema des Transfer-Ansatzes
In den Abbildungen 1.2 und 1.3 sind die beiden Ans
atze schematisch und anhand ei-
ner sehr vereinfachten linguistischen Beschreibung (nur morphosyntaktische, syntaktische
und semantische Beschreibungen) dargestellt. Beim Transferansatz (Abbildung 1.2 wer-
den die funktional-syntaktischen Strukturen und/oder die Pr
adikat-Argument-Strukturen
von Quell- und Zielsprache durch gerichtete Abbildungen verbunden.
In einem interlingua-basierten Modell wird dagegen angenommen, da es eine Re-
pr
asentation gibt, die die Bedeutung sowohl der quell- als auch der zielsprachlichen
Aue-
rungen auszudr
ucken vermag. Das Schema in Abbildung 1.3 ist bewut analog zu Ab-
bildung 1.2 gehalten; dort ist die semantische Teilbeschreibung hinterlegt: sie dient als
gemeinsame Repr
asentation f
ur Quell- und Zielsprache
18
.
Man hat, beispielsweise in Vorbereitungsdiskussionen f
ur das Verbmobil-Projekt
19
,
ausf
uhrlich
uber die Zusammenh
ange zwischen Transfer- und Interlingua-Ansatz disku-
17 Vgl. beispielsweise
[
Nirenburg (Ed.) 1987
]
, dort insbesondere die Einf
uhrung von
[
Tucker 1987
]
; vgl.
auch
[
Arnold et al. 1994
]
. Einen
Uberblick
uber maschinelle
Ubersetzungssysteme, die in der Praxis
angewendet werden, geben
[
Slocum 1988
]
, sowie, f
ur ein deutsches Publikum
[
Schwanke 1991
]
.
18 In beiden Ans
atzen wird Interaktion zwischen den einzelnen ebenenspezischen Teilbeschreibungen,
beispielsweise durch relationale Abbildungen, vorausgesetzt
19 Verbmobil ist ein Verbundprojekt des Bundesministeriums f
ur Bildung, Wissenschaft, Forschung
und Technologie zur maschinellen
Ubersetzung gesprochener Sprachen.
-
...
...
SYN: f-str.
MO/SY: c-str.
...
...
SYN: f-str.
MO/SY: c-str.
SEM: lex. sem.
...
SEM: lex. sem.
...
Abbildung 1.3: Vereinfachtes Schema des Interlingua-Ansatzes
tiert. In Verbmobil
20
wird ein Transfer-Ansatz verfolgt, bei dem Information mitbenutzt
werden kann, die
uber die quell- und zielsprachlichen Beschreibungen generalisiert werden
kann, z.B. zur Repr
asentation von lokalen oder temporalen Relationen (in Verbmobil
wurde vorgeschlagen, die \Analysetiefe" variabel zu halten, d.h. je nach dem Bedarf der
Ubersetzung mehr oder weniger abstrakte (semantische und ggf. dom
anenspezische) In-
formation in die Repr
asentationen einzubinden).
" !
6
?
phon hI miss my dictionaryi
+
English HPSG
+
2
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4
phon hI miss my dictionaryi
: : : jloc
2
6
6
6
6
6
6
6
6
6
6
4
cat
2
4
head verb
subcath i
3
5
cont
2
6
6
4
reln miss
exper
1
jfspeaker(
1
)g
theme
2
jf
1
's dict.(
2
)g
3
7
7
5
| {z }
3
7
7
7
7
7
7
7
7
7
7
5
dtrs : : :
3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5
2
6
6
6
6
6
6
6
6
6
6
6
6
6
6
6
4
phon hMon dictionnaire me manquei
: : : jloc
2
6
6
6
6
6
6
6
6
6
4
cat
2
4
head verb
subcath i
3
5
cont
2
6
6
4
reln miss
exper
1
jfspeaker(
1
)g
theme
2
jf
1
's dict.(
2
)g
3
7
7
5
3
7
7
7
7
7
7
7
7
7
5
dtrs : : :
3
7
7
7
7
7
7
7
7
7
7
7
7
7
7
7
5
*
French HPSG
*
?
2
6
6
6
6
4
: : : jlocjcont
2
6
6
4
reln miss
exper
1
jfspeaker(
1
)g
theme
2
jf
1
's dict.(
2
)g
3
7
7
5
| {z }
3
7
7
7
7
5
Abbildung 1.4: Schema der interlingua-basierten
Ubersetzung mit HPSG (aus
[
Heid/Kuhn
1994
]
)
In Kapitel 4 werden Beispiele f
ur monolinguale lexikalische Beschreibungen gegeben. Diese
20 Im Rahmen der vorliegenden Arbeit konnten aus Gr
unden der
Uberlagerung der Erscheinungstermine
die neuesten Arbeiten des Verbmobil-Projekts nicht oder nur zu einem geringen Teil ber
ucksichtigt
werden. Die Vorbereitungsdiskussion ist z.B. in
[
Kay/Gawron/Norvig 1994
]
dargestellt.
-
k
onnten mit geringem Aufwand in ein auf HPSG-Grammatiken aufbauendes interlingua-
basiertes experimentelles M
U-System eingebracht werden, dessen Grundlagen und Funk-
tionsweise zuerst in
[
Heid/Kuhn 1994
]
beschrieben worden sind. F
ur die Quellsprache und
die Zielsprache werden jeweils HPSG-(artige) Beschreibungen aufgebaut, und die ange-
reicherten Pr
adikat-Argument-Strukturen (Werte des \CONT(ent)"-Attributs) werden als
gemeinsame abstrakte Repr
asentation von Quell- und Zielsprache benutzt.
In diesem System enthalten die Lexikoneintr
age gleichberechtigte Teilbeschreibungen
der Wortformen (Lautgestalt, bzw. Orthographie unter dem \PHON(ology)"-Attribut), der
syntaktischen Struktur (unter dem Attribut \CAT(egory)") und der semantischen Struk-
tur (Pr
adikat-Argument-Strukturen, unter dem Attribut \CONT(ent))". Liegen im oben
diskutierten Sinne parallele Grammatiken vor, so k
onnen quell- und zielsprachliche Gram-
matiken und Lexika miteinander kombiniert werden.
Die Analyse der Quellsprache besteht darin, da ein Satz, von dem zun
achst nur die
Zeichenkette bekannt ist, mit den Denitionen von Grammatik und Lexikon verglichen
wird. Das Ergebnis ist eine vollst
andig spezizierte Struktur, in der zus
atzlich zur Zeichen-
kette eine von der Grammatik abgeleitete syntaktische und semantische Beschreibung aus-
gegeben wird. Analog hierzu kann man die zielsprachliche Grammatik und ihr Lexikon mit
dem Wert des CONT(ent)-Attributs abfragen. Wiederum wird die gesamte, vollst
andig spe-
zizierte Satzbeschreibung erzeugt, wobei in diesem Fall Syntax und Zeichenkette erg
anzt
werden, jetzt anhand der zielsprachlichen Spezikation. Man kann den ersten Vorgang
(von der Textform zur vollst
andigen Beschreibung) als \Analyse", den zweiten Vorgang
(von der Bedeutungsbeschreibung zur vollst
andigen Beschreibung, inklusive Textform)
als \Generierung" bezeichnen. F
ur die Zwecke der
Ubersetzung wird die Analyse mit der
Quellsprach-Grammatik durchgef
uhrt, die Generierung mit der Zielsprach-Grammatik.
In Abbildung 1.4 ist dieser
Ubersetzungsansatz anhand von HPSG f
ur Englisch und
Franz
osisch schematisch dargestellt.
In den Abschnitten 2.3 und 3.2 werden Vorschl
age f
ur die Architektur monolingualer
W
orterb
ucher gemacht. Dabei spielt die Verwendbarkeit der lexikalischen Beschreibun-
gen f
ur verschiedene Anwendungen eine groe Rolle. Da der Transfer-Ansatz und der
Interlingua-Ansatz L
osungen derselben konstrastiven lexikalischen Probleme bereitstellen
m
ussen, w
are es w
unschenswert, auch ein kontrastives W
orterbuch so anzulegen, da es
verschiede Anwendungen versorgen kann, in diesem Fall Systeme, die auf dem Transfer-
Ansatz bzw. auf dem Interlingua-Ansatz beruhen. Ein W
orterbuch, welches beide Arten
von Beschreibungen unterst
utzen soll, mu hinreichend detaillierte Informationen von
s
amtlichen relevanten Beschreibungsebenen enthalten.
-
Kapitel 2
Lexikographische Aspekte der
W
orterbuchstrukturierung
2.1 Wiederverwendbare lexikalische Beschreibungen { Multifunktionale
W
orterb
ucher
Seit den sp
aten 80er Jahren wurde in der Computerlinguistik
uber die Schaung umfang-
reicher Lexika f
ur die Sprachverarbeitung diskutiert, und auf die Notwendigkeit der Erstel-
lung wiederverwendbarer
1
W
orterb
ucher hingewiesen. Aufgabe und Zielsetzung von For-
schungsvorhaben und Studien wie z.B. Eurotra-7 (1990/91), Lexic (1990/91)
2
, Mul-
tilex (1991-93), zum Teil auch Acquilex und DELIS (1993-95) war es, Konzepte f
ur die
Wiederverwendung lexikalischer Information zu entwickeln; das Forschungsprojekt Mul-
tilex ist beispielsweise mit dem Ziel angetreten, in verschiedenen Typen von Sprachver-
arbeitungssystemen verwendbare (\multifunktionale") W
orterb
ucher zu entwickeln oder
an ihrer Denition zu arbeiten (vgl.
[
Modiano 1994
]
). Die Fragestellung hat bis heute
nichts an Aktualit
at verloren, wie der neueste Sammelband von
[
H
otker/Ludewig (Ed.)
1996
]
zeigt, der verschiedenen Ans
atzen zur Wiederverwendung lexikalischer Information
gewidmet ist.
In diesem Kapitel wird zun
achst die bisherige Diskussion
uber die Wiederverwendung
lexikalischer Information zusammengefat. Aus bisherigen Denitionen von multifunk-
tionalen W
orterb
uchern werden die f
ur die vorliegende Arbeit relevanten Aspekte als
Komponenten einer Anforderungsdenition f
ur die W
orterbuchorganisation extrahiert.
2.1.1 Begrisbestimmung: Wiederverwendbare lexikalische Ressourcen
Die Diskussion um die Wiederverwendung von lexikalischer Information in der Compu-
terlinguistik ist mit der Dissertation von Robert Amsler 1980 (vgl.
[
Amsler 1980
]
) in
Gang gekommen, der als wohl erster Computerlinguist Satzb
ander eines monolingualen
(englischen) W
orterbuchs analysiert hat (das Merriam Webster Pocket Dictionary), mit
dem Ziel, aus den Eintr
agen des W
orterbuchs Beschreibungen zu extrahieren, die als le-
xikalische Informationsquelle f
ur ein sprachverarbeitendes System dienen k
onnen. In der
Folgezeit wurden verschiedene vergleichbare Untersuchungen an anderen englischen W
or-
1 Zum Teil wird auch von Wiederverwertung, wiederverwertbarenW
orterb
uchern, etc. gesprochen. Hier
wird durchg
angig der Begri \Wiederverwendung" (etc.) benutzt. Die beiden Termini werden hier
synonym verwendet.
[
H
otker/Ludewig 1996
]
(die Einleitung zu
[
H
otker/Ludewig (Ed.) 1996
]
) unter-
scheiden zwischen \Wiederverwendung" (ohne Modikation der bestehenden Beschreibungen) und
\Wiederverwertung" (Nutzbarmachung f
ur neue Anwendungen durch Modikation der bestehenden
Beschreibungen). Der erste Fall ist rein hypothetisch: eine Reinterpretation (vgl. unten, Abschnitt
2.1.2) ist nahezu immer n
otig. Hier wird also der Terminus \Wiederverwendung" durchg
angig im
Sinne von H
otker/Ludewigs Begri \Wiederverwertung" benutzt (vgl. auch
[
Kanngiesser 1995
]
).
2 Vgl. den Abschlubericht
[
Van der Eijk et al. 1991
]
.
-
terb
uchern angestellt, insbesondere am Longman Dictionary of Contemporary English,
LDOCE
3
.
Amslers Arbeit und die Experimente mit LDOCE zielen auf die Nutzung vorhande-
ner traditioneller W
orterb
ucher als Ressourcen f
ur NLP-Systeme. Gleichzeitig mit diesen
Arbeiten kamen auch Diskussionen dar
uber in Gang, welche Organisation linguistischer
Beschreibungen, welcher Aufbau und welche Repr
asentationsform f
ur das W
orterbuch
eines Sprachverarbeitungssystems zu w
ahlen seien, das von vorneherein f
ur verschiedene
Anwendungen konzipiert sein w
urde. Es hatte sich herausgestellt, da die Entwicklung von
NLP-Systemen unter anderem deswegen relativ inezient verlief, weil f
ur jedes System,
ein kleines W
orterbuch entwickelt werden mute, das bestenfalls einige hundert Eintr
age
umfate; bis heute werden zum Teil nebeneinander W
orterb
ucher f
ur \toy applications"
entwickelt, die nur kleine, zum Teil
uberlappende Fragmente abdecken, ohne da ein be-
stehendes W
orterbuch als Grundlage eines anderen, neu zu entwickelnden W
orterbuchs
genommen w
urde.
Im wesentlichen sind es also praktische Gr
unde, die den Ansto f
ur Forschungen
uber
die Wiederverwendbarkeit von W
orterb
uchern gegeben haben. Zum einen der Versuch,
die sehr groen Datenmengen, die in \traditionellen" gedruckten W
orterb
uchern ent-
halten sind, f
ur die Sprachverarbeitung nutzbar zu machen; zum anderen der Versuch,
einmal f
ur sprachverarbeitende Systeme einer bestimmten Art vorbereitete W
orterb
ucher
neben dieser urspr
unglichen Anwendung auch f
ur andere NLP-Anwendungen nutzbar zu
machen
4
. In diesem Zusammenhang kam der Begri der \wiederverwendbaren linguisti-
schen Ressource" (reusable linguistic resource) in der Diskussion auf
5
.
In den Arbeiten von Eurotra-7 und in Anwendungen der Resultate dieser Studie
wird der Terminus \wiederverwendbare linguistische Ressource" in zwei Bedeutungen de-
niert:
1. Der Begri \wiederverwendbare linguistische Ressource" bezeichnet eine linguisti-
sche Wissensquelle, die in einer anderen Anwendung benutzt werden kann als der-
jenigen, f
ur die sie urspr
unglich geschaen wurde.
Diese Benutzung auerhalb der urspr
unglich intendierten Anwendung kann verschie-
dene Arbeitsschritte der Reinterpretation und Reformatierung, der Extraktion von
3 Die Ergebnisse umfangreicher Forschungen verschiedener Gruppen (insbesondere in Cambridge und
Amsterdam) sind in
[
Boguraev/Briscoe 1989
]
zusammengefat. Die neueste und umfangreichste Ana-
lyse eines gedruckten W
orterbuchs, bei der die Nutzung als Wissensquelle f
ur ein sprachverarbeitendes
System angestrebt wird, ist
[
Sinclair/Hoelter/Peters (Ed.) 1994
]
: dort wurde versucht, aus dem Col-
lins Cobuild Student's Dictionary syntaktisch-semantische Information zu extrahieren und in ein mit
HPSG verarbeitbares Format umzusetzen.
4 Die neueste und detaillierteste Beschreibung der Forschungen zur Wiederverendung von lexikalischen
Ressourcen ndet sich in
[
Zampolli 1994
]
und in
[
Atkins/Levin/Zampolli 1994
]
: 26. Dort wird die
Entwicklung der computerlinguistischen Diskussion detailliert chronologisch nachgezeichnet, bis zum
Beginn der Eurotra-7-Studie. An dieser Stelle braucht deswegen auf die Arbeiten bis 1990 nicht
in allen Details eingegangen zu werden. Die zitierten Artikel, ebenso wie die anderen Arbeiten in
dem Band von
[
Atkins/Zampolli (Ed.) 1994
]
geben einen
Uberblick auf den Stand von ca. 1990/91.
Hier werden statt einer Fortschreibung eines breiten
Uberblicks gezielt die relevanten Resultate von
Eurotra-7 (vgl.
[
Heid/McNaught 1991
]
und
[
Mc Naught 1990
]
) und den Nachfolgeaktivit
aten der
Eurotra-7-Studie beschrieben.
5 Erstmalig deniert von McNaught in einer Arbeitssitzung 1987, dann von Calzolari aufgenommen und
schlielich in den Arbeiten der Eurotra-7-Studie detailliert diskutiert; vgl.
[
Heid/McNaught 1991
]
,
[
Heid 1991a
]
. Der Bericht
[
Heid/McNaught 1991
]
kann von der Europ
aischen Kommission bezogen
werden, wurde aber nicht in Buchform publiziert.
-
Teilen der Beschreibungen aus der urspr
unglichen Ressource oder der kompletten
Transformation der gesamten Ressource notwendig machen.
Beispiele: die maschinenlesbare Version eines gedruckten W
orterbuchs wird so adap-
tiert, da sie neben der urspr
unglichen, interaktiven Benutzung auch f
ur ein sprach-
verarbeitendes System verwendet werden kann.
Oder: ein W
orterbuch, welches ursp
unglich f
ur ein maschinelles
Ubersetzungssystem
konzipiert ist, wird (z.B. mit einem zus
atzlichen Ausgabe-Interface) auch als \Look-
up-W
orterbuch", f
ur interaktive Abfrage verwendet.
2. Der Begri \wiederverwendbare lexikalische Ressource" bezeichnet eine linguisti-
sche Wissensquelle, die schon von ihrer Konzeption an so speziziert und realisiert
worden ist, da die Benutzung in verschiedenen Situationen oder Systemen (sowohl
verschiedenen Sprachverarbeitungsanwendungen, als auch verschiedenen (interakti-
ven) Benutzungssituationen mit \menschlichen Benutzern") in die Design-Kriterien
miteiniet. Solche linguistischen Wissensquellen werden auch als \multifunktiona-
le" Ressourcen bezeichnet.
Beispiele: Ein W
orterbuch, welches innerhalb einer Firma f
ur verschiedene Sprach-
verarbeitungsanwendungen gemeinsam benutzt wird; oder: eine lexikographische
Ressource eines Verlags, aus welcher verschiedene anwendungsspezische gedruck-
te W
orterb
ucher oder interaktiv zu verwendende elektronische Produkte hergestellt
werden
6
.
Der Unterschied zwischen den beiden Lesarten des Terminus \wiederverwendbare lin-
guistische Ressource" liegt also darin, da nach der ersten Auassung von Wiederver-
wendbarkeit schon bestehende Beschreibungen f
ur neue Anwendungen nutzbar gemacht
werden sollen, ohne da auf das Format der Quell-Materialien noch eine Einunahme
m
oglich w
are (die \Um-Nutzung" erfolgt post mortem). Dagegen ist es f
ur die zweite Les-
art von \Wiederverwendung" konstitutiv, da die Mehrfach-Verwendung schon von der
Spezikationsphase an eingeplant wird.
Diese Kriterien gelten sinngem
a f
ur W
orterb
ucher, Grammatiken, annotierte Text-
corpora und sogar f
ur bestimmte Arten von Sprachverarbeitungswerkzeugen. Deswegen
wird hier der allgemeine Begri \Ressource" benutzt.
2.1.1.1 Lexikalische Wiederverwendung in der praktischen Lexikographie
In der praktischen Lexikographie wird der Gedanke der multifunktionalen lexikalischen
Ressource, in einer anderen Terminologie und zum Teil mit einer vordergr
undig zun
achst
anderen Zielsetzung als in der Sprachverarbeitung schon seit langem diskutiert.
Da W
orterbuchverlage ihre Produkte \wiederverwenden", indem sie Beschreibungen
aus einem W
orterbuch in ein anderes
ubernehmen, ist bekannt. Weniger als 25%
Uber-
lappung zwischen W
orterb
uchern ist nicht anst
oig
7
. In bestimmten F
allen werden auch
6 Quemada nennt eine solche Ressource base de donnees predictionnairique; Atkins spricht im Fall der
lexikographischen Faktensammlung, die dem Oxford/Hachette-W
orterbuch zugrundeliegt, von
\(lled)framework"; auf diese Art von Ressourcen wird unten noch detaillierter eingegangen (vgl.
Abschnitt 2.1.1.1).
7 Hausmann diskutiert Methoden der direkten
Ubernahme von lexikalischen Beschreibungen in ver-
schiedenen W
orterb
uchern unter dem Schlagwort \W
orterbuchkriminalit
at". Uns ist folgender Vor-
-
aus dem Lemmabestand und der Mikrostruktur von bestehenden W
orterb
uchern Teile
\herausgestrichen", wenn ein neues W
orterbuch (oder eine neue Auage des zur Rede
stehenden W
orterbuchs) hergestellt werden soll. Diese Verfahren stehen hier jedoch nicht
zur Diskussion.
Der wichtigste Aspekt der Wiederverwendung lexikalischer Information in der prakti-