Elaborazione del linguaggio naturale
description
Transcript of Elaborazione del linguaggio naturale
![Page 1: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/1.jpg)
FMZ
Elaborazione del linguaggio naturale
Fabio Massimo Zanzotto
![Page 2: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/2.jpg)
FMZ
Part seven
Modular and Robust parsing
![Page 3: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/3.jpg)
FMZ
Our Aim
Lines of development
Grammatical Representation Power: • CFG (context free grammars) DCG• Feature Structures• Tree Adjoining Grammars (TAG)
Grammar Use: • CYK• Chart and Early Algorithm
![Page 4: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/4.jpg)
FMZ
Lesson learnt
• Lexicon (i.e. words) is a very important piece of the Language and of the language model
• Words carry meaning and govern the syntactic structure of sentences
![Page 5: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/5.jpg)
FMZ
Limits of the previous approaches
• When parsing or:– one interpretation is active at each processing
step (for example, DCG in Prolog)– all interpretations are active (for example, CYK
or Chart Parsing)
• Processing complexity depends on the number of active interpretation
![Page 6: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/6.jpg)
FMZ
Observation
Question:is it possible to fix some ambiguity in early step of the analysis?
lamangia... ...
Art Prn
![Page 7: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/7.jpg)
FMZ
Decomposizione del processo
• Processori Pi che si occupano di specifici fenomeni accoppiati con una possibile funzione di disambiguazione basata su informazioni locali
P1 Pn…P1 Pn
![Page 8: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/8.jpg)
FMZ
Decomposizione del processo
• Ricerca di obbiettivi (o rappresentazioni) intermedi raggiungibili (e utili)– Criteri psicolinguistici– Requisiti computazionali – Esigenze applicative
• È possibile trovare soluzioni approssimate per problemi più semplici?
![Page 9: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/9.jpg)
FMZ
Decomposizione del processo
L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica, ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto.
![Page 10: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/10.jpg)
FMZ
Decomposizione del processo
• Esiste un livello di aggregazione nel testo che si pone tra parole e frasi.
• Gli aggregati non si sovrappongono (i.e. non sono “ricorsivi”)
![Page 11: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/11.jpg)
FMZ
Chunking: esempio di stratificazione di un albero
L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.
A N Adj V V A N Adj PA N Adj N
NP AdjP
VP
NP AdjP NP
PPNPNP
NP
VP
S
![Page 12: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/12.jpg)
FMZ
Chunking: esempio di stratificazione di un albero
L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.
A N Adj V V A N Adj PA N Adj N
NP AdjP
VP
NP
AdjP
NP
PP
NP
NP
VP
S
![Page 13: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/13.jpg)
FMZ
Chunking: esempio di stratificazione di un albero
L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.
A N Adj V V A N Adj PA N Adj N
NP AdjP
VP
NP AdjP NP
PPNPNP
VP
S
![Page 14: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/14.jpg)
FMZ
Chunking: esempio di stratificazione di un albero
L’ industria giapponese ha sfornato una versione perfezionata del robot umanoide "Db”.
A N Adj V V A N Adj PA N Adj N
NP AdjP
VP
NP NP
PPNP
![Page 15: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/15.jpg)
FMZ
Decomposizione del processo
• Chunk: – livello intermedio di rappresentazione– giustificato psico-linguisticamente (Abney,
1991)
• Definizione (intuitiva) di chunk: Sequenza di parole
• fortemente connessa • con un unico portatore di significato• costante alle differenti interpretazioni
![Page 16: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/16.jpg)
FMZ
I medici operano un paziente al femore : aveva 105 anni.
Decomposizione del processo
• LESSICALIZZAZIONE: Controllo dell’ambiguità– verbi controllano semantica delle proposizioni– quindi controllano le relazioni sintattiche
![Page 17: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/17.jpg)
FMZ
I medici operano un paziente al femore : aveva 105 anni.
Decomposizione del processo
• Controllo dell’ambiguità– verbi controllano semantica delle proposizioni– quindi controllano le relazioni sintattiche
SUBJ operare OBJ PP(a)
![Page 18: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/18.jpg)
FMZ
Definizione di chunk
• Bottom-up:Una sequenza di parole che rappresenta il nucleo non ricorsivo di sintagmi nominali, preposizionali, verbali ed aggettivali
• Top-down:Una sequenza di parole le cui relazioni non sono influenzate dal comportamento dei verbi
![Page 19: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/19.jpg)
FMZ
Chunk: osservazioni
Chunk nuclei “non ricorsivi”* di sintagmi particolari
Chunksono riconoscibili con automi a stati finiti
* “non ricorsivi” = ricorsivi destri che non rimandano a sintagmi superiori
![Page 20: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/20.jpg)
FMZ
Chunking: prototipi
Prototipo:
• regola per catturare chunk
• esprimibile utilizzando informazione di POS tags tramite – espressioni regolari/trasduttori (Fastus,
Alembic, Chanod&Ait) – marker iniziale e finale (ACL, 2001)
![Page 21: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/21.jpg)
FMZ
Chunking: prototipi
Esempi di espressioni regolari:
NPK:
Art N | Art A N
VPK:
V | V V
PPK:
P Art N | P Art A N
![Page 22: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/22.jpg)
FMZ
Chunking: prototipi
Esempi di marker iniziale e finale:
NPK:
MI: Art MF: N
VPK:
MI: V MF: V
PPK:
MI: P MF: N
![Page 23: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/23.jpg)
FMZ
Chunking: considerazioni
• Identificazione e classificazione:– possibile nel livello sintattico– risolvibile con macchinari semplici (i.e. FSA)
• La grammatica (ovvero i prototipi) – indipendente dal dominio di applicazione
• Domanda: Qualora fosse la sola informazione estratta, sarebbe utile per una qualche applicazione?
![Page 24: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/24.jpg)
FMZ
Prerequisiti
• Chunking– Part-of-speech tagging
• Riconoscimento dei legami verbali:– Individuazione dei limiti delle proposizioni
(clause boundary recognition)
![Page 25: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/25.jpg)
FMZ
Part-of-speech tagging
• Definizione del problema
w1…wn t1…tn
Strategies to use with questions you cannot answer
NNS TO VB IN NNS PRP MD VB
![Page 26: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/26.jpg)
FMZ
Part-of-speech tagging
• Origini (1989) sotto la spinta dell’Information Extraction alla Message Understanding Conference
• Approcci– approcci simbolici (regole trasformazionali,
Brill 94)– approcci statistici (a seguire)
![Page 27: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/27.jpg)
FMZ
POS Tagging basato sulle trasformazioni (Brill, 94)
Dato un primo tagging (dizionario con tag più frequenti),
applicare regole di trasformazione fino a che l’errore non diminuisca sotto una soglia
![Page 28: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/28.jpg)
FMZ
Trasformazioni
• Regole di riscritturat1 t2 se <condizione nello spazio circostante
(triggering environment)>
• EsempioNN VB se il tag precedente è TO
Strategies to use with questions you cannot answer
NNS TO NN IN NNS PRP MD VB
TO NN
VB
Strategies to use with questions you cannot answer
NNS TO VB IN NNS PRP MD VB
![Page 29: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/29.jpg)
FMZ
Trasformazioni: Schemi dei triggering environments
ti-3 ti-2 ti-1 ti+3ti+1 ti+2
**
*
******
ti
![Page 30: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/30.jpg)
FMZ
Trasformazioni: algoritmo di apprendimento
• Quali trasformazioni?
• Quale ordine di applicazione?
![Page 31: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/31.jpg)
FMZ
Trasformazioni: algoritmo di apprendimento
C0:= Corpus con tag più frequenti
for k:=0 step 1 do
v:= trasformazione n che minimizza E(n(Ck))
if (E(Ck) - E(n(Ck))) < then break
Ck+1 :=v(Ck)
tk+1:= v
end
OUTPUT: sequenza t1, …, tk
![Page 32: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/32.jpg)
FMZ
POS Tagging basato sulle trasformazioni
• Tagging delle parole sconosciute basato sulla morfologia– Tutte le parole sconosciute vengono taggate
con NN– Il tag viene cambiato seguendo alcune regole
trasformazionali morfologicheEs: NN NNS la parola termina con -s
![Page 33: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/33.jpg)
FMZ
POS Tagging basato sulle trasformazioni
Qualità dell’attività di POS Tagging dipende:
• dall’insieme dei tag obbiettivo
• dalla possibilità di recuperare informazione disambiguante nei contesti di attivazioneEs.: che in italiano (pronome/congiuzione)
• dal materiale di apprendimento
![Page 34: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/34.jpg)
FMZ
( )(
)(
)
Clause boundary recognition
L'industria giapponese dei robot, una delle poche a non risentire della grave crisi economica , ha sfornato una versione perfezionata del robot umanoide "Db", fatto nascere due anni fa in un laboratorio vicino a Kyoto .
• Definizione del problema
![Page 35: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/35.jpg)
FMZ
Clause boundary recognition
• Proposizioni sono utili per:– Conversione Text-to-speech – Allineamento di testi – Traduzione automatica
• Particolarità– Ricorsività non presente nei chunks
![Page 36: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/36.jpg)
FMZ
Clause boundary recognition
Inf(S2)
Inf(S1)
[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]
contribute-NP-PP(to)value-NP-PP(at)
![Page 37: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/37.jpg)
FMZ
Clause boundary recognition
Inf(S2)
Inf(S1)
[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]
contribute-NP-PP(to)value-NP-PP(at)
![Page 38: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/38.jpg)
FMZ
Clause boundary recognition
Inf(S2)
Inf(S1)
[ Mr. Gaubert ] [contributed] [real estate] [valued] [ at $ 25 million] [to the assets] [of Independent American]
contribute-NP-PP(to)value-NP-PP(at)
![Page 39: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/39.jpg)
FMZ
Clause boundary recognition
• Algoritmo:– Ipotesi iniziale di
• minima estensione delle proposizioni
• gerarchia derivata
– Finché ci sono verbi da analizzare (da destra verso sinistra):
• Riconoscere il legami verbali
• Espandere l’estensione minima della proposizione
![Page 40: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/40.jpg)
FMZ
Controllo del processo
• Passi analisi:– POS Tagging– Chunking – Clause Boundary Recognition – Verb Argument Detection
![Page 41: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/41.jpg)
FMZ
Controllo del processo
• Situazione problematica: necessità di definire i tipi di dati trattati
P1 Pn……P1 Pn
![Page 42: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/42.jpg)
FMZ
Controllo del processo
• Situazione problematica: necessità di definire i tipi di dati trattati
P1
Pn
… Giudice
![Page 43: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/43.jpg)
FMZ
Formalismo di rappresentazione
Requisiti:
• Rappresentazione di analisi parziali
• Rappresentazione di legami distanti
• Information hiding– rendere disponibile la sola informazione
necessaria …– ma capace di esprimere tutti i vincoli correnti
![Page 44: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/44.jpg)
FMZ
Formalismo di rappresentazione
• Rappresentazione a costituenti– Context-free Grammar (Tree)
– Well Formed Substring Table (WFST): chart
– Tree-Adjoint Grammar (TAG)
• Rappresentazione a dipendenze– Link Grammar
• Rappresentazione miste– Extended Dependency Graph (XDG)
![Page 45: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/45.jpg)
FMZ
XDG: eXtended Dependency Graph
• an XDG is a graph:
XDG=(constituents,dependencies)
Nice property: allow to store persistent ambiguity (for interpretations projected by the same nodes)
• Each constituent has:– a potential governor– a grammatical head
![Page 46: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/46.jpg)
FMZ
Modular approach
• Syntactic parser SP(S,K)=I SP(S)=I
• Syntactic parsing module:Pi(Si,Ki)=Si+1 Pi(Si)=Si+1
• Modular syntactic parserSP = Pn... P2P1
![Page 47: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/47.jpg)
FMZ
Classification of parsing modules
Pi(XDGi,Ki)=Pi(XDGi)=XDGi+1
• The classification is performed according to:– the type of information K used– how they manipulate the sentence
representation
![Page 48: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/48.jpg)
FMZ
Decomposizione del processo
Principi:
• Scegliere i fenomeni trattati in ogni livello
• Scegliere l’algoritmo migliore per ogni task
• Scegliere un opportuno formalismo di rappresentazione
![Page 49: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/49.jpg)
FMZ
Back to the beginning...
conosenza simbolica
conosenza simbolica incerta
abilità linguistica
apprendimento
“Tutti i marinai amano una ragazza”
x Marinaio (x).( y Ragazza(y) Ama (x, y))
y Ragazza(y).(x Marinaio (x) Ama (x, y)) ?
![Page 50: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/50.jpg)
FMZ
Interpreting Language Through Syntax
Assunzione di Chomsky: i differenti significati hanno differenti strutture sintattiche “profonde”
Esempio: Luigina ha chiesto in prestito la borsetta di pelle di nonna.
Possibili Costruzioni Sintattiche in alberi:...(la borsetta di (pelle di nonna))...(la (borsetta di pelle) di nonna)
![Page 51: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/51.jpg)
FMZ
Where we worked
Lines of developmentGrammatical Representation Power: • CFG (context free grammars) DCG• Feature Structures• Tree Adjoining Grammars (TAG)Grammar Use: • CYK• Chart and Early Algorithm• Modular Parsing and Cascades of Different Theories
(XDG)
![Page 52: Elaborazione del linguaggio naturale](https://reader033.fdocuments.net/reader033/viewer/2022042822/56813d45550346895da7042f/html5/thumbnails/52.jpg)
FMZ
NLP Applications
• Information Extraction
• Q&A
• Ontological Q&A
• Textual Entailment