Universitatea “Al. I. Cuza” din Iaşi
Facultatea de Informatică
TEXTUAL ENTAILMENT
- Rezumatul tezei de doctorat -
Doctorand: Adrian Iftene
Coordonator Ştiinţific:
Profesor Dr. Dan Cristea
– 2009 –
Cuprins Cuprins ............................................................................................................................................. i
1. Introducere ............................................................................................................................... 2
2. Direcţii principale în Textual Entailment ................................................................................ 3
3. Sistemul UAIC ........................................................................................................................ 4
3.1. Pre-procesarea ................................................................................................................. 5
3.2. Transformarea arborelui asociat ipotezei ........................................................................ 5
3.3. Modulul Principal ............................................................................................................ 7
3.3.1. Cazurile de Entailment .................................................................................................. 7
3.3.2. Cazuri de No Entailment ............................................................................................... 7
3.3.3. Calcularea valorilor fitness............................................................................................ 8
3.3.4. Obţinerea răspunsului final pe baza fitnessului global .................................................. 9
3.4. Rezultate ........................................................................................................................ 10
3.5. Limitări ale sistemului ................................................................................................... 12
3.6. Munca viitoare ............................................................................................................... 13
3.7. Concluzii ........................................................................................................................ 13
4. Îmbunătăţiri ........................................................................................................................... 15
4.1. Arhitectura peer-to-peer ................................................................................................ 15
4.2. Sistemul GRID .............................................................................................................. 16
4.3. Protocolul de transfer..................................................................................................... 17
4.4. Concluzii ........................................................................................................................ 17
5. Aplicaţii ale Textual Entailment ............................................................................................ 19
5.1. Question Answering ...................................................................................................... 19
5.2. Answer Validation Exercise .......................................................................................... 20
5.2.1. Rezultate obţinute în AVE2007 şi în AVE2008 ......................................................... 21
5.3. Aplicaţii pentru limba română ....................................................................................... 21
5.3.1. Sistemul de TE pentru limba română .......................................................................... 21
5.3.2. Aplicaţii ....................................................................................................................... 22
5.4. Concluzii ........................................................................................................................ 22
6. Concluzii ................................................................................................................................ 23
6.1. Contribuţiile tezei de doctorat ....................................................................................... 23
6.2. Munca viitoare ............................................................................................................... 23
7. Bibliografie ............................................................................................................................ 25
2
1. Introducere
Recunoaşterea inferenţelor textuale (textual entailment recognition) (Dagan et al., 2005) este una
din cele mai recente competiţii din domeniul procesării limbajului natural. Participanţii în această
competiţie trebuie să dovedească că pot creea sisteme care înţeleg modul în care funcţionează
limbajul natural.
Recent, în (Dagan şi Glickman, 2004) a fost definită noţiunea de inferenţă textuală
(textual entailment) ca fiind o relaţie dintre două fragmente de text numite text (T) şi ipoteză (H),
care are loc atunci când înţelesul lui H poate fi dedus din înţelesul lui T. Acest lucru înseamnă că
majoritatea oamenilor sunt de acord că înţelesul lui T îl implică pe cel al lui H.
Din 2005 şi până în 2007 competiţiile au fost organizate de PASCAL1, iar în 2008 a fos t
organizată de TAC2. De la an la an au fost adăugate noi caracteristici competiţiilor, iar interesul
participanţilor a crescut din ce în ce mai mult. Trebuie precizat că în 2005 şi în 2006 a fost un
singur exerciţiu (2-way) în care răspunsurile puteau fi clasificate cu (Yes şi No) în funcţie de
identificarea relaţiei de inferenţă sau nu. În ediţiile din 2007 şi 2008 răspunsurile No au fost
împărţite în două (Necunoscut şi Contradicţie).
În tabelele de mai jos am afişat câteva informaţii legate de numărul participanţilor,
precizia medie şi cel mai bun rezultat al sistemelor în această competiţie şi rezultatul obţinut de
sistemul creat de noi pentru competiţiile din 2007 şi 2008.
# de grupuri Media preciziilor Cea mai bună precizie UAIC3
2005 16 55.12 % 70.00 % -
2006 23 58.62 % 75.38 % -
2007 26 61.14 % 80.00 % 68.13 %
2008 26 57.30 % 74.60 % 72.10 %
Tabela 1: Rezultatele din competiţiile RTE 2-way
# de grupuri Media preciziilor Cea mai bună precizie UAIC
2007 10 47.1 % 73.1 % 56.9 %
2008 13 51.0 % 68.5 % 68.5 %
Tabela 2: Rezultatele din competiţiile RTE 3-way
1 Pascal: http://www.pascal-network.org/ 2 Conferinţa TAC: http://www.nist.gov/tac/ 3 Partea cea mai importantă a tezei este legată de prezentarea sistemului UAIC.
3
2. Direcţii principale în Textual Entailment
Începând cu ediţia din 2005, primele abordări s-au concentrat pe identificarea potrivirilor dintre
cuvinte (Herrera, 2005), a relaţiilor lexicale (Bayer et al., 2005), a similarităţilor WordNet
(Herrera, 2005), a potrivirilor sintactice (Delmonte et al., 2005). De asemenea s-au făcut primele
încercări în a folosi cunoaşterea despre lume (Bayer et al., 2005) sau inferenţele logice
(Akhmatova, 2005). Majoritatea sistemelor au încercat să folosească diferite praguri şi diferite
setări pentru parametri pentru a obţine o precizie cât mai bună.
În a doua ediţie, din 2006, direcţiile principale au rămas în general aceleaşi, numai
algoritmii au devenit mult mai complexi, ducând la obţinerea unor rezultate mai bune. Noile
direcţii au fost legate de identificarea rolurilor semantice (Hickl et al., 2006), clasificarea folosind
algoritmi de învăţare automată (Inkpen et al., 2006 and Kozareva, 2006), folosirea cunoaşterii
suplimentare (Tatu et al., 2006), achiziţia de corpus de antrenament (Hickl et al., 2006).
Din a treia ediţie, din 2007, au fost folosite abordări din ce în ce mai avansate. Grupurile
s-au orientat pe construirea de sisteme bazate pe folosirea structurii sintactice a Textului şi a
Ipotezei, pe înţelegere semantică a textelor şi de asemenea pe verificarea conţinutului şi a
situaţiilor noi care au apărut în corpusul de test. O atenţie deosebită a fost alocată entităţilor de tip
nume (Tatu and Moldovan, 2007) şi relaţiilor care se pot stabili între astfel de entităţi (Iftene and
Balahur-Dobrescu, 2007a). De asemenea, s-au încercat diverse strategii pentru extragerea
diverselor forme de relaţii ce se pot stabili între text şi ipoteză (Chambers et al., 2007) şi (Hickl
and Bensley, 2007). Datorită introducerii textelor lungi s-au folosit şi strategii de rezoluţia
anaforei: (Delmonte, 2007), (Bar-Haim et al., 2007), (Iftene and Balahur-Dobrescu, 2007a).
Rezultatele obţinute până acuma au demonstrat că sistemele, care au folosit o analiză
profundă a potrivirilor sintactice sau au folosit inferenţe logice, au depăşit în performanţă
sistemele lexicale. Succesele celor mai bune sisteme sugerează că cei mai importanţi factori în
construirea unui sistem de inferenţe textuale îşi au originea în folosirea cunoaşterii suplimentare
despre lume sau în mărimea corpusului de antrenament.
4
3. Sistemul UAIC
Ideea principală a sistemului folosit în competiţia din 2007 (Iftene and Balahur-Dobrescu, 2007a)
şi îmbunătăţit pentru competiţia din 2008 (Iftene, 2008c) este de a mapa fiecare nod din ipoteză la
un nod din text folosind resurse semantice de cunoaştere precum DIRT, WordNet, Wikipedia,
VerbOcean şi o bază de date de acronime. După realizarea procesului de mapare, se asociează o
valoare reprezentând scorul de potrivire locală pentru fiecare cuvânt din ipoteză, care este folosit
în calcularea unui scor de potrivire globală pentru fragmentele curente de text. Scorul de potrivire
globală este micşorat în cazul în care un cuvânt din ipoteză nu poate fi mapat la un cuvânt din
text sau când avem forme diferite de negaţie pentru două verbe mapate. La ultimul pas, pe baza
pragurilor identificate pe datele de antrenament, se decide pentru fiecare pereche din datele de
test, dacă avem sau nu relaţie de inferenţă între fragmentele de text.
Sistemul folosit în competiţia RTE-4 foloseşte în plus faţă de sistemul folosit în
competiţia RTE-3 noi resurse semantice cu scopul cu scopul de a identifica mai bine cazurile de
contradicţie. Figura 2 arată resursele de cunoaştere şi lanţurile de procesare ale sistemului folosit
în RTE-4 (cu gri sunt componentele nou adăugate):
Figura 2: Arhitectura sistemului UAIC
Perechile iniţiale(T, H)
DIRT
Modulul Minipar
Arborii de dependenţă
pentru (T, H)
Modulul LingPipe
Entităţi de tip nume
pentru (T, H)
Răspunsuri finale
Acronime
Cunoaştere suplimentară
Wordnet Modulul principal
Wikipedia
VerbOcean
TreeTagger
Numere &Dată
Regula EN
Resurse
Regula de scor
Regula de contradicţie
Reguli de negaţie
Numb GATE
Pre-procesare
5
3.1. Pre-procesarea
Pregătirea datelor – are ca scop îmbunătăţirea calităţii ieşirii pentru unelte folosite. Astfel, pe
datele iniţiale de test4 sunt efectuate transformări care nu schimbă sensul textului, ci doar îi
schimbă forma de afişare. Aceste transformări includ scrierea detaliată a unor prescurtări (de
exemplu toate apariţiile lui “hasn’t” în text sunt înlocuite cu textul “has not”) sau folosirea
spaţiilor atunci când întâlnim semne de punctuaţie. După astfel de transformări înţelesul textului
rămâne acelaşi, dar ieşirea uneltelor MINIPAR sau LingPipe se îmbunătăţeşte.
Identificarea entităţilor de tip nume – presupune identificarea de entităţi de tip nume folosind
LingPipe (pentru locaţii, nume de persoane sau organizaţii, etc) şi GATE (Cunningham et al.,
2001) (pentru clase mai specifice de entităţi de tip nume precum numele de familie, nume
masculine sau nume feminine). Pe lângă folosirea acestor utilitare, am construit şabloane
specifice pentru identificarea procentelor, unităţilor de măsură, perioadelor de timp, etc.
Construirea arborilor de dependenţă – se face cu MINIPAR5 (Lin, 1998) şi se execută în
paralel cu etapa de identificare a entităţilor de tip nume. În acest arbore nodurile sunt cuvintele
din propoziţiile iniţiale împreună cu categoriile lor gramaticale, iar muchiile reprezintă relaţii de
dependenţă sintactică.
Corectarea părţilor de vorbire şi a lemelor identificate greşit cu MINIPAR – se face folosind
aplicaţia TreeTagger6 în momentul în care nu se identifică nici un verb într-o propoziţie. Acest
pas este foarte important, deoarece operaţiile de mapare între arbori pornesc de la rădăcina
arborelui de dependenţă asociat ipotezei, care este un verb.
3.2. Transformarea arborelui asociat ipotezei
Din aceste moment, obiectivul principal este de a mapa fiecare entitate din arborele de
dependenţă asociat ipotezei (numit pe scurt arborele ipotezei) la o entitate din arborele de
dependenţă asociat textului (pe scurt arborele textului) (Iftene and Balahur-Dobrescu, 2007a).
Maparea între entităţi poate fi realizată în două moduri: direct (când entităţile din arborele
4 Datele de test din RTE4: http://www.nist.gov/tac/protected/2008/RTE4_TEST-SET.xml.gz 5 MINIPAR: http://www.cs.ualberta.ca/~lindek/minipar.htm 6 TreeTagger: http://www.cele.nottingham.ac.uk/~ccztk/treetagger.php. Precizia acestei unelte este de 96.36 %, valoare care este superioară preciziei MINIPAR-ului care este sub 80 %.
6
ipotezei există în arborele textului) sau indirect (când entităţile din arborele ipotezei nu pot fi
mapate direct şi necesită transformări folosind resurse externe). Pe baza tipului mapării dintre
entitatea din ipoteză şi entitatea din text, calculăm o valoare fitness local care indică apropierea
dintre entităţi. Pe baza fitnessului local al nodului şi pe baza fitnessului local al tatălui său, se
calculează o valoare fitness local extinsă, iar în final, pe baza tuturor acestor valori, se calculează
o valoare normalizată ce reprezintă fitnessul global.
Când o entitate din arborele ipotezei poate fi mapată direct la mai multe entităţi din
arborele textului, se selectează maparea care va mări fitnessul global cel mai mult. Când nu este
posibil să mapăm o entitate din arborele ipotezei la nici o entitate din arborele textului, se
folosesc resurse externe precum: DIRT, VerbOcean şi WordNet (pentru verbe), baza de date
acronime şi cunoaşterea suplimentară (pentru entităţi de tip nume), eXtended WordNet şi
WordNet (pentru substantive şi adjective). În continuare prezentăm pe scurt aceste resurse:
• DIRT7 (Lin and Pantel, 2001) – ne permite să găsim relaţii de echivalenţă între drumuri
ce au ca nod central un verb din arborele ipotezei şi arborele textului.
• VerbOcean8 (Chklovski and Pantel, 2004) – este folosit pentru a identifica relaţiile de
antonimie dintre verbe.
• eXtended WordNet9 - ne permite să identificăm relaţii de similaritate între entităţi din
ipoteză şi entităţi din text.
• Din WordNet (Fellbaum, 1998) – folosim relaţia de sinonimie pentru substantive şi
pentru adjective, şi relaţia de antonimie dintre verbe.
• Baza de date de acronime10 - ajută programul nostru să găsească relaţii între acronime şi
semnificaţia lor.
• Cunoaşterea suplimentară (Iftene and Balahur-Dobrescu, 2008b) – ajută programul
nostru să găsească relaţii între entităţile de tip nume din ipoteză (fără corespondenţă în
text) şi altă entitate de tip nume din text. Întrucât această resursă nu exista, am realizat un
modul separat care să o construiască. Abordarea noastră constă din aplicarea de şabloane
ce identifică contexte de definiţii pe o resursă vastă precum Wikipedia, urmată de
extragerea de relaţii între entităţile de tip nume identificate în aceste contexte.
7 DIRT: http://aclweb.org/aclwiki/index.php?title=DIRT_Paraphrase_Collection 8 VerbOcean: http://demo.patrickpantel.com/Content/verbocean/ 9 eXtended WordNet: http://xwn.hlt.utdallas.edu/ 10 Baza de date cu acronime: http://www.acronym-guide.com
7
3.3. Modulul Principal
În continuare vom vedea pentru fiecare tip de răspuns care reguli ne ajută în identificarea acestuia.
Toate exemplele următoare fac referinţă la datele de test11 din RTE-4.
3.3.1. Cazurile de Entailment
Reguli de bază: orice tip de mapare va mări fitnessul global şi-n final va mări probabilitatea de a
da răspunsul “Entailment”. Dacă maparea este realizată direct scorul de mapare este considerat 1
(adică valoarea maximă). Pentru verbe când se foloseşte resursa DIRT (Lin, 1998) sau pentru
substantive şi adjective când se foloseşte resursa eXtended WordNet se consideră scorul de
similaritate oferit de aceaste resurse. În cazul entităţilor de tip nume, dacă folosim baza de date de
acronime, atunci scorul de mapare este tot 1 (deoarece acestea reprezintă acelaşi lucru), dacă
folosim cunoaşterea suplimentară putem avea scor 1 când entităţile sunt din aceeaşi clasă, ca de
exemplu la perechea 216 (unde avem o relaţie între două ţări UK şi British), sau putem avea scor
de 0.5 când entităţile sunt din clase diferite, ca de exemplu la perechea 104 (unde avem o relaţie
între oraşul Buenos Aires şi ţara Argentina).
Reguli pentru numere: în ediţia din 2008 a competiţiei RTE am construit o listă de
cuantificatori (“more than”, “less than”, “over”, “under”, etc.), iar pe baza lor am asociat
intervale de numere textului sau ipotezei. De exemplu, la perechea 304, unde în text avem “at
least 80 percent” putem face legătura cu “more than 70 percent” din ipoteză.
3.3.2. Cazuri de No Entailment
Reguli de bază: pentru nodurile din ipoteză care nu pot fi mapate la noduri din text, se introduc
penalizări în valorile fitness. Deasemenea, deoarece stop word-urile din ipoteză (the, an, a, at, to,
of, in, on, by, etc.) măresc artificial valorile fitness, nu le luăm în considerare atunci când
calculăm fitnessul global.
Reguli de negaţie: pentru fiecare verb din ipoteză sau din text considerăm o valoare booleană
care ne specifică dacă verbul este negat sau nu. Pentru a vedea dacă verbul este negat, se caută pe
ramurile descendente cuvinte ca: not, never, may, might, cannot, etc. Pentru fiecare astfel de
cuvânt, valoarea de adevăr asociată verbului este negată succesiv, iar valoarea finală depinde de
numărul de astfel de cuvinte găsite.
11 Datele de test RTE-4: http://www.nist.gov/tac/protected/2008/RTE4_TEST-SET.xml.gz
8
Reguli corespunzătoare cazurilor de contradicţie: sunt aplicate când verbele sunt negate
folosind cuvinte precum “never”, “not”, “no”, “cannot”, “unsuccessfully”, “false” etc. De
asemenea sunt considerate şi cazurile de antonimie identificate cu VerbOcean sau cu WordNet.
Pentru toate cazurile în care se aplică regulile de contradicţie, se introduc penalizări mari direct în
valoarea fitness globală. Din acest motiv, răspunsul în aceste cazuri va fi “Contradiction”.
Reguli corespunzătoare cazurilor de unknown: sunt aplicate când verbele sunt negate cu
cuvinte ca “may”, “can”, “should”, “could”, “must”, “might”, “infrequent”, “rather”, “probably”,
etc. În aceste cazuri penalizările considerate nu sunt decisive în stabilirea răspunsului final, ce
este obţinut doar după calcularea fitnessului global
Regulă pentru entităţile de tip nume: este aplicată atunci când o entitate de tip nume din
ipoteză nu poate fi mapată prin nici o metodă la o entitate de tip nume din text. În acest caz
răspunsul final este decis pe loc ca fiind “Unknown”.
3.3.3. Calcularea valorilor fitness
În continuare, să vedem cum sunt calculate valorile fitness local, fitness local extins şi fitnessul
global.
Fitness local: Pentru fiecare nod din ipoteză mapat direct la un nod din text considerăm fitnessul
local ca fiind 1. Pentru nodurile care nu pot fi mapate direct avem următoarele situaţii posibile:
• Dacă cuvântul e verb şi maparea s-a făcut cu resursa DIRT fitnesul local este
considerat scorul DIRT de similaritate. Dacă se identifică orice tip de antonimie între
verbe (folosind VerbOcean sau WordNet) se aplică regula pentru contradicţii şi
răspunsul final este “Contradiction”.
• Dacă cuvântul este entitate de tip nume şi folosim pentru mapare baza de date de
acronime sau relaţiile între entităţi de acelaşi tip din resursa ce conţine cunoaşterea
suplimentară fitnessul local este considerat ca fiind 1. Pentru celelalte tipuri de relaţii
din resursa cu cunoaşterea suplimentară considerăm fitnessul local ca fiind 0.5.
• Pentru substantive şi adjective considerăm fitnessul local ca fiind 1 când folosim
pentru mapare WordNet sau scorul de similaritate când folosim eXtended WordNet.
• Dacă după toate verificările anterioare cuvântul din ipoteză nu poate fi mapat la un
9
cuvânt din text, atunci fitnessul local este setat pe valoarea -0.5.
Pentru un cuvânt din ipoteză, valoarea fitness locală, ne informează despre modul în care a fost
făcută maparea. Valorile mari indică că maparea s-a făcut cu succes la un nod similar din text.
Valorile mici indică probleme în mapare. Ce nu ştim despre? Contextul în care maparea a fost
făcută: Au nodurile acelaşi părinte? Dacă da, există aceleaşi tipuri de relaţii între noduri? etc.
Scopul considerării valorii fitness locale extinse şi modul în care aceasta este calculată, este de a
fixa aceste inconvienente.
Fitnessul local extins este calculat pentru fiecare nod din ipoteză ca fiind media aritmetică a
următoarelor valori:
1. Fitnessul local obţinut după transformarea arborelui şi maparea nodului,
2. Fitnesul local al părintelui după maparea parintelui,
3. Maparea etichetei muchiei dintre nod şi părinte în arborele textului,
4. Poziţia nodului (stânga, dreapta) faţă de tatăl său din ipoteză şi poziţia nodurilor
mapate din text.
Deoarece toate valorile de la (1.) la (4.) sunt în domeniul de la -1 la 1, media aritmetică a
nodurilor va fi tot în intervalul [-1, 1].
Fitnessul global este calculat folosind valoarea fitness total FT şi valoarea de negaţie VN:
|\|\
StopWordsI
alExtinsFitnessLoc
FTStopWordsIcuvant
cuvant∑∈
=
deVerbeNumarTotal
PozitiveVerbedeVN
___#=
Unde #_de_Verbe_Pozitive este numărul de verbe ne-negate din ipoteză. Formula pentru fitnessul
global este dată mai jos. Din modul de calcul, valoarea fitnessului global este în intervalul [-1, 1].
))(1(*))(1(* FTabsVNabsFTVNbalFitnessGlo −−+=
3.3.4. Obţinerea răspunsului final pe baza fitnessului global
Cazurile de “No entailment” sunt deosebite de cazurile de “Entailment” pe baza
pragurilor identificate pe datele de antrenament.
10
Figura : Considerarea răspunsurilor finale considerând valoarea global fitness
Astfel între -1 şi pragul1 sunt cazurile de “Contradiction”, între pragul1 şi pragul2 sunt cazurile
“Unknown”, iar între pragul2 şi +1 sunt cazurile de “Entailment”.
3.4. Rezultate Rezultatele prezentate în acest capitol sunt din competiţiile în care am participat: RTE-3 şi RTE-4.
Rezultate în RTE3
În ediţia RTE-3 sistemul a fost conceput pentru exerciţiul principal 2-way. Pe baza acestui sistem
s-a construit o versiune folosită în exerciţiul 3-way. Rezultatele sunt date în următoarele tabele:
Tip
răspuns
# de
răspunsuri
în Gold
# de
răspunsuri
corecte date de
sistemul UAIC
# total de
răspunsuri date
de sistemul
UAIC
Precizie Recall F-
measure
Yes 410 379 594 63.80 % 92.44 % 75.50 %
No 390 174 206 84.47 % 44.62 % 58.39 %
Total 800 553 800 69.13 %
Tabela : Rezultatele obţinute de sistemul UAIC în exerciţiul 2-way al ediţiei RTE-3
Din aceste rezultate se poate deduce că regulile folosite în identificarea negaţiilor şi a
entităţilor de tip nume cu probleme au o precizie foarte bună şi identifică cu o precizie foarte
bună cazurile de No entailment. Numărul mare de răspunsuri Yes indică faptul că sistemul
preferă acest răspuns atunci când nu are suficiente indicii pentru a alege unul din răspunsurile
posibile.
Cazurile de Entailment Cazurile de NO entailment
prag2 prag1
Cazurile de
Unknown
cases
Cazurile de
Contradiction
-1 +1
11
Tip răspuns # de
răspunsuri
în Gold
# de
răspunsuri
corecte date
de sistemul
UAIC
# total de
răspunsuri
date de
sistemul UAIC
Precizie Recall F-
measure
Entailment 410 379 594 63.80 % 92.44 % 75.50 %
Contradiction 72 10 115 8.70 % 13.89 % 10.70 %
Unknown 318 67 91 73.63 % 21.07 % 32.76 %
Total 800 456 800 57.00 %
Tabela : Rezultatele obţinute de sistemul UAIC în exerciţiul 3-way al ediţiei RTE-3
Rezultatele ne indică faptul că trecerea de la 2-way la 3-way s-a făcut într-un mod
nefericit, ducând la o scădere simţitoare a preciziei.
Rezultate în RTE4
În această ediţie atenţia noastră a fost orientată pe îmbunătăţirea sistemului pentru exerciţiul 3-
way, rezultatele pentru 2-way obţinându-se din acestea.
Tip răspuns # de
răspuns
uri în
Gold
# de
răspunsuri
corecte date
de sistemul
UAIC
# total de
răspunsuri
date de
sistemul
UAIC
Precizie Recall F-measure
Entailment 500 466 712 65.45% 93.20% 76.90%
Contradiction 150 69 85 81.18% 46.00% 58.72%
Unknown 350 150 203 73.89% 42.86% 54.25%
Total 1000 685 1000 68.50%
Tabela : Rezultatele obţinute de sistemul UAIC în exerciţiul 3-way al ediţiei RTE-4
Rezultatele demonstrează faptul că regulile folosite în identificarea cazurilor de
Contradiction şi Unknown sunt foarte eficiente. Distribuţia pentru 2-way este mai jos:
12
Tip
răspuns
# de
răspunsuri
în Gold
# de
răspunsuri
corecte date
de sistemul
UAIC
# total de
răspunsuri
date de
sistemul
UAIC
Precizie Recall F-measure
Yes 500 466 712 65.45% 93.20% 76.90%
No 500 255 288 88.54% 51.00% 64.72%
Total 1000 721 1000 72.10%
Tabela : Rezultatele obţinute de sistemul UAIC în exerciţiul 2-way al ediţiei RTE-4
3.5. Limitări ale sistemului Aici, sunt prezentate cazuri în care sistemul a fost incapabil să identifice răspunsul corect din
diferite motive.
Limitări din cauza lipsei resurselor: într-un număr semnificativ de cazuri sistemul nu a reuşit
să găsească o relaţie între un cuvânt din ipoteză şi un cuvânt din text. Aceste situaţii au influenţat
într-un mod negativ procesul de luare a deciziei. Cazurile pe care le-am identificat se referă la:
• Lipsa colecţiilor de parafraze;
• Lipsa unor reguli care ne-ar permite să obţinem informaţii suplimentare;
• Lipsa unor ontologii cu cunoaştere suplimentară despre lume.
Limitări din cauza exploatării ineficiente a resurselor geografice: acest inconvenient vine din
faptul că nu am reuşit să folosim relaţia de vecinătate dintre zone geografice. În astfel de cazuri
specificarea unor valori legate de distanţa dintre zonele geografice, explicitarea unor dezastre
naturale care au avut loc în aceste zone, etc. ne-ar ajuta în stabilirea unor legături între acestea.
Lipsa etichetărilor care să specifice rolul semantic: afectează identificarea corectă a cazurilor
“Unknown” şi “Contradiction”, deoarece, în astfel de cazuri, identificarea faptului că anumite
cuvinte au roluri semantice diferite în text şi-n ipoteză ne-ar ajuta în stabilirea relaţiei de
entailment.
Existenţa unor reguli “inutile”: a căror aplicare nu are nici un impact asupra preciziei
sistemului. Aceste reguli sunt: regula “but” (ce este aplicată ca o regulă de negaţie: o afirmaţie
iniţială este negată de o afirmaţie care apare după cuvântul “but”), reguli simple cu referire la
13
identificarea rolurilor semantice (identificarea argumentelor A0 şi A1 folosind anumite relaţii
identificate de MINIPAR), reguli simple pentru identificarea anaforei (atunci când pronumele
folosite sunt “she”, “her”, “he” şi “his”).
3.6. Munca viitoare Munca viitoare are ca principal scop eliminarea neajunsurilor prezentate mai sus. Astfel, ca o
primă direcţie dorim să folosim algoritmi de învăţare automată pentru a face clasificarea
răspunsurilor finale oferite de sistem, într-un mod similar celui folosit în (Iftene and Balahur-
Dobrescu, 2008a).
Un al doilea obiectiv este să continuăm construirea de resurse specifice care să conţină
relaţii între entităţi de tip nume. Al treilea obiectiv urmăreşte să transforme “regulile inutile”
prezentate mai sus în reguli care să aibă un impact pozitiv asupra preciziei sistemului.
3.7. Concluzii Algoritmul principal folosit de sistem are ca scop maparea cuvintelor din ipoteză la cuvinte din
text, folosind arbori de dependenţă. Sistemul foloseşte resurse de analiză sintactică precum
MINIPAR şi TreeTagger, resurse lexicale ca WordNet şi eXtended WordNet, LingPipe şi GATE
pentru identificarea entităţilor de tip nume şi resurse semantice precum DIRT şi VerbOcean. Din
elementele de originalitate ale sistemului trebuie să remarcăm în primul rând crearea unei resurse
cu relaţii între entităţi de tip nume folosind Wikipedia, în al doilea rând folosirea unei baze de
date cu acronime din mai multe domenii, în al treilea rând construirea unei resurse cu termeni
care influenţează sensul verbelor în limba engleză, şi în final, din punct de vedere tehnic,
folosirea unei arhitecturi distribuite care să reducă timpul de execuţiei a sistemului, cum vom
vedea în capitolul următor.
Diferenţele între sistemul folosit în RTE-3 şi cel folosit în RTE-4, vin din faptul că în
ultimul sistem am folosit unelte noi precum (GATE, TreeTagger), resurse noi ca (VerbOcean) şi
reguli noi pentru (Contradiction, Named Entities).
Cu noile modificări, precizia sistemului din RTE-4 a fost îmbunătăţită, iar sistemul este
orientat mai mult pe un sistem Entailment-Contradiction-Unknown, deoarece regulile pentru
contradicţie sunt mult mai clar specificate. Rezultatele obţinute în RTE-4 sunt mai bune decât
rezultatele din RTE3: 72.1 % în exerciţiul 2-way (cu 3 % mai bine decât în RTE3) şi 68.5 % în
exerciţiul 3-way (cu 14.5 % mai bine decât în RTE3).
Problemele principale nerezolvate se referă la cazurile în care textul şi ipoteza sunt foarte
14
asemănătoare şi conţin aceeaşi mulţime de cuvinte, dar într-o altă ordine, iar cuvintele au roluri
semantice diferite în text şi-n ipoteză.
15
4. Îmbunătăţiri Pentru a îmbunătăţi viteza de rulare, am adoptat o arhitectură peer-to-peer (P2P), iar comportarea
sistemului este asemănătoare cu a unui Grid computaţional. După configurarea reţelei peer-to-
peer, un calculator devine Iniţiatorul şi construieşte lista vecinilor disponibili. Rând pe rând,
Iniţiatorul execută diverse sarcini cum ar fi împărţirea problemei iniţiale în sub-probleme,
trimiterea sub-problemelor la vecinii disponibili spre rezolvare, primirea soluţiilor parţiale şi
construirea soluţiei finale. Funcţionalitatea sistemului a fost îmbunătăţită prin folosirea unui
mecanism de caching şi folosirea unei quota pentru sincronizarea terminării tuturor proceselor.
Reţeaua pe care am făcut teste a fost configurată cu 7 procese ce rulau pe 5 calculatoare (3 din ele
cu un singur procesor şi 2 cu două procesoare) şi o rulare a sistemului pe cele 800 de perechi de
test din RTE-3 durează aproximativ 6.7 secunde.
4.1. Arhitectura peer-to-peer Arhitectura P2P a sistemului se bazează pe modelul CAN (Iftene, Balahur-Dobrescu, Matei,
2007). Sistemul prezentat mai jos este compus din mai multe module centrale (MC) şi baze de
date a resurselor lingvistice. Pentru a rezolva exerciţiul din competiţia RTE trebuie să ne
conectăm la un calculator din acest GRID computaţional şi să iniţiem sistemul de TE.
Figura : Reţeaua P2P
Iniţiator DIRT db
MC
MC
MC
MC
Acronime
SMB upload
SMB download
MC
MC
16
Rezultate
Ideea de a folosi o arhitectură P2P optimizată ne-a venit după prima rulare a primului sistem
construit pentru RTE3 (Iftene and Balahur-Dobrescu, 2007a). Această primă rulare pe toate
datele de test din RTE-3 nu avea nici o optimizare şi dura în jur de 26 de ore pe un calculator.
Pentru a putea observa modificările efectuate asupra sistemului mai rapid, am îmbunătăţit acest
sistem şi pe durata competiţiei RTE-3 am folosit un sistem a cărui rulare dura aproximativ 8 ore
pentru o execuţie completă.
Tot cu scopul de a mări viteza de execuţie, am considerat un mecanism de caching pentru
bazele de date mari precum Dirt şi WordNet. Pentru a construi resursa de caching, sistemul a fost
rulat pe un singur calculator. După aceasta, GRID-ul computaţional a fost configurat cu ajutorul
unei reţele P2P cu 5 calculatoare (3 cu un singur procesor şi 2 cu două procesoare) şi o rulare a
sistemului pe aceleaşi date de test din RTE-3 durează doar 6.7 secunde.
Această abordare pare să fie cea mai adecvată ţinând cont de complexitatea problemei şi
de faptul că orice modificare asupra sistemului trebuie evaluată rapid (competiţia a durat 3 zile în
RTE-3 şi 6 zile în RTE-4). Din ceea ce ştim, nu au mai existat abordări similare din punct de
vedere al optimizării sistemului de TE din punct de vedere al vitezei de execuţie.
4.2. Sistemul GRID Pentru a avea o comportare eficientă din punct de vedere al timpului de execuţie atunci când nu
folosim mecanismul de caching sau mecanismul de quota, am decis să folosim un GRID
computaţional pentru operaţiile consumatoare de timp. Astfel, am construit două tipuri de servicii
GRID: de bază şi complexe pentru prelucrările lingvistice din reţeaua noastră P2P şi am
implementat un serviciu discovery pentru a ne ajuta în configurarea reţelei.
Serviciile GRID de bază folosesc fişiere text ce conţin colecţiile lingvistice de date.
Serviciile implementate sunt serviciul de lematizare, serviciul de sinonimie, serviciul de
antonimie, serviciul DIRT, serviciul pentru acronime, serviciul pentru identificarea cunoaşterei
suplimentare (denumirea serviciului sugerând ce se obţine în urma apelării lui).
Serviciile GRID complexe folosesc serviciile GRID de bază şi implementează algoritmi
specifici pentru a putea identifica relaţia de inferenţă dintre text şi ipoteză. Aceşti algoritmi sunt
idependenţi de limbaj şi folosesc ca intrare ieşirea de la serviciile de bază. Serviciile GRID
complexe sunt: serviviul de transformare a ipotezei, serviciul de transformare a textului şi
17
serviciul de calculare a valorii fitness globale.
Serviciul discovery a fost implementat folosind protocolul PDP (Peer Discovery
Protocol) din proiectul JXTA (Iftene, 2008a). Acest serviciu este responsabil cu partea de
configurare a reţelei P2P, el identificând adresele IP ale uneltelor şi resurselor NLP şi adresele
serviciilor GRID.
4.3. Protocolul de transfer Protocolul de transfer folosit este bazat pe CIFS12 (Common Internet File System), versiunea
Microsoft a protocolului SMB13 (Server Message Block). Protocolul are la bază trimiterea de
mesaje SMB atât ca cereri cât şi ca răspunsuri, după cum se poate observa mai jos.
Figure : Protocolul CIFS
Scopul folosirii acestui protocol a fost de a permite gestionarea operaţiilor de download şi
upload de fişiere între nodurile reţelei P2P. Folosind protocolul nostru, avantajele vin din faptul
că se poate oferi posibilitatea de reîncercare în caz de disconectare şi se poate folosi doar parţial
banda de transfer pentru a putea evita supraîncărcarea reţelei.
4.4. Concluzii În acest capitol am prezentat soluţia adoptată cu scopul de a îmbunătăţi viteza de execuţie a
sistemului TE. Arhitectura folosită în ediţiile RTE-3 şi RTE-4 e bazată pe o reţea P2P care
foloseşte un mecanism de caching mechanism pentru resursele mari şi un mecanism de quota
pentru sincronizarea terminării execuţiei proceselor. Testele efectuate într-o reţea P2P cu 7
procese au demonstrat îmbunătăţiri substanţiale din punct de vedere al vitezei.
O altă direcţie adoptată a fost legată de implementarea unor servicii GRID, utile în
12 CIFS: http://support.microsoft.com/kb/199072 13 Server Message Block: http://en.wikipedia.org/wiki/Server_Message_Block
SMB Responses
SMB Requests
Server
Client
18
construirea sistemelor care oferă răspunsul în timp real. Trei tipuri de servicii GRID au fost
implementate: de bază şi complexe pentru accesarea uneltelor şi resurselor NLP, şi serviciul
discovery folosit în configurarea reţelei.
19
5. Aplicaţii ale Textual Entailment Acest capitol prezintă modul în care poate fi folosit sistemul de Textual Entailment pentru a
îmbunătăţi calitatea unui sistem de Question Answering (QA). Sistemul de TE a fost folosit cu
succes în ediţiile din 2007 şi 2008 ale competiţiei QA@CLEF, în două exerciţii: exerciţiul
principal şi în exerciţiul AVE (Answer Validation Exercise).
5.1. Question Answering Sistemele de QA primesc ca intrare întrebări în limbaj natural, şi nu cuvinte cheie, şi oferă ca
ieşire răspunsuri precise, şi nu documente, ca ieşire.
Folosirea sistemului TE în arhitectura unui sistem de QA
Motivaţia folosirii sistemului de TE ca un modul în arhitectura generală a unui sistem de QA este
de a îmbunătăţi ordonarea răspunsurilor posibile atunci când tipul răspunsului aşteptat este de tip
Measure, Person, Location, Date şi Organization (Iftene, 2008b).
Ideea constă în selectarea tuturor entităţilor de tip nume relevante din fragmentele de text
extrase pentru o întrebare şi în înlocuirea variabilelor din şabloanele asociate întrebării, cu aceste
valori, similar abordării din (Bar-Haim et al., 2006). În acest fel, se obţin mai multe ipoteze
pentru un text (considerat ca fiind fragmentul de text extras). Pentru fiecare ipoteză, calculăm
fitnessul global şi apoi selectăm entitatea de tip nume pentru care avem cea mai mare valoare.
Experimente
Experimentele s-au efectuat folosind fişierul trimis în competiţia QA@CLEF200614 la exerciţiul
multilingv română-engleză. Pentru fiecare din cele 200 de întrebări date, sistemul nostru a oferit
zece răspunsuri posibile, ordonate după un scor stabilit de noi. Importanţa ordonării răspunsurilor
oferite se poate observa în rezultatele obţinute. Astfel, pentru primul răspuns din cele zece oferite
sistemul a avut o precizie de 9.47%, pe când în 35% din cazuri sistemul a oferit răspunsul corect
în primele zece răspunsuri.
Ordonarea folosită de sistemul de QA folosea două reguli pentru a ordona răspunsurile:
în primul rând folosea scorul Lucene şi în al doilea rând folosea distanţa de la potenţialele
răspunsuri la focusul întrebării.
Ordonarea folosind sistemul de TE foloseşte ca factor determinant scorul oferit de
14 QA@CLEF2006: http://clef-qa.itc.it/2006bis/CLEF-2006.html
20
sistemul de TE. Desigur, nu în toate cazurile tratate am obţinut rezultatul dorit cu această metodă,
dar în general s-a putut observa o îmbunătăţire a răspunsurilor oferite. Cu această nouă metodă de
ordonare precizia globală a sistemului de QA s-a îmbunătăţit cu 9.5%, dovedind că folosirea
sistemului de TE în cadrul sistemului de QA poate duce la creşteri semnificative ale preciziei.
5.2. Answer Validation Exercise AVE15 este un exerciţiu introdus în cadrul QA@CLEF în 2006 (Peñas et al., 2007) cu scopul de a
valida corectitudinea răspunsurilor oferite de sistemele de QA.
Arhitectura sistemului AVE folosit în ediţia din 2008 este prezentată mai jos:
Figura : Sistemul AVE folosit în ediţia din 2008 pe limba engleză
Paşii executaţi de sistem sunt:
• Similar sistemului construit pentru AVE 2007 (Iftene and Balahur-Dobrescu, 2008d) avem:
� Construirea de şabloane cu variabile pentru fiecare întrebare;
� Folosind un şablon şi toate răspunsurile posibile construim toate ipotezele pentru
fiecare întrebare: H1, H2, H3 etc.;
� Considerăm fragmentele de text ca având rolul de T şi apoi rulăm sistemul TE pentru
toate perechile obţinute: (T1, H1), (T2, H2), (T3, H3), etc.
• În plus, în 2008 (Iftene and Balahur-Dobrescu, 2008c) am mai considerat:
� Am identificat tipul răspunsului (AT);
15 AVE: http://nlp.uned.es/clef-qa/ave/
Sistem de TE
Date de test AVE
construire
şabloane Şablon
Text (T)
Rezultate AVE - 1
construire
ipoteze
construire
text
ordonare după
fitness global
Răspunsuri
Fragmente de text
Tip răspuns (AT)
Tipul răspunsului aşteptat (EAT)
Rezultate AVE - 2
if (AT = EAT) ordonare
după fitness global
Întrebare Ipoteze (I)
21
� Am identificat tipul răspunsului aşteptat (EAT) pentru întrebări.
În competiţie am trimis două rulări ale sistemului nostru, cu următoarele caracteristici:
1. În prima rulare, am considerat răspuns corect pentru întrebarea curentă candidatul pentru
care sistemul de TE obţinea cel mai mare scor.
2. În a doua rulare, am considerat răspuns corect pentru întrebarea curentă candidatul
pentru care am cel mai mare scor de potrivire între AT şi EAT şi cel mai mare scor
întors de sistemul de TE.
Soluţia oferită urmează modelul experimentelor prezentate la sistemul de QA, cu excepţia
modulului de extragere a răspunsurilor posibile pentru întrebare, care este inutil în cazul
problemei curente.
5.2.1. Rezultate obţinute în AVE2007 şi în AVE2008
Organizatorii au folosit în 2007 şi în 2008 pentru departajarea participanţilor o măsură care
verifică numărul răspunsurilor selectate corect (qa_accuracy). În 2008, s-a mai folosit încă o
măsură care verifică numărul de răspunsuri respinse corect (qa_rej_accuracy). Formulele pentru
aceste două măsuri sunt (Rodrigo et al., 2008):
questions
corectlySELECTEDanswersaccuracyqa
___ =
questions
corectlyREJECTEDanswersaccuracyrejqa
____ =
În ambele ediţii, în raport cu prima măsură din şapte grupuri participante pe limba engleză
ne-am clasat pe primul loc la egalitate cu un alt grup. În 2008, în funcţie de a doua măsură ne-am
clasat pe locul patru.
5.3. Aplicaţii pentru limba română Încurajaţi de rezultatele obţinute pe limba engleză, am încercat să facem ceva similar pe limba
română.
5.3.1. Sistemul de TE pentru limba română
Am mers pe aceeaşi ideea de la sistemul englezesc: să mapăm cuvinte din ipoteză în text folosind
resurse externe disponibile pe limba română: WordNetul românesc (Tufiş et al., 2004), GATE
(Cunningham et al., 2001), baze de date de acronime şi cunoaştere suplimentară obţinută din
Wikipedia românească (Iftene and Balahur-Dobrescu, 2007d). Deoarece calitatea acestor resurse
22
este scăzută în comparaţie cu limba engleză am aplicat algoritmi specifici pentru a le îmbunătăţi
calitatea sau pentru a creea noi resurse (Iftene and Balahur-Dobrescu, 2007c).
Pentru a putea evalua sistemul românesc am tradus datele de test şi de dezvoltare din
RTE-3 în română. Rezultatele pe limba română (56.7% pe datele de dezvoltare şi 56.1% pe cele
de test) sunt mai scăzute în comparaţie cu cele obţinute pe limba engleză (Iftene and Balahur-
Dobrescu, 2008a), din cauza diferenţelor atât cantitative cât şi calitative ale WordNetului şi
Wikipediei.
5.3.2. Aplicaţii
Folosirea sistemului românesc de TE în QA ne-a înbunătăţit rezultatele în QA@CLEF2006 cu
5 % (Iftene and Balahur-Dobrescu, 2007b) şi-n QA@CLEF2006 cu 2.5 % (Iftene et al., 2008f).
Folosirea sistemului românesc de TE în AVE s-a realizat similar limbii engleze (Iftene et al.,
2008g) şi a obţinut o precizie de 0.25.
5.4. Concluzii Acest capitol demostrează utilitatea sistemului TE în două exerciţii din competiţia QA@CLEF:
Question Answering (QA) şi Answer Validation Exercise (AVE), atât pe engleză cât şi pe
română. În ambele cazuri folosirea sistemului de TE a dus la îmbunătăţirea rezultatelor.
23
6. Concluzii
6.1. Contribuţiile tezei de doctorat Contribuţiile tezei sunt direcţionate pe patru mari direcţii:
1. Prezentarea competiţiilor RTE: sunt prezentate competiţiile din 2005 până în 2008 cu
principalele caracteristici aduse de la an la an. De asemenea sunt prezentate principalele
direcţii abordate, insisitând pe prezentarea metodelor care au avut cele mai bune
rezultate de-a lungul timpuslui.
2. Construirea unui sistem complex de TE cu rezultate promiţătoare în RTE-3 şi în
RTE-4. Acest sistem este descris în detaliu, prezentând atât aspectele pozitive cât şi
cele negative pe exemple din datele de test. În plus faţă de sistemele existente acest
sistem foloseşte maparea contextuală între cuvintele din ipoteză şi cele din text,
foloseşte resursa Wikipedia şi o gramatică a limbii engleze pentru a identifica relaţii
între entităţile de tip nume, reguli specifice pentru identificarea contradicţiilor şi a
cazurilor de unknown. În final, sistemul, pe baza unor valori fitness calculate şi pe baza
unor praguri identificate în procesul de antrenare, stabileşte răspunsurile finale pentru
toate perechile text, ipoteză.
3. Îmbunătăţirea vitezei de calcul s-a făcut folosind atât reţele Peer-to-Peer şi
mecansisme de caching şi cât şi servicii GRID. Acest aspect este foarte important, în
identificarea rapidă a modificărilor care au loc în sistem, şi în evaluarea calitativă a
acestora. De asemenea, serviciile GRID ne ajută în transformarea aplicaţiei într-una
care să ne ofere răspunsurile în timp real.
4. Adaptarea sistemului de TE pentru a îmbunătăţi calitatea sistemelor de QA şi
AVE atât pe limba engleză cât şi pe limba română, dovedeşte aplicabilitatea muncii
depuse. Rezultatele obţinute ne îndreptăţesc să credem că viitoarele sisteme de căutare
documentară vor folosi pentru ordonarea rezultatelor sisteme care realizează inferenţe
textuale.
6.2. Munca viitoare Munca viitoare va avea ca principal scop îmbunătăţirea sistemelor de TE, QA şi AVE prin
crearea de noi resurse şi îmbunătăţirea modulelor cu probleme. De asemenea, pentru a putea
accesa mai uşor aceste module în cadrul altor aplicaţii, dorim să creăm noi servicii GRID pe
24
limbile engleză şi română care să vină în sprijinul comunităţii NLP.
O altă direcţie importantă este legată de publicarea uneltelor şi resurselor curente sub
licenţa GNU ca open source, pentru a putea fi îmbunătăţite şi utilizate de către dezvoltatorii de
software din domeniu.
25
7. Bibliografie
Akhmatova, E. 2005. Textual Entailment Resolution via Atomic Propositions. In Proceedings of
the First Challenge Workshop Recognising Textual Entailment, Pages 61-64, 33–36 April,
2005, Southampton, U.K
Bar-Haim, R., Dagan, I., Dolan, B., Ferro, L., Giampiccolo, D., Magnini, B. and Szpector, I.
2006. The Second PASCAL Recognising Textual Entailment Challenge. In Proceedings of
the Second Challenge Workshop Recognising Textual Entailment, Pages 1-10, 10 April,
2006, Venice, Italia
Bar-Haim, R., Dagan, I., Greental, I., Szpektor, I., Friedman, M. 2007. Semantic Inference at the
Lexical-Syntactic Level for Textual Entailment Recognition. In Proceedings of the ACL-
PASCAL Workshop on Textual Entailment and Paraphrasing. Pp.1-9. 28-29 June, Prague,
Czech Republic
Bayer, S., Burger, J., Ferro, L., Henderson, J., Yeh, A. 2005. MITRE’s Submissions to the EU
Pascal RTE Challenge. In Proceedings of the First PASCAL Challenge Workshop for
Recognising Textual Entailment, pages 41–44, 11–13 April, 2005, Southampton, U.K.
Chambers, N., Cer, D., Grenager, T., Hall, D., Kiddon, C., MacCartney, B., Marneffe, M. C.,
Ramage, D., Yeh, E., Manning, C. D. 2007. Learning Alignments and Leveraging Natural
Logic. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and
Paraphrasing. Pp.165-170. 28-29 June, Prague, Czech Republic
Chklovski, T. and Pantel, P. 2004. Verbocean: Mining the web for fine-grained semantic verb
relations. In Proceedings of EMNLP 2004, pages 33–40, Barcelona, Spain, July.
Association for Computational Linguistics.
Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V. 2001. GATE: an architecture for
development of robust HLT applications. In ACL '02: Proceedings of the 40th Annual
Meeting on Association for Computational Linguistics, 2001, 168--175, Association for
Computational Linguistics, Morristown, NJ, USA
Dagan, I. and Glickman, O. 2004. Probabilistic textual entailment: Generic applied modeling of
language variability. In Learning Methods for Text Understanding and Mining, Grenoble,
26
France.
Dagan, I., Magini, B., and Glickman, O. 2005. The PASCAL Recognising Textual Entailment
Challenge. In Proceedings of the First PASCAL Challenge Workshop for Recognising
Textual Entailment, pages 1–9, 11–13 April, 2005, Southampton, U.K.
Delmonte, R., Tonelli, S., Aldo Piccolino Boniforti, M., Bristot, A., Pianta, E. 2005. VENSES – a
Linguistically-Based System for Semantic Evaluation. In Proceedings of the First PASCAL
Challenge Workshop for Recognising Textual Entailment, pages 49–52, 11–13 April, 2005,
Southampton, U.K.
Delmonte, R., Bristot, A., Piccolino Boniforti, M. A., Tonelli, S. 2007. Entailment and Anaphora
Resolution in RTE3. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment
and Paraphrasing. Pages 48-53. 28-29 June, Prague, Czech Republic
Fellbaum, C. 1998. WordNet: An Electronic Lexical Database. MIT Press, Cambridge, Mass.
Herrera, J., Peas, A. and Verdejo, F. 2005. Textual Entailment Recognition Based on
Dependency Analysis and WordNet. In Proceedings of the First Challenge Workshop
Recognising Textual Entailment, Pages 21-24, 33–36 April, 2005, Southampton, U.K
Hickl, A., Bensley, J., Williams, J., Roberts, K., Rink, B., Shi, Y. 2006. Recognising Textual
Entailment with LCC’s GROUNDHOG System. In Proceedings of the Second Challenge
Workshop Recognising Textual Entailment, Pages 80-85, 10 April, 2006, Venice, Italia
Hickl, A. and Bensley, J. 2007. A Discourse Commitment-Based Framework for Recognising
Textual Entailment. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment
and Paraphrasing. Pages 185-190. 28-29 June, Prague, Czech Republic.
Iftene, A. 2008a. Discovery Linguistic Services in a GRID Environment. In proceedings
Scientific and Educational GRID Applications. 5th European Conference on Intelligent
Systems and Technologies (ECIT 2008). Publishing House "Politehnium", Iasi. Pages 49-
60. ISBN 978-973-621-236-9. 10-12 July. Iasi, Romania.
Iftene, A. 2008b. Building a Textual Entailment System for the RTE3 Competition. Application
to a QA System. In proceedings of 10th International Symposium on Symbolic and Numeric
Algorithms for Scientific Computing (SYNASC 2008). September 26-29, Timişoara,
România.
27
Iftene, A. 2008c. UAIC Participation at RTE4. In Text Analysis Conference (TAC 2008)
Workshop - RTE-4 Track. National Institute of Standards and Technology (NIST).
November 17-19, 2008. Gaithersburg, Maryland, USA.
Iftene, A., Balahur-Dobrescu, A. 2007a. Hypothesis Transformation and Semantic Variability
Rules Used in Recognising Textual Entailment. In Proceedings of the ACL-PASCAL
Workshop on Textual Entailment and Paraphrasing. Pages 125-130. 28-29 June, Prague,
Czech Republic.
Iftene, A., Balahur-Dobrescu, A. 2007b. Improving a QA System for Romanian Using Textual
Entailment. In Proceedings of RANLP workshop "A Common Natural Language Processing
Paradigm For Balkan Languages". ISBN 978-954-91743-8-0, Pp. 7-14, September 26,
2007, Borovets, Bulgaria.
Iftene, A., Balahur-Dobrescu, A. 2007c. Textual Entailment on Romanian. The third Workshop
on Romanian Linguistic Resources and Tools for Romanian Language Processing. ISSN
1843-911X. Pp. 109-118, 14-15 December. Iaşi, România.
Iftene, A., Balahur-Dobrescu, A. 2007d. Name entity relation discovery using Wikipedia for
Romanian. The third Workshop on Romanian Linguistic Resources and Tools for
Romanian Language Processing. ISSN 1843-911X. Pp. 99-108, 14-15 December. Iaşi,
România.
Iftene, A., Balahur-Dobrescu, A. and Matei, D. 2007. A Distributed Architecture System for
Recognising Textual Entailment. In proceedings of 9th International Symposium on
Symbolic and Numeric Algorithms for Scientific Computing (SYNASC 2007). Pp. 219--226.
Published by the IEEE Computer Society. ISBN 0-7695-3078-8. September 26-29,
Timişoara, România.
Iftene, A., Balahur-Dobrescu, A. 2008a. A Language Independent Approach for Recognising
Textual Entailment. In journal "Research in Computing Science". Vol. 334, Pp. 3-14.
Instituto Politecnico Nacional, Centro de Investigacion en Computacion, Mexico 2007.
ISSN: 1870-4069. Poster at 9th International Conference on Intelligent Text Processing
and Computational Linguistics (CICling 2008). 17-23 February. Haifa, Israel.
Iftene, A., Balahur-Dobrescu, A. 2008b. Named Entity Relation Mining Using Wikipedia. In
Proceedings of the Sixth International Language Resources and Evaluation (LREC'08).
28
ISBN: 2-9517408-4-0, EAN: 9782951740846. 28-30 May, Marrakech, Morocco.
Iftene, A., Balahur-Dobrescu, A. 2008c. Answer Validation on English and Romanian
Languages. In Working Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus,
Denmark.
Iftene, A., Balahur-Dobrescu, A. 2008d. UAIC Participation in AVE 2007. In CLEF 2007. C.
Peters et al. (Eds.), Lecture Notes in Computer Science, LNCS 5152, Pp. 395-403,
Springer-Verlag Berlin Heidelberg 2008
Iftene, A., Pistol, I., Trandabăţ, D. 2008f. UAIC Participation at QA@CLEF2008. In Working
Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus, Denmark
Iftene, A., Rotaru, A., Marcu, D. A. 2008g. The evaluation of the answers for a Romanian
Question Answering system. The fourth Workshop on Romanian Linguistic Resources and
Tools for Romanian Language Processing. 19-20 November. Iaşi, România
Inkpen, D., Kipp, D. and Nastase, V. 2006. Machine Learning Experiments for Textual
Entailment. In Proceedings of the Second Challenge Workshop Recognising Textual
Entailment, Pages 17-20, 10 April, 2006, Venice, Italia
Kozareva, Z. and Montoyo, A. 2006. MLEnt: The Machine Learning Entailment System of the
University of Alicante. In Proceedings of the Second Challenge Workshop Recognising
Textual Entailment, Pages 17-20, 10 April, 2006, Venice, Italia
Lin, D. 1998. Dependency-based evaluation of minipar. In Workshop on the Evaluation of
Parsing Systems, Granada, Spain
Lin, D. and Pantel, P. 2001. Dirt - discovery of inference rules from text. In Proceedings of ACM
Conference on Knowledge Discovery and Data Mining. San Francisco, CA., pages 323–328.
Peñas, A., Rodrigo, Á., Verdejo, F. 2007. Overview of the Answer Validation Exercise 2007. In
Working Notes of the CLEF 2007 Workshop. 19-21 September, Budapest, Hungary.
Rodrigo, Á., Peñas, A. and Verdejo, F. 2008. Overview of the Answer Validation Exercise 2008.
In Working Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus, Denmark.
Tatu, M. and Moldovan, D. 2007. COGEX at RTE3. In Proceedings of the ACL-PASCAL
Workshop on Textual Entailment and Paraphrasing. Pages 22-27. 28-29 June, Prague,
Czech Republic.
29
Tatu, M., Iles, B., Slavick, J., Novischi, A., Moldovan, D. 2006. COGEX at the Second
Recognising Textual Entailment Challenge. In Proceedings of the Second Challenge
Workshop Recognising Textual Entailment, Pages 17-20, 10 April, 2006, Venice, Italia
Tufiş, D., Barbu, E., Barbu Mititelu, V., Ion, R., Bozianu, L. 2004. The Romanian Wordnet.
Romanian Journal of Information Science and Technology, Volume 7, Numbers 1-2, pp.
107-124.
Top Related