Download - TEXTUAL ENTAILMENT - profs.info.uaic.roadiftene/rezumatAI.pdf2 1. Introducere Recunoa şterea inferen ţelor textuale (textual entailment recognition) (Dagan et al., 2005) este una

Universitatea “Al. I. Cuza” din Iaşi

Facultatea de Informatică

TEXTUAL ENTAILMENT

- Rezumatul tezei de doctorat -

Doctorand: Adrian Iftene

Coordonator Ştiinţific:

Profesor Dr. Dan Cristea

– 2009 –

Cuprins Cuprins ............................................................................................................................................. i

1. Introducere ............................................................................................................................... 2

2. Direcţii principale în Textual Entailment ................................................................................ 3

3. Sistemul UAIC ........................................................................................................................ 4

3.1. Pre-procesarea ................................................................................................................. 5

3.2. Transformarea arborelui asociat ipotezei ........................................................................ 5

3.3. Modulul Principal ............................................................................................................ 7

3.3.1. Cazurile de Entailment .................................................................................................. 7

3.3.2. Cazuri de No Entailment ............................................................................................... 7

3.3.3. Calcularea valorilor fitness............................................................................................ 8

3.3.4. Obţinerea răspunsului final pe baza fitnessului global .................................................. 9

3.4. Rezultate ........................................................................................................................ 10

3.5. Limitări ale sistemului ................................................................................................... 12

3.6. Munca viitoare ............................................................................................................... 13

3.7. Concluzii ........................................................................................................................ 13

4. Îmbunătăţiri ........................................................................................................................... 15

4.1. Arhitectura peer-to-peer ................................................................................................ 15

4.2. Sistemul GRID .............................................................................................................. 16

4.3. Protocolul de transfer..................................................................................................... 17

4.4. Concluzii ........................................................................................................................ 17

5. Aplicaţii ale Textual Entailment ............................................................................................ 19

5.1. Question Answering ...................................................................................................... 19

5.2. Answer Validation Exercise .......................................................................................... 20

5.2.1. Rezultate obţinute în AVE2007 şi în AVE2008 ......................................................... 21

5.3. Aplicaţii pentru limba română ....................................................................................... 21

5.3.1. Sistemul de TE pentru limba română .......................................................................... 21

5.3.2. Aplicaţii ....................................................................................................................... 22

5.4. Concluzii ........................................................................................................................ 22

6. Concluzii ................................................................................................................................ 23

6.1. Contribuţiile tezei de doctorat ....................................................................................... 23

6.2. Munca viitoare ............................................................................................................... 23

7. Bibliografie ............................................................................................................................ 25

2

1. Introducere

Recunoaşterea inferenţelor textuale (textual entailment recognition) (Dagan et al., 2005) este una

din cele mai recente competiţii din domeniul procesării limbajului natural. Participanţii în această

competiţie trebuie să dovedească că pot creea sisteme care înţeleg modul în care funcţionează

limbajul natural.

Recent, în (Dagan şi Glickman, 2004) a fost definită noţiunea de inferenţă textuală

(textual entailment) ca fiind o relaţie dintre două fragmente de text numite text (T) şi ipoteză (H),

care are loc atunci când înţelesul lui H poate fi dedus din înţelesul lui T. Acest lucru înseamnă că

majoritatea oamenilor sunt de acord că înţelesul lui T îl implică pe cel al lui H.

Din 2005 şi până în 2007 competiţiile au fost organizate de PASCAL1, iar în 2008 a fos t

organizată de TAC2. De la an la an au fost adăugate noi caracteristici competiţiilor, iar interesul

participanţilor a crescut din ce în ce mai mult. Trebuie precizat că în 2005 şi în 2006 a fost un

singur exerciţiu (2-way) în care răspunsurile puteau fi clasificate cu (Yes şi No) în funcţie de

identificarea relaţiei de inferenţă sau nu. În ediţiile din 2007 şi 2008 răspunsurile No au fost

împărţite în două (Necunoscut şi Contradicţie).

În tabelele de mai jos am afişat câteva informaţii legate de numărul participanţilor,

precizia medie şi cel mai bun rezultat al sistemelor în această competiţie şi rezultatul obţinut de

sistemul creat de noi pentru competiţiile din 2007 şi 2008.

# de grupuri Media preciziilor Cea mai bună precizie UAIC3

2005 16 55.12 % 70.00 % -

2006 23 58.62 % 75.38 % -

2007 26 61.14 % 80.00 % 68.13 %

2008 26 57.30 % 74.60 % 72.10 %

Tabela 1: Rezultatele din competiţiile RTE 2-way

# de grupuri Media preciziilor Cea mai bună precizie UAIC

2007 10 47.1 % 73.1 % 56.9 %

2008 13 51.0 % 68.5 % 68.5 %

Tabela 2: Rezultatele din competiţiile RTE 3-way

1 Pascal: http://www.pascal-network.org/ 2 Conferinţa TAC: http://www.nist.gov/tac/ 3 Partea cea mai importantă a tezei este legată de prezentarea sistemului UAIC.

3

2. Direcţii principale în Textual Entailment

Începând cu ediţia din 2005, primele abordări s-au concentrat pe identificarea potrivirilor dintre

cuvinte (Herrera, 2005), a relaţiilor lexicale (Bayer et al., 2005), a similarităţilor WordNet

(Herrera, 2005), a potrivirilor sintactice (Delmonte et al., 2005). De asemenea s-au făcut primele

încercări în a folosi cunoaşterea despre lume (Bayer et al., 2005) sau inferenţele logice

(Akhmatova, 2005). Majoritatea sistemelor au încercat să folosească diferite praguri şi diferite

setări pentru parametri pentru a obţine o precizie cât mai bună.

În a doua ediţie, din 2006, direcţiile principale au rămas în general aceleaşi, numai

algoritmii au devenit mult mai complexi, ducând la obţinerea unor rezultate mai bune. Noile

direcţii au fost legate de identificarea rolurilor semantice (Hickl et al., 2006), clasificarea folosind

algoritmi de învăţare automată (Inkpen et al., 2006 and Kozareva, 2006), folosirea cunoaşterii

suplimentare (Tatu et al., 2006), achiziţia de corpus de antrenament (Hickl et al., 2006).

Din a treia ediţie, din 2007, au fost folosite abordări din ce în ce mai avansate. Grupurile

s-au orientat pe construirea de sisteme bazate pe folosirea structurii sintactice a Textului şi a

Ipotezei, pe înţelegere semantică a textelor şi de asemenea pe verificarea conţinutului şi a

situaţiilor noi care au apărut în corpusul de test. O atenţie deosebită a fost alocată entităţilor de tip

nume (Tatu and Moldovan, 2007) şi relaţiilor care se pot stabili între astfel de entităţi (Iftene and

Balahur-Dobrescu, 2007a). De asemenea, s-au încercat diverse strategii pentru extragerea

diverselor forme de relaţii ce se pot stabili între text şi ipoteză (Chambers et al., 2007) şi (Hickl

and Bensley, 2007). Datorită introducerii textelor lungi s-au folosit şi strategii de rezoluţia

anaforei: (Delmonte, 2007), (Bar-Haim et al., 2007), (Iftene and Balahur-Dobrescu, 2007a).

Rezultatele obţinute până acuma au demonstrat că sistemele, care au folosit o analiză

profundă a potrivirilor sintactice sau au folosit inferenţe logice, au depăşit în performanţă

sistemele lexicale. Succesele celor mai bune sisteme sugerează că cei mai importanţi factori în

construirea unui sistem de inferenţe textuale îşi au originea în folosirea cunoaşterii suplimentare

despre lume sau în mărimea corpusului de antrenament.

4

3. Sistemul UAIC

Ideea principală a sistemului folosit în competiţia din 2007 (Iftene and Balahur-Dobrescu, 2007a)

şi îmbunătăţit pentru competiţia din 2008 (Iftene, 2008c) este de a mapa fiecare nod din ipoteză la

un nod din text folosind resurse semantice de cunoaştere precum DIRT, WordNet, Wikipedia,

VerbOcean şi o bază de date de acronime. După realizarea procesului de mapare, se asociează o

valoare reprezentând scorul de potrivire locală pentru fiecare cuvânt din ipoteză, care este folosit

în calcularea unui scor de potrivire globală pentru fragmentele curente de text. Scorul de potrivire

globală este micşorat în cazul în care un cuvânt din ipoteză nu poate fi mapat la un cuvânt din

text sau când avem forme diferite de negaţie pentru două verbe mapate. La ultimul pas, pe baza

pragurilor identificate pe datele de antrenament, se decide pentru fiecare pereche din datele de

test, dacă avem sau nu relaţie de inferenţă între fragmentele de text.

Sistemul folosit în competiţia RTE-4 foloseşte în plus faţă de sistemul folosit în

competiţia RTE-3 noi resurse semantice cu scopul cu scopul de a identifica mai bine cazurile de

contradicţie. Figura 2 arată resursele de cunoaştere şi lanţurile de procesare ale sistemului folosit

în RTE-4 (cu gri sunt componentele nou adăugate):

Figura 2: Arhitectura sistemului UAIC

Perechile iniţiale(T, H)

DIRT

Modulul Minipar

Arborii de dependenţă

pentru (T, H)

Modulul LingPipe

Entităţi de tip nume

pentru (T, H)

Răspunsuri finale

Acronime

Cunoaştere suplimentară

Wordnet Modulul principal

Wikipedia

VerbOcean

TreeTagger

Numere &Dată

Regula EN

Resurse

Regula de scor

Regula de contradicţie

Reguli de negaţie

Numb GATE

Pre-procesare

5

3.1. Pre-procesarea

Pregătirea datelor – are ca scop îmbunătăţirea calităţii ieşirii pentru unelte folosite. Astfel, pe

datele iniţiale de test4 sunt efectuate transformări care nu schimbă sensul textului, ci doar îi

schimbă forma de afişare. Aceste transformări includ scrierea detaliată a unor prescurtări (de

exemplu toate apariţiile lui “hasn’t” în text sunt înlocuite cu textul “has not”) sau folosirea

spaţiilor atunci când întâlnim semne de punctuaţie. După astfel de transformări înţelesul textului

rămâne acelaşi, dar ieşirea uneltelor MINIPAR sau LingPipe se îmbunătăţeşte.

Identificarea entităţilor de tip nume – presupune identificarea de entităţi de tip nume folosind

LingPipe (pentru locaţii, nume de persoane sau organizaţii, etc) şi GATE (Cunningham et al.,

2001) (pentru clase mai specifice de entităţi de tip nume precum numele de familie, nume

masculine sau nume feminine). Pe lângă folosirea acestor utilitare, am construit şabloane

specifice pentru identificarea procentelor, unităţilor de măsură, perioadelor de timp, etc.

Construirea arborilor de dependenţă – se face cu MINIPAR5 (Lin, 1998) şi se execută în

paralel cu etapa de identificare a entităţilor de tip nume. În acest arbore nodurile sunt cuvintele

din propoziţiile iniţiale împreună cu categoriile lor gramaticale, iar muchiile reprezintă relaţii de

dependenţă sintactică.

Corectarea părţilor de vorbire şi a lemelor identificate greşit cu MINIPAR – se face folosind

aplicaţia TreeTagger6 în momentul în care nu se identifică nici un verb într-o propoziţie. Acest

pas este foarte important, deoarece operaţiile de mapare între arbori pornesc de la rădăcina

arborelui de dependenţă asociat ipotezei, care este un verb.

3.2. Transformarea arborelui asociat ipotezei

Din aceste moment, obiectivul principal este de a mapa fiecare entitate din arborele de

dependenţă asociat ipotezei (numit pe scurt arborele ipotezei) la o entitate din arborele de

dependenţă asociat textului (pe scurt arborele textului) (Iftene and Balahur-Dobrescu, 2007a).

Maparea între entităţi poate fi realizată în două moduri: direct (când entităţile din arborele

4 Datele de test din RTE4: http://www.nist.gov/tac/protected/2008/RTE4_TEST-SET.xml.gz 5 MINIPAR: http://www.cs.ualberta.ca/~lindek/minipar.htm 6 TreeTagger: http://www.cele.nottingham.ac.uk/~ccztk/treetagger.php. Precizia acestei unelte este de 96.36 %, valoare care este superioară preciziei MINIPAR-ului care este sub 80 %.

6

ipotezei există în arborele textului) sau indirect (când entităţile din arborele ipotezei nu pot fi

mapate direct şi necesită transformări folosind resurse externe). Pe baza tipului mapării dintre

entitatea din ipoteză şi entitatea din text, calculăm o valoare fitness local care indică apropierea

dintre entităţi. Pe baza fitnessului local al nodului şi pe baza fitnessului local al tatălui său, se

calculează o valoare fitness local extinsă, iar în final, pe baza tuturor acestor valori, se calculează

o valoare normalizată ce reprezintă fitnessul global.

Când o entitate din arborele ipotezei poate fi mapată direct la mai multe entităţi din

arborele textului, se selectează maparea care va mări fitnessul global cel mai mult. Când nu este

posibil să mapăm o entitate din arborele ipotezei la nici o entitate din arborele textului, se

folosesc resurse externe precum: DIRT, VerbOcean şi WordNet (pentru verbe), baza de date

acronime şi cunoaşterea suplimentară (pentru entităţi de tip nume), eXtended WordNet şi

WordNet (pentru substantive şi adjective). În continuare prezentăm pe scurt aceste resurse:

• DIRT7 (Lin and Pantel, 2001) – ne permite să găsim relaţii de echivalenţă între drumuri

ce au ca nod central un verb din arborele ipotezei şi arborele textului.

• VerbOcean8 (Chklovski and Pantel, 2004) – este folosit pentru a identifica relaţiile de

antonimie dintre verbe.

• eXtended WordNet9 - ne permite să identificăm relaţii de similaritate între entităţi din

ipoteză şi entităţi din text.

• Din WordNet (Fellbaum, 1998) – folosim relaţia de sinonimie pentru substantive şi

pentru adjective, şi relaţia de antonimie dintre verbe.

• Baza de date de acronime10 - ajută programul nostru să găsească relaţii între acronime şi

semnificaţia lor.

• Cunoaşterea suplimentară (Iftene and Balahur-Dobrescu, 2008b) – ajută programul

nostru să găsească relaţii între entităţile de tip nume din ipoteză (fără corespondenţă în

text) şi altă entitate de tip nume din text. Întrucât această resursă nu exista, am realizat un

modul separat care să o construiască. Abordarea noastră constă din aplicarea de şabloane

ce identifică contexte de definiţii pe o resursă vastă precum Wikipedia, urmată de

extragerea de relaţii între entităţile de tip nume identificate în aceste contexte.

7 DIRT: http://aclweb.org/aclwiki/index.php?title=DIRT_Paraphrase_Collection 8 VerbOcean: http://demo.patrickpantel.com/Content/verbocean/ 9 eXtended WordNet: http://xwn.hlt.utdallas.edu/ 10 Baza de date cu acronime: http://www.acronym-guide.com

7

3.3. Modulul Principal

În continuare vom vedea pentru fiecare tip de răspuns care reguli ne ajută în identificarea acestuia.

Toate exemplele următoare fac referinţă la datele de test11 din RTE-4.

3.3.1. Cazurile de Entailment

Reguli de bază: orice tip de mapare va mări fitnessul global şi-n final va mări probabilitatea de a

da răspunsul “Entailment”. Dacă maparea este realizată direct scorul de mapare este considerat 1

(adică valoarea maximă). Pentru verbe când se foloseşte resursa DIRT (Lin, 1998) sau pentru

substantive şi adjective când se foloseşte resursa eXtended WordNet se consideră scorul de

similaritate oferit de aceaste resurse. În cazul entităţilor de tip nume, dacă folosim baza de date de

acronime, atunci scorul de mapare este tot 1 (deoarece acestea reprezintă acelaşi lucru), dacă

folosim cunoaşterea suplimentară putem avea scor 1 când entităţile sunt din aceeaşi clasă, ca de

exemplu la perechea 216 (unde avem o relaţie între două ţări UK şi British), sau putem avea scor

de 0.5 când entităţile sunt din clase diferite, ca de exemplu la perechea 104 (unde avem o relaţie

între oraşul Buenos Aires şi ţara Argentina).

Reguli pentru numere: în ediţia din 2008 a competiţiei RTE am construit o listă de

cuantificatori (“more than”, “less than”, “over”, “under”, etc.), iar pe baza lor am asociat

intervale de numere textului sau ipotezei. De exemplu, la perechea 304, unde în text avem “at

least 80 percent” putem face legătura cu “more than 70 percent” din ipoteză.

3.3.2. Cazuri de No Entailment

Reguli de bază: pentru nodurile din ipoteză care nu pot fi mapate la noduri din text, se introduc

penalizări în valorile fitness. Deasemenea, deoarece stop word-urile din ipoteză (the, an, a, at, to,

of, in, on, by, etc.) măresc artificial valorile fitness, nu le luăm în considerare atunci când

calculăm fitnessul global.

Reguli de negaţie: pentru fiecare verb din ipoteză sau din text considerăm o valoare booleană

care ne specifică dacă verbul este negat sau nu. Pentru a vedea dacă verbul este negat, se caută pe

ramurile descendente cuvinte ca: not, never, may, might, cannot, etc. Pentru fiecare astfel de

cuvânt, valoarea de adevăr asociată verbului este negată succesiv, iar valoarea finală depinde de

numărul de astfel de cuvinte găsite.

11 Datele de test RTE-4: http://www.nist.gov/tac/protected/2008/RTE4_TEST-SET.xml.gz

8

Reguli corespunzătoare cazurilor de contradicţie: sunt aplicate când verbele sunt negate

folosind cuvinte precum “never”, “not”, “no”, “cannot”, “unsuccessfully”, “false” etc. De

asemenea sunt considerate şi cazurile de antonimie identificate cu VerbOcean sau cu WordNet.

Pentru toate cazurile în care se aplică regulile de contradicţie, se introduc penalizări mari direct în

valoarea fitness globală. Din acest motiv, răspunsul în aceste cazuri va fi “Contradiction”.

Reguli corespunzătoare cazurilor de unknown: sunt aplicate când verbele sunt negate cu

cuvinte ca “may”, “can”, “should”, “could”, “must”, “might”, “infrequent”, “rather”, “probably”,

etc. În aceste cazuri penalizările considerate nu sunt decisive în stabilirea răspunsului final, ce

este obţinut doar după calcularea fitnessului global

Regulă pentru entităţile de tip nume: este aplicată atunci când o entitate de tip nume din

ipoteză nu poate fi mapată prin nici o metodă la o entitate de tip nume din text. În acest caz

răspunsul final este decis pe loc ca fiind “Unknown”.

3.3.3. Calcularea valorilor fitness

În continuare, să vedem cum sunt calculate valorile fitness local, fitness local extins şi fitnessul

global.

Fitness local: Pentru fiecare nod din ipoteză mapat direct la un nod din text considerăm fitnessul

local ca fiind 1. Pentru nodurile care nu pot fi mapate direct avem următoarele situaţii posibile:

• Dacă cuvântul e verb şi maparea s-a făcut cu resursa DIRT fitnesul local este

considerat scorul DIRT de similaritate. Dacă se identifică orice tip de antonimie între

verbe (folosind VerbOcean sau WordNet) se aplică regula pentru contradicţii şi

răspunsul final este “Contradiction”.

• Dacă cuvântul este entitate de tip nume şi folosim pentru mapare baza de date de

acronime sau relaţiile între entităţi de acelaşi tip din resursa ce conţine cunoaşterea

suplimentară fitnessul local este considerat ca fiind 1. Pentru celelalte tipuri de relaţii

din resursa cu cunoaşterea suplimentară considerăm fitnessul local ca fiind 0.5.

• Pentru substantive şi adjective considerăm fitnessul local ca fiind 1 când folosim

pentru mapare WordNet sau scorul de similaritate când folosim eXtended WordNet.

• Dacă după toate verificările anterioare cuvântul din ipoteză nu poate fi mapat la un

9

cuvânt din text, atunci fitnessul local este setat pe valoarea -0.5.

Pentru un cuvânt din ipoteză, valoarea fitness locală, ne informează despre modul în care a fost

făcută maparea. Valorile mari indică că maparea s-a făcut cu succes la un nod similar din text.

Valorile mici indică probleme în mapare. Ce nu ştim despre? Contextul în care maparea a fost

făcută: Au nodurile acelaşi părinte? Dacă da, există aceleaşi tipuri de relaţii între noduri? etc.

Scopul considerării valorii fitness locale extinse şi modul în care aceasta este calculată, este de a

fixa aceste inconvienente.

Fitnessul local extins este calculat pentru fiecare nod din ipoteză ca fiind media aritmetică a

următoarelor valori:

1. Fitnessul local obţinut după transformarea arborelui şi maparea nodului,

2. Fitnesul local al părintelui după maparea parintelui,

3. Maparea etichetei muchiei dintre nod şi părinte în arborele textului,

4. Poziţia nodului (stânga, dreapta) faţă de tatăl său din ipoteză şi poziţia nodurilor

mapate din text.

Deoarece toate valorile de la (1.) la (4.) sunt în domeniul de la -1 la 1, media aritmetică a

nodurilor va fi tot în intervalul [-1, 1].

Fitnessul global este calculat folosind valoarea fitness total FT şi valoarea de negaţie VN:

|\|\

StopWordsI

alExtinsFitnessLoc

FTStopWordsIcuvant

cuvant∑∈

=

deVerbeNumarTotal

PozitiveVerbedeVN

___#=

Unde #_de_Verbe_Pozitive este numărul de verbe ne-negate din ipoteză. Formula pentru fitnessul

global este dată mai jos. Din modul de calcul, valoarea fitnessului global este în intervalul [-1, 1].

))(1(*))(1(* FTabsVNabsFTVNbalFitnessGlo −−+=

3.3.4. Obţinerea răspunsului final pe baza fitnessului global

Cazurile de “No entailment” sunt deosebite de cazurile de “Entailment” pe baza

pragurilor identificate pe datele de antrenament.

10

Figura : Considerarea răspunsurilor finale considerând valoarea global fitness

Astfel între -1 şi pragul1 sunt cazurile de “Contradiction”, între pragul1 şi pragul2 sunt cazurile

“Unknown”, iar între pragul2 şi +1 sunt cazurile de “Entailment”.

3.4. Rezultate Rezultatele prezentate în acest capitol sunt din competiţiile în care am participat: RTE-3 şi RTE-4.

Rezultate în RTE3

În ediţia RTE-3 sistemul a fost conceput pentru exerciţiul principal 2-way. Pe baza acestui sistem

s-a construit o versiune folosită în exerciţiul 3-way. Rezultatele sunt date în următoarele tabele:

Tip

răspuns

# de

răspunsuri

în Gold

# de

răspunsuri

corecte date de

sistemul UAIC

# total de

răspunsuri date

de sistemul

UAIC

Precizie Recall F-

measure

Yes 410 379 594 63.80 % 92.44 % 75.50 %

No 390 174 206 84.47 % 44.62 % 58.39 %

Total 800 553 800 69.13 %

Tabela : Rezultatele obţinute de sistemul UAIC în exerciţiul 2-way al ediţiei RTE-3

Din aceste rezultate se poate deduce că regulile folosite în identificarea negaţiilor şi a

entităţilor de tip nume cu probleme au o precizie foarte bună şi identifică cu o precizie foarte

bună cazurile de No entailment. Numărul mare de răspunsuri Yes indică faptul că sistemul

preferă acest răspuns atunci când nu are suficiente indicii pentru a alege unul din răspunsurile

posibile.

Cazurile de Entailment Cazurile de NO entailment

prag2 prag1

Cazurile de

Unknown

cases

Cazurile de

Contradiction

-1 +1

11

Tip răspuns # de

răspunsuri

în Gold

# de

răspunsuri

corecte date

de sistemul

UAIC

# total de

răspunsuri

date de

sistemul UAIC

Precizie Recall F-

measure

Entailment 410 379 594 63.80 % 92.44 % 75.50 %

Contradiction 72 10 115 8.70 % 13.89 % 10.70 %

Unknown 318 67 91 73.63 % 21.07 % 32.76 %

Total 800 456 800 57.00 %


Rezultatele ne indică faptul că trecerea de la 2-way la 3-way s-a făcut într-un mod

nefericit, ducând la o scădere simţitoare a preciziei.

Rezultate în RTE4

În această ediţie atenţia noastră a fost orientată pe îmbunătăţirea sistemului pentru exerciţiul 3-

way, rezultatele pentru 2-way obţinându-se din acestea.

Tip răspuns # de

răspuns

uri în

Gold

# de

răspunsuri

corecte date

de sistemul

UAIC

# total de

răspunsuri

date de

sistemul

UAIC

Precizie Recall F-measure

Entailment 500 466 712 65.45% 93.20% 76.90%

Contradiction 150 69 85 81.18% 46.00% 58.72%

Unknown 350 150 203 73.89% 42.86% 54.25%

Total 1000 685 1000 68.50%


Rezultatele demonstrează faptul că regulile folosite în identificarea cazurilor de

Contradiction şi Unknown sunt foarte eficiente. Distribuţia pentru 2-way este mai jos:

12

Tip

răspuns

# de

răspunsuri

în Gold

# de

răspunsuri

corecte date

de sistemul

UAIC

# total de

răspunsuri

date de

sistemul

UAIC

Precizie Recall F-measure

Yes 500 466 712 65.45% 93.20% 76.90%

No 500 255 288 88.54% 51.00% 64.72%

Total 1000 721 1000 72.10%


3.5. Limitări ale sistemului Aici, sunt prezentate cazuri în care sistemul a fost incapabil să identifice răspunsul corect din

diferite motive.

Limitări din cauza lipsei resurselor: într-un număr semnificativ de cazuri sistemul nu a reuşit

să găsească o relaţie între un cuvânt din ipoteză şi un cuvânt din text. Aceste situaţii au influenţat

într-un mod negativ procesul de luare a deciziei. Cazurile pe care le-am identificat se referă la:

• Lipsa colecţiilor de parafraze;

• Lipsa unor reguli care ne-ar permite să obţinem informaţii suplimentare;

• Lipsa unor ontologii cu cunoaştere suplimentară despre lume.

Limitări din cauza exploatării ineficiente a resurselor geografice: acest inconvenient vine din

faptul că nu am reuşit să folosim relaţia de vecinătate dintre zone geografice. În astfel de cazuri

specificarea unor valori legate de distanţa dintre zonele geografice, explicitarea unor dezastre

naturale care au avut loc în aceste zone, etc. ne-ar ajuta în stabilirea unor legături între acestea.

Lipsa etichetărilor care să specifice rolul semantic: afectează identificarea corectă a cazurilor

“Unknown” şi “Contradiction”, deoarece, în astfel de cazuri, identificarea faptului că anumite

cuvinte au roluri semantice diferite în text şi-n ipoteză ne-ar ajuta în stabilirea relaţiei de

entailment.

Existenţa unor reguli “inutile”: a căror aplicare nu are nici un impact asupra preciziei

sistemului. Aceste reguli sunt: regula “but” (ce este aplicată ca o regulă de negaţie: o afirmaţie

iniţială este negată de o afirmaţie care apare după cuvântul “but”), reguli simple cu referire la

13

identificarea rolurilor semantice (identificarea argumentelor A0 şi A1 folosind anumite relaţii

identificate de MINIPAR), reguli simple pentru identificarea anaforei (atunci când pronumele

folosite sunt “she”, “her”, “he” şi “his”).

3.6. Munca viitoare Munca viitoare are ca principal scop eliminarea neajunsurilor prezentate mai sus. Astfel, ca o

primă direcţie dorim să folosim algoritmi de învăţare automată pentru a face clasificarea

răspunsurilor finale oferite de sistem, într-un mod similar celui folosit în (Iftene and Balahur-

Dobrescu, 2008a).

Un al doilea obiectiv este să continuăm construirea de resurse specifice care să conţină

relaţii între entităţi de tip nume. Al treilea obiectiv urmăreşte să transforme “regulile inutile”

prezentate mai sus în reguli care să aibă un impact pozitiv asupra preciziei sistemului.

3.7. Concluzii Algoritmul principal folosit de sistem are ca scop maparea cuvintelor din ipoteză la cuvinte din

text, folosind arbori de dependenţă. Sistemul foloseşte resurse de analiză sintactică precum

MINIPAR şi TreeTagger, resurse lexicale ca WordNet şi eXtended WordNet, LingPipe şi GATE

pentru identificarea entităţilor de tip nume şi resurse semantice precum DIRT şi VerbOcean. Din

elementele de originalitate ale sistemului trebuie să remarcăm în primul rând crearea unei resurse

cu relaţii între entităţi de tip nume folosind Wikipedia, în al doilea rând folosirea unei baze de

date cu acronime din mai multe domenii, în al treilea rând construirea unei resurse cu termeni

care influenţează sensul verbelor în limba engleză, şi în final, din punct de vedere tehnic,

folosirea unei arhitecturi distribuite care să reducă timpul de execuţiei a sistemului, cum vom

vedea în capitolul următor.

Diferenţele între sistemul folosit în RTE-3 şi cel folosit în RTE-4, vin din faptul că în

ultimul sistem am folosit unelte noi precum (GATE, TreeTagger), resurse noi ca (VerbOcean) şi

reguli noi pentru (Contradiction, Named Entities).

Cu noile modificări, precizia sistemului din RTE-4 a fost îmbunătăţită, iar sistemul este

orientat mai mult pe un sistem Entailment-Contradiction-Unknown, deoarece regulile pentru

contradicţie sunt mult mai clar specificate. Rezultatele obţinute în RTE-4 sunt mai bune decât

rezultatele din RTE3: 72.1 % în exerciţiul 2-way (cu 3 % mai bine decât în RTE3) şi 68.5 % în

exerciţiul 3-way (cu 14.5 % mai bine decât în RTE3).

Problemele principale nerezolvate se referă la cazurile în care textul şi ipoteza sunt foarte

14

asemănătoare şi conţin aceeaşi mulţime de cuvinte, dar într-o altă ordine, iar cuvintele au roluri

semantice diferite în text şi-n ipoteză.

15

4. Îmbunătăţiri Pentru a îmbunătăţi viteza de rulare, am adoptat o arhitectură peer-to-peer (P2P), iar comportarea

sistemului este asemănătoare cu a unui Grid computaţional. După configurarea reţelei peer-to-

peer, un calculator devine Iniţiatorul şi construieşte lista vecinilor disponibili. Rând pe rând,

Iniţiatorul execută diverse sarcini cum ar fi împărţirea problemei iniţiale în sub-probleme,

trimiterea sub-problemelor la vecinii disponibili spre rezolvare, primirea soluţiilor parţiale şi

construirea soluţiei finale. Funcţionalitatea sistemului a fost îmbunătăţită prin folosirea unui

mecanism de caching şi folosirea unei quota pentru sincronizarea terminării tuturor proceselor.

Reţeaua pe care am făcut teste a fost configurată cu 7 procese ce rulau pe 5 calculatoare (3 din ele

cu un singur procesor şi 2 cu două procesoare) şi o rulare a sistemului pe cele 800 de perechi de

test din RTE-3 durează aproximativ 6.7 secunde.

4.1. Arhitectura peer-to-peer Arhitectura P2P a sistemului se bazează pe modelul CAN (Iftene, Balahur-Dobrescu, Matei,

2007). Sistemul prezentat mai jos este compus din mai multe module centrale (MC) şi baze de

date a resurselor lingvistice. Pentru a rezolva exerciţiul din competiţia RTE trebuie să ne

conectăm la un calculator din acest GRID computaţional şi să iniţiem sistemul de TE.

Figura : Reţeaua P2P

Iniţiator DIRT db

MC

MC

MC

MC

Acronime

SMB upload

SMB download

MC

MC

16

Rezultate

Ideea de a folosi o arhitectură P2P optimizată ne-a venit după prima rulare a primului sistem

construit pentru RTE3 (Iftene and Balahur-Dobrescu, 2007a). Această primă rulare pe toate

datele de test din RTE-3 nu avea nici o optimizare şi dura în jur de 26 de ore pe un calculator.

Pentru a putea observa modificările efectuate asupra sistemului mai rapid, am îmbunătăţit acest

sistem şi pe durata competiţiei RTE-3 am folosit un sistem a cărui rulare dura aproximativ 8 ore

pentru o execuţie completă.

Tot cu scopul de a mări viteza de execuţie, am considerat un mecanism de caching pentru

bazele de date mari precum Dirt şi WordNet. Pentru a construi resursa de caching, sistemul a fost

rulat pe un singur calculator. După aceasta, GRID-ul computaţional a fost configurat cu ajutorul

unei reţele P2P cu 5 calculatoare (3 cu un singur procesor şi 2 cu două procesoare) şi o rulare a

sistemului pe aceleaşi date de test din RTE-3 durează doar 6.7 secunde.

Această abordare pare să fie cea mai adecvată ţinând cont de complexitatea problemei şi

de faptul că orice modificare asupra sistemului trebuie evaluată rapid (competiţia a durat 3 zile în

RTE-3 şi 6 zile în RTE-4). Din ceea ce ştim, nu au mai existat abordări similare din punct de

vedere al optimizării sistemului de TE din punct de vedere al vitezei de execuţie.

4.2. Sistemul GRID Pentru a avea o comportare eficientă din punct de vedere al timpului de execuţie atunci când nu

folosim mecanismul de caching sau mecanismul de quota, am decis să folosim un GRID

computaţional pentru operaţiile consumatoare de timp. Astfel, am construit două tipuri de servicii

GRID: de bază şi complexe pentru prelucrările lingvistice din reţeaua noastră P2P şi am

implementat un serviciu discovery pentru a ne ajuta în configurarea reţelei.

Serviciile GRID de bază folosesc fişiere text ce conţin colecţiile lingvistice de date.

Serviciile implementate sunt serviciul de lematizare, serviciul de sinonimie, serviciul de

antonimie, serviciul DIRT, serviciul pentru acronime, serviciul pentru identificarea cunoaşterei

suplimentare (denumirea serviciului sugerând ce se obţine în urma apelării lui).

Serviciile GRID complexe folosesc serviciile GRID de bază şi implementează algoritmi

specifici pentru a putea identifica relaţia de inferenţă dintre text şi ipoteză. Aceşti algoritmi sunt

idependenţi de limbaj şi folosesc ca intrare ieşirea de la serviciile de bază. Serviciile GRID

complexe sunt: serviviul de transformare a ipotezei, serviciul de transformare a textului şi

17

serviciul de calculare a valorii fitness globale.

Serviciul discovery a fost implementat folosind protocolul PDP (Peer Discovery

Protocol) din proiectul JXTA (Iftene, 2008a). Acest serviciu este responsabil cu partea de

configurare a reţelei P2P, el identificând adresele IP ale uneltelor şi resurselor NLP şi adresele

serviciilor GRID.

4.3. Protocolul de transfer Protocolul de transfer folosit este bazat pe CIFS12 (Common Internet File System), versiunea

Microsoft a protocolului SMB13 (Server Message Block). Protocolul are la bază trimiterea de

mesaje SMB atât ca cereri cât şi ca răspunsuri, după cum se poate observa mai jos.

Figure : Protocolul CIFS

Scopul folosirii acestui protocol a fost de a permite gestionarea operaţiilor de download şi

upload de fişiere între nodurile reţelei P2P. Folosind protocolul nostru, avantajele vin din faptul

că se poate oferi posibilitatea de reîncercare în caz de disconectare şi se poate folosi doar parţial

banda de transfer pentru a putea evita supraîncărcarea reţelei.

4.4. Concluzii În acest capitol am prezentat soluţia adoptată cu scopul de a îmbunătăţi viteza de execuţie a

sistemului TE. Arhitectura folosită în ediţiile RTE-3 şi RTE-4 e bazată pe o reţea P2P care

foloseşte un mecanism de caching mechanism pentru resursele mari şi un mecanism de quota

pentru sincronizarea terminării execuţiei proceselor. Testele efectuate într-o reţea P2P cu 7

procese au demonstrat îmbunătăţiri substanţiale din punct de vedere al vitezei.

O altă direcţie adoptată a fost legată de implementarea unor servicii GRID, utile în

12 CIFS: http://support.microsoft.com/kb/199072 13 Server Message Block: http://en.wikipedia.org/wiki/Server_Message_Block

SMB Responses

SMB Requests

Server

Client

18

construirea sistemelor care oferă răspunsul în timp real. Trei tipuri de servicii GRID au fost

implementate: de bază şi complexe pentru accesarea uneltelor şi resurselor NLP, şi serviciul

discovery folosit în configurarea reţelei.

19

5. Aplicaţii ale Textual Entailment Acest capitol prezintă modul în care poate fi folosit sistemul de Textual Entailment pentru a

îmbunătăţi calitatea unui sistem de Question Answering (QA). Sistemul de TE a fost folosit cu

succes în ediţiile din 2007 şi 2008 ale competiţiei QA@CLEF, în două exerciţii: exerciţiul

principal şi în exerciţiul AVE (Answer Validation Exercise).

5.1. Question Answering Sistemele de QA primesc ca intrare întrebări în limbaj natural, şi nu cuvinte cheie, şi oferă ca

ieşire răspunsuri precise, şi nu documente, ca ieşire.

Folosirea sistemului TE în arhitectura unui sistem de QA

Motivaţia folosirii sistemului de TE ca un modul în arhitectura generală a unui sistem de QA este

de a îmbunătăţi ordonarea răspunsurilor posibile atunci când tipul răspunsului aşteptat este de tip

Measure, Person, Location, Date şi Organization (Iftene, 2008b).

Ideea constă în selectarea tuturor entităţilor de tip nume relevante din fragmentele de text

extrase pentru o întrebare şi în înlocuirea variabilelor din şabloanele asociate întrebării, cu aceste

valori, similar abordării din (Bar-Haim et al., 2006). În acest fel, se obţin mai multe ipoteze

pentru un text (considerat ca fiind fragmentul de text extras). Pentru fiecare ipoteză, calculăm

fitnessul global şi apoi selectăm entitatea de tip nume pentru care avem cea mai mare valoare.

Experimente

Experimentele s-au efectuat folosind fişierul trimis în competiţia QA@CLEF200614 la exerciţiul

multilingv română-engleză. Pentru fiecare din cele 200 de întrebări date, sistemul nostru a oferit

zece răspunsuri posibile, ordonate după un scor stabilit de noi. Importanţa ordonării răspunsurilor

oferite se poate observa în rezultatele obţinute. Astfel, pentru primul răspuns din cele zece oferite

sistemul a avut o precizie de 9.47%, pe când în 35% din cazuri sistemul a oferit răspunsul corect

în primele zece răspunsuri.

Ordonarea folosită de sistemul de QA folosea două reguli pentru a ordona răspunsurile:

în primul rând folosea scorul Lucene şi în al doilea rând folosea distanţa de la potenţialele

răspunsuri la focusul întrebării.

Ordonarea folosind sistemul de TE foloseşte ca factor determinant scorul oferit de

14 QA@CLEF2006: http://clef-qa.itc.it/2006bis/CLEF-2006.html

20

sistemul de TE. Desigur, nu în toate cazurile tratate am obţinut rezultatul dorit cu această metodă,

dar în general s-a putut observa o îmbunătăţire a răspunsurilor oferite. Cu această nouă metodă de

ordonare precizia globală a sistemului de QA s-a îmbunătăţit cu 9.5%, dovedind că folosirea

sistemului de TE în cadrul sistemului de QA poate duce la creşteri semnificative ale preciziei.

5.2. Answer Validation Exercise AVE15 este un exerciţiu introdus în cadrul QA@CLEF în 2006 (Peñas et al., 2007) cu scopul de a

valida corectitudinea răspunsurilor oferite de sistemele de QA.

Arhitectura sistemului AVE folosit în ediţia din 2008 este prezentată mai jos:

Figura : Sistemul AVE folosit în ediţia din 2008 pe limba engleză

Paşii executaţi de sistem sunt:

• Similar sistemului construit pentru AVE 2007 (Iftene and Balahur-Dobrescu, 2008d) avem:

� Construirea de şabloane cu variabile pentru fiecare întrebare;

� Folosind un şablon şi toate răspunsurile posibile construim toate ipotezele pentru

fiecare întrebare: H1, H2, H3 etc.;

� Considerăm fragmentele de text ca având rolul de T şi apoi rulăm sistemul TE pentru

toate perechile obţinute: (T1, H1), (T2, H2), (T3, H3), etc.

• În plus, în 2008 (Iftene and Balahur-Dobrescu, 2008c) am mai considerat:

� Am identificat tipul răspunsului (AT);

15 AVE: http://nlp.uned.es/clef-qa/ave/

Sistem de TE

Date de test AVE

construire

şabloane Şablon

Text (T)

Rezultate AVE - 1

construire

ipoteze

construire

text

ordonare după

fitness global

Răspunsuri

Fragmente de text

Tip răspuns (AT)

Tipul răspunsului aşteptat (EAT)

Rezultate AVE - 2

if (AT = EAT) ordonare

după fitness global

Întrebare Ipoteze (I)

21

� Am identificat tipul răspunsului aşteptat (EAT) pentru întrebări.

În competiţie am trimis două rulări ale sistemului nostru, cu următoarele caracteristici:

1. În prima rulare, am considerat răspuns corect pentru întrebarea curentă candidatul pentru

care sistemul de TE obţinea cel mai mare scor.

2. În a doua rulare, am considerat răspuns corect pentru întrebarea curentă candidatul

pentru care am cel mai mare scor de potrivire între AT şi EAT şi cel mai mare scor

întors de sistemul de TE.

Soluţia oferită urmează modelul experimentelor prezentate la sistemul de QA, cu excepţia

modulului de extragere a răspunsurilor posibile pentru întrebare, care este inutil în cazul

problemei curente.

5.2.1. Rezultate obţinute în AVE2007 şi în AVE2008

Organizatorii au folosit în 2007 şi în 2008 pentru departajarea participanţilor o măsură care

verifică numărul răspunsurilor selectate corect (qa_accuracy). În 2008, s-a mai folosit încă o

măsură care verifică numărul de răspunsuri respinse corect (qa_rej_accuracy). Formulele pentru

aceste două măsuri sunt (Rodrigo et al., 2008):

questions

corectlySELECTEDanswersaccuracyqa

___ =

questions

corectlyREJECTEDanswersaccuracyrejqa

____ =

În ambele ediţii, în raport cu prima măsură din şapte grupuri participante pe limba engleză

ne-am clasat pe primul loc la egalitate cu un alt grup. În 2008, în funcţie de a doua măsură ne-am

clasat pe locul patru.

5.3. Aplicaţii pentru limba română Încurajaţi de rezultatele obţinute pe limba engleză, am încercat să facem ceva similar pe limba

română.

5.3.1. Sistemul de TE pentru limba română

Am mers pe aceeaşi ideea de la sistemul englezesc: să mapăm cuvinte din ipoteză în text folosind

resurse externe disponibile pe limba română: WordNetul românesc (Tufiş et al., 2004), GATE

(Cunningham et al., 2001), baze de date de acronime şi cunoaştere suplimentară obţinută din

Wikipedia românească (Iftene and Balahur-Dobrescu, 2007d). Deoarece calitatea acestor resurse

22

este scăzută în comparaţie cu limba engleză am aplicat algoritmi specifici pentru a le îmbunătăţi

calitatea sau pentru a creea noi resurse (Iftene and Balahur-Dobrescu, 2007c).

Pentru a putea evalua sistemul românesc am tradus datele de test şi de dezvoltare din

RTE-3 în română. Rezultatele pe limba română (56.7% pe datele de dezvoltare şi 56.1% pe cele

de test) sunt mai scăzute în comparaţie cu cele obţinute pe limba engleză (Iftene and Balahur-

Dobrescu, 2008a), din cauza diferenţelor atât cantitative cât şi calitative ale WordNetului şi

Wikipediei.

5.3.2. Aplicaţii

Folosirea sistemului românesc de TE în QA ne-a înbunătăţit rezultatele în QA@CLEF2006 cu

5 % (Iftene and Balahur-Dobrescu, 2007b) şi-n QA@CLEF2006 cu 2.5 % (Iftene et al., 2008f).

Folosirea sistemului românesc de TE în AVE s-a realizat similar limbii engleze (Iftene et al.,

2008g) şi a obţinut o precizie de 0.25.

5.4. Concluzii Acest capitol demostrează utilitatea sistemului TE în două exerciţii din competiţia QA@CLEF:

Question Answering (QA) şi Answer Validation Exercise (AVE), atât pe engleză cât şi pe

română. În ambele cazuri folosirea sistemului de TE a dus la îmbunătăţirea rezultatelor.

23

6. Concluzii

6.1. Contribuţiile tezei de doctorat Contribuţiile tezei sunt direcţionate pe patru mari direcţii:

1. Prezentarea competiţiilor RTE: sunt prezentate competiţiile din 2005 până în 2008 cu

principalele caracteristici aduse de la an la an. De asemenea sunt prezentate principalele

direcţii abordate, insisitând pe prezentarea metodelor care au avut cele mai bune

rezultate de-a lungul timpuslui.

2. Construirea unui sistem complex de TE cu rezultate promiţătoare în RTE-3 şi în

RTE-4. Acest sistem este descris în detaliu, prezentând atât aspectele pozitive cât şi

cele negative pe exemple din datele de test. În plus faţă de sistemele existente acest

sistem foloseşte maparea contextuală între cuvintele din ipoteză şi cele din text,

foloseşte resursa Wikipedia şi o gramatică a limbii engleze pentru a identifica relaţii

între entităţile de tip nume, reguli specifice pentru identificarea contradicţiilor şi a

cazurilor de unknown. În final, sistemul, pe baza unor valori fitness calculate şi pe baza

unor praguri identificate în procesul de antrenare, stabileşte răspunsurile finale pentru

toate perechile text, ipoteză.

3. Îmbunătăţirea vitezei de calcul s-a făcut folosind atât reţele Peer-to-Peer şi

mecansisme de caching şi cât şi servicii GRID. Acest aspect este foarte important, în

identificarea rapidă a modificărilor care au loc în sistem, şi în evaluarea calitativă a

acestora. De asemenea, serviciile GRID ne ajută în transformarea aplicaţiei într-una

care să ne ofere răspunsurile în timp real.

4. Adaptarea sistemului de TE pentru a îmbunătăţi calitatea sistemelor de QA şi

AVE atât pe limba engleză cât şi pe limba română, dovedeşte aplicabilitatea muncii

depuse. Rezultatele obţinute ne îndreptăţesc să credem că viitoarele sisteme de căutare

documentară vor folosi pentru ordonarea rezultatelor sisteme care realizează inferenţe

textuale.

6.2. Munca viitoare Munca viitoare va avea ca principal scop îmbunătăţirea sistemelor de TE, QA şi AVE prin

crearea de noi resurse şi îmbunătăţirea modulelor cu probleme. De asemenea, pentru a putea

accesa mai uşor aceste module în cadrul altor aplicaţii, dorim să creăm noi servicii GRID pe

24

limbile engleză şi română care să vină în sprijinul comunităţii NLP.

O altă direcţie importantă este legată de publicarea uneltelor şi resurselor curente sub

licenţa GNU ca open source, pentru a putea fi îmbunătăţite şi utilizate de către dezvoltatorii de

software din domeniu.

25

7. Bibliografie

Akhmatova, E. 2005. Textual Entailment Resolution via Atomic Propositions. In Proceedings of

the First Challenge Workshop Recognising Textual Entailment, Pages 61-64, 33–36 April,

2005, Southampton, U.K

Bar-Haim, R., Dagan, I., Dolan, B., Ferro, L., Giampiccolo, D., Magnini, B. and Szpector, I.

2006. The Second PASCAL Recognising Textual Entailment Challenge. In Proceedings of

the Second Challenge Workshop Recognising Textual Entailment, Pages 1-10, 10 April,

2006, Venice, Italia

Bar-Haim, R., Dagan, I., Greental, I., Szpektor, I., Friedman, M. 2007. Semantic Inference at the

Lexical-Syntactic Level for Textual Entailment Recognition. In Proceedings of the ACL-

PASCAL Workshop on Textual Entailment and Paraphrasing. Pp.1-9. 28-29 June, Prague,

Czech Republic

Bayer, S., Burger, J., Ferro, L., Henderson, J., Yeh, A. 2005. MITRE’s Submissions to the EU

Pascal RTE Challenge. In Proceedings of the First PASCAL Challenge Workshop for

Recognising Textual Entailment, pages 41–44, 11–13 April, 2005, Southampton, U.K.

Chambers, N., Cer, D., Grenager, T., Hall, D., Kiddon, C., MacCartney, B., Marneffe, M. C.,

Ramage, D., Yeh, E., Manning, C. D. 2007. Learning Alignments and Leveraging Natural

Logic. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment and

Paraphrasing. Pp.165-170. 28-29 June, Prague, Czech Republic

Chklovski, T. and Pantel, P. 2004. Verbocean: Mining the web for fine-grained semantic verb

relations. In Proceedings of EMNLP 2004, pages 33–40, Barcelona, Spain, July.

Association for Computational Linguistics.

Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V. 2001. GATE: an architecture for

development of robust HLT applications. In ACL '02: Proceedings of the 40th Annual

Meeting on Association for Computational Linguistics, 2001, 168--175, Association for

Computational Linguistics, Morristown, NJ, USA

Dagan, I. and Glickman, O. 2004. Probabilistic textual entailment: Generic applied modeling of

language variability. In Learning Methods for Text Understanding and Mining, Grenoble,

26

France.

Dagan, I., Magini, B., and Glickman, O. 2005. The PASCAL Recognising Textual Entailment

Challenge. In Proceedings of the First PASCAL Challenge Workshop for Recognising

Textual Entailment, pages 1–9, 11–13 April, 2005, Southampton, U.K.

Delmonte, R., Tonelli, S., Aldo Piccolino Boniforti, M., Bristot, A., Pianta, E. 2005. VENSES – a

Linguistically-Based System for Semantic Evaluation. In Proceedings of the First PASCAL

Challenge Workshop for Recognising Textual Entailment, pages 49–52, 11–13 April, 2005,

Southampton, U.K.

Delmonte, R., Bristot, A., Piccolino Boniforti, M. A., Tonelli, S. 2007. Entailment and Anaphora

Resolution in RTE3. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment

and Paraphrasing. Pages 48-53. 28-29 June, Prague, Czech Republic

Fellbaum, C. 1998. WordNet: An Electronic Lexical Database. MIT Press, Cambridge, Mass.

Herrera, J., Peas, A. and Verdejo, F. 2005. Textual Entailment Recognition Based on

Dependency Analysis and WordNet. In Proceedings of the First Challenge Workshop

Recognising Textual Entailment, Pages 21-24, 33–36 April, 2005, Southampton, U.K

Hickl, A., Bensley, J., Williams, J., Roberts, K., Rink, B., Shi, Y. 2006. Recognising Textual

Entailment with LCC’s GROUNDHOG System. In Proceedings of the Second Challenge

Workshop Recognising Textual Entailment, Pages 80-85, 10 April, 2006, Venice, Italia

Hickl, A. and Bensley, J. 2007. A Discourse Commitment-Based Framework for Recognising

Textual Entailment. In Proceedings of the ACL-PASCAL Workshop on Textual Entailment

and Paraphrasing. Pages 185-190. 28-29 June, Prague, Czech Republic.

Iftene, A. 2008a. Discovery Linguistic Services in a GRID Environment. In proceedings

Scientific and Educational GRID Applications. 5th European Conference on Intelligent

Systems and Technologies (ECIT 2008). Publishing House "Politehnium", Iasi. Pages 49-

60. ISBN 978-973-621-236-9. 10-12 July. Iasi, Romania.

Iftene, A. 2008b. Building a Textual Entailment System for the RTE3 Competition. Application

to a QA System. In proceedings of 10th International Symposium on Symbolic and Numeric

Algorithms for Scientific Computing (SYNASC 2008). September 26-29, Timişoara,

România.

27

Iftene, A. 2008c. UAIC Participation at RTE4. In Text Analysis Conference (TAC 2008)

Workshop - RTE-4 Track. National Institute of Standards and Technology (NIST).

November 17-19, 2008. Gaithersburg, Maryland, USA.

Iftene, A., Balahur-Dobrescu, A. 2007a. Hypothesis Transformation and Semantic Variability

Rules Used in Recognising Textual Entailment. In Proceedings of the ACL-PASCAL

Workshop on Textual Entailment and Paraphrasing. Pages 125-130. 28-29 June, Prague,

Czech Republic.

Iftene, A., Balahur-Dobrescu, A. 2007b. Improving a QA System for Romanian Using Textual

Entailment. In Proceedings of RANLP workshop "A Common Natural Language Processing

Paradigm For Balkan Languages". ISBN 978-954-91743-8-0, Pp. 7-14, September 26,

2007, Borovets, Bulgaria.

Iftene, A., Balahur-Dobrescu, A. 2007c. Textual Entailment on Romanian. The third Workshop

on Romanian Linguistic Resources and Tools for Romanian Language Processing. ISSN

1843-911X. Pp. 109-118, 14-15 December. Iaşi, România.

Iftene, A., Balahur-Dobrescu, A. 2007d. Name entity relation discovery using Wikipedia for

Romanian. The third Workshop on Romanian Linguistic Resources and Tools for

Romanian Language Processing. ISSN 1843-911X. Pp. 99-108, 14-15 December. Iaşi,

România.

Iftene, A., Balahur-Dobrescu, A. and Matei, D. 2007. A Distributed Architecture System for

Recognising Textual Entailment. In proceedings of 9th International Symposium on

Symbolic and Numeric Algorithms for Scientific Computing (SYNASC 2007). Pp. 219--226.

Published by the IEEE Computer Society. ISBN 0-7695-3078-8. September 26-29,

Timişoara, România.

Iftene, A., Balahur-Dobrescu, A. 2008a. A Language Independent Approach for Recognising

Textual Entailment. In journal "Research in Computing Science". Vol. 334, Pp. 3-14.

Instituto Politecnico Nacional, Centro de Investigacion en Computacion, Mexico 2007.

ISSN: 1870-4069. Poster at 9th International Conference on Intelligent Text Processing

and Computational Linguistics (CICling 2008). 17-23 February. Haifa, Israel.

Iftene, A., Balahur-Dobrescu, A. 2008b. Named Entity Relation Mining Using Wikipedia. In

Proceedings of the Sixth International Language Resources and Evaluation (LREC'08).

28

ISBN: 2-9517408-4-0, EAN: 9782951740846. 28-30 May, Marrakech, Morocco.

Iftene, A., Balahur-Dobrescu, A. 2008c. Answer Validation on English and Romanian

Languages. In Working Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus,

Denmark.

Iftene, A., Balahur-Dobrescu, A. 2008d. UAIC Participation in AVE 2007. In CLEF 2007. C.

Peters et al. (Eds.), Lecture Notes in Computer Science, LNCS 5152, Pp. 395-403,

Springer-Verlag Berlin Heidelberg 2008

Iftene, A., Pistol, I., Trandabăţ, D. 2008f. UAIC Participation at QA@CLEF2008. In Working

Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus, Denmark

Iftene, A., Rotaru, A., Marcu, D. A. 2008g. The evaluation of the answers for a Romanian

Question Answering system. The fourth Workshop on Romanian Linguistic Resources and

Tools for Romanian Language Processing. 19-20 November. Iaşi, România

Inkpen, D., Kipp, D. and Nastase, V. 2006. Machine Learning Experiments for Textual

Entailment. In Proceedings of the Second Challenge Workshop Recognising Textual

Entailment, Pages 17-20, 10 April, 2006, Venice, Italia

Kozareva, Z. and Montoyo, A. 2006. MLEnt: The Machine Learning Entailment System of the

University of Alicante. In Proceedings of the Second Challenge Workshop Recognising

Textual Entailment, Pages 17-20, 10 April, 2006, Venice, Italia

Lin, D. 1998. Dependency-based evaluation of minipar. In Workshop on the Evaluation of

Parsing Systems, Granada, Spain

Lin, D. and Pantel, P. 2001. Dirt - discovery of inference rules from text. In Proceedings of ACM

Conference on Knowledge Discovery and Data Mining. San Francisco, CA., pages 323–328.

Peñas, A., Rodrigo, Á., Verdejo, F. 2007. Overview of the Answer Validation Exercise 2007. In

Working Notes of the CLEF 2007 Workshop. 19-21 September, Budapest, Hungary.

Rodrigo, Á., Peñas, A. and Verdejo, F. 2008. Overview of the Answer Validation Exercise 2008.

In Working Notes of the CLEF 2008 Workshop. 17-19 September. Aarhus, Denmark.

Tatu, M. and Moldovan, D. 2007. COGEX at RTE3. In Proceedings of the ACL-PASCAL

Workshop on Textual Entailment and Paraphrasing. Pages 22-27. 28-29 June, Prague,

Czech Republic.

29

Tatu, M., Iles, B., Slavick, J., Novischi, A., Moldovan, D. 2006. COGEX at the Second

Recognising Textual Entailment Challenge. In Proceedings of the Second Challenge

Workshop Recognising Textual Entailment, Pages 17-20, 10 April, 2006, Venice, Italia

Tufiş, D., Barbu, E., Barbu Mititelu, V., Ion, R., Bozianu, L. 2004. The Romanian Wordnet.

Romanian Journal of Information Science and Technology, Volume 7, Numbers 1-2, pp.

107-124.