· Web view ... CYC

CYC

CYC este un proiect în domeniul inteligenței artificiale în cadrul căruia s-a creat ontologa globală și o bază de cunoștințe cu toate cunoștințele omenești avînd drept scop obțierea inteligenței artificiale cu capacitatea de a raţiona în modul omenesc. Cunoștințele sunt reprezentate în formă de predicate ce descriu unități de informație. Pentru codificarea informației a fost folosit un limbaj CycL, ce este bazat pe calculul predicatelor și are sintaxa similară cu sintaxa limbajului de programare logică Lisp. Unitățile de informație ce formează baza de cunoștințe sunt de tipul: “Orice copac este o plantă”, “Pe plante înfloresc flori”, “Ființele vii mor la un moment dat”. Proiectul a fost lansat în 1984 de Douglas Lenat la Microelectronics and Computer Technology Corporation. Din 1994 a fost creată Cycorp care și a dezvoltat baza de cunoștințe. CYC (de la enCYClopedia, se pronunță la fel ca și în cuvînt “saic”) este marca comercială a companiei. Sistemul creat este produs commercial. În 2002 a fost lansat OpenCyc (http://www.opencyc.org/), versiunea non-comercială a sistemului ce prezintă o parte a bazei de cunoștințe. Prima versiune din 2002 conținea numai 6000 concepte și 60 000 fapte. Ultima versiune din 2009 conține 47 000 concepte și 306 000 fapte și poate fi accesată on-line pe situl OpenCyc.În 2006 Cycorp a lansat o altă versiune numită ResearchCyc dedicată cercetătorilor. În afară de datele din OpenCyc ResearchCyc conține multe cunoștințe semantice și anume fapte despre conceptele bazei, un lexicon vast, programe pentru analiza și generarea textului în limba engleză și o interfață pentru editarea și interogarea bazei de cunoștințe.

Baza de cunoștințe

Cum a fost descris mai sus, baza de cunoștințe conține un volum vast de piese de informație reprezentate în limbaj logic creat special pentru baza dată. Logica a

1

http://hallo.ro/search.do?l=ro&d=en&query=capacitate

http://hallo.ro/search.do?l=ro&d=en&query=ra%C5%A3iona

http://hallo.ro/search.do?l=ro&d=en&query=de

fost preluată din calculul predicatelor de ordinul întîi, însă limbajul dat a fost înlărgit în scopul reprezentării tutror cunoștințeor necesare.

Elementele de bază pentru reprezentarea cunoștințeor sunt:

Constante. Constantele în Cyc denotă conceptele sau obiectele mediului înconjurător. Constantele pot reprezenta:

Obiecte individuale ( individuals ), de exemplu, #$BillClinton sau #$France.

Colecții sau mulțimi ( collections ), de exemplu, #$Tree-ThePlant (mulțimea tuturor copacilor) sau #$EquivalenceRelation (mulțimea de relații de echivalență). Eementul mulțimii (colecției) este numit instanța (instance) colecției date. Unele constante prezintă seturi întregi de concepte ca #$AnimalWalkingProcess, toate maniere de a umbla a animalelor.

Funcții (Functions) care pot forma concepte noi din cele deja definite. De exemplu, funcţia #$GovernmentFn formează concepte noi aşa ca #$GovernmentOf #$Canada sau #$GovernmentOf #$Moldova. Alt exempu este #$FruitFn, care avînd ca argument un pom formează conceptul fructul pomului dat. Toate funcțiile au sufixul "Fn".

Truth Functions pot fi aplicate la la unul sau mai multe concepte și pot avea una din doua valori: adevărat sau fals. De exemplu #$siblings este relația care are doua argumente și obține valoarea adevărat dacă argumentele sunt frați. Aceste funcții se construiesc din predicate care se unesc cu conectori logici: #$and, #$or, #$not, #$implies. #$implies are sensul “urmează” și este utilizat cînd o funcție urmează di alta. Alte elemente posibile în funcții sunt cuantifcatori: #$forAll, #$thereExists, și altele.

Unele din cele mai importante predicate sunt #$isa și #$genls. Predicatul #$isa descrie un element ca fiind instanța unui grup (colecției), de exemplu: (#$isa #$BillClinton #$UnitedStatesPresident)

Exprimarea dată indică că Bill Clinton este o instanță a colecției președintelor SUA.

Predicatul #$genls descrie relația de includere între o colecție mai largă și subcolecție a primei, de exemplu: (#$genls #$Tree-ThePlant #$Plant)

2

http://www.cyc.com/cycdoc/vocab/geography-vocab.html#GovernmentFn

http://www.cyc.com/cycdoc/vocab/physiology-vocab.html#AnimalWalkingProcess

indică că colecția de copaci este o subcolecție a colecției plantelor. Astfel de descrieri formează exprimările bazei de cunoștințe. Sintaxa exprimărilor este prezentată în exemplul următor: (#$capitalCity #$France #$Paris)

Exprimarea indică că Paris este capitala Franței.

În exprimările pot fi utilizate variabile în modul similar variabilelor în limbaj logic. Variabile se încep cu semnul ?

Exprimările ce conțin variabile se numesc reguli. Una din cele mai importante reguli formată cu predicatul #$isa arată astfel:(#$implies (#$and (#$isa ?OBJ ?SUBSET) (#$genls ?SUBSET ?SUPERSET)) (#$isa ?OBJ ?SUPERSET))și are sensul următor: dacă OBJ este instanța colecției SUBSET și SUBSET în rîndul său este subcolecție a colecției SUPERSET, atunci OBJ este instanța colecției SUPERSET.Fiecare constantă în Cyc are una sau mai multe afirmări care o descriu. Spre exemplu, constanta #$Green este descrisă ca: (#$isa #$Green #$Color)ce înseamnă că verdele este o culoare și este instanța colecîiei de culori. Culoarea este utilizată în afirmarea:(#$colorOfObject #$Grass #$Green)ce descrie culoarea ierbii. La fel ea este folosită în regula:

(#$forAll ?O (#$implies

(#$isa ?O #$Tree-ThePlant) (#$colorOfObject ?O #$Green)))

Regula dată descrie variabila ?O și are următorul sens: pentru orice obiect este adevărat că dacă obiectul dat este copac, culoarea lui este verde.

Taxonomia bazei de cunoștințe

Taxonomia bazei de cunoștințe Cyc este arborescentă și la vîrf are un singur concept #$thing. Reprezentarea grafică a taxonomiei este reluată de pe http://www.cyc.com/cyc/technology/whatiscyc_dir/maptest și prezentată în figura 1.

Baza de cunoștințe Cyc este împărțită în microteorii (Mt), care încapsuează conceptele și faptele dintr-un domeniu de cunoștințe. Spre deosebire de toată

3

http://www.cyc.com/cycdoc/vocab/material-vocab.html#colorOfObject

http://www.cyc.com/cycdoc/vocab/fundamental-vocab.html#isa

http://www.cyc.com/cycdoc/vocab/fundamental-vocab.html#implies

http://www.cyc.com/cycdoc/vocab/fundamental-vocab.html#forAll

http://www.cyc.com/cycdoc/vocab/material-vocab.html#colorOfObject

http://www.cyc.com/cycdoc/vocab/material-vocab.html#Color


baza de cunoștințe microteoriile nu conțin exprimări contradictorii. Fiecare microteorie are denumire care este reprezentată în formă de o constantă simplă; acestea pot fi usor deosebite prin sufixul «Mt» ce conțin toate denumirile microteoriilor. De exemplu, #$MathMt este microteoria ce descrie cunoștințe matematice. Microteiriile sunt organizate într-o ierarhie, de exemplu, microteoria despre geometrie #$GeometryGMt este submicroteoria microteoriei #$MathMt ce descrie matematica în general.

Figura 1. Taxonomia bazei de cunoştinţe

Procesarea limbajului natural în Cyc

Procesarea limbajului natural în Cyc se efectuiază de trei componente de bază: lexicon, sintactic parser și interpretator semantic, însă pentru obținerea sensului corect a propoziției sunt activate mai multe părți a bazei de cunoștințe.

Lexiconul

4

Lexiconul în Cyc este un element important al sistemului care conţine toată informaţia despre cuvintele engleze. În Cyc toate cuvintele formează setul #$EnglishWord. În lexicon este prezentată informaţia următoare:- partea de vorbire a cuvîntului şi altă informaţie morfo-sintactică;- corespondenţa cu conceptul general reprezentat în baza de cunoștințe.Informaţia sintactică este codificată în predicate care formează setul #$NLSyntacticPredicate.De exemplu, substantivele în Cyc sunt prezentate în următorul mod:

(#$plural #$Child-TheWord "children")(#$posForms #$Child-TheWord #$SimpleNoun)(#$agentive-Pl #$Fish-TheWord "fishermen")(#$posForms #$Fish-TheWord #$AgentiveNoun)

La fel sunt prezentate adjectivele, adverbele şi alte părţi de vorbire. Pentru descrierea caracteristicilor morfologice se folosesc predicate speciale:

(#$partOfSpeech #$From-TheWord #$Preposition "from")(#$partOfSpeech #$Since-TheWord #$SubordinatingConjunction "since")(#$partOfSpeech #$Myself-TheWord #$ReflexivePronoun "myself")

Informaţia semantică în Cyc este introdusă prin legăturile dintre conceptele generale ale ontologiei şi cuvintele lexiconului. Legăturile acestea sunt reprezentate cu predicatele #$denotation. Mai jos sunt prezentate exemple de legături:

(#$denotation #$Bat-TheWord #$SimpleNoun 0 #$Bat-Mammal)(#$denotation #$Bat-TheWord #$SimpleNoun 1 #$BaseballBat)(#$denotation #$Bat-TheWord #$Verb 0 #$BaseballBatting)

Primul argument în predicat este cuvîntul, al doilea argument prezintă partea de vorbire, al treilea indică numărul de ordine a sensului cuvîntului dat şi ultimul este conceptul general. Spre exemplu, în primul predicat este notat că sensul numărul zero al cuvîntului bat ca substantiv este bat-mammal; al doilea predicat idică următorul sens al cuvîntului bat ca substantiv și anume bățul special cu care în baseball (fotbalul american) lovesc mingea; al treilea exemplu indică sensul cuvîntului bat în calitate de verb. Alt tip de relaţie semantică este introdus folosindu-l predicatul #$denotationRelatedTo. Predicatul acesta se foloseşte în cazurile cînd un cuvînt nu prezintă exact conceptul, dar sensul lui este legat de conceptul dat. Spre exemplu:

(#$denotationRelatedTo #$Shuffle-TheWord #$Verb 0 (shuffle – târşâire, mers târşâit)

#$AnimalWalkingProcess)(#$denotationRelatedTo

#$Perambulate-TheWord #$Verb 0 (perambulate – a se plimba)#$AnimalWalkingProcess)

(#$denotationRelatedTo #$Stride-TheWord #$Verb 0 (stride – a merge cu paşi mari)

5

http://hallo.ro/search.do?l=ro&d=en&query=mari

http://hallo.ro/search.do?l=ro&d=en&query=pa%C5%9Fi

http://hallo.ro/search.do?l=ro&d=en&query=cu

http://hallo.ro/search.do?l=ro&d=en&query=merge

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#Adjective

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#denotationRelatedTo



http://hallo.ro/search.do?l=ro&d=en&query=t%C3%A2r%C5%9F%C3%A2ire

http://hallo.ro/search.do?l=ro&d=en&query=t%C3%A2r%C5%9F%C3%A2ire




http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#Verb

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#denotation

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#SimpleNoun


http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#SimpleNoun



http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#ReflexivePronoun

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#SubordinatingConjunction

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#Preposition

http://www.cyc.com/cycdoc/vocab/linguistic-vocab.html#NLSyntacticPredicate

http://www.cyc.com/cycdoc/vocab/linguistic-vocab.html#EnglishWord

#$AnimalWalkingProcess)Toate conceptele prezentate descriu modurile de a se deplasa pe pamînt.Pentru majoritatea substantivelor legătura cu conceptul se realizează folosind predicatul #$denotation şi reprezintă sensul lui. În unele cazuri sensul este mai complicat şi este nevoie de predicatul #$nounSemTrans ca în următorul exemplu:

(#$nounSemTrans #$Bachelor-TheWord 0 (bachelor - celibatar)(#$and

(#$isa :NOUN #$AdultMalePerson) (#$maritalStatus :NOUN #$Single)))

Pentru verbe, adverbe şi adjective de asemenea sunt create predicatele #$denotation dar deseori sunt introduse şi predicatele pentru precizarea sensului. Verbele acţionează ca elementul principal în propoziţie, ele unesc alte elemente ale propoziţiei. Astfel, pentru verbe sunt create şabloanele sintactice care denotă argumentele ce apar pe lîngă fiecare verb. Pentru crearea şabloanelor sintactice se folosesc predicatele #$verbSemTrans. Spre exemplu, regula pentru verbul eat tranzitiv arată astfel:(#$verbSemTrans #$Eat-TheWord 0

#$TransitiveNPCompFrame (#$and

(#$isa :ACTION #$EatingEvent) (#$doneBy :ACTION :SUBJECT)(#$inputsDestroyed :ACTION :OBJECT)))

În regula prezentată sunt rezervate poziţiile pentru două variabile: subiect (SUBJECT) şi complement direct (OBJECT). Altă regulă este prevăzută pentru verbul feed folosit în structura cu compliment direct și indirect ca în propoziţia I fed the horse an apple: (#$verbSemTrans #$Feed-TheWord 0

#$DitransitiveNPCompFrame (#$and

(#$isa :ACTION #$FeedingEvent) (#$fromPossessor :ACTION :SUBJECT) (#$objectOfPossessionTransfer :ACTION :OBJECT) (#$toPossessor :ACTION :INDIRECT-OBJECT)))

În regula aceasta sunt rezervate poziţiile pentru subiect (SUBJECT), complement direct (OBJECT) şi complement indirect (INDIRECT-OBJECT). Regulile prezentate în exemplele anterioare descriu nişte evenimente care sunt denotate cu elementul (#$isa :ACTION #$FeedingEvent). A treia regulă conţine un verb care descrie nu o acţiune, dar o stare:

(#$verbSemTrans #$Like-TheWord 0 #$TransitiveNPCompFrame

(#$likesObject :SUBJECT :OBJECT))

6

http://www.cyc.com/cycdoc/vocab/emotion-vocab.html#likesObject

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#TransitiveNPCompFrame

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#verbSemTrans

http://www.cyc.com/cycdoc/vocab/poss-transfer-vocab.html#FeedingEvent


http://www.cyc.com/cycdoc/vocab/actor-vocab-complete.html#toPossessor

http://www.cyc.com/cycdoc/vocab/financial-vocab.html#objectOfPossessionTransfer

http://www.cyc.com/cycdoc/vocab/actor-vocab-complete.html#fromPossessor

http://www.cyc.com/cycdoc/vocab/poss-transfer-vocab.html#FeedingEvent


http://www.cyc.com/cycdoc/vocab/fundamental-vocab.html#and

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#DoubleObjectFrame


http://www.cyc.com/cycdoc/vocab/actor-vocab-complete.html#inputsDestroyed

http://www.cyc.com/cycdoc/vocab/actor-vocab-complete.html#doneBy

http://www.cyc.com/cycdoc/vocab/food-vocab.html#EatingEvent



http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#TransitiveNPCompFrame


http://www.cyc.com/cycdoc/vocab/social-vocab.html#maritalStatus



http://hallo.ro/search.do?l=ro&d=en&query=celibatar

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#nounSemTrans

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#nounSemTrans

În cazul verbului like se formează predicatul #$likesObject cu subiectul şi complementul direct din propoziție. Fiecare din regulile prezentate se referă la predicatul #$SubcategorizationFrame potrivit.

Mopfologia în Cyc este o componentă care recunoaşte şi generează cuvintele sub toate formele posibile. În structurile logice Cyc sunt folosite cuvintele în forma lor de bază, schimbarea formei se execută de componenta morfologică. Pentru substantive unica formă flexionară este pluralul care se formează adăugînd –s sau –es la forma de bază. Pentru verbe forma de bază este infinitivul, iar forme flexionare sunt gerunziu, timpurile trecut, perfect şi persoana a treia singular. Toate formele acestea se formează corespunzător prin adăugarea –ing, -d sau –ed, şi –s sau –es. Pentru substantivele şi verbele neregulate sunt folosite #$plural, #$gerund, #$pastTense, #$thirdPersonSg şi #$perfect.

Generatorul de text în limba naturală (engleză) traduce formulele limbajului intern de reprezentare în text în limba engleza, folosind şabloane sintactice.

Analiza propozițiilor engleze în Cyc

Prima etapa de analiză a propoziției este analiza morfologică a cuvintelor. Este cunoscut că cuvintele limbii engleze ca regulă sunt polisemantice și pot să apară în text ca diferite părți de vorbire. De exemplu, în propoziția John saw the light with the telescope. sunt posibile următoarele părți de vorbire:

John saw the light with the telescopeproper noun

verbnoun

determiner verbnoun

adjective

preposition determiner verbnoun

Analizator morfologic atașează la cuvintele propoziției toate etichetele părților de vorbire posibile și lasă sarcina de alegere pentru etapele următoare. La etapa următoare parser sintactic formează toate structurile sintactice posibile cu părțile date de vorbire și le analizează din punct de vedere a sensului corect.

Analiza sintactică constă dintr-un set de componente. Strategia este compusă din top-down şi bottom-up metode pentru optimizarea vitezei şi flexibilităţii. Procesul de analiză sintactică este condus de reguli euristice care reduc numărul de variante posibile. Diferite unităţi ale propoziţiei se analizează folosind

7

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#perfect

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#thirdPersonSg

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#pastTense

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#gerund

http://www.cyc.com/cycdoc/vocab/lexicon-vocab.html#plural

http://www.cyc.com/cycdoc/vocab/emotion-vocab.html#SubcategorizationFrame

http://www.cyc.com/cycdoc/vocab/emotion-vocab.html#likesObject

analizatori diferiţi. În set sunt incluse: Analizatorul bazat pe şabloane (Template parser), Analizatorul de grupuri nominale (Noun Compound parser) şi Analizatorul structurii frazei (Phrase Structure parser). Analizatorul bazat pe şabloane este relativ simplu şi rapid, dar puţin flexibil. Analizatorul de grupuri nominale este creat pentru recunoaşterea grupurilor nominale ca, de exemplu, country parliament decision. În procesul analizei componenta dată foloseşte partea semantică a sistemului în scopul formării corecte a sensului grupurilor nominale. Ea poate distinge aşa fel de grupuri nominale ca Mozart symphonies (simfoniile create de Mozart) şi Mozart expert (expert ce studiază viața și creația lui Mozart) ce este imposibil la nivelul pur sintactic.

Pentru propoziția prezentată mai sus se formează două structuri sintactice arborescente:

{:SENTENCE {:NP {:N-BAR {#$ProperNoun [John]}}} {:VP {#$Verb [saw]} {:NP {:DETP {#$Determiner [the]}} {:N-BAR {#$SimpleNoun [light]}} {:PP {#$Preposition [with]} {:NP {:DETP {#$Determiner [the]}} {:N-BAR {#$SimpleNoun [telescope]}}}}}}} {:SENTENCE {:NP {:N-BAR {#$ProperNoun [John]}}} {:VP {#$Verb [saw]} {:NP {:DETP {#$Determiner [the]}} {:N-BAR {:N-BAR {#$SimpleNoun [light]}} {:PP {#$Preposition [with]} {:NP {:DETP {#$Determiner [the]}} {:N-BAR {#$SimpleNoun [telescope]}}}}}}}}

De fapt, cum se vede din rezultatul prezentat mai sus parser sintactic deja a ales părțile de vorbire corecte pentru cuvintele ambigue. Două structuri formate reflectă ambiguitatea structurală, nu cea morfologică. În prima structură fragmentul "with a telescope" este atașat la verb reprezentînd sensul: "John a folosit telescopul pentru a vedea lumina". Într-a doua structură fragmentul "with

8

a telescope" este atașat la grup nominal și sensul este: "John a văzut lumina și acolo era telescopul".

Structurile acestea apoi sunt prelucrate de interpretator semantic care alege structura corectă și o traduce în limbajul logic. Astfel, propoziția poate deveni un element a bazei de cunoștințe sau dacă propoziția este interogativă sistemul va căuta răspuns în baza sa de cunoștințe.

Interpretarea semantică.

Reprezentarea semantică a propoziției se formează prin metoda bottom-up, structuri semantice se formează pentru fragmentele structurii sintactice și apoi se unesc în structuri mai mari. Pentru fiecare grup sintactic există reguli semantice corespunzătoare. Ca și în alte sisteme verbul este considerat nucleul propoziției. În lexicon pentru fiecare verb sunt prezentate cadre sintactico-semantice carea ajută în traducerea propoziției în forma logică a limbajului intern Cyc. De exemplu, "believe" este însoțit de cadrul (#$believes :SUBJECT :CLAUSE). Cadrul acesta este aplicat în cazul propozițiilor de tipul "Mary believes that the blue hat is pretty". Respectiv reprezentarea semantică pentru alte elemente a propoziției se plasează în loc de SUBJECT și CLAUSE în structura semantică formată.

Dacă revenim la propoziția cu lumina și telescopul din exemplul nostru, componenta semantică CYC verifică ambele structuri sintactice formate. Se analizează două exprimări formate: "lumina cu telescopul" și "a văzut cu telescopul". Baza de cunoștințe a sistemuui conține informația că telescopul este utilizat pentru a vedea ceva iar informație că lumina este ceva, unde telescopul se află nu se găsește în baza de cunoștințe. Respectiv, prima structură este respinsă și a doua structură este considerată corectă. Astfel, a doua structură se transformă în exprimarea logică în limbajul formal CYC.

Sistemul utillizează cunoștințele din baza sa de cunoștințe pentru rezolvarea problemelor ambiguității cuvintelor și a propozițiilor fără a apela la metode statistice.

Spre exemplu, analizînd propozițiile următoare:

Fred saw the plane flying over Zurich.o Fred a văzut avionul zburînd deasupra orașului Zurich.

Fred saw the mountains flying over Zurich. o Fred a văzut munții zburînd deasupra orașului Zurich.

9

Oamenii nu întîlnesc dificultăți în înțelegere că în primul caz zbura avionul și Fred l-a văzut (evident, de pe pămînt) și într-a doilea caz zbura Fred (cu avionul, pentru noi și asta este clar) și a văzut munții sub avion. Însă sistemele computaționale ca regulă au probleme în analiza astfel de propoziții. CYC în rîndul său are o bază vastă de cunoștințe în care este indicat că zboară avioanele și oamenii le folosesc iar munții nu pot zbura; cunoștințele acestea și sunt folosite pentru interpretarea corectă a propozițiilor date.

Dezvoltarea CYC

Pe data de 1 ianuarie 2009 baza de cunoștințe CYC conținea aproape 500000 termeni, 15000 tipuri de relații și aproximativ 5000000 de fapte (exprimări) despre termenii dați. Exprimațiile se adăuga în continuare utilizînd combinația metodelor automate și manuale; astfel, CYC poate adauga milioane de exprimări folosind regulile din baza de cunoștințe și motorul de inferență încorporat.

În afară de această CYC a lansat un sit http://game.cyc.com/ pentru obținerea cunoștințelor de la utilizatorii internetului. Doritorii de a completa baza de cunoștințe sunt invitati să participe în așa numită joacă cu un scop (game with the purpose). Sistemul propune utilizatorilor afirmații și întreabă dacă aceste afirmații sunt adevărate sau false.

Cycorp a declarat că va publica un lexicon semantic pentru utilizarea în dezvoltarea Web Semantic. Taxonomia OpenCyc în formatul OWL (Web Ontology Language) deja este prezentată pe situl proiectului.

Utilizarea bazei de cunoştinţe CYC: La momentu de faţă partea comercială a proiectului oferă baza de cunoştinţe creeată cu scopul dezvoltării sistemelor de expert în diferite domenii.

Critica proiectului CYC

CYC este descris ca "una din cele mai controversate încercări în istoria inteligenței artificiale". Necatînd la faptul că creatorii bazei de cunoștințe declară că sistemul lor este o inteligența artificială creată, sistemul este criticat din multe puncte de vedere:

10

Sistemul este foarte complex, ce este evident din scopul sistemului de a cuprinde toate domeniile de cunoștințe, însă din cauza complexității lui este foarte greu de utilizat și de adăugat exprimări noi.

Unele concepte nu sunt tratate suficient de bine. Necatînd la volumul informației în baza de cunoștințe, există o mulțime

de lacune în privința informației despre obiecte ordinare. Documentația despre sistem este foarte limitată și nu sunt manuale on-

line ce crează dificultăți pentru persoane care doresc să folosească sistemul.

Sistemul nu a fost evaluat în comparație cu alte sisteme.

11

Mikrokosmos

Noţiuni generale, arhitectura sistemului

Fig. 1. Arhitectura generală a sistemului de traducere Mikrokosmos

Mikrokosmos (uK) este un sistem de traducere automată bazat pe cunoştinţe (knowledge-based) care a fost creat la universitatea statului New Mexico, SUA. Sistemul dat de traducere utilizează un limbaj formal pentru reprezentarea sensului. Pentru traducerea corectă a fost proiectat un format de reprezentare a sensului independent de limba analizată numit format interlingual (text meaning representation - TMR). TMR serveşte ca rezultat al analizei limbii de întrare şi în corespondenţă cu datele de întrare pentru formarea traducerii în limba finală. Sensul textului este reprezentat în TMR ca elementul modelului global de cunoştinţe (ontologie). Legătura între ontologie şi TMR este realizată prin lexicon unde cuvintele se referă la conceptele ontologiei şi astfel servesc la formarea reprezentării semantice TMR. Un rol important în lucrul sistemului

12

joacă microteoriile. Microteoria este un set de reguli din baza de cunoştinţe unite după domeniu, presupuneri şi surse, care descriu un fragment de cunoştinţe. Iniţial proiectul era concentrat în dependenţa lexico-semantică, apoi pentru prezentarea timpului, relaţiilor discursului, referinţelor, elipselor erau dezvoltate teorii suplimentare numite microteorii.Reprezentarea sensului în TMR este creată aplicând analiza sintactică, semantică şi pragmatică a textului. Limbajul de reprezentare a sensului este intenţionat eliberat de aşa elemente ca clauze, propoziţii, timpul verbelor şi alte noţiuni sintactice. TMR conţine informaţia despre structura lexico-semantică a textului, relaţiile discursului, atitudinile autorului, stilul lui şi alţi factori pragmatici. TMR este bazat pe cadre (frames) în care se înscriu noţiunile ontologiei.

Ontologia Mikrokosmos-ului

Ontologia Mikrokosmos-ului include majoritatea conceptelor limbii. În afară de substantive ea conţine o taxonomie de evenimente şi legături între evenimente şi obiecte. Pentru a servi drept sursă de cunoştinţe în analiza textului, ontologia trebuie sa fie strâns legată cu alte elemente ale sistemului. În aplicaţia data ea conţine o mulţime de legături cu lexiconul ce serveşte ca sursă de informaţie în analiza textului. Partea de vîrf este destul de stabilă, pe când la capetele ramurilor conceptele urmează să se mai adauge. Numărul de ramuri care reiese dintr-un concept este destul de mic (în jur de 5-10) fapt ce la rindul său măreşte numarul de niveluri care depăşeşte 10 pentru majoritatea lexemelor. Ontologia ajută în procesarea limbajului natural pentru stabilirea sensului şi anume:

ea reprezintă preferinţele semantice în cadrul relaţiilor dintre concepte;ea ajută să facem concluzii despre conceptele folosite în text şi după necesitate să completăm neajunsul de informaţie în text;ea poate fi folosită in căutarea legăturii semantice dintre două concepte în cazurile când în text apare problema dezambiguizării grupurilor nominale complexe sau la înţelegerea anaforei când constrângerile semantice nu permit formarea sensului;

În figură este reprezentat fragmentul de vârf al ontologiei mikrokosmos-ului care conţine trei concepte de bază: obiect, eveniment şi proprietate.

13

Figura 2. Schema ontologiei Mikrokosmos.

Lexicon semantic

În modelul prezentat lexiconul este sursa principală a cunoştinţelor. Majoritatea informaţiei este sau reprezentată direct în lexicon sau indexată şi referită din lexicon. Unitatea de lexicon cuprinde un număr de zone în care sunt prezentate diferite tipuri de informaţie: fonologică, morfologică, lexico-semantică, pragmatică. Mai jos este prezentat un exemplu de unitate de lexicon spaniol, şi anume cuvântul „adquirir”. Prima zonă conţine descrierea generală a cuvântului şi sensului corespunzător (cuvântul dat are mai multe sensuri şi, deci, mai multe unităţi în lexicon).

14

Figura 3. Descrierea elementului lexiconului Mikrokosmos.

A doua zonă – Syn Struc - conţine descrierea sintactică a cuvântului. În zona aceasta pentru fiecare lexem este prezentat structura sintactică în care ea poate să apară şi rolul ei în structura dată. Informaţia prezentată in zona aceasta prezintă un fragment din arborele sintactic in care lexemul dat apare mai des. Ea poate să conţină câteva niveluri de structură sintactică în jurul lexemului dat. In modelul ales pentru verbe sunt indicate toate argumentele lor, pentru modificatori elementele de bază, pentru prepoziţii sunt prezentate atât argumente cât şi elementele, la care ele sun ataşate. Aşadar, în zona aceasta sunt prezentate structurile de legături sintactice cu variabile care trebuie să fie înlocuite de lexemele din propoziţie. Variabilele introduse în Syn-Struc zone interacţionează cu şablonul în SEM zone formând reprezentarea semantică. De exemplu, pentru verbul prezentat

15

subject şi object se înlocuesc cu Agent şi Theme, prezentate de variabile $var1 şi $var2.Zona semantică (SEM zone) prezintă un fragment specific al TMR care conţine atât informaţia, cât şi o poate extrage din cuvintele procesate. Adăugător la fragmentul TMR SEM zona poate să includă informaţia specifică pentru limbajul natural analizat. Concatenarea zonelor SEM cuvintelor din propoziţie produce TMR final al propoziţiei în întregime.

Analiza propoziţiilor în Mikrokosmos

Analizatorul semantic combină cunoştinţele din ontologie şi lexicon pentru analiza textului şi crearea TMR textului. Problema centrală în procesul acesta este examinarea constrângerilor semantice pentru sensurile cuvintelor în text şi selectarea sensurilor potrivite cărora, luate în combinaţie, cel mai bine satisfac constrângerile semantice.Pasul iniţial în analiza textului prezintă analiza sintactică. Pentru această este folosit un parser deja creat Pangloss MT care practic formează structura propoziţiei şi legăturile între unităţi. Pasul următor este extragerea din lexicon a tuturor sensurilor posibile pentru cuvintele în propoziţie. Apoi structura sintactică creată se compară cu şabloane sintactice prevăzute pentru lexemele extrase. Dacă şabloanele se potrivesc, variabile sunt înlocuite cu elementele propoziţiei. După înlocuirea variabilelor pot fi aplicate constrângerile semantice din SEM zone. De exemplu, pentru cuvântul ‚acquire’ există două sensuri: ‚de a primi(obţine) ceva’ si ‚de a însuşi ceva’. Pentru sensurile date restricţiile sunt:

‚acquire1’ (Agent: HUMAN ) (Theme: OBJECT (not human)), ‚acquire2’ (Agent: HUMAN ) (Theme: INFORMATION)

Pentru substantive se controlează elementele vecine in şabloanele semantice, care trebuie să coincidă cu condiţiile descrise in lexemul ales. Câteodată apar descrieri dependente de domeniu pentru un lexem anumit. Alte constrângeri pot fi adăugate de grupurile prepoziţionale, care modifică fie predicatul fie alte elemente in propoziţie. Având toate aceste constrângeri sistemul se adresează către ontologie si analizează legaturile intre lexemele din text si noţiunile notate in constrângeri. Iniţial sistemul era creat pentru analiza textelor despre cumpărarea şi unirea firmelor, deaceea verbul dat în textele acestea deseori avea sensul ‚de a cumpăra’ şi avea ca argumente organizaţii. Un exemplu de propoziţie analizată poate fi: The Roche group, through its company in Spain, acquired Doctor Andrew, it was announced today. Conceptul central în propoziţia dată este verbul ACQUIRED. Pentru cuvântul ‚acquire’ exista mai multe sensuri:

16

Ontology concepts for “ACQUIRE”:ACQUIRE-129 ACQUIRE -76Definition – the transfer of possession Definition – the obtaining of some

knowledgeIs-a – transfer-possession Is-a – mental activityTheme – object (not human) Theme – informationAgent – human Agent – humanPrecondition – own Purpose-of – educatoin

ACQUIRE-142Definition – the engaging and others…Is-a – engagingTheme – humanAgent – organisationPurpose-of – occupy the post

După analiza sintactică a propoziţiei din lexicon se extrag toate sensurile posibile ale cuvintelor. În cazul examinat The Roche group se defineşte ca organisation după cuvântul-cheie group. Doctor Andrew obţine două sensuri posibile – ca person şi ca organisation. După formarea şablonului semantic şi adăugarea sensurilor din lexicon obţinem:

‚acquire’ (Agent: The Roche group ) (Theme: Doctor Andrew) ACQUIRE-129 organisation organisation

ACQUIRE-142 person ACQUIRE-76 Pasul următor este verificarea restricţiilor semantice. Din toate

combinaţiile sensurilor poate fi acceptată varianta:‚acquire’ (Agent: The Roche group ) (Theme: Doctor Andrew)

ACQUIRE-142 organisation personSistemul foloseşte un algoritm special de căutare prin ontologie check-onto-con care calculează distanţa între concepte. Spre exemplu, în sistem există legătura între ORGANIZATION şi HUMAN şi anume ORGANIZATION HAS-MEMBER HUMAN. Astfel de relaţie este numită metonimie şi este codificată în sistem. Deci, algoritmul întoarce scorul 1:0 pentru perechea (ACQUIRE EVENT) fiindcă în ontologie ACQUIRE este un tip de eveniment. Pentru (ORGANIZATION HUMAN) scorul este 0:9 ce arată că organizaţia poate să ocupe locul în şablonul semantic unde se cere o persoană. sistemul calculează scorul unit pentru toate combinaţiile posibile şi alege combinaţia cu scorul maximal. Pentru alte cuvinte din propoziţia din exemplu se fac următoarele decizii: - pentru cuvântul through sunt posibile două sensuri: ca instrument şi ca location; se alege sensul instrument;

17

- pentru cuvântul Spain există un sens: country şi, deci ea are rol location;- pentru cuvântul company sunt posibile două sensuri: organization şi social-event din care sitemul nu poate alege unul fiindcă şi unul şi altul pot fi locate într-o ţară şi ambii pot fi instrumente în fragmentul through its company in Spain;- Doctor Andrew poate fi atât person cât şi organsation, în dependenţă de sensul verbului. Dacă este ales conceptul ACQUIRE-129 atunci Doctor Andrew este organsation.Pentru luarea deciziei sistemul poate să se consulte cu informaţia statistică care este obţinută în baza documentelor de afaceri deja procesate de către sistem şi să observe că mai des folosit este conceptul ACQUIRE-129 cu argumentele organsation.După selectarea sensurilor potrivite pasul următor este analiza pragmatică sau contextuală. În cadrul ei se analizează anafore şi alte elemente ale discursului. Pe parcursul analizei în baza informaţiei contextuale se rezolvă problemele de dezambiguizare care nu au fost rezolvate la etapa analizei semantice a propoziţiei.

18

FrameNet

Ideea de bază

Framenet este un proiect condus de Charles Fillmore, autorul teoriei cazurilor semantice sau tematice (case grammar). Teoria cazurilor semantice presupune că:- nucleul propoziției este verbul (predicatul);- grupurile nominale (Noun Phrase - NP) și prepoziționale (Prepositional

Phrase - PP) ale propoziției care au relații sintactice cu verbul (predicatul) dat (în calitate de subiect și complemente) au roluri semantice (tematice) în relație semantică cu verbul (predicatul) dat;

- analogic cu setul cazurilor sintactice, setul de cazuri semantice este comparativ mic.

Însă, aplicarea teoriei cazurilor semantice în practică a demonstrat că numărul restrîns de cazuri semantice nu acoperă toate relațiile semantice între predicat și complemente care apar în text. În aplicații practice cercetătorii au fost nevoiți să mărească setul de roluri semantice. Practic numărul de roluri utilizat variază de la 30 pînă la 80. Charles Fillmore a continuat dezvoltarea teoriei sale și a transformat-o în teoria cadrelor (frames theory). Teoria cadrelor descrie modul de utilizare a limbii de către oameni. În teoria dată se consideră că oamenii păstrează în memoria lor o mulţime de şabloane (cadre) sintactico-semantice asociate cu diferite obiecte, situații, acțiuni, stări, şi le folosesc după necesitate. De exemplu, noțiunea “a cina”, “cină” este partea din structura cunoștințelor legate de mîncare, modul de a lua masa de oameni. Structura dată include cunoștințe despre faptul că oamenii mînîncă de trei ori pe zi, ce se numește “micul dejun”, “prînz” și “cină”, despre timpul lor, despre feluri de bucate ce se prepară pentru fiecare mîncare, etc. Noțiunea de cadru (frame) este folosită și în alte domenii de cercetare cum ar fi inteligența artificială și psihologia cognitivă. În lingvistica computațională noțiunea dată a fost întrodusă de M. Minsky cu definiția "o structură de date ce reprezintă o situație stereotipică". În teoria lui C. Fillmore noțiunea de cadru (frame) este apropiată de text, cadrul este descrierea lexicală a unei situații. Astfel, C. Fillmore a hotărît să creeze o bază de date cu descrieri lexicale pentru situaţii, obiecte, noţiuni diferite. Acestea au fost numite cadre (FRAMES).

19

http://www.icsi.berkeley.edu/~framenet/

Respectiv, baza de cunoştinţe FrameNet constă din:- setul de cadre (frames) ce sunt descrise în HTML pagini și se află în mapa

frames;- seturi de elemente a fiecărui cadru (Frame Element - FE) ce au un rol

specific în stuația dată sau pentru noțiunea dată; ele sunt descrise împreună cu descrierea cadrului;

- setul de unități texicale (Lexical Units - LU) ce se utilizează în descrierea cadrului dat și evocă situația sau noțiunea cadrului dat; acestea sunt cuvintele cu definiţia sensului său, ele sunt descrise în HTML pagini care se află în mapa leHTML;

- seturi de structuri sintactico-semantice care descriu situația sau noțiunea dată. Structurile date sunt propoziții ce conțin unități lexicale, descriu cadrul dat și sunt marcate semantic și sintactic ce permite stabilirea relațiilor între sintaxa și semantica. Acestea sunt prezentate în formă de HTML pagini și se află în mapa annoHTML.

Structura bazei de date create în cadrul proiectului este prezentată în figura ??.Proiectu a fost lansat în 1997 și se află în continuă dezvoltare. Rezultatele proiectului sunt expuse în întregime on-line pe adresa: http://framenet.icsi.Berkeley.edu/~framenet/. Toată baza de cunoștințe poate fi descărcată gratis de orice utilizator. La catedră se utilizează o versiune a bazei FrameNet descărcată. Toată informația este prezentată codificată în HTML pagini cum a fost descris mai sus. Toate fișierele acestea sunt create în scopul reprezentării mai accesibile pentru utilizatorii bazei acestea de cunoștințe. FrameNet este folosit de învățători de limba engleză și studenți ce învață limba. O altă utilizare FrameNet a găsit în lingvistica computațională. Cadrele, propozițiile marcate și statistica structurilor sintactico-semantice pentru unitățile lexicale este o sursă de cunoștințe ce pot fi aplicate în anaiza și generarea propozițiilor engeze. În acest scop descrierea cadrelor, unităților lexicale și marcarea propozițiilor este dublată în XML documente care sunt prevăzute pentru prelucrarea automată de către programe. Fișierele XML sunt stocate în mapele frXML, leXML și luXML (luPosXML).

Cadrele descriu diferite tipuri de concepte: evenimente; artefacte, obiecte create; obiecte naturale, părţi şi seturi; caracteristicile terrane; organizaţii, reguli, ocupaţii; timpul, spaţiu, locul, mişcarea; etc.

Între cadrele ce descriu concepte apropiate au fost stabilite legături semantice care pot fi vizualizate on-line utilizînd instrumentul special numit FrameGrapher. In exemplu de legături între cadre est prezentat în figura ??. Reciprocality (ceea ce se efectuiază reciproc) este o noțiune mai generală și are 20

http://framenet.icsi.Berkeley.edu/~framenet/

multe sub-cadre printre care este și cadrul Commercial_transaction. Acest cadru are în rîndul său două cub-cadre care în același timp sunt sub-cadre și la cadrul Transfer.

Figura 1. Arhitectura bazei de date FrameNet.

Cadre de evenimente

Pentru a înțelege mai bine structura elementelor bazei de cunoștințe FrameNet om face cunoștințe cu un cadru în detalii. Ca exempu o sa luăm un cadrul ce reprezintă un eveniment.Cadre de evenimente (Event Frames) sunt unele în care sunt implicate mai multe cuvinte şi care au structura ce include vector temporal. Evenimente au constrângeri în privinţa evenimentelor precedente, subevenimentelor, care se întâmplă în timpul lor şi pentru starea lucrurilor după ce evenimentul se termină. De exemplu, evenimentul de tranzacţie comercială are următoarele constrîngeri:

21

FrameNet DataBase

Annotation DataBaseDocuments, Paragraphs,

Documents, Annotation Set

Lexical Units

Frames DataBaseFrames, Frame Elements,

Frame Relations

Lexical DataBaseLemmas, Lexemes,

Word Forms

Figura 2. Exemplu de legături semantice între cadre.

Starea Iniţială:Vînzătorul are Marfa, și dorește să obțină Bani; Cumpărătorul dorește să obțină Marfa și are BaniTranzacţie:Vînzătorul transmite Marfa Cumpărătorului; Cumpărătorul transmite Bani VînzătoruluiStarea Finală:Vînzătorul are Bani; Cumpărătorul are Marfa

De fapt descrierea tranzacţiei comerciale este mai complicată decât acea prezentată aici, dar sensul rămâne acelaşi. Aceasta este descrierea cadrului. În procesul descrierii se stabilesc rolurile semantice ale elementelor participanților în evenimentul cadrului dat. În cazul nostru acestea sunt Cumpărătorul, Vînzătorul, Marfa şi Banii – elmentele principale (Frame Elements - FE) în cadrul dat. Apoi se defineşte lista cuvintelor (Lexical Units - LE) pentru cadrul descris. În cazul cadrului de tranzacţie comercială sunt utilizate următoarele unități lexicale:

Verbe: pay, spend, cost, buy, sell, charge Substantive: cost, price, payment Adjective: expensive, cheap

În descrierea cadrului de eveniment rolul principal au verbele. Legătura dintre sens şi sintaxă este reprezentată prin faptul că diferite verbe prezintă situaţia în diferite moduri şi unesc participanţii evenimentului folosind diferite structuri sintactice.

22

Cumpărător Vînzător from

BUY

forMarfa Bani

Cum a fost menționat mai sus, identificatorii conceptelor-participanţilor evenimentului dat sunt: Cumpărătorul, Vînzătorul, Marfa şi Banii (buyer, seller, goods, money). În dependenţă de verb identificatorii apar în propoziţie în diferite roluri sintactice. În exemplele de propoziții ce urmează participanţii evenimentului

Cumpărătorul, Vînzătorul, Marfa şi Bani

sunt evidenţiate prin scrisul diferit:She bought some carrots from the greengrocer for a dollar.She paid a dollar to the greengrocer for some carrots.She paid the greengrocer a dollar for the carrots.She spent a dollar on the carrots.The greengrocer sold some carrots to her for a dollar.The greengrocer sold her some carrots for a dollar.The greengrocer charged a dollar for a bunch of carrots.The greengrocer charged her a dollar for the carrots.A bunch of carrots costs a dollar.A bunch of carrots cost her a dollar.It costs a dollar to ride the bus.It cost me a dollar to ride the bus.Shema prezintă grafic relaţiile între participanţii evenimentului descrise în prima propoziţie, unde Cumpărătorul este subiectul propoziţiei, Marfa este complement direct, iar Vînzătorul, şi Bani sunt complemente întroduse cu prepoziţiile from şi for. Respectiv, propozițiile sunt cele srtucturi sintactico-semantice în care este codificată legătura între sintaxa și semantica. Fiecare propoziție obține patru tipuri de marcare:

- marcarea elementului principal – cuvîntului cheie în propoziție – Target (în exemple acesta este subliniat);

- marcarea semantică, prin care se evidențiază cu culori diferite rolurile semantice (Frame Elements);

- marcarea gramaticală care evidențiază rolurile sintactice a elementelor propoziției (subiect, predicat, complement, etc.);

- marcarea tipurilor grupurilor (grup nominal – Noun Phrase NP, grup verbal – Verb Phrase VP, grup prepozițional – Prepositional Phrase PP, etc.).

23

Numai primul și al doilea tip de marcare este evidențiat pentru utilizatori. Altele două tipuri de marcare sunt ascunse. Este imposibil de demonstrat toate tipuri de marcare pe o propoziție, ea va deveni necitibilă. Marcarea dată este codificată în XML utilizînd așa numite straturi (layers). Mai jos vor fi demonstrate toate patru tipuri de marcare pe o propoziție. Target

You can't BUY me with a few armfuls of flowers .

buyer goods money - FE: Frame Elements NP NP PP - PT: Phrase Types Ext Obj Dep - GF: Grammatical Functions (External Argument) (Object) (Dependent)

Toate tipurile de marcare sunt descrise în detalii în documentația proiectului FrameNet. În urmare este prezentat un fragment de fișier XML in care este codificată marcarea propoziției.

1. <annotationSet ID="684089" status="MANUAL">2. <layers>3. <layer ID="4811893" name="FE">4. <labels>5. <label name="Theme" ID="14976342" start="0" end="15" />6. <label name="Manner" ID="14976353" start="26"

end="47" />7. <label name="Source" ID="31134039" itype="DNI" />8. </labels>9. </layer>10. <layer ID="4811894" name="GF">11. <labels>12. <label name="Ext" ID="14976344" start="0" end="15" />13. <label name="Dep" ID="14976355" start="26" end="47" />14. </labels>15. </layer>16. <layer ID="4811895" name="PT">17. <labels>18. <label name="NP" ID="14976343" start="0" end="15" />19. <label name="AVP" ID="14976354" start="26" end="47" />20. </labels>21. </layer>22. <layer ID="4811896" name="Sent" />23. <layer ID="4811897" name="Other" />24. <layer ID="4811898" name="Target">25. <labels>

24

26. <label name="Target" ID="14976346" start="17" end="24" />

27. </labels>28. </layer>29. <layer ID="4811899" name="Verb" />30. </layers>31. <sentence ID="601379" aPos="31345814">32. <text>Shamlou 's smile vanished as fast as it had

come .</text>33. </sentence>34. </annotationSet>

Tag annotationSet (prima și ultima linie a exemplului, 1 și 34)conține toată marcarea unei propoziției. Cum a fost menționat, marcarea este codificată în straturi (layers). Tag sentence (linii 31-33) conține propoziția marcată ce se află încă în tag text. (linia 34). Liniile 2-30 conțin straturi de marcare în tag layers. Primul strat (linii 3-9) conține marcarea cu roluri semantice, Frame Elements – FE. Sunt prezentate două roluri Theme și Manner (linii 5,6), a treilea rol Source (linia 7) nu este prezentat în propoziție și este considerat subînțeles din text. El este marcat cu DNI ce înseamnă Defined Null Instantiation. Legătura între elemente și textul propoziției se realizează prin atributele start și end ce codifică numărul de ordine a caracterelor în propoziție. start="0" end="15" înseamnă că elementul dat reprezintă fragmentul propoziției ce conține caracterele cu numerele de ordine de la 0 pînă la 15. În cazul nostru acestea sunt Shamlou 's smile. Respectiv, <label name="Theme" ID="14976342" start="0" end="15" /> înseamnă că fragmentul dat este marcat cu rolul semantic Theme. Următorul strat (linii 10-15) descriu funcții gramaticale (Grammatical Functions - GF).Liniile 16-21 conțin stratul ce codifică tipuri de fraze (Phrase Type - PT). Observăm, că fragmentul propoziției cu rolul semantic Theme este un grup nominal (NP – Noun Phrase) și grupul adverbial (AVP – Adverbial Phrase) are rolul Manner.

Linia 26 indică cuvîntul cheie a propoziției date ce este vanished. În linia 29 este indicat că cuvîntul dat este verb.

Etapele de creare a elementelor bazei de cunoştinţe FrameNet

Etapele de creare elementelor bazei de cunoştinţe FrameNet sunt:1. Caracterizarea cadrelor: se descriu structurile conceptuale pentru

diferite noţiuni şi concepte; se definesc rolurile semantice (Frame Elements) pentru cadrul dat.

25

2. Determinarea terminologiei: găsirea cuvintelor care reprezintă conceptele principale ale cadrului.

3. Extragerea exemplelor- propozitii: propoziţiile care conţin cuvintele analizate sunt extrase dintr-un corpus voluminos de texte engleze pentru adnotare.

4. Marcarea exemplelor selectate: studenţi-adnotatori selectează fragmentele care identifică rolurile semantice particulare în propoziţiile date şi le marchează cu denumirile elementelor cadrului (Frame Elements FE).

5. Extragerea descrierilor valente: un sistem automat numără şi sortează propoziţiile marcate, stocând informaţia gramaticală despre cuvintele-concepte şi argumentele lor din propoziţiile adnotate.

Etapele de lucru vor fi exemplificate în baza cadrului evenimentului de răzbunare ( Revenge frame): Prima etapă. Descrierea evenimentului. Se descrie situaţia şi se numesc conceptele-participante la evenimentul dat (frame elements - FE) care apoi se folosesc în adnotarea fragmentelor în propoziţile din corpus. Următorul paragraf reprezintă descrierea dată pentru evenimentul de răzbunare în FrameNet.

•Frame Definition: Because of some injuryinjury to something or someone important to an avengeravenger, the avengeravenger inflicts a punishmentpunishment on the offenderoffender. The offenderoffender is the person responsible for the injuryinjury. The injured_partyinjured_party may or may not be the same individual as the avengeravenger.•FE List: avengeravenger, offenderoffender, injuryinjury, injured_partyinjured_party, punishmentpunishment.

Din cauza unei Pagube la ceva sau cineva important la un Răzbunător, Răzbunătorul cauzează o Pedeapsă pe Răufăcător. Răufăcătorul este persoana care răspunde de Pagubă. Partea_ofensată poate fi aceeaşi persoană ca şi Răzbunătorul sau poate fi o altă persoană.

Conceptele-participante în cadru dat: Răzbunător, Răufăcător, Pagubă, Partea_ofensată, Pedeapsă.

A doua etapă. Completarea vocabularului pentru descrierea situaţiei date. Fiecare cuvânt evocă diferite structuri pentru descrierea evenimentului.Vocabularul pentru evenimentul de răzbunare:

•Substantive: revenge, vengeance, reprisal, retaliation (răzbunare, represalii, revanşa) (месть, возмездие, реванш);

•Verbe: avenge, retaliate, revenge, get back (at), get even (with), pay back (a răzbuna, a întoarce);

•Adjective: vengeful, vindictive (răzbunător, vindicativ).A treia etapă - extragerea exemplelor-propozitii. Din corpus se extrag automat propoziţiile care conţin cuvintele din vocabularul creat. Propoziţiile conţin colocaţii frecvente şi concepte-participante (FE).26

A patra etapă - marcarea exemplelor selectate. Propoziţiile extrase sunt marcate manual de către studenți cu culorile stabilite pentru elementele cadrului (FE) definite anterior. Manual se marchează doar rolurile semantice (FE). Apoi marcarea este verificată de către specialiști. Pentru marcare a fost creat un program cu interfața ce facilitează marcarea manuală. Interfața este demonstrată în figura 3.

Figura 3. Interfața programului pentru marcarea propozițiilor FrameNet.

A cincia etapă – analiza sintactică a propoziţiilor. Propoziţiile adnotate sunt stocate în baza de date şi procesate automat. Se execută analiza rolurilor sintactice ale conceptelor-participante la eveniment. Se acumulează informaţia statistică despre rolurile gramaticale ale conceptelor-participante în diferite propoziţii. Rezultatul este o bază de date care poate fi accesată on-line pe adresa proiectului, obţinând informaţia necesară in XML format. În urmare este prezentat un exemplu de tabel în care sunt analizate realizările sintactice a rolurilor semantice pentru verbul revenge.v, Frame: Revenge.În tabelu 1 sunt presentate toate rolurile semantice marcate, numărul lor și realizarea lor sintactică. De exemplu, Partea Ofensată (Injured_Party) a fost marcată în 8 propoziții, din care în 2 aceasta este subiectul propoziției, în 4 ea este complement direct (Obj) și în 2 – complement indirect. Răufăcatorul (Offender) în 6 propoziții nu a fost reprezentat în cuvinte, a fost doar subînțeles și în 2 propoziții a apărut în grup prepozițional cu prepoziția by.

27

Tabelul 1. Elemenele cadrului şi realizările lor sinactice (Frame Elements and Their Syntactic Realizations).Frame Element Number Annotated Realizations(s)

Avenger (8) CNI.-- 2exxNP.Ext 5exxPP[by].Ext 1exx

Injured_Party (8) NP.Ext 2exx2nd.-- 2exxNP.Obj 4exx

Injury (5) 2nd.-- 2exxNP.Obj 2exxPPing[for].Dep 1exx

Offender (8) INI.-- 6exxPP[on].Dep 2exx

Punishment (8) INI.-- 8exx

FrameNet acordă oricărui utilizator posibilitatea de a face legătura de la sens la forma de reprezentare a lui (meaning to form). Folosind diferite interogări utilizatorul poate să obţină informaţie diferită despre forme gramaticale care pot reprezenta diferite evenimente, concepte, relaţii între concepte-participanţi. Sistemul prezintă diferite structuri gramaticale cu conceptul ales.Spre exemplu, întrebarea poate fi: Ce rol sintactic joacă Răufăcător în propoziţii? Răspunsul este:• complement direct: we'll pay you back for that• complement cu prepoziţie on they'll take vengeance on you• complement cu prepoziţie against we'll retaliate against them• complement cu prepoziţie with she got even with me• complement cu prepoziţie at they got back at youPoate fi realizată analiza din alt punct de vedere – de la gramatică la sens (grammar to the meaning). Atunci se analizează care concepte pot apărea în anumite roluri gramaticale. Spre exemplu, întrebarea poate fi: Care concepte pot juca rolul complementului direct a Răzbunării? Răspunsul este:• Partea_ofensată I've got to avenge my brother• Pagubă My life goal is to avenge my brother's murder.

Autorii proiectului au intenţie de a include în baza de cunoştinţe toate cuvintele importante asociate cu şabloanele semantice. Pentru fiecare cuvânt vor fi prezentate toate şabloanele lexicale în care ele pot apărea. Sigur că pentru îndeplinirea acestui fel de sarcină este necesar un volum imens de texte şi

28

muncă, dar se aşteaptă că în viitor lucrul acesta va fi automatizat şi sistemul va fi în stare să lucreze automat în baza exemplelor deja create.

Exemple de structuri codificate folosind limbajul XML

În cele ce urmează sunt date unele exemple de propoziţii şi structuri formate în baza lor. Structurile pot fi prezentate în formă de arbore în care nodurile sunt formele lexicale ale cuvintelor şi arcurile sunt notate cu denumirile conceptelor-participante. Structurile sunt codificate folosind metodologia RDF. Scopul creării structurilor adnotate este aprovizionarea datelor pentru un sistem automat care poate găsi predicatele relevante semantic pentru noţiunile folosite, rolurile lor tematice în propoziţii şi noţiunile, asociate cu ele în structurile semantice.Elementele codificate sunt subiectul şi complementele verbului tranzitiv.

1. The boy caught a spider.<KDG rdf:ID="1137864">

<governor>catch</governor><frame rdf:resource="Capture">

<agent>boy</agent><victim>spider</victim>

</frame></KDG>

2. The man was caught stealing a fish. <KDG rdf:ID="46823">

<governor>catch</governor><frame rdf:resource="Spotting2">

<observer>SOMEONE</observer><observed>man</observed><act>stealing</act>

</frame></KDG>

3. The teacher talked to the students about ambition.<KDG rdf:ID=“21718644”> <governor>use</governor>

<frame rdf:resource=“Talk”> <speaker>teacher</speaker>

<addressee>to: students</addressee> <topic>about: ambition</topic>

</frame></KDG>

4. The freshmen have to take a chemistry test.

29

<KDG rdf:ID=“47623”><governor>test</governor> <support>take</support>

<frame rdf:resource=“Examination”><examiner>SOMEONE</examiner><examinee>freshmen</examinee><subject>chemistry</subject>

</frame></KDG>

5. The senator paid me a complement on my work.<KDG rdf:ID=“9637615”> <support>pay</support> <governor>complement</governor>

<frame rdf:resource=“Complement”><speaker>senator</speaker><addressee>me</addressee><reason>on: work</reason>

</frame></KDG>

Continuarea lucrului cu FrameNet

Proiectul FrameNet este în continuă dezvoltare, se definesc cadre noi, se adaugă unități lexicale, se marchează propoziții. Raportul din luna mai 2010 conține următoarele date:

- au fost definite 1014 cadre;- au fost adăugate 5249 unități lexicale pentru care propozițiile au fost

extrase și marcate;- pentru 4273 unități lexicale propozițiile încă nu au fost extrase din corpus

și marcate.

Paralel cu marcarea propozițiilor a fost lansată o altă metodă de marcare – marcarea textelor întregi. În majoritatea cazurilor toate rolurile definite in cadru nu sunt prezentate intr-o propoziție, dar pot fi menționate în cîteva propoziții consecutive a unui text. Dacă din text se extrage doar o propoziție și se marchează, multă informație rămîne în text și este pierdută. Astfel, marcarea textului în întregime permite reprezentarea mai deplină a elementelor cadrului și legăturilor între acestea.

30

FrameNet tot mai mult este utilizat în cercetări și aplicații lingvisticii computaționale. Cercetătorii din domeniu încearcă să folosească baza de propoziții marcate create în cadrul proiectului pentru interpretarea sensului textului creînd aplicații pentru traducere, sumarizare a textelor, în sisteme de dialog.

Se crează sisteme ce marchează rolurile semantice automat, instruindu-se în baza propozițiilor marcate FrameNet. Sarcina de marcare automată a rolurilor semantice conform cadrelor definite în FrameNet a fost propusă în cadrul exercițiului SemEval 2010 (http://nlp.cs.swarthmore.edu/semeval/tasks/index.php) și a fost rezolvată cu succes de numeroase sisteme.

Cercetătorii din diferite țări au încercat crearea bazelor similare pentru alte limbi. A fost creat FrameNet spaniol (http://gemini.uab.es:9080/SFNsite), au fost lansate proiecte de creare bazelor similare pentru limbile franceză, italiană, germană și altele. A fost creată o bază paralelă englezo-chineză cu marcarea semantică. Încercările de a crea FrameNet pentru limba română s-au oprit din cauza lipsei finanțării, însă la Academia Română se efectuiază cercetări în direcția dată.

31

WordNet

Noțiuni de bază

Înca la începutul erei lingvisticii computaţionale una din problemele principale a fost crearea vocabulalelor potrivite pentru sistemele automatizate. Cum a arătat practica, dicţionarele clasice folosite de oameni nu erau utile pentru sistemele computaţionale. Listele de cuvinte în ordinea alfabetica cu definițiile în formă de propoziții este greu de procesat automat din punct de vedere a obținerii informației semantice. Sistemele computaţionale aveau nevoie de o metodă absolut diferită de grupare semantică a cuvintelor.

Cercetătorii încercau să modeleze memorizarea și prelucrarea cuvintelor în creierul uman. Direcția de cercetare ce se ocupa de problemele acestea a fost numită psiholingvistica din cauză că se afla la intersecția psihologiei și lingvisticii. Psiholingviştii analizau modul în care oamenii învață limba, cum ei utilizează cuvintele și limba în general în comunicare. Ei au cercetat cum sunt păstrate cuvintele în memoria omului cu scopul creării baze de cuvinte similare. În anii 1980-1990 au fost propuse diverse teorii psiholingvistice. Teoriile acestea au fost demonstrate în baza seturilor mici de cuvinte (din care majoritatea erau substantive) organizate conform teoriilor date. Problema constă, însă în faptul că nici un dicționar din cele propuse nu a fost testat din cauza volumurilor lor mici. La Universitatea din Princeton, SUA, în 1985 cu problema aceasta intensiv se ocupa George Miller, el a creat o bază de date unde cuvintele au fost organizate după concepte dar nu în ordinea alfabetică modelînd reprezentarea vocabularului în mintea omului. Rezultatul muncii intensive de-a lungul anilor 1985-1990 a fost lexiconul semantic WordNet. Prima versiune a lexiconului a fost lansată în 1990, WordNet conţinea aproximativ 95,600 forme de cuvinte (51,500 cuvinte simple si 44,100 colocaţii) organizate în aproximativ 70,100 sensuri sau seturi de sinonime. WordNet a fost de fapt primul lexicon atît de voluminos încît putea fi folosit în sistemele de procesare a textelor din orice domeniu. Dicționar semantic utilizat în domeniul lingvisticii computaționale a fost numit lexicon.

În toate dicționarele clasice unitatea de bază este cuvîntul în forma sa scrisă. Însă reprezentarea sensului în formă de explicație nu este potrivită în lexicoane semantice. Sensul trebuie să fie reprezentat în alt mod. Dacă cuvintele au deja reprezentare bine formată prin forma lor lexicală, reprezentarea sensului trebuia cumva stabilit. În utilizarea limbii cotidiană noi reprezentăm sensurile prin cuvinte, însă astfel de fenomene ale limbii ca polisemia, omonimia și sinonimia fac practic imposibilă folosirea cuvintelor pentru reprezentarea sensurilor în sistemele computaționale. Multe cuvinte au mai mult decît o semnificație (fenomenul polisemiei) și, respectiv, multe semnificații pot fi reprezentate cu

32

cuvintele diferite (fenomenul de sinonimie). Astfel, în termenii bazelor de date relația între cuvinte și sensuri este multe la multe. Tabelul 1 demonstrează relația dată. w1, w2, w3, ... sunt cuvintele, s1, s2, s3, ... sunt sensurile (conceptele) care se reprezintă prin cuvinte; e1,1 e1,2, e1,3, ... ei,j sunt valori booleene ce arată posibilitatea redării sensului i prin cuvîntul j.

Tabelul 1. Matrice relațiilor sensuri cuvinte cuvintesensuri

w1 w2 w3 ... wm

s1 e1,1 e1,2 e1,3

s2 e2,1 e2,2 e2,3

s3 ...... ei,j

sn en,m

Cum deja a fost menționat în WordNet unitatea de bază este nu cuvîntul ca în

alte dicționare, dar sensul, conceptul reprezentat prin cuvinte. Astfel, în WordNet problema prezentării sensului este rezolvată folosind setul de cuvinte care-l pot reprezenta. Cuvintele care reprezintă același concept, au același sens, se numesc sinonime. Astfel, pentru WordNet au fost inventate unităţile de reprezentatre a sensului – seturi de sinonime sau serii de sinonime (synonym set sau synset, în limba românească se utilizează cuvîntul sinset). Fiecare cuvînt polisemantic apare în atîtea seturi de sinonime cîte sensuri are, fiecare din seturile date codifică un sens a cuvîntului dat. De exemplu: {board, plank} şi {board, committee} prezintă foarte bine două sensuri ale cuvântului ‘board’: scîndură și comitet.

Ca bază a dicţionarului, sinseturile au stabilit împărţirea WordNet-ului în categorii după parţi de vorbire. Sinonimul substantivului poate fi numai substantiv, verbului – verb, s.a.m.d. Astfel, în WordNet cuvitele sunt grupate in substantive, verbe, adjective și adverbe. Alte părți de vorbire ca pronume, prepoziții, conjuncții, articole și altele sunt considerate părți de vorbire funcţionale; acestea nu sunt încluse în WordNet fiindcă se consideră că ele nu au sens propriu. Acestea părți de vorbire numai ajută în combinarea sensurilor cuvintelor semnificative și formarea structurii sintactice a propoziţiei.

Relații între cuvinte și sensuri

Sinonimia a fost considerată relația principală între cuvinte pe parcursul creării lexiconului WordNet. Definiția noțiunii de sinonimie a fost discutată intens. Definiția din dicționar: “care are același (sau aproape același) înțeles” nu este strictă și în multe cazuri trezește discusii aprinse în privința relației de

33

sinonimie între două cuvinte. În final s-a hotărît de acceptat o definiție a fenomenului de sinonimie care sună în felul următor: două cuvinte pot fi numite sinonime în cazul dacă pot înlocui unul pe altul într-un context fără a schimba sensul acestuia. Dar uneori cuvintele care descriu aceiaşi noțiune nu pot inlocui unul pe altul într-un context. De exemplu, suvintele cu același sens a cumpăra, a achiziționa, a procura, a târgui sunt utilizate în diferite tipuri de texte și în multe cazuri nu pot înlocui unul pe altul.

Unul din avantajele WordNet-ului este un număr de legături semantice între sinseturi. A fost destul de logic paralel cu sinonimia de a întroduce și relația de antonimie. Relaţia de antonimie este una de baza pentru adjective şi adverbe.

Relațiile de sinonimie și antonimie sunt relații între cuvinte și se numesc relații lexicale. În afară de relații lexicale în WordNet sunt întroduse relații semantice între sensuri, în cazul dat între seturi de sinonime. O relație importantă este relația numită HYPERNYMY – HYPONYMY (în limba română: HIPERONIMIE - HIPONIMIE).

HIPERONIMIA - HIPONIMIA. Cum a fost deja menționat, sinonimia şi antonimia sunt relaţii lexicale intre cuvinte, hiperonimia – hiponimia sunt relaţii semantice între sensurile cuvintelor sau între concepte. Este logic că relația include două concepte, în cazul nostru c1 și c2. Spunem că un concept c1 este un hiponim al lui c2 sau că c2 este un hiperonim a lui c1 dacă c1 este un concept mai particular decât c2, sau dacă c2 este un concept mai general decât c1. Verificarea acestor relaţii poate fi făcută prin includerea cuvintelor w1 şi w2 care definesc conceptele c1 şi c2 aflate în această relaţie în exprimări de tipul “w1 ESTE UN w2” sau “w1 ESTE UN TIP DE w2”, “w1 ESTE UN FEL DE w2” (reprezentarea logică în limba engleză utilizează predicatul ISA - “w1 IS A w2”, “w1 IS A KIND OF w2”). Relaţia de hiperonimie este tranzitivă (dacă c1 este un hiponim al lui c2, iar c2 este un hiponim al lui c3, atunci c1 este un hiponim al lui c3) şi asimetrică (dacă c1 este un hiponim al lui c2, atunci c2 nu este un hiponim al lui c1). Pentru comparare, relații de sinonimie și antonimie sunt simetrice (dacă w1 este un sinonim al lui w2, atunci w2 este sinonimul lui w1). Însă putem spune că relaţia de hiponimie este relaţia opusă relaţiei de hiperonimie. Dacă w1 este hiponim al w2, atunci w2 este hiperonim lui w1.

Exemple de relația dată sunt: vulpea este hiponimul lui animal; animal este o noțiune mai generală care include mai multe specii, inclusiv și vulpea. Animal este hiperonim și la cîine, care în rîndul său este hiperonim la pudel, collie, doberman, terrier, spaniel și multe alte. Relația aceasta poate fi verificată așa cum a fost descris mai sus: collie este un cîine; cîine este un tip de animal, etc.

Relaţia de hiponimie este bine cunoscută în Inteligenţa Artificială, pentru că ea stă la baza reprezentării cunoştinţelor în sistemele bazate pe moştenirea proprietăţilor. Într-adevăr un hiponim moşteneşte toate trăsăturile unui hiperonim, în acelaşi timp diferenţiindu-se de alte hiponime ale aceluiaşi hiperonim prin anumite trăsături specifice numai lui. Relaţia de hiponimie stă la baza organizării substantivelor în WordNet. Utiizînd relația dată substantivele 34

sunt organizate într-o structură ierarhică. De exemplu, un lanţ: oak @ -> tree @ -> plant @ -> organism (stejar – copac – plantă - organizm) prezintă legăturile de hiponimie. Semnul @-> este utilizat în WordNet pentru codificarea relației date și poate fi citit ‘is a’ sau ‘is a kind of’. De exemplu: oak is a kind of tree; tree is a plant; plant is a kind of an organism.

În afară de relații descrise a fost întrodusă încă o relație care autorii WordNet-ului au considerat destul de importantă. Relația aceasta este numită HOLONYMY – MERONYMY (în limba română: HOLONIMIA – MERONIMIA). Relația dată este relaţia parte-întreg (HasAsAPart sau IsAPart în engleză). Astfel, spunem că un concept c1 este un meronim al unui concept c2

dacă putem accepta exprimări de genul: “c1 este o parte a lui c2” sau “c2 are ca parte pe c1”. Relaţia de meronime este tranzitivă şi asimetrică şi poate în rândul ei forma o ierarhie. De exempu, degetul este o parte a mînii, astfel, el este meronimul iar mîna este holonim. În rîndul său mîna este o parte a corpului, în relația aceasta mîna este meronim, iar corpul este holonim.

Relaţii morfologice. Pe parcursul creării WordNet-ului s-a evidenţiat necesitatea de a avea posibilitate de a lucra cu toate formele cuvintelor. Problema aceasta pentru limba engleza nu este foarte complicată, dar şi în acest caz programul care prelucrează diferite forme ale cuvintelor nu a fost atît de simplu cum părea iniţial. Însă, în final, programul a fost creat şi lucrează ca partea de interfaţă WordNet-ului. Programu analizează cuvîntul întrodus de utilizator si în caz dacă cuvîntul nu este în forma lui inițială, îl înlocuiește cu forma lui canonică. De exemplu, daca a fost întrodis cuvîntul cats, el va fi înlocuit cu cat, iar dacă a fost întrodus cuvîntul worked, el va fi înlocuit cu work. În baza cu cuvinte acestea sunt stocate numai în forma lor inițială.

Substantivele în WordNet.

Definiţia unui substantiv, spre exemplu, contur – linie închisă, care mărgineşte o parte dintr-o suprafaţă, prezintă, ca regulă, un termen mai general (linie închisă) însoțit de caracteristicile specifice obiectului definit (care mărgineşte o parte dintr-o suprafaţă). Astfel, cuvintele sunt descrise folosind alte cuvinte, care în rîndul său sunt descrise cu alte cuvinte. Ideea pricipală este că lexicografii creează o structură ierarhică din cuvinte folosind noţiunea mai generală în definiţia cuvintelor. Legătura aceasta între cuvânt şi termenul mai general şi a fost introdusă ca bază pentru formarea structurii relaţiior între substantive în WordNet. Pentru crearea ierarhiei acestea a fost utilizată relația de hiperonimie – hiponimie. În limbaje de programare astfel de ierarhii se numesc sisteme de moştenire unde subclasa moşteneşte toate proprietăţile clasei mai generale care-i aparţine. WordNet tot este un sistem cu moştenire. Fiecare noţiune (sinset) conţine referinţe la noţiunea mai generală şi o mulţime de referinţe spre noţiuni mai particulare.

35

Un exemplu de relații de acest gen este prezentat mai jos: "emotion" "positive-emotion" "joy" "negative-emotion" "enthusiasm" "ambiguous-emotion" "cheerfulness" "gratitude"

"surprise" "gravity" În exemplul prezentat numai o mică parte de relații a fost evidențiată cu scopul demonstrării arborelui de clase și subclase. Mai jos sunt date cîteva verificări pentru relaţiile date. "amusement" isa "joy" "joy" isa "positive-emotion" "positive-emotion" isa "emotion"Toate substantivele sunt repartizate in 25 fisiere fiecare prezentând un component semantic primitiv. Fiecare din acestea 25 clase are un sinset de bază care-l reprezintă şi este vîrful arborelui în fişierul dat. În urmare sunt listate acestea 25 clase reprezentate prin sinseturile de bază:

{act, action, activity} {food} {possession}{animal, fauna} {group, collection} {process}{artifact} {location, place} {time}{attribute, property} {motive} {relation}{body, corpus} {natural object} {shape}{cognition, knowledge} {natural phenomenon} {state, condition}{communication} {person, human being} {substance}{event, happening} {plant, flora}{quantity, amount} {feeling, emotion}

Pentru a completa ierarhia creată a fost adăugat un vîrf, un set de noțiuni mai generale care se unesc la o noțiune globală, în cazu dat ‚entitate’. Iniţial în WordNet vîirful nu a fost realizat. Însă, la urmă, a fost creată o ierarhie de vîrf, care conţinea 7 grupuri globale:

Figura 1. Taxonomia de vîrf pentru substantivele în WordNet.Este interesant că ierarhia substantivelor practic nu conţine mai mult de 10 nivele, o parte din care sunt noţiuni tehnice introduse artificial. În cazul 36

exemplului cu emoții sunt doar 7 arcuri de la noțiunea de vîrf pînă la ulimul nivel. Astfel de structură arborescentă în care conceptele sunt organizate într-un mod ierarhic este numită TAXONOMIA.

În procesul de clasificare a substantivelor trei tipuri de caracteristici au fost luate în consideraţie. Au fost grupate substantivele cu aceleaşi atribute (modificatori), părţi (meronime), funcţii (predicate). Meronimia este indicată prin legăturile între sinseturi, atribute – ca referinţe de la adejective la substantive, funcţii – ca legături de la verbe la substantive. Inițial se plănuia de adăugat caracteristicile pentru fiecare nivel al ierarhiei care pot fi moştenite de nivelurile inferioare. Au fost planuite următoarele caracteristici: atribute, părţi şi funcţii. Trebuie de notat că atributele sunt descrise folosind adjective, părţile cu substantive şi funcţiile cu verbe. De exemplu, atributul unui cîine este pufos sau rău, părțile sunt urechi sau dinții, iar funcțiile sunt a lătra, a păzi. Iniţial au fost realizate numai legăturile între substantive. Crearea legăturilor între diferite părţi de vorbire a fost amînată. Când WordNet a fost creat se presupunea ca el va fi folosit paralel cu un dicţionar explicativ, însă în procesul de lucru la fiecare sinset s-a adăugat o descriere scurta a sensului (numită gloss). Un exempu de sinset este: 00030664 v perfume scent | apply perfume to; "She perfumes herself every day" După numărul de identificare (00030664) urmează indicatorul părții de vorbire (v - verb) și apoi cuvintele sinsetului respectiv (perfume scent). Linia verticală despartă cuvintele și definiția sensului cu un exemplu (apply perfume to; "She perfumes herself every day"). Ca regulă definiția este însoțită de exemple ca și în cazul dat. Relațiile sunt stocate în fișiere aparte și se referă la sinseturi prin numerele lor de identificare.

În cele ce urmează este dat un exemplu al reţelei de relaţii între câteva noţiuni; sunt prezentate relaţiile de hiponimie, meronimie şi antonimie. Rezultatul este o reţea destul de interconnectată.

Adjectivele in WordNet.

Adjectivele, ca regulă, au funcţia de modificatori. Aceiaşi funcţie pot avea și substantivele (Mozart symphony – simfonia lui Mozart) sau verbele (broken chair – scaun stricat), deseori grupele întregi de cuvinte (chair by the window – scaunul de lîngă fereastră). Însă, totuşi, în majoritatea cazurilor modificatori sunt adjectivele.

37

Figura 2. Legături semantice între substantivele în WordNet.

Adjectivele în WordNet se impart în patru grupe. Două grupe mari formează adjectivele descriptive si relaţionale. Adjectivele descriptive ca regulă au antonim sau cuvinte antonimice dupa sens si gradul de comparaţie. Spre exemplu, frumos, mare, cinstit. Adjectivul frumos are grad de comparaţie: frumos, foarte frumos, cel mai frumos şi antonimul: urât. Adjective relaţionale sunt în majoritatea cazurilor create din substantive sau verbe. Spre exemlu, patrat, construit. Alte două grupe sunt mici, și anume un grup aparte formează adjectivele de culoare care sunt considerate un caz specific. A patra categorie este formată dintr-un grup mic de adjective care au fost numite „reference-modifying”, ce înseamnă că aceste adjective schimbă sensul substantivului pe care-l modifică. De exemplu, former prezident – fostul președinte nu este președinte la momentul dat, possible earthquake – cutremur de pămînt posibil, poate să nu mai fie deloc.

Adjectivele descriptive formează cea mai mare clasă de adjective. Adjectivul descriptiv descrie oarecare atribut al obiectului. Descrerea logică în cazu dat poate fi „X este Adj”, unde X este o entitate și A este un atribut a lui X, care este descris de adjectivul Adj. În forma matematică: A(X)=Adj. Spre exemplu, Valiza este grea. Aici Valiza este X și are un atribut – greutate, care este descris de adjectiv grea. Greutatea ( Valiza ) = Grea. Alt exemplu: Problema este uşoară. Atributul problemei este Complexitatea. Complexitatea(Problema) = uşoară.

Sinonimia între adjective este prezentată destul de larg. În setul de sinonime se observă un cuvânt - nucleu, care reprezintă noţiunea şi cuvintele care denotează diferite variaţiuni ale noţiunii acestea. Spre exemplu: cuvântul wat reprezintă noţiunea umed. Sinonimele lui sunt watery, damp, moist, humid, soggy (apos, jilav, purulent, igrasios, ud).38

Relaţie de bază în afară de sinonimie este antonimia. Antonimia este relaţia lexicală, adica relaţia între cuvinte individuale, dar nu între sensuri, şi ridică un set de probleme. Spre exemplu, cuvintele heavy, weighty, ponderous sunt sinonime. Dar antonim pentru heavy este light, pentru weighty este weightless şi pentru ponderous nu există nici un antonim.

Deci, antonimia nu poate fi stabilită între sinseturi, numai între cuvinte individuale. Cele mai evidente cazuri de antonimie sunt cuvintele cu prefixe in- im- ir- un- . Ca rezultat, în WordNet sunt prezentate 2 tipuri de relaţii – sinonimie sau similaritate şi antonimie directa. Cuvintele care nu au antonime directe obţin antonime indirecte prin relaţii X -> similar -> Y -> antonim -> Z. De exemplu, ponderous -> similar -> heavy -> antonim -> light. Aşadar, cuvîntul ponderous are antonim indirect, cuvîntul cu sensul opus light.

Relația de hiperonimie – hiponimie între adjective nu poate fi stabilită, astfel între adjective nu există relaţie ierarhică ca între substantive.

Ca rezultat al investigaţiilor adjectivelor a fost creată structura bipolară dintr-o pereche de antonime directe, fiecare cu sinonimele săi care este prezentată în figura 3. Evident că astfel de structuri sunt posibile doar pentru adjectivele descriptive care au antonim.

Adjective relaţionale practic nu au grad de comparaţie şi antonime. Spre exemplu, adjectivele muzical, criminal, englez, nuclear sunt relaţionale. Ele ca regulă nu pot fi predicative şi seamană cu modificatori substantivale. Sunt interesante sensurile unor adjective. Dacă comparăm copil muzical, instrument muzical şi concert muzical sensul adjectivului muzical este diferit, noțiunea ce unește toate sensurile acestea fiind muzica.

Adjectivele relaţionale sunt organizate în sinseturi cu referinţă la substantivul corespunzător. Spre exemplu, sinsetul {stellar, astral, sideral, noun.object:star } se referă la substantivul star. Polisemie Adjectivele sunt destul de polisemantice şi sensul lor depinde mult de substantivele, pe care le modifica. De exmplu, adjectivul fresh își scimbă nuanțe de sens în dependență de substantiv: fresh idea, fresh bread, fresh news, fresh water, fresh air, etc. Unii lingvişti consideră că toate sensurile acestea sunt diferite, alții propun o altă teorie ce spune că adjectivul are un sens, dar cu substantive diferite apar diferite interpretări ale sensului dat. În WordNet este prezentat primul punct de vedere că adjectivele sunt polisemantice şi că substantivele pe care ele le modifică ajută la determinarea sensurilor lor.

Contribuţia adjectivelor în pereche adjectiv-substantiv este secundară şi cea mai optimală variantă este crearea legăturilor între substantive şi adjective. Şi adjectivele şi substantivele sunt organizate in aşa mod, ca să facă legăturile acestea cît mai simple. Legăturile acestea sunt create numai într-o direcţie: de la adjectiv la substantiv.

Reference-modifying adjectives. Adjectivele acestea formeaza o clasă din cîteva zeci de cuvinte aşa ca fostul, aşa-zis, viitor, simulat, asumat, presupus, potenţial, virtual. Dacă adjectivele relaţionale modifică noţiunile, dând lor o

39

caracteristică adjectivele acestea schimbă sensul obiectului pe care îl modifică. Președinte potenţial nu este președinte propriu-zis, el este numai candidat și poate nu va fi președinte nici o dată. Ele deseori au functia adverbelor şi ca regulă nu pot folosite predicativ. Spre exemplu, putem spune fostul preşedinte, dar nu putem presedintele este fostul. Această deosebire este marcată în WordNet. Adjectivele de tipul acesta au antonime directe sau cuvintele cu sensul opus.

Figura 3. Legături semantice între adjectivele în WordNet.

Adjectivele de culoare formează o clasă aparte, ele au grad de comparaţie dar, practic, nu au antonime (în afară de white-black, light-dark). Cuvintele, care descriu culoarea pot fi atât substantive cât şi adjective. Este interesantă observaţia că numărul adjectivelor de culoare în limbă creşte în dependenţă de dezvoltarea artei sau industriei (producerii vopselelor și mărfii de diferite culori) care are nevoe de o terminologie corespunzătoare.

Verbele în WordNet

Verbele sunt considerate ca cea mai importantă parte de vorbire din punct de vedere sintactic şi al structurii propoziţiei. Fiecare propoziţie engleză trebuie să conţină cel puţin un verb, pe cînd substantivele nu sunt atît de necesare. Este deja o tradiție de creat modele ale structurii propoziţiei în jurul verbului ca nucleu sintactic şi semantic. Exemple de teorii care consideră verbul centrul

40

logic al propoziției sunt: teoria cazurilor cu rolurile tematice ale substantivelor în jurul predicatului, şabloane sintactice ale verbelor cu restricţii semantice, și altele. Prin urmare, verbul este cea mai dificilă parte de vorbire din punct de vedere al analizei ei.În pofida faptului că fiecare propoziţie engleză necesită cel puţin un verb, numărul total de verbe în limba engleză este mai mic decît al substantivelor. Spre exemplu, dicţionarul englez Collins English Dictionary conţine 43635 substantive şi numai 14190 verbe. Cum atunci verbele realizeză toate sensurile necesare în limbă? Verbele sunt cu mult mai polisemantice decât substantivele. Sensul verbelor se schimba în dependenţă de subiectul care apare în propoziţie. Altă metodă de a crea sensul nou a verbului sunt așa numite pospozition, prepoziții care se plaseză după verb. De exemplu: look at, look for, look up, look after, toate au sensurile sale. Verbele cel mai frecvent folosite (have, be, run, make, set, go, take, get) sunt şi cele mai polisemantice. În scopul definirii sensurilor diferite ale verbelor sunt prevăzute legăturile cu substantivele corespunzătoare. Spre exemplu, pentru verbul run: run the streets, run from one’s word, running to form, running for the city council, ran aground on a sandbank, shuttle runs daily, news run ş.a.; în fiecare combinaţie verbul are alt sens.Sinonimia nu este prezentă între verbele engleze, sunt practic numai câteva sinonime adevărate. Unele verbe cu acelaşi sens nu pot înlocui unul pe altul din cauza că au diferite domenii de utilizare. Spre exemplu, verbele buy şi purchase. Ca regulă subiectul şi obiectul acestor verbe sunt diferite. De exemplu, în propoziţia A housewife bought some carrots verbul purchase nu este potrivit. Reieșind din definiția sinonimelor acceptată de autorii WordNet-ului, dacă cuvintele nu pot înlocui unul pe altul într-un context, ele nu pot fi considerate sinonime.La fel ca și pentru adjective pentru verbe este problematic de a stabili relații de hiperonimie-hiponimie sau holonimie-meronimie. Astfel a fost nevoie de căutat alte tipuri de reații între verbe.În scopul unificării reprezentării sensului mulţi cercetători au lucrat asupra problemei clasificării verbelor şi sensurilor lor. S-au executat mai multe încercări de clasificare prin descompunerea sensurilor verbelor ce a obținut denumirea semantica decompoziţională. Ideea de bază în clasificarea dată este de a descompune sensurile acțiunilor descrise de verbe în niște acțiuni elementare, acțiuni de bază. Au fost propuse diferite tipuri de clasificări ale predicatelor în propoziţie, prin urmare şi a sensurilor verbelor corespunzătoare. De exemplu au fost propuse aşa tipuri abstracte de predicate: EVENIMENT, ACŢIUNE, STARE, MANIERĂ şi altele. Altă metodă de clasificare a verbelor numită semantica relaţională diferă de cea decompoziţională prin următoarele concepte:

- Teoria dată foloseşte cuvinte reale dar nu concepte abstracte în calitate de elemente de bază;

41

- Relaţiile între cuvintele limbii au diferite denumiri ce le descriu.

Însă analiza relaţională conţine şi unele concepte de decompoziţie. Unul din predicatele abstracte CAUSE este considerat ca relaţie între verbe, de exemplu, show-see (show este cauza pentru see) O altă abstracţie MANNER este codificată în WordNet ca relaţia numită troponymy. De exemplu, verbele slip-snore(a dormi – a sforăi). Adepţii teoriei decompoziţiei presupun că oamenii au în memorie unele abstracţii generale ca MIŞCAREA, SCHIMBAREA, CAUZA, STAREA şi altele în jurul cărora sunt grupate verbele apropiate după sens. Autorii WordNet-ului s-au bazat pe semantica relaţională în clasificarea verbelor. În WordNet verbele move, go, change din cauza sensului lor general sunt considerate cuvintele iniţiale (unique beginners). Alte verbe sunt grupate în jurul lor. Autorii WordNetului au stabilit lexical ENTAILMENT ca relaţia de bază între verbe. În limba română această relație se traduce ca moştenirea lexicală sau includerea. Definiţia moştenirii lexicale este următoarea: clauza P este moştenitorul clauzei Q atunci şi numai atunci când nu există situaţie cînd P este adevărat şi Q este fals. De exemplu, verbul swallow este moştenitorul verbului eat. Relaţia această este asimetrică. Dacă între unele verbe relaţia aceasta este simetrică ele sunt sinonime. De exemplu, She bought something.= She purchased something. Alt exemplu este swallow=gulp (a înghiţi). Această relaţie poate fi compărată cu holonimia-meronimia. De exemplu, fenomenul de a visa este o parte a fenomenului de a dormi. Însă în multe cazuri astfel de relații nu sunt stabilite atît de clar ca între substantive. Unele activităţi denotate de verbe pot fi descompuse în subactivităţi, dar activităţile acestea rar sunt descrise cu un verb. De exemplu, buy include pick out, negotiate, pay. Activităţile, ca regulă au nişte parametri temporali. Ca regulă, relația de încludere între verbe subînțelege relația temporală între evenimente descrise de verbele date. Unele subactivităţi ocupă o parte de timp din activitatea principală (ca în exemplul precedent), altele se efectuează paralel, de exemplu a merge – a păşi.

Cum a mai fost menționat mai sus, relația de hiperonimie-hiponimie între verbe nu există în aşa formă ca între substantive. Modificaţia relaţiei acestea între verbe este relaţia de troponimie (TROPONYMY), de la cuvântul grecesc tropos - manieră. Relaţia aceasta poate fi descrisă în următorul mod: A face V2 înseamnă a face V1 într-o manieră. De exemplu, a şopti înseamnă a vorbi în şoaptă, a recita înseamnă a vorbi în voce tare, pronunțată, a bîlbîi înseamnă a vorbi neclar, nedeslușit și împiedicat. Toate cuvintele acestea sunt troponime cuvîntului a vorbi. De fapt, troponimia este o variantă de includere sau moştenire care co-există în timp. Ca regulă, V1 este un verb mai general decât V2.

Taxonomia verbelor. După cum s-a observat din descrierea anterioară, verbele nu pot fi organizate într-un arbore ca substantivele. Se poate de spus, de exemplu ambling is a kind of walking dar această nu este aceeaşi relaţie, ca şi 42

între substantive. Unele verbe care pot fi grupate în structuri similare cu un arbore formeaza mai degrabă ceva in formă de tufari deformate unde numărul de nivele nu depăşeşte 4. În fiecare tufar există un verb principal cu sensul mai general (move, go, be, get) şi un set de verbe ataşate la el. Este observată regula că cu cât mai departe de la verbul principal se află cuvântul în hierarhie, cu atât mai puţine substantive pot fi ataşate la el. De exemplu, move este un verb mai general, jump reprezintă un tip de mișcare (a sări), alte verbe hop , leap , spring, skip reprezintă tipuri diferite de sărituri și sunt utilizate în diferite contexte.

Antonimia între verbe. Relaţia de opoziţie între verbe este foartă importantă. Ca şi în cazul adjectivelor, există antonime directă (fall-rise) şi cuvintele opuse după sens (fall-ascend). Pe când antonimele sunt marcate, majoritatea relaţiilor de opoziţie nu sunt notate în WordNet, numai cele mai evidente.

Relaţia de cauză include două concepte: cauzativă (CAUSE) şi rezultativă (BACKWARD PRESUPPOSITION). De exemplu, give este cauza lui have, iar have în rîndul său este rezultatul lui give. WordNet conţine relaţii cauzative şi rezultative mai mult între grupuri de cuvinte, decât între cuvinte individuale. Relaţia de cauză este un tip specific de moştenire (includere). Definiția relației date este următoare: dacă V1 este cauză pentru V2, înseamnă că V1 include V2. Includerea de tipul acesta, ca regulă, nu este temporală, adică, cauza şi rezultatul se întâmplă nu în aceiaşi perioadă de timp dar consecutiv. Relația aceasta însă are nuanțe. De exemplu, relația a căuta – a găsi este o relație de cauză, însă a căuta nu rezultă neapărat în a găsi, iar a găsi nu neapărat este rezultatul lui a căuta.

Ca rezultat sunt clasificate patru tipuri de moştenire (includere) care sunt prezentate în figura dată:

Figura 4. Legături semantice între verbele în WordNet.

43

Sintaxa şi semantica verbelor. Verbele au fost cercetate din punct de vedere al structurilor sintactice care sunt influenţate de semantica lor. De fapt, WordNet nu a fost creat pentru prezentarea informaţiei sintactice dar cercetările au arătat că structurile sintactice au o legătură semnificativă cu semantica lor. Din cauza aceasta autorii WordNet-ului au creat un set de cadre sintactice la care sunt create referințe de la verbele din sinseturi. În urmare sunt prezentate unele exemple de structuri sintactice în formă de propoziții:

102 They %s their earnings this year exemplu: spent 103 Their earnings %s this year exemplu: increased 140 They want to %s the prisoners exemplu: free141 They want to %s the doors exemplu: shut142 The doors %s exemplu: close33 They %s the food to the people exemplu: offer34 They %s the people the food exemplu: offer37 The men %s the bookshelves exemplu: repair137 They %s to move exemplu: agreed138 They %s moving exemplu: started

Ca rezultat al cercetării verbelor acestea au fost împărţite după sens în 15 fişiere:

1. Verbs of Bodily Functions and Care2. Verbs of Change3. Verbs of Communication4. Competition Verbs5. Consumption Verbs6. Contact Verbs7. Cognition Verbs8. Creation Verbs9. Motion Verbs10. Emotion or Psych Verbs11. Stative Verbs12. Perception Verbs13. Verbs of Possession14. Verbs of Social Interaction15. Weather Verbs

Utltizarea WordNet-ului

WordNet a fost criticat pentru faptul că în lexicon este codificată doar o mică parte din totalul informației despre concepte. Informaţia generală despre obiectele descrise nu este prezentată. De exemplu, nu sunt codificate funcțiile obiectelor, mărimea lor, localizarea, și multe alte caracteristici. Toată informația dată prezintă, de fapt, cunoştinţele generale, nu şi cele lingvistice. Autorii WordNet-ului răspund că ei au avut intenția de a crea un dicționar, lexicon şi nu

44

o bază de cunoștințe. Problema este mai globală, fiindcă şi dictionarele explicative nu conţin o mulţime de informaţie despre cuvintele, pe care le descriu. De exemplu, nu se descrie cum arată obiectul definit, ce părţi are, care sunt cuvintele legate de obiectul acesta, care sunt funcţiile lui, care sunt diferite modificări ale obiectului dat.

Însă, trebuie de menționat că din momentul anunțării WordNet a devenit cel mai intens utilizat resurs în domeniul lingvisticii computaționale și procesării limbajului natural. Avantajele lexiconului ce facilitau utilizarea lui sunt:

- Volumul lui imens; WordNet conține majoritatea cuvintelor limbii engleze, ce permite incadrarea lui în sisteme de analiză a textelor pe scară largă.

- Accesibilitatea. Din momentul lansării și pînă acum WordNet este accesibil on-line, el poate fi descărcat fără orice plată și fără înregistrare.

- Simplitatea lui. În pofida criticii relațiilor semantice limitate între cuvinte, anume numărul de relații restrîns permite navigarea ușoară prin sinseturile și prelucrarea cuvintelor utilizînd algoritmi comparativ simple.

Astfel, WordNet este un exemplu de cea mai reușită resursă semantică în domeniul lingvisticii computaționale și prelucrării imbajului natural. Lucrul cu WordNet continuă; în 2006 a fost ansată versiunea 3.0 a bazei de date ce conține 155,287 cuvinte organizate în 117,659 sinseturi.WordNet este cel mai mult utilizat în dezambiguizarea sensurilor cuvintelor. În rezolvarea problemei date cuvintele din sinseturi se compară cu contextul cuvîntului ambiguu și se alege acest sens (sinset) al cuvîntului care este mai similar cu contextul dat. Problema care apare în cazul dat este granularitatea sensurilor cuvintelor prezentate în WordNet. Pentru rezolvarea problemei date în multe cazuri sensurile similare sunt unite, astfel minimizînd numărul sinseturilor și clarificînd sensurile lor. Alt domeniu unde este utilizat WordNet este regăsirea informației. În 1998 în baza WordNet-ului a fost creat un program de dezambiguizare a sensurilor cuvintelor. Acest program mai tîrziu a fost intens utilizat în regăsirea informației în combinație cu motoarele de căutare Yahoo, Google, Ask! și altele. O metodă de utilizare a WordNet-ului care a fost folosită intens este calculul similarității semantice între cuvinte. Similaritatea semantică între două cuvinte se calculează ca distanța măsurată în arcuri grafului ce reprezintă structura arborescentă între substantive. De exemplu, cuvîntul mouse apare în două sinseturi: cu sensul de animal și cu sensul de dispozitiv al calculatorului. Similaritatea între cuvîntul cat și mouse în sensul de animal este mai mare decit similaritatea între același cuvînt cat și sensul cuvîntului mouse ca dispozitiv fiindcă cat și mouse în primul sens sunt holonime cuvîntului animal, pe cînd de la cat ca animal pînă la mouse ca dispozitiv trebuie de parcurs aproape tot arborele.

45

În baza WordNet-ului au fost create diferite extensii, de exemplu, WordNet Domains – un set de etichete de domenii cu care sunt marcate toate sinseturile ce aparțin domeniului dat. De exemplu, eticheta şcoala marcheaza învățător și elev din subarbore persoana, manuale, note, tabla, creta, clasa și alte obiecte ce sunt din domeniul dat. O parte din WordNet Domains este WordNet-Affect. WordNet-Affect este un set de etichete ce marchează cuvintele care exprimă sentimentele. Etichetele sunt, de exemplu, bucurie, frica, mirare şi altele. Această parte a WordNet-ului este utilizată pentru analiza sentimentelor în text.

46

SIMPLE

Noţiuni generale

SIMPLE este un proiect global european în cadrul programului Language Engineering Programme şi are drept scop crearea lexicoanelor semantice pentru douăsprezece limbi europene (Catalană, Daneză, Olandeză, Engleză, Finlandeză, Franceză, Germană, Greacă, Italiană, Portugeză, Spaniolă, Suedeză) în baza unui model comun cu codificarea caracteristicilor semantice folosind cadre semantice de subcategorizare.

LE-SIMPLE urmează după proiectul LE-PAROLE (1998). LE-PAROLE avea drept scop crearea setului de resurse armonizate pentru limbile europene. În cadrul proiectului au fost colectate corpusuri reprezentative pentru 15 limbi. Fiecare corpus avea volumul cel puţin 20 milioane de cuvinte şi conţinea diferite tipuri de texte. Corpusuri au fost codificate şi marcate în corespondenţă cu stadardul adoptat CES (Corpus Encoding Standard). O parte din fiecare corpus (în jur de 250 000 cuvinte) este marcată cu informaţia morfo-sintactică. Paralel cu crearea corpusurilor au fost create lexicoanele limbilor date. Lexicoanele au fost parţial extrase din corpus şi conţin fiecare cel puţin 20 000 unităţi. Fiecare unitate a lexicoanlor a fost descrisă foarte detaliat. Descrierea unităţii lexiconului include informaţia morfologică şi sintactică. Mai detaliat, informația morfologică include: forma scrisă a cuvîntului, toate formele flexionare a lui, partea de vorbire și caracteristicile respective părții date de vorbire, derivările posibile ale cuvîntului dat și altă informație morfologică. Informația sintactică include: relații gramaticale posibile ale cuvîntului dat cu alte cuvinte, cadre sintactice respective, diateza și alternările lexicale, pronominalizarea cuvîntului dat, restricții sintactice, expresii idiomatice cu cuvîntul dat și altă informație ce se referă la legături sintactice ale cuvîntului dat. Codificarea lexicoanelor este total unoformă şi corespunde standardelor EAGLES. Instrumentul utilizat pentru codificarea informaţiei în resursele create este limbajul de marcare XML. Toate resursele create şi în special lexicoanele au fost create luînd în vedere crearea ulterioară a legăturilor între unităţile lexicoanelor şi elaborarea unei surse multilingve.

SIMPLE este prevăzut ca etapa următoare după proiectul LE-PAROLE, proiectul acesta crează resurse semantice în baza resurselor create de LE-PAROLE. În același mod uniform pentru toate limbile încadrate în proiect sunt create descrieri semantice ale unităților lexicoanelor. Mai mult de 10 000 de cuvinte din lexicoanele date sunt dotate cu descrieri semantice. O atenței deosebită este atrasă substantivelor, verbelor și adjectivelor pentru care au fost codificate următoarele caracteristici semantice: tipul semantic, domeniul și conceptul ontologiei la care este conectat cuvîntul dat, cadrul sintactico-semantic în cadrul propoziției, tipuri semantice ale elementelor cadrului (opțional).

47

Una din condițiile de bază pentru crearea resurselor semantice ale limbilor participante este uniformitatea formatelor datelor codificate. Lexicoanele semantice sunt create luând în vedere legăturile între limbile date, şi anume, unitățile lor sunt conectate la o ontlolgie unică fundamentală şi un set comun de cadre semantice. Conceptele de bază identificate în EuroWordNet (în jur de 800 sensuri ontologiei de vârf) au fost folosite pentru crearea ontologiei comune. Lexicon pentru fiecare limbă a fost creat independent, insă informația semantică a fost descrisă strict conform standardului unic adoptat în cadrul proiectului. Legăturile între lexicoanele create sunt efectuate prin intermediu conceptelor ontologiei comune dezvoltate în baza WordNet-ului englez și parțial în baza ontologiei create în cadrul proiectului EuroWordNet. Setul conceptelor de bază prin care este realizată legătura între lexicoanele create este numit InterLingualIndex (ILI). În calitate de bază teoretică pentru descrierea informației semantice în cadrul unităților lexiconului este luată și adaptată teoria lexiconului generativ a lui James Pustejovsky. Îndeosebi, unitățile lexiconului sunt descrise semantic în baza setului de caracteristici semantice extrase din Qualia Structure, ce este o parte importantă a teoriei lui Pustejovsky.

Teoria lexiconului generativ (LG)

Teoria lexiconului generativ (LG) a fost propusă de James Pustejovsky după ani de cercetare în domeniul lingvisticii computaţionale. Teoria propusă este un răspuns cercetătorului la întrebările puse: (1) Cum este posibil de format un număr infinit de combinaţii din un număr finit de cuvinte într-o limbă? (2) Este posibil de separat informaţia lexicală de cunoştinţele de bun simţ în reprezentarea sensului? (1) Cum este posibil că noi suntem capabili să combinăm un număr finit de cuvinte în limba noastră într-un număr nelimitat de contexte? (2) Este informaţia lexicală separabilă de cunoştinţele noastre de bun simţ în compunerea sensului?Teoria LG este concentrată în reprezentarea compunerii semantice în limba naturală. În opoziţie metodelor concentrate numai pe verb ca elementul principal în reprezentarea sensului, GL repartizează semantica prin toate elemente ale clauzei. Lexicon Generativ introduce un model de reprezentare a cunoştinţelor, care oferă un vocabular bogat şi expresiv pentru informaţii lexicale. În general, GL este preocupat de explicarea folosirii creative a limbii; se consideră că lexiconul conţine o mulţime de informaţie ce stă la baza acestui fenomen. Mai precis, este întrodusă noţiunea de un lexicon ce se află în dezvotare permanentă, care GL încearcă să imite, acest lucru este în contrast cu lexicon static utilizat larg în prezent. Una dintre cele mai dificile probleme cu care se confruntă semantica

48

teoretică şi computaţională este definirea interfeţei între cunoştinţele lingvistice şi non-lingvistice. GL a fost iniţial dezvoltat ca un cadru teoretic pentru codificarea restricţiilor tematice în limbaj natural. Posibil că aspectul cel mai controversat al GL a fost modul în care codificarea lexicală a cunoştinţelor este exploatată în construcţia de interpretare a enunţurilor lingvistice. Următoarele ipoteze standarde în GL presupun că resursele disponibile pentru un element lexical constă din următoarele patru nivele:

a. LEXICAL TYPING STRUCTURE: defineşte tipul cuvântului poziţionîndu-l în cadrul sistemului de tipuri pentru o limbă; este reprezentată relaţia sensului cuvîntului dat cu sensurile altor cuvinte şi legătura lui cu „cunoştinţele de bun simţ”.

b. ARGUMENT STRUCTURE: specifică numărul şi natura argumentelor pentru un predicat; defineşte reaizarea sintactică a cuvîntului dat şi legătura acestei cu interpretarea lui semantică.

c. EVENT STRUCTURE: defineşte tipul evenimentului exprimării şi toate subevenimente posibile pentru exprimarea dată; structura dată conţine trei componente de bază: tipul evenimentului (starea S, proces P sau tranziţie T), focusul evenimentului, şi regulile de compunere a evenimentului.

d. QUALIA STRUCTURE: o diferenţiere structurală a forţei predicative al elementelor lexiconului.

QUALIA STRUCTURE, inspirată de Moravcsik's (1975), este definită ca moduri de descrieri asociate cu un cuvânt sau o frază în limbă, şi sunt definite după cum urmează (Pustejovsky, 1991):a. FORMAL: categoria de bază care distinge semnificaţia unui cuvânt în

cadrul unui domeniu mai vast;b. CONSTITUTIVE: relaţia dintre un obiect şi părţile sale componente;c. TELIC: scopul sau funcţia obiectului dat, dacă există;d. AGENTIVE: factorii implicaţi în apariţia obiectului dat şi originea lui.

Astfel, teoriile lingvistice clasice presupun existenţa unui lexicon static în care toate cuvintele obţin enumerarea şi descrierea sensurilor lor. Se presupune că numărul de sensuri este finit şi orice situaţie ce necesită detectarea sensului cuvîntului într-un context porneşte un algoritm de selectare a sensului potrivit pentru contextul dat dintr-un număr predefinit de sensuri descrise în lexicon în baza contextului. Analiza se face numai pentru un cuvînt, ambiguitatea cuvintelor din context în algoritmul dat este ignorată. Însă în realitate nu este chiar aşa. Limba naturală are un caracter creativ, ea se află în permanentă scimbare, sensurile cuvintelor se schimbă, dispar, apar sensuri noi; în multe cazuri diferenţa între sensuri într-un context este foarte vagă, neclară. Sensurile cuvintelor vecine într-un context interacţionează, formînd nuanţe noi. Toate acestea impedică selectarea sensului corect din lista sensurilor predefinite în lexicon static.

49

GL propune un lexicon ce nu conţine o listă de sensuri predefinite pentru fiecare cuvînt. În lexicon generativ cuvintele sunt descrise de un set de caracteristici ce definesc un spaţiu de interpretări posibile ale cuvîntului dat. Caracteristicile date conţin organizarea conceptuală a unităţilor lexiconului, decompoziţia primitivă a lor şi descrierea structurii de predicat-argument posibile pentru unitatea dată. Într-un context caracteristicile cuvintelor interacţionează, formînd interpretarea adecvată a fiecărui cuvînt într-un enunţ. Astfel, noţiunea de compunere în interprearea semantică joacă un rol crucial formînd sensul enunţului din combinaţia caracteristicilor tuturor elementelor, nu numai verbului cu argumentele sale predefinite.

Adaptare Qualia Structure pentru lexiconul Simple

Una din caracteristicile principale ale lexicoanelor create în cadrul proiectului SIMPLE este abilitatea de a descrie diferite aspecte ale sensului cuvântului. Ca instrument pentru repreentarea sensului cuvântului este folosită teoria Lexiconului Generativ şi anume partea Qualia Structure (Pustejovsky 1995) care strcturizează conceptele ortogonale ale sensurilor cuvintelor în spaţiul multidimensional al utilizării lor care reprezintă limba naturală. Qualia Structure foloseşte patru aşa numite roluri care răspund la patru întrebări în privinţa fiecărei unităţi ale lexiconului. În urmare sunt prezentate rourie şi întrebările corespunzătoare ce ajută la definirea lor:

1. formal role – A cărei clase noţiunea dată este subclasă? Care sunt caracteristicile noţiunii date care o disting de alte noţiuni?

2. constitutive role – Care este structura internă a noţiunii date? Din care noţiune ea este parte-componentă?

3. telic role – Care sunt funţiile tipice ale noţiunii? Pentru ce este folosită noţiunea dată?

4. agentive role – Cum şi de unde a apărut noţiunea dată? Cine a creat noţiunea dată? Cu toate că răspunsurile la întrebările date nu descriu conţinutul sensului conceptului, Pustejovsky (1995) a demonstrat că aceste patru Qualia dimensiuni joacă un rol proeminent în determinarea relaţiilor între conceptul dat şi alte unităţi ale lexiconului şi structurilor sintactice în care conceptul dat este folosit. Se consideră că rolurile date pot descrie comportarea lingvistică a cuvintelor oricărei parţi de vorbire, însă la prima vedere par a fi mai direct potrivite pentru caracterizarea anumite tipuri de substantive. Una din sarcinile iniţiale în SIMPLE era extinderea fiecărei Qualia caracteristici cu scopul adaptării lor pentru descrierea tuturor părţilor de vorbire. Fiecare Qualia rol a fost considerat topul ierarhiei descrierii mai specifice ale sensurilor cuvintelor. Figura 1 prezintă o parte de ierarhie creată în SIMPLE.

50

Figura 1. Specificarea Qualia rolurilor în SIMPLE.

În urmare este prezentat un fragment al listei de subroluri pentru rolul Constitutiv:

3. CONSTITUTIVE [Top] 3.1. Part [Constitutive] 3.1.1. Body_part [Part] 3.2. Group [Constitutive]

3.2.1.Human_group [Group]

3.3. Amount [Constitutive] . . .În final au fost stabilite 64 subroluri Qualia Structure. Nu toate din acestea sunt aplicabile la toate cuvinte. Există aşa numite tipuri simple care sunt caracterizate cu un rol ca rolu principal pentru noţiunea dată. De exemplu, ROLE > LIVING_ENTITY > HUMAN este caracterizat doar de rolul formal. Altele au nevoie de descriere complexă ce include mai multe subroluri de tip diferit. De exemplu, în lexicon italian cuvîntul „ascia” (topor) este descris cu rolurile formal şi telic ca fiind un instrument de tăiet utilizat în special pentru prelucrarea lemnului (figura 2).

Figura 2. Descrierea cuvîntului „ascia” (topor) utilizînd Qualia roluri.

Top

Formal Constitutive Agentive Telic

Is_a Is_a_part_of Property

Contains

Created_by Agentive_cause Indirect_telic Activity

Instrumental Is_the_habit_of

Used_for Used_as

... ...

attrezzo da taglio Formal: isa

Telic:used_for

usato spec. per lavorare il legno

ascia

TYPETYPEINSTRUMENTINSTRUMENT

Created_by……

51

Descrierea Qualia caracteristicilor cuvîntului „butoi” implică mai multe subroluri. Astfel, sunt utilizate următoarele subroluri rolului constitutiv: „made_of” şi „contains” (figura 3).

Figura 3. Descrierea cuvîntului „botte” (butoi) utilizînd Qualia subroluri.

Qualia caracteristicile joacă un rol crucial în definirea sensurilor cuvintelor polisemantice în lexicon SIMPLE pedescriind diferite aspecte ale sensului. De exemplu, codificarea cuvântului ala (aripa) în lexiconul italian are patru sensuri(1): (a) "part of an airplane" – aripa aeroplanului;(b) "part of a building, annex" – aripa clădirii;(c) "organ of birds for flying" - aripa pasării;(d) "role in sport" - jucător în echipa de fotbal.Rolul formal (is_a) deosebeşte primele trei sensuri de ultimul sens: (a) isa (<ala: 3232>, <parte (part)>) (b) isa (<ala: 3268>, <parte (part)>) partea-componentă(c) isa (<ala: D358>, <parte (part)>) (d) isa (<ala: 3467>, <giocatore (player)>) jucătorRolul constitutiv (is_a_par_of) deosebeşte primele trei sensuri prin obiectele a cărui părţi ele sunt: (a) is_a_part_of (<ala: 3232>, <aeroplano (airplane)>) aeroplan;(b) is_a_part_of (<ala: D358>, <uccello (bird)>) pasăre;(c) is_a_part_of (<ala: 3268>, <edificio (building)>) clădire.Rolul telic (used for) ajută la evidenţierea similarităţii între primul şi al treilea sens: (a) used_for (<ala: 3232>, <volare (to fly)>) (b) used_for (<ala: D358>, <volare (to fly)>)

recipiente

fatto di doghe arcuate tenute unite da cerchi di ferro

Formal: isa

Constitutive: made_of

Constitutive:contains

Telic:used_for

di legno

che serve per la conservazione e il trasporto

di liquidi, specialmente vino

Agentive: created_by

botte

52

este folosit pentru zbor

Rolul agentiv introduce diferenţa între sensurile acestea din cauza că primul sens se referă la un obiect artificial creat de oameni, pe când al doilea este natural. Caracteristica aceasta este asămănătoare la primul şi a doilea sens: (a) agentive (<ala: 3232>, <fabbricare (to make)>) fabricat(b) agentive (<ala: 3268>, <costruire (to build)>) construit

Modelul SIMPLE

Modelul Simple prevede specificaţia formală pentru reprezentarea şi codificarea informaţiei următoare: i) tip semantic, ce corespunde structurii care instanţiază SemU; ii) informaţiile pe domeniu; iii) descrierea lexicografică; iv) structura argumentelor pentru SemU predicative; v) restricţii tematice selectionale pentru argumente; vi) tipul de eveniment, pentru caracterizarea predicatelor verbale; vii) legături dintre argumente pentru cadrele de subcategorizare sintactice, aşa cum este reprezentat în lexicoanele PAROLE; viii) Qualia Structure; ix) informaţii despre alternanţa polisemică regulată a sensurilor cuvintelor; x) relaţiilor între părţie de vorbire cu sens apropiat (de exemplu, inteligent - inteligenţa; scriitor - a scrie); xi) sinonimie. Toată informaţia dată este codificată în modelul Simple într-un mod cît mai compact.

Modelul Simple conţine trei tipuri de entităţi formale:1. Semantic Units (SemU) – codifică sensul sau conceptul semantic.

Fiecare SemU este ataşat la un semantic type din ontologie. În afară de această, el este dotat cu altă informaţie care este prezentată în formă de cadre (şabloane) semantice (templates) şi care adaugă diferite caracteristici ale sensului.

2. Semantic Type – include informaţia structurată despre cele patru Qualia roluri care este sortată în definirea tipului (type-defining information) şi informaţia suplimentară (additional information). Definirea tipului caracterizează tipul semantic pe când informaţia adăugătoare specifică alte componente ale unităţii semantice.

3. Template – o structură schematică utilizată de lexicografi pentru codificarea unităţilor semantice. Lexicografi folosesc astfel de structuri pentru simplificarea descrierii lexemelor într-un mod unificat şi armonizat. În structură se înscrie tipul semantic şi alte tipuri de informaţie adăugătoare. Un set de structuri standardizate a fost creat la prima etapă de proiect cu scopul utilizării uniforme pentru toate limbile participante. Alte structuri, mai specifice se introduc în procesul completării lexiconului dacă apare necesitatea de a codifica unele concepte specifice ale limbii particulare.

53

Figura 4. Descrierea rolurilor semantice ale elementelor lexiconului

SIMPLE semantic network

Aceste trei tipuri servesc pentru optimizarea stocării informaţiei semantice şi sintactice în lexicoanele Simple. În loc de dublare multiplă a rolurilor semantice ale cuvintelor în fiecare Semantic Unit, toate rolurile posibile sunt stocate în Semantic Types şi Semantic Units conţin doar referinţe la rolurile corespunzătoare. Relaţiile între Semantic Units şi Semantic Types sunt exemplificate în figura 4. Exemplul dat cu cuvîntul ala (italian), aripa a fost descris mai sus. Patru sensuri ale cuvîntului dat sunt reprezentate cu Semantic Units care în rîndul său sunt descrise prin legături cu Semantic Types. Semantic Types sunt reprezetate în ovaluri şi descriu Qualia roluri. Respectiv, SemU cu sensul „partea a avionului” are patru legături cu cele patru Qualia roluri: Formal (Isa) – part Agentive - fabricatConstitutive (Is a part of) - avion Telic (Is used for) – zborÎn mod similar este realizată şi descrierea legăturilor sintactico-semantice pentru unităţile lexicale. Cadre (şabloane) sintactico-semantice sunt stocate în Templates şi Semantic Units au legături cu cadrele corespunzătoare. Astfel, entităţile formale sunt interconnectate într-o reţea semantică care apovizionează lexemele cu informaţia necesară şi în acelaşi timp evită repetarea

<parte>

part

Isa

Isa

Isa

<volare>flyUsed_for

Used_for

<aeroplano>airplane

Is_a_part_of

<uccello>bird

Is_a_part_of

<edificio>building

Is_a_part_of

Ala (wing)

SemU: 3232Type: [Part]Part of an airplane

SemU: 3268Type: [Part]Part of a building

SemU: D358Type: [Body_part]Organ of birds for flying

SemU: 3467Type: [Role]Role in football

<giocatore>player

Isa

Agentive

<fabbricare>make

Agentive

54

şabloanelor identice. Caracteristica aceasta a structurii lexicoanelor în SIMPLE este una din optimizările cruciale. La fel, în scopul unificării lexicoanelor create pentru toate limbile-participante este utilizat setul „conceptelor de bază” definit în cadrul proiectului EuroWordNet (aproximativ 800 concepte de la nivelul de vîrf al ontologiei). Toate 12 lexicoane limbilor-participante sunt conectate la setul acesta ce asigură legătura între acestea prin EuroWordNet Interlingual Index. Astfel, fiecare Semantic Unit are o legătură cu un concept din ontologia sus-menţionată. Astfel, informaţia într-un Semantic Unit reprezentată prin legături cu Semantic Types şi Templates ataşată la un sens al cuvîntului este prezentată în figurile 5 şi 6.

SIMPLE sample entries

Figura 5. Reprezentarea elementului lexiconului Simple (substantiv).

În figura 5 este prezentată descrierea cuvîntului “violin” (vioara). SEMU_ID este identificatorul unităţii semantice date. POS (Part Of Speech) descrie partea de vorbire a cuvîntului dat, şi anume – N (Noun) substantiv. GLOSS (glossary) dă o explicaţie scurtă a sensului cuvîntului dat. SEMANTIC_TYPE este legătura cu ontologia de bază. În cazul dat conceptul “violin” este conectat cu conceptul mai general “instrument”. DOMAIN este o clasificare suplimentară care specifică că instrumentul dat este din domeniul muzicii. La urmă sunt reprezentate Qualia roluri aplicabile pentru conceptul dat. În cazul exemplificat sunt descrise trei roluri: FORMAL_ROLE, CONSTITUTIVE_ROLE şi TELIC_ROLE. Se observă, că CONSTITUTIVE_ROLE şi TELIC_ROLE sunt

55

descrise prin subroluri. CONSTITUTIVE_ROLE constă din has_a_part: string (a avea ca o parte: strună) şi made_of: wood (făcut din: lemn). Respectiv, TELIC_ROLE constă din used_for: play (utilizat pentru: a cînta) şi used_by: violinist (utilizat de: viorist).

Figura 5. Reprezentarea elementului lexiconului Simple (verb).

Figura 6 conţine exemplu de descriere a verbului. Ca şi în exemplu precedent există SEMU_ID, POS: V (verb), GLOSS – descrerea sensului (a percepe în mod intenţionat ceva cu ochii), SEMANTIC_TYPE care este legătura cu ontologia de bază. Verbul, însă, conţine şi alte tipuri de descrieri, şi anume: EVENT_TYPE: process (tipul evenimentului: proces) şi PRED_REPRESENTATION ce este reprezentarea structurii cadrului semantic al predicatului format de verbul dat. În cazul dat cadrul semantic este format din două argumente: subiectul şi complementul direct al propoziţiei. Pentru agrumentele date sunt reprezentate restricţii semantice prin conceptele ontologiei. Primul argument Arg0 (subiectul) trebuie să fie însufleţit (animate), al doilea argument Arg1 (complement direct) este o entitate (entity). Astfel, SIMPLE conţine structuri sintactico-semantice ce sunt dedicate înţelegerii corecte a textului. Aceste structuri constă din trei niveluri: (1) nivel sintactic (în lexicon creat în cadrul proiectului PAROLE); (2) nivelul predicatului în SemU ce descriu verbe cu structurile argumentelor lor; (3) nivel

56

de corespondenţă la care argumentele sunt conectate la poziţiile sintactice; aici este posibil de creat un set nelimitat de larg de constrîngeri (restricţii semantice sau tematice) pentru reprezentarea legăturilor complexe.

SIMPLE semantic frames

Figura 7. Legăturile semantice între cuvinte.

Alt tip de informaţie codificată în formă de relaţii semantice sunt relaţii între diferite părţi de vorbire care reprezintă noţiuni semantic foarte apropiate sau noţiuni similare. Spre exemplu, a coace(verb) – coptură(substantiv) – copt(adjectiv). Pentru căpturarea relaţiei acestea sunt create relaţii de aşa numită nominalizare. Nominalizarea este actul de creare a substantivului din verb cu păstrarea sensului lui de acţiune sau stare. Spre exemplu, „rectorul a vizitat şedinţa facultăţii” - „vizita rectorului”; „parlamentarii au discutat adoptarea hotărîrii” – „discutarea adoptării hotărîrii”; „hotărîrea a fost adoptată” – „adoptarea hotărîrii”. Nominalizarea are o răspîndire largă în textele moderne ce necesită creare a metodelor de analiză adecvată a grupurilor nominale cu substantivele date. Reprezentarea nominalizărilor în SIMPLE este un caz interesant de interacţiunile dintre modulele lui. De exemplu, SemUs de verb „distruge” şi a substantivului derivat „distrugere” sunt încadrate la acelaşi nivel predicativ, adică ele au acelaşi predicat abstract (în cazul dat, PREDDESTROY) şi aceiaşi structură de argumente. Prin urmare, SIMPLE permite de capturat cu uşurinţă similitudine semantică dintre verbe şi substantive derivate (de exemplu, restricţiile selectionale de argumente sunt la fel pentru verb şi sunstantiv derivat), şi în acelaşi timp, pentru a descrie diferenţele lor în relaţii sintactice.

PREDemploy#1Arg#1<AGENT - HUMAN>Arg#2<PATIENT - HUMAN>

SemUemployer

SemUemployee

SemUemployment

SemUto employ

agentnominalization

patientnominalization

eventnominalization

master link

57

Figurele 7 şi 8 demonstrează în mod grafic aceste relaţii. În figura 7 sunt demonstrate relaţii între verbul „employ” (angaja) şi nominalizările lui posibile: „employment” – (angajare), „employer” – (angajator), „employee” – (angajat). Toate SemU ce descriu cuvintele date au legătură cu cadrul predicatului abstract „PREDemploy” care are două argumente. În descrierea sintactică argumentele acestea sunt subiectul şi complement direct al propoziţiei ce sunt ataşate la prdicatu dat. În descrierea semantică ele sunt prezentate ca AGENT (acela care execută acţiunea) şi PATIENT (acela asupra căreia acţiunea dată este executată). Pentru argumentele date sunt create restricţii semantice (tematice), şi anume, ambii trebuie să fiu oameni (HUMAN). În figura 8 sunt prezentate particularităţile limbii. În limba italiană cuvîntul „comprendere” are două sensuri: „a înţelege” (to understand) şi „a include” (to include). Un sens poate fi nominalizat cu cuvîntul „comprensione” pe când altul – nu. Respectiv, SemU substantivului are legătură cu cadrul predicatului ce descrie sensul de a înţelege şi nu poate avea legătură cu cadrul ce descrie sensul de a include.

Figura 7. Legăturile semantice între cuvinte.

Este deja bine cunoscut faptul că pentru rezolvarea problemelor actuale de prelucrare a limbajului natural (Information Extraction, Word Sense Disambiguation, NP Recognition, etc.) este necesar de a căptura sensul bogat al grupurilor nominale în text. Textele reale conţin o mulţime de aşa numite nominalizări care deseori au o structură complicată. Spre exemplu, grupul nominal Vizita persoanelor de afacere din Italia la fabrica de conserve din Calaraşi din 25 mai 2003. reprezintă un eveniment întreg. În cazul exemplului

Comprendere V

SemU: 61725Type: [Cognitive_event]To understand

SemU: 6962Type: [Constitutive_state]To include

Comprensione N

SemU: 61726Type: [Cognitive_event]Understanding

PREDComprendere#1 <Arg1 [+human]>, <Arg2 [+semiotic]>

PREDComprendere#2<Arg1 [+Entity]>, <Arg2[Entity]>

58

dat rezolvarea problemei înţelegerii sensului se bazează pe rezolvarea problemei ataşării corecte a grupurilor prepoziţionale în text. Problema aceasta este actuală pentru majoritatea limbilor europene. În exemplul precedent propoziţia conţine 6 prepoziţii, respectiv, 6 grupuri prepoziţionale: de afacere; din Italia; la fabrica; de conserve; din Calaraşi; din 25 mai 2003. În cazul dat este necesar de definit că „de afacere” se ataşează la „persoanelor”, „din Italia” la fel se ataşează la „persoanelor” dar nu la „afacere”, „la fabrica” se ataşează la „Vizita”, şi aşa mai departe. Astfel, observăm, că problema ataşării nu este deloc simplă pentru un sistem de interpretare a limbii. SIMPLE propune metoda de rezolvare a problemei date în baza Qualia rolurilor a elementelor combinaţiei. De exemplu, combinaţia „persoanele de afacere” este formată prin ataşarea conceptelor „persoane” şi „afacere” din cauza că Qualia roluri conceptelor date sunt compatibile. La fel se procedează şi cu „fabrica de conserve”; rolul Telic a conceptului „fabrica” se combină cu rolul Agentiv a conceptului „conservă”. Utilizarea analizei şi comparării Qualia rolurior sensurilor cuvintelor polisemantice ajută la rezolvarea problemei ambiguităţii cuvintelor. Compararea Qualia rolurilor este foarte eficientă în cazul omonimelor, de exemplu, cuvîntul „bank”, omonimele bine cunoscute: „organizaţia financiară” şi „malul rîului”. Qualia rolurile pentru noţiunile date sunt absolut diferite, analiza lor şi compararea cu contextul ca regulă permite dezambiguizarea detectarea sensului corect. Mai complicată este situaţia cu polisemia. În multe cazuri sensurile sunt destul de apropiate şi se deosebesc cu greu. Un set de ambiguităţi frecvente sunt descrise în aşa numite „relaţii polisemantice comune” (regular polysemous relation) care sunt comune pentru limbile europene. De exemplu, cuvintele care descriu o organizaţie ca regulă se folosesc şi pentru a numi locul, clădirea unde se află organizaţia dată. Comparaţi: „Liceul „Ion Creangă” a participat în concurs şi a luat locul întîi”, „Liceul „Ion Creangă” se află lîngă Universitatea Tehnică”, „Universitatea Tehnică a Moldovei a fost fondată în anul 1964”. Într-a doilea exemplu la liceu şi la universitate se adreasează anume ca la clădiri care sunt situate aproape una de alta. Altă ambiguitate comună este ambiguitatea legată de mîncare. De exemplu, cuvintele „găină”, „porc”, „peşte” şi multe alte pot să aibă sensul felurior de mîncare sau sensul animalelor, cuvintele „răsărită”, „porumb”, „vişine” pot fi plante sau produceor alimentare. Respectiv, astfel de polisemie comună este descrisă în SIMPLE ca relaţia între SemU respective. De exemplu, BuildingInstitution (<school1>,<school2>) este relaţia între SemU <school1> ca cădirea şcolii (Building) şi SemU <school2> ca o instituţie de învăţămînt (Institution). Relaţia BuildingInstitution este o relaţie comună pentru numeroase cuvinte ce descriu organizaţii, şi este creată în SIMPLE pentru a descrie astfel de ambiguitate. În concluzie se poate de spus că SIMPLE este un proiect grandios cu scopul ambiţios de a crea un set complet şi exhaustiv de resurse lexicale ce pot fi utilizate în orice sistem de prelucrare a limbajului natural. Unul din scopurile proiectului dat este de a unifica modul de reprezentare a resurseor lingvistice

59

pentru limbile europene. Alt scop ambiţios este de a rezolva problema semanticii. Pentru rezolvarea problemei date a fost creată o reţea semantică dintr-un număr larg de relaţii semantice între cuvintele lexiconului. Reţeaua dată include relaţiile cu ontologia de bază, clasificarea pe domenii, descrierea Qualia rolurilor şi relaţii sintactico-semantice cu cadrele sintactico-semantice şi restricţii semantice (tematice). Reţeaua dată modelează legăturile semantice între concepte ce sunt stocate în creierul omului. Însă avantajul lexiconului acesta este şi deyavantajul lui. Oricare sistem ce intenţionează să utilizeze lexiconul dat cu toate legăturile lui trebuie sa aibă un algoritm sofisticat pentri analiza adecvată a tuturor legăturilor pentru fiecare cuvînt al textului şi combinarea lor adecvată. Problema creării algoritmelor de aşa mod pînă cînd nu este rezolvată, sistemele moderne nu reuşesc să analizeze toate sensurile şi toate relaţiile semantice ale cuvintelor dintr-un text codificate în lexiconul SIMPLE.

60

EuroWordNet

Datele generale

EuroWordNet (EWN) a fost un proiect global European care a avut drept scop crearea bazei de date lexicale multilingve. Limbile participante: iniţial au participat 4 limbi: engleză, olandeză, italiană și spaniolă. În 1998 s-au alăturat germană, franceză, cehă şi estoniană.Datele generale:Durata: martie 1996 - iunie 1999Cheltuieli: 2.5 Million EURO.URL: http://www.illc.uva.nl/EuroWordNet/

Vocabularul:EuroWordNet-1: 30,000 concepte - 50,000 seturi de sinonime.EuroWordNet-2: 15,000 concepte - 25,000 seturi de sinonime.

Baza de cunoştinţe lexicale EuroWordNet este formată în conformitate cu structura WordNet-ului englez (Princeton WordNet). Noţiunile în EuroWordNet sunt prezentate folosind seturi de sinonime (synset). Un synset este un set de sinonime (cuvinte care se pot înlocui unul pe altul într-un anumit context). De exemplu, {car; auto; automobile; machine; motorcar} este un set de sinonime care se referă la acelaşi concept. Setul de sinonime este urmat de o definiţie scurtă, de exemplu: "4-wheeled; usually propelled by an internal combustion engine". Seturi de sinonime sunt conectate folosind diferite relaţii semantice aşa ca hyperonymy-hyponymy, meronymy-holonymy, entailment, cause şi altele. Un fragment de reţea semantică WordNet este prezentat în figura următoare.

61

Urmînd metodologia lui Princeton WordNet au fost create lexicoanele semantice pentru limbile europene. Scopul principal în crearea lor a fost independența lexicoanelor date. Fiecare lexicon al unei limbi prezintă caracteristicile şi particularităţile limbii date. Pentru unirea lor a fost creată o structură care interconectează lexicoanele particulare numită InterLingual Index (ILI). InterLingual Index este un set de concepte care uneşte conceptele corespunzătoare din diferite limbil prin legăturile specifice. În afară de InterLingual Index a fost proiectată o ontologie globală independentă de orice limbă la care este conectat InterLingual Index. Ontlogia de vârf a EuroWordNet-ului conţine un set de concepte generale de bază la care se referă conceptele mai concrete.

Lexicoanele

Setul de relații între seturi de sinonime utilizat în din Princeton WordNet a fost lărgit considerabil. Cele mai importante relaţii între substantive: “SYNONYM – ANTONYM”, “HYPERNYM – HYPONYM” şi „HOLONYM – MERONYM” au fost realizate şi în lexicoanele EuroWordNet. Însă și pentru relațiile date au fost întroduse schimbări. Una din cele mai importante scimbări a fos adăugare unui set de relații între părțile de vorbire. Astfel de relații conțin prefixul “_XPOS_” în denumire. Au fost întroduse relaţii cu partea “_NEAR_” pentru sinonimie şi antonimie care sunt utilizate pentru cuvinte cu sensuri similare şi sensuri opuse în cazuri cînd acestea de fapt nu erau sinonime şi antonime. Relaţia „HOLONYM – MERONYM” a devenit mai specifică. S-au adăugat precizările „LOCATION”, „MADEOF”, ”MEMBER”, ”PART”. Exemplele relaţiilor date sunt descrise în tabelul 1.S-au scimbat considerabil relațiile întroduse pentru verbe. Relaţia „TROPONYMY” a fost înlocuită cu relaţia clasică a substantivelor “HYPERNYM – HYPONYM”. De exemplu, „to run” este HYPONYM la „to move”; „to perceive” este HYPERNYM la „to see”. Specificul verbelor este redat de relaţia nouă între verbe şi adverbe numită „MANNER”, unde „IN_MANEER” este relaţia între verb şi adverb, „MANNER_OF” este relaţia între adverb şi verb. De exemplu, verbul „to rush” este în relaţia IN_MANNER cu adverbul “fast”, pe cînd adverbul “quietly” este în relaţia „MANNER_OF” cu verbul „to whisper”. Relaţia „TEMPORAL_INCLUSION” a fost redenumită în „SUBEVENT” cu două direcţii: „HAS_SUBEVENT” şi „IS_SUBEVENT_OF”. Respectiv „to chew” „IS_SUBEVENT_OF” „to eat”, „to teach” „HAS_SUBEVENT” „to explain”. Perechea relaţiilor de cauză a fost numită „CAUSES” şi respectiv „IS_CAUSED_BY”.A fost întrodus un set de relaţii între substantive şi verbe ce redau legături între entităţi şi evenimente. Denumirile relaţiilor sunt bazate pe rolurile semantice: „ROLE_AGENT”, „ROLE_INSTRUMENT”, „ROLE_LOCATION”,

62

„ROLE_PATIENT”. Relaţii inverse între verbe şi substantive au prefixul „INVOLVED_”: „INVOLVED__AGENT”, „INVOLVED_INSTRUMENT”, „INVOLVED_LOCATION”, „INVOLVED_PATIENT”. Alt tip de relaţii care a fost adăugat este relaţia între substantive şi adjective „BE_IN_STATE” şi respectiv „STATE_OF” între adjective şi substantive.Relaţiile, comentariile şi exemplele sunt prezentate în tabelul 1 ce urmează.

Tabelul 1. Relaţiile între cuvinte în lexicoanele EuroWordNetDENUMIREA RELAȚIEI COMMENTARIU EXEMPLU

HAS_HYPERNYM Relațiile clasice între hyponym și

tree HAS_HYPERONYM plant

HAS_HYPONYM hypernym și invers. plant HAS_HYPONYM treeHAS_XPOS_HYPERNYM Relațiile de clasă-subclasă

între to run HAS_XPOS_HYPERNYM movement

HAS_XPOS_HYPONYM diferite părți de vorbire emotion HAS_XPOS_HYPONYM to love

NEAR_SYNONYM Relațiile între cuvinte cu sens similar

disappear NEAR_SYNONYM die

XPOS_NEAR_SYNONYM Relațiile între cuvinte cu sens similar

love XPOS_NEAR_SYNONYM to like

NEAR_ANTONYM Relațiile între cuvinte cu sens opus

dry NEAR_ANTONYM moist

XPOS_NEAR_ANTONYM Aceiaşi relaţie între diferite părți de vorbire

decease XPOS_NEAR_ANTONYM to live

HAS_HOLONYM Realţie clasică brunch HAS_HOLONYM treeHAS_HOLO_LOCATION Realţie între obiect şi loc în

care acesta se aflămushroom HAS_HOLO_LOCATION forest

HAS_HOLO_MADEOF Realţie între obiect şi substanţa din care acesta ste făcut

glass HAS_HOLO_MADEOF mirror

HAS_HOLO_MEMBER Realţie între obiect şi grup căruia acesta aparţine

forward HAS_HOLO_MEMBER team

HAS_HOLO_PART Realţie între părţile şi obiectul care conţine părţile date

hand HAS_HOLO_PART body

HAS_MERONYM Relaţia clasică opusă relaţiei de holonym

computer HAS_MERONYM processor

HAS_MERO_LOCATION Realţie între loc şi obiect ce acolo se află

town HAS_MERO_LOCATION street

HAS_MERO_MADEOF Realţie între obiect şi substanţa din care acesta este făcut

door HAS_MERO_MADEOF wood

HAS_MERO_MEMBER Realţie între grup şi obiect care face parte din acest grup

pack HAS_MERO_MEMBER wolf

HAS_MERO_PART Realţie între obiect şi părţile lui

house HAS_MERO_PART roof

63

INVOLVED Realaţia între obiect şi eveniment în care obiectul dat participă

construction INVOLVED crane

INVOLVED_AGENT Realaţia între obiect şi acţiune în care obiectul dat efectuiază acţiunea data

lecture INVOLVED_AGENT lecturer

INVOLVED_INSTRUMENT Realaţia între obiect şi acţiune în care obiectul dat este utilizat ca instrument

sew INVOLVED_INSTRUMENT needle

INVOLVED_LOCATION Realaţia între loc şi eveniment study INVOLVED_LOCATION school

INVOLVED_PATIENT Realaţia între obiect şi acţiunea ce se desfăşoară asupra obiectului dat

boil INVOLVED_PATIENT water

INVOLVED_RESULT Realaţia între obiect şi acţiune în care obiectul dat este rezultatul acţiunii

study INVOLVED_RESULT knowledge

ROLE Realaţia între eveniment şi obiect care participă în evenimentul dat

crane ROLE construction

ROLE_AGENT Realaţia între acţiune şi obiect în care obiectul dat efectuiază acţiunea data

doctor ROLE_AGENT treatment

ROLE_INSTRUMENT Realaţia între acţiune şi obiect în care obiectul dat este utilizat ca instrument

syringe ROLE_INSTRUMENT injection

ROLE_LOCATION Realaţia între eveniment şi loc hospital ROLE_LOCATION treatment

ROLE_PATIENT Realaţia între acţiune şi obiect cînd acţiunea se desfăşoară asupa obiectului dat

patient ROLE_PATIENT treatment

ROLE_RESULT Realaţia între acţiune şi obiect în care obiectul dat este rezultatul acţiunii

health ROLE_RESULT treatment

CAUSES Realaţia de cauză între evenimente

illness CAUSES pain

IS_CAUSED_BY Realaţia de cauză între evenimente

pain IS_CAUSED_BY illness

HAS_SUBEVENT Realaţia de includere între evenimente

treatment HAS_SUBEVENT injection

IS_SUBEVENT_OF Realaţia de includere între evenimente

to pay IS_SUBEVENT_OF to buy

IS_MANNER_OF Realaţia între acţiune şi maniera de a executa

fast IS_MANNER_OF to move

IN_MANNER Realaţia între acţiune şi maniera de a executa acţiunea dată

to run IN_MANNER fast

BE_IN_STATE Relaţia între obiect şi starea lui bachelor BE_IN_STATE unmarried

STATE_OF Relaţia între starea unui obiect şi obiectul dat

unmarried STATE_OF bachelor

64

Relaţii etichetate în EWN.

Relaţiile în EWN pot avea una sau mai multe etichete. Etichetele folosite în EWN sunt: conjunction/ disjunction factive/non-factive reversed negationEticheta disjunction la o relaţie arată că numai o relaţie de aşa tip este posibilă în cazul dat. Eticheta conjunction arată că sunt posibile mai multe relaţii de aşa tip. Spre exemplu,{door} HAS_HOLO_PART: disj1 {car}

HAS_HOLO_PART: disj2 {room} HAS_HOLO_PART: disj3 {entrance}

{dog} HAS_HYPERONYM: conj1 {mammal} HAS_HYPERONYM: conj2 {pet}

{dog}HAS_HYPONYM: dis1 {poodle}HAS_HYPONYM: dis1 {labrador}HAS_HYPONYM: {sheep dog} (Orthogonal)HAS_HYPONYM: {watch dog} (Orthogonal)

Notă: toate variantele propuse (poodle, labrador, dalmatin) sunt disjuctve (pentru un câine este posibilă numai una din variantele date), dar variantele (watch dog, sheep dog) pot fi adăugate paralel cu alte variante.Factive/Non-factive CAUSES (Lyons 1977). Relaţia de cauză are o etichetă factive dacă după acţiunea descrisă de primul verb neapărat urmează acţiunea descrisă de al doilea verb. Eticheta non-factive este pusă dacă acţiunea descrisă de al doilea verb nu neapărat urmează după acţiunea primului verb, deşi este foarte posibilă. Spre exemplu,factive (default): “to kill causes to die”:

{kill} CAUSES {die}non-factive: “to search may cause to find”.

{search}CAUSES {find} non-factiveReversed. Oricare relaţie în baza de date are relaţia opusă. Spre exemplu, hyperonym-hyponym, meronym-holonym şi altele.{finger} HAS_HOLONYM {hand}{hand} HAS_MERONYM {finger} {paper-clip} HAS_MER_MADE_OF {metal} {metal} HAS_HOL_MADE_OF {paper-clip} reversed

65

Negation. Uneori apare o necesitate de a arăta o relaţie cu negaţie. Spre exemplu,

{monkey} HAS_MERO_PART {tail}{ape} HAS_MERO_PART {tail} not

Subevents in EuroWordNet. În EWN relaţia între verbe entailment este folosită numai în cazurile când nu este posibil de folosit relaţia mai specifică. Spre exemplu, snore implies sleep, buy implies pay. În cazul dat nu există relaţia în direcţia opusă. Alte relaţii au relaţia opusă. Spre exemplu, {to succeed} IS_CAUSED_BY {to try} factive {to try} CAUSES {to succeed} non-factiveIncluderea evenimentelor este prezentată prin relaţia HAS_SUBEVENT/ IS_SUBEVENT_OF. Spre exemplu,

{to snore} IS_SUBEVENT_OF {to sleep}{to sleep} HAS_SUBEVENT {to snore}reversed{to buy}HAS_SUBEVENT {to pay}{to pay}IS_SUBEVENT_OF {to buy}reversed

Relaţia SUBEVENT este foarte folositoare în multe cazuri. Alt tip de relaţie folosită în EWN este relaţia de CAUSE între diferite părţi de vorbire. Spre exemplu,

{to kill} V CAUSES {death} N{death} N IS_CAUSED_BY {to kill} V reversed{to kill } V CAUSES {dead} A{dead} A IS_CAUSED_BY {to kill} V reversed{murder} N CAUSES {death} N{death} A IS_CAUSED_BY {murder}N reversed

Relaţia CAUSE se aplică la verbele care descriu evenimentele coexistente în timp (to feed/to eat), care se suprapun în timp (to teach/to learn) şi care nu se suprăpun în timp (to shoot/to hit).Role relations. În cazul relaţiilor între verbe şi substantive cea mai potrivită relaţie este relaţia de rol care uneşte evenimentul şi participanţii lui. Spre exemplu, {hammer} ROLE_INSTRUMENT {to hammer}{to hammer} INVOLVED_INSTRUMENT {hammer} reversed{school} ROLE_LOCATION {to teach}{to teach} INVOLVED_LOCATION {school} reversedÎn unele cazuri este nevoie de specificat termenii. Atunci este potrivită relaţia Co_Role:guitar player HAS_HYPERONYM player

CO_AGENT_INSTRUMENT guitarplayer HAS_HYPERONYM person

ROLE_AGENT to play musicCO_AGENT_INSTRUMENT musical instrument

66

to play music HAS_HYPERONYM to makeROLE_INSTRUMENT musical instrument

guitar HAS_HYPERONYM musical instrumentCO_INSTRUMENT_AGENT guitar player

ice saw HAS_HYPERONYM sawCO_INSTRUMENT_PATIENT ice

saw HAS_HYPERONYM sawROLE_INSTRUMENT to saw

ice CO_PATIENT_INSTRUMENT ice saw REVERSEDÎn EWN sunt codificate şi alte tipuri de relaţii. Spre exemplu,criminal CO_AGENT_PATIENT victimnovel writer/ poet CO_AGENT_RESULT novel/ poemdough CO_PATIENT_RESULT pastry/ breadphotograpic camera CO_INSTRUMENT_RESULT photoBE_IN_STATE / STATE_OF. Example: the poor are the ones to whom the state poor appliesEffect: poor N HAS_HYPERONYM person N

poor N BE_IN_STATE poor Apoor A STATE_OF poor N reversed

IN_MANNER / MANNER_OF. Example: to slurp is to eat in a noisely mannerEffect: slurp V HAS_HYPERONYM eat V

slurp V IN_MANNER noisely Advnoisely Adv MANNER_OF slurp V reversed

NEAR_SYNONYMY apparatus – machineÎn urmare sunt prezentate încă cîteva exemple de relaţii.Cross-Part-of-Speech relations:XPOS_NEAR_SYNONYMY dead - death; to adorn - adornmentXPOS_HYPERONYMY/HYPONYMY to love - emotionXPOS_ANTONYMY to live - deadCAUSE die - deathSUBEVENT buy - pay; sleep - snoreROLE/INVOLVED write - pencil; hammer - hammerSTATE the poor - poorMANNER to slurp - noisily BELONG_TO_CLASS Rome - city

Relaţii între limbi

În afară de lexicoanele pentru fiecare limbă aparte în EWN este prevăzută şi o structură specială pentru unirea lexicoanelor după sens. Structura aceasta se numeşte InterLingual Index (ILI) şi este bazată pe WordNet1.5. Seturile de

67

sinonime în diferite limbi care descriu acelaşi concept sunt unite la setul care descrie acelaşi concept în ILI. Pe lângă ILI a fost creată o ontologie globală independentă de limbile-participante. În figura ce urmează sunt prezentate legăturile între lexicon pentru o limbă (italiană), ILI şi ontologia de vârf. Din figura dată se observă că lexiconul nu se uneşte cu ontologia direct, ci numai prin ILI.

De fapt, interconectarea limbilor prezintă un process destul de complicat. Uneori pentru un concept într-o limbă nu se găseşte unul corespunzător în alta sau conceptul dat este prezentat mai detaliat. Din cauza aceasta unirea între conceptele din diferite limbi nu poate fi efectuată numai printr-o relaţie de egalitate a sensurilor care este numită “EQ_SYNONYM”. În procesul unirii lexicoanelor cu ILI au fost folosite următoarele tipuri de relaţii:

• EQ_SYNONYM: relaţie directă între synset în lexicon şi ILI-synset;• EQ_NEAR_SYNONYM: synset în lexicon poate fi unit la mai multe

ILI-synset-uri; • HAS_EQ_HYPERONYM: synset în lexicon este mai specific decât

oricare ILI-synset;• HAS_EQ_HYPONYM: synset în lexicon poate fi unit numai la ILI-

synset mai specific;Spre exemplu, în figura care urmează sunt prezentate exemplele de relaţii has_hyponym şi has_hyperonym între cuvinte limbilor diferite în cazuri cuvintelor toy, finger – deget, şi hoof, kop – head(cap).

În EWN pentru limbile participante au fost folosite unele lexicoane semantice deja create. Din cauza aceasta apăreau o mulţime de probleme din punctul de vedere al alinierii structurilor diferite a lexicoanelor date la ontologia unică. Ontologia şi ILI au fost propuse cercetătorilor din alte ţări pentru crearea lexicoanelor semantice după modelul dat. Pentru limbile, care până când nu au astfel de surse este propus de creat un lexicon semantic având la dispoziţie

68

ontologia şi conceptele unificate pentru mai multe limbi. Astfel, dacă iniţial limbile au fost unite ‘de jos în sus’ la o ontologie unică, pentru alte limbi metoda de construire a WordNet-ului cea mai potrivită este ‘de sus în jos’. Un exemplu de astfel de creare este crearea WordNet-ului român în cadrul proiectului Balkanet.

WordNet-uri pentru alte limbi

Creatorii lui EuroWordNet cosideră că adăugarea limbilor noi la ontologia de bază şi ILI va ajuta la optimizarea utilizării surselor Internet prezentate în diferite limbi. În scopul acesta a fost creată Asociaţia globală WordNet. Desfăşurarea iniţiativelor de creare a WordNet-urior pentru alte limbi este prezentată în urmare: Princeton WordNet (1980 - ongoing) EuroWordNet (1996 - 1999) Global WordNet Association (2001 - ongoing)

Other wordnets: BalkaNet (2001 - 2004) IndoWordnet (2002 - ongoing) Meaning (2002 - 2005)

Un număr de lexicoane semantice ataşate la ILI a fost creat în cadrul proiectului BalkaNet

69

{ toe : part of foot }

{ finger : part of hand }

{ dedo

, dito

: finger or toe } { head : part of body } { hoof

d: human head }

{ kop : animal head }

toe finger head

dito

dedo

hoofd kop

GB-Net

NL-Net

IT-Net

ES-Net

= normal equivalence

= eq

_has_hyponym

= eq

_has_hyperonym

( http://www.ceid.upatras.gr/Balkanet/ ) care avea drept scop crearea lexicoanelor semantice pentru limbile balcanice şi ataşarea lor la ILI global. În cadrul proiectului dat a fost creat şi WordNet pentru limba româna. Proiectul s-a terminat în august 2004. Pe site sunt prezentate articole despre crearea lexicoanelor corespunzătoare. O scurtă descriere a procesului de creare a WordNet-ului român este prezentată în articolul Academiei de ştiinţe a României. Iniţial au fost analizate şi definite în limba corespunzătoare conceptele de bază din ontologia de vârf a EuroWordNet-ului. Apoi au fost descrise cele mai frecvente concepte din EWN şi conceptele propuse de participanţii proiectului care din diferite motive nu au fost prezentate în EWN dar sunt considerate importante pentru limbile corespunzătoare.Lexicografii au hotărât că traducerea simplă WordNet-ului englez nu o să rezulte într-un WordNet român potrivit şi au propus un model concentrat în primul rând în limbă. Ca sursă pentru crearea WordNet-ului român au fost folosite EXPD (Dicţionarul explicativ român), dicţionarul de sinonime şi dicţionarul român-englez. Unităţile dicţionarului au fost codificate folosind XML cum este prezentat în urmare: <entry>

<word>abandonat</WORD><pos>adjectiv</pos><def>1. Care a fost părăsit.</def><def>2. <usg>Despre copii nou-n săcuţi</usg>

Lepădat. </def><etym>Vezi abandona</etym>

</entry>Dicţionarul român-englez a fost extras automat din textele paralele şi verificat manual. Unităţile dicţionarului român-englez, pre cum şi ale dicţionarului de sinonime au fost codificate folosind XML pentru folosirea mai eficientă. Următoarea etapă a fost stabilirea setului celor mai frecvente cuvinte româneşti. A fost analizat un corpus de texte române şi au foste extrase cele mai frecvente substantive, verbe, ajective şi adverbe.Apoi două echipe de lingvişti asistaţi de informaticieni au lucrat asupra descrierii cuvintelor selectate. Pentru fiecare sens prezentat în WordNet-ul englez s-a căutat un set de sinonime potrivit în româna. În afară de relaţiile dintre româna şi engleză au fost codificate relaţiile în lexiconul roman: hipernimia-hiponimia, antonimia, similaritatea, meronimia-holonimia, subeveniment, cauza şi altele.Pentru lucrul acesta au fost create câteva programe cu interfaţa comodă pentru lexicografi şi abilitatea de a analiza unităţile dicţionarelor XML codificate. Un program a verificat lucrul întreg al echipei de lexicografi şi în cazul ambiguităţii specialiştii analizau cauza şi ajungeau la o concluzie comună.Unul din instrumentele create şi utilizate intens este interfaţa de editare a seriilor sinonimice VisDic prezentată în figura ce urmează.

70

http://www.ceid.upatras.gr/Balkanet/

Statistica WordNet-ului român În mai 2004 a fost următoarea: Substantive(Noun synsets) – 10725, verbe(Verb synsets) – 4164, adjective(Adj.synsets) – 844, adverbe(Adv. synsets) – 833,total - 16566Relaţii:hypernym - 14867, category_domain – 579, near_antonym – 1576, also_see – 394, holo_part – 1005, subevent – 169, similar_to – 896, holo_portion – 107, verb_group – 980, causes – 122, holo_member – 779, be_in_state – 546.

După încheierea proiectului în 2004 lucrul asupra lexiconului român a fost continuat la Institutul de Cercetări pentru Inteligenţă Artificială, Academia Română. Principala strategie de dezvoltare a wordnet-ului românesc constă în implementarea în limba română a seriilor sinonimice din wordnet-ul englezesc. În afară de aceasta au fost adăugate conceptele asignate indexului interlingual specific ţărilor balcanice (Balkanet Interlingual Index – BILI). Aceste concepte nu au echivalent în wordnet-ul englezesc,dar sunt integrate în ontologia acestuia. Statistica pentru anul 2006 este prezentată în continuare: 33421 serii sinonimice (1289 nelexicalizate) 53160 literali• 24640 substantive (31246 literali unici)• 7096 verbe 163 domenii

71

• 851 adjective• 834 adverbeRelaţii semantice:• hypernym 32041 • holo_part 2096• holo_member 1029 • holo_portion 199• category_domain 1861 • also_see 508

• similar_to 899Relaţii lexicale:• near_antonym 1976 • be_in_state 566• verb_group 1196 • causes 148• subevent 264

Astfel, lucrul asupra crearea lexicoanelor semantice continua. Rezultatul este expus pe situl http://multiwordnet.fbk.eu/english/home.php şi poate fi navigat pentru limba română inclusiv.

72

CUPRINS

CYC ................................................................................................Mikrokosmos ................................................................................12FrameNet ......................................................................................19WordNet ........................................................................................32Simple ...........................................................................................47EuroWordNet ................................................................................61

73

BIBLIOGRAFIE

http://en.wikipedia.org/wiki/Cychttp://www.cyc.com/technology/whatiscychttp://www.opencyc.orghttp://ilit.umbc.edu/SergeiPub/SemantAnalysis.pdfhttp://acl.ldc.upenn.edu/W/W98/W98-0713.pdfhttps://framenet.icsi.berkeley.edu/http://en.wikipedia.org/wiki/FrameNethttp://www.cse.unt.edu/~rada/papers/shi.cicling05.pdfhttp://wordnet.princeton.edu/http://wordnetweb.princeton.edu/perl/webwnhttp://en.wikipedia.org/wiki/WordNethttp://www.speech.kth.se/prod/publications/files/3383.pdfhttp://ijl.oxfordjournals.org/content/13/4/249.full.pdfhttp://acl.ldc.upenn.edu/P/P07/P07-2041.pdfhttp://www.ldc.upenn.edu/acl/J/J99/J99-4008.pdfhttp://www.dcs.shef.ac.uk/~wim/AclEacl97.pdf

74

· Web view ... CYC

Documents

Transcript of · Web view ... CYC