LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen,...

26
Polona Gantar ZRC SAZU Inštitut za slovenski jezik Frana Ramovša LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU V prispevku predstavimo izdelavo leksikalne podatkovne baze za slovenščino, ki poteka v okviru projekta Sporazumevanje v slovenskem jeziku. Pojem najprej osvetlimo s teoretičnega vidika in ga umestimo v kontekst konkretnih rezultatov po posameznih evropskih jezikih. Dvojni namen leksikalne podatkovne baze za slovenščino, tj. za slovarske aplikacije in računalniško obdelavo naravnega jezika, določa opis leksikalnih enot s treh temeljnih vidikov: pomenskega, skladenjskega in kolokacijskega. Na podlagi teh izhodišč predstavimo zgradbo leksikalne baze po vsebinskih nivojih in pojasnimo teoretične razmisleke o vsebinskih rešitvah. Na koncu na kratko predstavimo orodje za izdelavo leksikalno-gramatičnega profila besed Word Sketch in opišemo programski vmesnik za izdelavo leksikalne baze. Ključne besede: leksikalna podatkovna baza, leksikalno-gramatični pristop, leksikografija, leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza Na splošno je pojem baze mogoče razumeti kot osnovo, temelj, iz katerega in na katerem se gradijo veliko večje stvari, kot je baza sama: bolj ko je baza trdna, stabilna, bolj zanesljive so stvari, ki na njej nastajajo. Hkrati je baza zbir vsega pomembnega, osnovnega oziroma organizacija teh stvari na enem mestu. Splošnima vidikoma je potrebno dodati še jezikoslovni pogled, po katerem je leksikalna podatkovna baza (LPB) organiziran opis besedišča določenega jezika Jezik in slovstvo, let. 54 (2009), št. 3–4 UDK 811.163.6’322.2:81’374

Transcript of LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen,...

Page 1: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Polona Gantar ZRC SAZUInštitut za slovenski jezik Frana Ramovša

LEKSIKALNABAZA:VSE,KARSTEVEDNOŽELELIVEDETIOJEZIKU

Vprispevkupredstavimoizdelavoleksikalnepodatkovnebazezaslovenščino,kipotekavokviruprojektaSporazumevanje v slovenskem jeziku.Pojemnajprejosvetlimosteoretičnegavidikaingaumestimovkontekstkonkretnihrezultatovpoposameznihevropskihjezikih.Dvojninamenleksikalnepodatkovnebazezaslovenščino,tj.zaslovarskeaplikacijeinračunalniškoobdelavonaravnegajezika,določaopisleksikalnihenotstrehtemeljnihvidikov:pomenskega,skladenjskegainkolokacijskega.Napodlagitehizhodiščpredstavimozgradboleksikalnebazepovsebinskihnivojihinpojasnimoteoretičnerazmislekeo vsebinskih rešitvah.Na koncu na kratko predstavimo orodje za izdelavo leksikalno-gramatičnegaprofilabesedWord Sketchinopišemoprogramskivmesnikzaizdelavoleksikalnebaze.

Ključne besede: leksikalna podatkovna baza, leksikalno-gramatični pristop, leksikografija,leksikologija,besednipomen,računalniškaobdelavanaravnegajezika

1 Uvod

1.1 Kaj je leksikalna podatkovna baza

Nasplošnojepojembazemogočerazumetikotosnovo,temelj,izkateregainnakateremsegradijovelikovečje stvari,kot jebaza sama:boljko jebaza trdna,stabilna,boljzanesljivesostvari,kinanjejnastajajo.Hkrati jebazazbirvsegapomembnega,osnovnegaoziromaorganizacijatehstvarinaenemmestu.

Splošnima vidikoma je potrebno dodati še jezikoslovni pogled, po katerem jeleksikalnapodatkovnabaza(LPB)organiziranopisbesediščadoločenegajezika

Jezikinslovstvo,let.54(2009),št.3–4

UDK811.163.6’322.2:81’374

Page 2: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

70 Polona Gantar

v elektronski obliki1 ali na kratko: zbirka podatkov o besedah.2 Pri tem se spojmombesediščemislitakonazbirleksikalnihenot(LE;leksemov)konkretnegajezika,kottudinavsetistovédenje,kigaobsegabesediščematernegagovorca,da se lahkosporazumevav svojem jeziku.Nekolikoboljpraktičenpogled,kotga zastopa Patrick Hanks,3 opredeljuje LPB kot skup (korpusnih) dejstev, kipredstavljajovsakobesedovjeziku,pričemerjepoudareknasintagmatikioziromakolokabilnosti pa tudi namorfologiji in pomenu.TakaLPBvelja kot primarnivirzaštevilneaplikacije,zlastizaizdelavo(elektronskihalispletnih)4slovarjev,jezikovnihučbenikov,popravljanjenapakinučenjejezika,računalniškoobdelavonaravnegajezika(RONJ)inkodifikacijobesednihpomenov.

LPBimajo–obskupnemteoretičnemimenovalcu–vpraksivečrazličicgledenanamenizrabe.To,karjimjeskupnega,lahkostrnemovnaslednjetočke:

– predstavljajoinventarvseh vjezikuznanihLE,5jihpomenskorazčlenjuje-joinpomenepojasnjujejozzgledirabe;

– zlastit.i.ontološkeLPB,kisoprimarnonamenjeneRONJ,vzpostavljajopomenskepovezavemedLE,kotso:so-,nad-inpodpomenskost;

– predvidevajokategorizacijoLE(zlastislovnično,gledenapodročjerabe,besedilnevrsteipd.);

– predvidevajofonološke,morfološkeinskladenjskeinformacije;– upoštevajodejstvo,damaternigovorciuporabljajoslovarje(kotrezultate

LPB)zapreverjanje/konzultiranjegledeustreznerabeinizbirebesed.6– navadno vsebujejo več informacij, kot jih dejansko vključujejo iz njih

izhajajočiprodukti.

BistvojezikovnegaopisavLPB,kitemeljijonasodobnihleksikalnogramatičnihpristopihinkorpusnihpodatkih, jevtem,dapomenskiopisLEnistrogoločenod skladenjskega opisa oziroma povedano drugače: pomenske lastnosti LEsoneposrednopovezane s slovničnimivzorci, vkaterih sepojavljajo.Konceptbesedišča, kjer slovničnapravilaniso ločenaodLE, zahteva torej kombinacijoinintegracijofonoloških,morfoloških,kolokacijskih,skladenjskih,pomenskihinpragmatičnihinformacijnarazličnenačine.

1 GlossaryOfLinguisticTerms:<http://www.sil.org/linguistics/GlossaryOfLinguisticTerms/Index.html>.2<http://www.thefreedictionary.com/lexical+database>.3 PatrickHanks:Compiling aMonolingualDictionary forNativeSpeakers. Predavanje na posvetuSlovarji, več kot le besede.ČlanekjevslovenskemprevoduobjavljenvpričujočištevilkiJezika in slovstva.4 Ze-slovarjimislimpredvsemnaslovarje,izdanenaCD-jih,medtemkosospletnislovarjidostopniprekinterneta.5ObsegLPBjetesnopovezanznjenoizrabo,številomsodelavcev,časomizdelave,finančnimisredstviindejstvom,dalahkoLPBzajamesamopresekbesediščadoločenegajezikavkonkretnemčasu,sajsebesediščepodvplivomjezikovneindružbene(politične,kulturne,gospodarskeitd.)situacijenenehnospreminja.6 Tega segmenta se LPB v praksi lotevajo na različne načine, med katerimi prevladujeta opis(deskripcija),kjerjevključevanjetipičnihsegmentovbesedilainzgledovdejanskerabeosnovninačinpodajanja informacij tega tipa, in predpis (preskripcija), ki temelji na stilističnih in jezikoslovnihinterpretacijahjezikovnedanostivsmislujezikovnepravilnostiinnepravilnosti.

Page 3: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 71

1.2 Leksikalne podatkovne baze v evropskem okviru

Pojemleksikalnebazejevevropskemkontekstuznanževsajdvajsetlet,dejavnostiv zvezi s tempa so se začele z evropskimi jezikovnotehnološkimiprojekti, kotstanpr.Genelex I7 in Genelex II(GENEric LEXicon,1990–1994).8Odtodjebilnačinstrukturiranja informacijpoposameznihravninah(morfološki, skladenjskiin semantični) prenesenv druge evropskeprojekte, zlasti PAROLE inSIMPLE(izdelavakorpusovinleksikonovza12jezikovEU)terviznjihizvirajočenasledkepoposameznihjezikih.9

LPB,kisonastalevokviruevropskihprojektovzaposameznejezike,sonamenjenepredvsemRONJterizdelavispletnihslovarjevinpripomočkovzaučenjejezika.Nadrugistranispecifičnostanje,vkateremsejeznašlaslovenščinazzastarelimi,pomanjkljivimi ali neobstoječimi učbeniki in jezikovnimi priročniki, zahtevausmeritev aktivnosti v izdelavoLPB, s katero bomogoče v čim krajšem časupritidokonkretnihzajezikovnoskupnostnajboljstrateškopomembnihspletnihaplikacijinjezikovnihpriročnikov,kotsoslovarsodobnegaslovenskegajezika,dvojezični slovarji, posamezna poglavja slovnice, specializirani slovarji, npr.šolski,frazeološki,kolokacijski,zaučenjeslovenščinekottujegajezikaipd.Pritemjetakosfinančnegavidikakotzvidikasledenjasodobnemustanjunapodročjuposredovanjajezikovnihpodatkovjezikovnimuporabnikompomembnodejstvo,dasoleksikalnipodatkistrukturiranivelektronskiobliki,karomogočanenehnodopolnjevanje,10nadgradnjoinvečkratnoizrabo.11

2 Leksikalna podatkovna baza za slovenščino

2.1 Obseg in namen

Oblikovanjeleksikalnepodatkovnebazezaslovenščino(LBS)vokviruprojektaSporazumevanje v slovenskem jeziku(SSJ)12sledidvematemeljnimaciljema:

7 Teorijo generičnega leksikona je konec osemdesetih let razvil James Pustejovsky s sodelavci(Pustejovsky 1995), njen namen pa je ponuditi potrebno infrastrukturo za v celoti generativno (tj.računalniškoobvladljivo),podrobnorazčlenjenoinleksikalnoorientiranosemantičnoteorijojezika.8PodrobnejeotemvčlankihSimonaKrekainŠpeleArharvpričujočištevilkiJezika in slovstva.9Pri projektu Sporazumevanje v slovenskem jeziku smo za namene izdelave LBS pregledali vrstosorodnihprojektov,insicer:elexicozanemščino,CLIPSzaitalijanščino,CORNETTOzanizozemščino,DAFLESinALFALEXzafrancoščino,STOzadanščino,ADESSEinGRIALzašpanščino,CEGLEXzapoljščino,SPRÅKBANKENzašvedščino,PRALEDzačeščinoitd.10Sodobnileksikografijise,zahvaljujočspletnimaplikacijam,katerihpodlagasoelektronskeleksikalnepodatkovne baze, ni treba več ukvarjati z zastarelostjo leksikalnih podatkov, ki lahko dosežejouporabnika tudi več kot deset let kasneje, kot so bili dejansko ustvarjeni, saj omogočajo sprotnoobjavljanjeoziromadopolnjevanje,kisledirealnemujezikovnemustanju.11Pritemjepomembnopoudariti,dasovsi»produkti«,kibodonastalivprojektuSSJ,javnostidostopnipod licenco Creative Commons, kar omogoča dostop do jezikovnih informacij celotni jezikovniskupnostinabrezplačenintransparentennačin.12ProjektdelnofinanciraEvropskaunijaizEvropskegasocialnegaskladaterMinistrstvozašolstvoin šport.Vse o projektu jemogoče najti na spletni strani: <http://www.slovenscina.eu/Vsebine/Sl/Domov/Domov.aspx>.

Page 4: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

72 Polona Gantar

– zadostiti leksikografskim potrebam, konkretno izdelavi za slovenščinonajpomembnejših eno- in dvojezičnih slovarjev in specializiranihjezikovnihpriročnikov13 ter

– zadostiti potrebam RONJ oziroma uporabi v jezikovnotehnološkihaplikacijahzaslovenščino.

Na podlagi teh izhodišč boLBS vsebovala podatke o frekvenčnih, slovničnih,pomenskih, skladenjskih, kolokacijskih, frazeoloških in drugih lastnostihpredmetnopomenskih LE jedrnega besedišča sodobne slovenščine, ne bo pavsebovala slovničnih (veznik in predlog) ter funkcijskih (členek in medmet)besednihvrst.OmenjenebesednevrstesovključenevLBSnaskladenjskeminkolokacijskem nivoju, zato bomogoče pridobiti tudi informacije o pomenskihin skladenjskih lastnostihpredlogov inveznikov ter njihovovlogovustaljenihtipičnih segmentih jezika. LBS tudi ne bo vsebovala pomenskih definicij, kerjeodločitevza tipdefinicijeodvisnaodnamena,obsega inciljnegauporabnikavsakegakonkretnegaslovarja.PomenskačlenitevLEboprikazanaspomenskimiindikatorjiinpomenskimishemami,kijihnavajamopriglagolskih(poskusnotudipri samostalniških in pridevniških) iztočnicah. Pomenske sheme predstavljajoizhodišče za oblikovanje razlag komunikacijskega tipa (Sinclair in Coulthard1975),realiziranihpredvsemvCollinsCobuildovihEFL-slovarjih.14

DvojnanaravaLBS,kijepovezanaznamenomnjeneizrabevleksikografskeinjezikovnotehnološkenamene,določazgradbocelotneLBSpovsebinskihnivojih.Posamezninivojisodoločenizxml-zapisomDTD-ja(Document Type Definition)15 invključenivprogramskivmesnikDPS(Dictionary Production System).

2.2 Organizacija leksikalnih podatkov po nivojih

Vsako LE (iztočnico/lemo) analiziramo s treh osnovnih vidikov: pomenskega,skladenjskegainkolokacijskega.NaposameznemnivojujezavsakoLEoziromanjen pomen predvidenih šest različnih vrst jezikovnih podatkov (gl. Tabelo 1). Na pomenskem nivoju pripišemo LE pomen(e) oziroma podpomen(e), kijih opredelimo s pomenskimi indikatorji. Drugi del pomenske informacijepredstavlja pomenska shema, ki se teoretično približuje pomenskim okvirjem,kot jih predvideva FrameNet.16 Skladenjski nivo je namenjen formaliziranjuskladenjskih struktur, v katerih se realizira posamezni pomen ali podpomenobravnavane LE, in je primarno namenjen računalniškemu branju jezikovnihpodatkov.Leksikografskoverzijoskladenjskihstrukturzapisujemosslovničnimivzorci.Vposebnemrazdelkuskladenjskeganivojabeležimoskladenjskezveze,

13Ponovno je trebapoudariti,dasovprvivrstimišljeneelektronskeverzije in interaktivnespletneaplikacije,kisozasodobnegauporabnikavelikoboljpraktične.Tiskaneverzijesodrugotnamožnost,kisogledenahranjenjepodatkovvelektronskioblikineproblematične.14EFL/ESLslovarji(English as Foreign/Second Language)sonamenjeniučenjuangleščinekottujega/drugegajezika.15DTDjeelektronskoberljivzapiszgradbegeslavLBS.16<http://framenet.icsi.berkeley.edu/>.

Page 5: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 73

kipredstavljajobodisikolokacijskorazširjenesegmentejezikabodisistrukturnoomejenezveze,kipredstavljajotipičnedelčkejezika,vendarnisoleksikaliziranedo temere, da bi potrebovale samostojno razlago. Četrti nivo je kolokacijski.Tu navajamo tipične kolokacije, v katere vstopajo obravnavane LE glede nazabeležene pomene in skladenjske strukture. Frazeološke enote (FE), v katerihnastopaobravnavanaLE,navajamovsamostojnemrazdelku.VsakiFEpripišemopomen(e)voblikipomenskegaindikatorja,hkratievidentiramonjenoosnovnoinrealizacijskeobliketernavedemokorpusnezglede.

NIVO PODATKI PRIMER

I. Leksikalna enota iztočnica stisniti besednavrstaglagol

II. Pomenski nivo pomenskiindikator (1)oprijeti z dlanjo pomenskashema ČLOVEKstisnePREDMETzdlanjo

III. Skladenjski nivo skladenjska sbz1GBZsbz4(zasbz4) (mega)struktura slovničnivzorec(1) kdostisnekaj slovničnivzorec(2) kdostisnekogazakaj

IV. Kolokacijski nivo (1) stisniti[roko,vrat] (2) stisnitiza[ramena,vrat]

V. Zgled zgled (1) Ko je uro pozneje Michaels z landroverjem vozil nazaj h koči, je ob menjalniku otipal ženino roko in jo močno stisnil.

zgled(2) Stisnil jo je za vrat in jo začel daviti ter jo skušal posiliti, vendar mu zaradi motenj s potenco to ni uspelo.

VI. Frazeologija frazeološkaenota stisneprisrcukoga pomenskiindikator občutek tesnobe; skrb zgled Doma so bila vrata odklenjena. Stisnilo me je prisrcu.

Tabela 1: Razporeditev podatkov v LBS po vsebinskih nivojih (primer glagola stisniti).

2.3 Vsebinski premisleki in teoretična podlaga

LBSpredstavljaskladiščepodatkovoLE,njihovavsebinapaizhajaizprepričanjao neločljivi povezanosti pomenskih in skladenjskih lastnosti besed. Hkratisledi LBS zadovoljevanju potreb jezikovne skupnosti in njenega življenjskorelevantnegainteresanapodročjujezika.ZadnjedoločavsebinoLBSvtem,da

Page 6: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

74 Polona Gantar

moravsebovati spekterpodatkov,ki bodovnajširšemsmisluvečkratuporabniv jezikovnopriročniških in računalniških aplikacijah različnih vrst. Zato jepomembnonaenistraniupoštevatisodobnostanje(vteorijiinpraksi)napodročjuleksikologije, leksikografije in jezikovnih tehnologij,nadrugi stranipa izhajatiiz obstoječega stanja in potreb glede slovarskopriročniške infrastrukture zaslovenščino.Vnadaljevanjupojasnimonekajtemeljnihteoretičnihpremislekov,kismojihupoštevaliprisnovanjuLBS,inpredstavimomodele,kisonamslužiliprioblikovanjuvsebinepodatkov,vključenihvLBS.

2.3.1 Pomen ali pomenske tendence?

Poudarili smo, da je primarni namen izrabe LBS izdelava slovarjev invečpredstavnih jezikovnih priročnikov.To, s čimer se slovarji ukvarjajo, pa jepojasnjevanje besed v njihovih različnih pomenih. Ob tem ne moremo mimonadanašnjistopnji leksikografske teorije inpraksežeuveljavljenegaspoznanja(prim.Kilgarriff2006a:29;AtkinsinRundell2008:264),danamrečnijasno,kajbesednipomenidejanskosoincelo,čekajtakega,kotjebesednipomen,vresnicisplohobstaja.17Bistvo tenaprvipogledkontroverzneugotovitve je, davečinapomenskeinformacijekonkretneLEizhajaiznjenegabodisineposrednegabodisiširšega besedilnega okolja. Logična posledica tega je, da vsega, kar se nahajavsakokratv sobesediluvsakekonkretneLE,nimogočezajetivnjenpomenskiopis,kotgaomogočaslovar,indastazatopostopekpomenskegadekodiranjavvsakdanjijezikovnikomunikacijiinpostopekrazdvoumljanjapomenovvslovarjihmed seboj neprimerljiva (Atkins in Rundell 2008: 263). Osnovno izhodišče,kigaupoštevamo tudipripomenskemčlenjenjuLEvLBS torej je,daobstajabistvenarazlikamedslovarskimipomeni(tj.oštevilčenimipomeni,nakateresonavadnorazdeljeneiztočnicevslovarjih)18inpomeni,kotjihdojemajo(slovarski)uporabnikivvsakdanjikomunikaciji.

Vendarpa,takokotjenaenistranijasno,daneobstajasplošnosprejetinnajboljšinačinpomenskegačlenjenjavečpomenskihLE,obstajanadrugistranituditežnja,dasepriorganizacijileksikalnihpodatkovuporabljajoenotniprincipipomenskegačlenjenja,sčimerseustvarjapotrebnanotranjakonsistenca.KotpravitaAtkinsovainRundell(2008:275), jenajveč,karlahkoleksikografdosežepripomenskemčlenjenjuLE, to,dauporabnikpripregledovanjuvečpomenskeslovarskeenote

17ČecitiramovanderMeera(2006:604):»Kljubstoletjempraktičnegaukvarjanjazleksikografijo,še vedno ne obstaja oprijemljiv konsenz glede delitve semantičnega prostora leksikalne enote« innenazadnjetudislovenskegajezikoslovcainleksikografaBožaVoduška,kiževšestdesetihletih20.stoletja na podlagi takratne evropske leksikografske teorije in prakse ugotavlja, da »/u/gotavljanjeinurejevanjebesednihpomenovveljanasplošnolezanekakšnoprakso,nekakšnozgoljempiričnodelavnost,zakaterosenedajopostavljatinobenasistematičnapravila/…/«(Vodušek1961:5.)18Vslovenskemleksikalnempomenoslovju(VidovičMuha2000:29indalje)jenatančnejeopredeljenpredvsemslovarski ali slovničnipomen,»kijedoločenskategorialnimipomenskimisestavinami,kotsospol,vididr.«invključujeobveznidenotativniinneobveznikonotativnipomen.

Page 7: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 75

nimaobčutka,dagrezanesmiselninnerazumennačinpredstavljanjadejstev.PravtojetudienoodosnovnihvodilpripomenskemčlenjenjubesediščavLBS.

Da podatkovna baza ni že sam slovar, ampak strukturiran zbir podatkov, ki seoblikujejo v analitičnem procesu iz surovega jezikovnega materiala, potrjujedejstvo, da posamezni slovarji različno členijo besede na pomene. V kakopodrobno pomensko členitev se bo spustil posamezni slovar, je odvisno odnjegoveganamena,obsega,ciljnegauporabnika,specializiranostiitd.Enaizmedpomembnihlastnosti,kijoizpostavljasodobnaleksikografskaliteraturavzvezistempaje,dajevfazioblikovanjapodatkovnebazesmiselnopomenerazdelitičimboljpodrobno(AtkinsinRundell2008:268),česarsedržimotudiprioblikovanjuLBS.Spodrobnorazdeljenimipomenivpodatkovnibazijenamrečleksikografomnavoljocelotenspektermožnosti,izkaterihlahkoizpeljejovečrazličnihslovarjev.Hkratiupoštevamotudi»nasprotno«vodilo:razbijanjepomenovmorasleditišeobvladljivimindovoljhomogenimenotam,čemurdenimoČermák(2008)19pravi»zadostnaanalogija«.

2.3.1.1 Slovarski vzori

Dabidosegliustreznostopnjokonsistentnosti,smosepripomenskemčlenjenjuLEinprioblikovanjupomenskihindikatorjevnaslonilinateoretskainpraktičnaleksikografskaspoznanja,kisose izoblikovalavzveziznaslednjimislovarji:20 New Oxford Dictionary of English (NODE 1998), Longman Dictionary of Contemporary English (LDOCE 2003) in Macmillan English Dictionary for Advanced Learners (MEDAL 20072).Vsi trije so enojezični angleški slovarji,ki seosredotočajonastandardnoangleščino terna to,kar jev jezikuosrednje,pričemerjeNODEnamenjenangleškimgovorcem(poobseguvečji),ostaladvaslovarjapastanamenjenatujimgovorcemzaučenjeangleščineinstapoobsegurelativnoprimerljiva(100.000gesel).Privsakemodslovarjevsmozaizhodiščepomenskega členjenjaupoštevali lastnosti, ki najbolj ustrezajonaši predstavi opodrobnipomenskičlenitvibesed,terlastnosti,kibiponašemmnenjuponudilečimboljzanesljivoingledenasodobnijezikrealnoinformacijo.

2.3.1.1.1 New Oxford Dictionary of English

NODEseosredotočanato,karjevdejanskijezikovnirabiosrednjeintipično,s čimer sledi Hanksovi teoriji jezikovnih standardov in njihovih priložnostnihizrab oziroma razširitev (Hanks 1994). Rezultat tega jemanjše število jedrnih

19VprispevkuvpričujočištevilkiJezika in slovstva.20Potrebnojepoudariti,dajenaslonitevnaangleškoslovarskoteorijoinpraksovezanavtemsegmentuLBSzgoljnaoblikovanjepomenskihindikatorjevinnenaoblikovanjepodatkovnebazevceloti.Vrstainformacij,ki jihvključujemovLBS, innjihovaorganizacijaponivojih jeprodukt inkombinacijaizkušenj in teorije različnih leksikalnih baz za evropske jezike in specifičnih potreb slovenskeleksikalnebaze.

Page 8: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

76 Polona Gantar

pomenov,21kisojasnoinnakratkorazloženi.Pomenskačlenitevbesedtemeljinanaslednjihizhodiščih:

– zavsakobesednovrstojeprvadefinicijanamenjenajedrnemupomenu;– vsakaiztočnicaimanavadnovsajenjedrnipomen,nakateregajevezanih

večpodpomenov,kisoznjimlogičnopovezani;– jedrnipomenpredstavlja tipično,osrednjo rabobesede (kot jo izkazuje

BNC),22 kar pomeni, da ga materni govorci prepoznavajo kot najboljuveljavljenegainosrednjega;

– hkrati je to najbolj »dobesedni« pomen (ne pa nujno tudi najstarejšioziromaizhodiščni);

– jedrni pomen ni nujno najfrekventnejši; najfrekventnejši so lahko tudifigurativninasledkijedrnegapomena;

– vsakpodpomenjejasnoizpostavljen;– logično razmerje med podpomenom in jedrnim pomenom uporabniku

omogočapreglednadiztočnicotervpogledvstrukturiranostinmedsebojnopovezanostpomenov.

2.3.1.1.2 Macmillan English Dictionary for Advanced Learners

PriMEDAL smosezgledovalipoprincipu,pokateremjeprivečpomenskihbesedah(petalivečpomenov)nazačetkuizpostavljent.i.»menipomenov«,kipredstavljapovzetekjedrnihpomenov(brezpodpomenov),kisopodrobnejepredstavljenivnadaljevanjugesla, insicer tako,dasovmenipritegnjeninajpomembnejšidelirazlageoziromat.i.mnemoničnebesede,kinajbiuporabnikupomagalenajtipravislovarskipomen,nedabigažedefinirale.Včasihsotokolokatorji,neposrednenadpomenke ali pa oznake področja, na katerem se pomen uporablja (npr. prinogometu).Takmenipomenovpredstavljaizhodiščezaoblikovanjeindikatorjev,kotsijihzamišljamovLBS.

21PoEleanorRosch(cit.vAtkinsinRundell2008:277in279)imenovantudiprototipski pomen,kipojasnjujevsetipičneinpogosterabenekebesede:neopredeljujevsehmožnih(so)besedilnihrab,ajehkratidovoljširok,daustreznoupoštevavariacijenaravniindividualnihjezikovnihsituacij.22NODEvcelotitemeljinaBNC(British National Corpus):<http://www.natcorp.ox.ac.uk/>.

Slika 1:Meni pomenov večpomenskega samostalnika time (čas) v MEDAL. Slika 2: Jedrni pomeni za samostalnik čas v LBS.

Page 9: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 77

2.3.1.1.3 Longman Dictionary of Contemporary English

LDOCE je namenjen zahtevnejšim učencem angleščine kot tujega jezika.Organizacija pomenov znotraj večpomenskih besed je za nas zanimiva zaradipomenskihkazalcev(ang.signpost),kisoznotrajiztočniceposebejizpostavljeni.Njihovanalogajenakazatipomenskoobmočjeposameznegapomenainvzpostavitijasnepomenskerazlikemedposameznimipomeni.

LDOCE: memory LBS: spomin

1abilitytoremember 1pomnjenječesaizpreteklosti

2somethingyouremember 2sposobnostpomnjenja

3computer 3 nav.množina avtobiografskoliterarnodelo

4 zmogljivostračunalnika

Zgled:Pomenski indikatorji za jedrne pomene samostalnika memory(spomin) v LDOCE in LBS.

2.3.1.2 Pomenski indikatorji

PomenskačlenitevLEjevLBSprikazanaspomenskimiindikatorjiinpomenskimishemami. Pomenski indikator na kratko določi pomenski obseg ali področjeobravnavanegapomena,privečpomenskihbesedahpavzpostavljarazlikogledenadrugepomene.

S kratkostjo in jedrnatostjo se želimo izogniti oblikovanju slovarskih razlag,hkratipadosečihitroprepoznavnostpomenskegadosegaposamezneLEoziromanjenegapomena.Uporabasinonimajeustreznatakrat,kadarznjimnezajamemopodročjapreširoko inkadar lahkona tanačinvzpostavimoustreznopomenskorazmerjedodrugihpomenovinmedpodpomeni.ZrazumljivostjoželimodosečijasnoinpreprostopredstavoopomenskemdoseguLE,zatoseizogibamobesed,kisamepotrebujejorazlagoalisoredkouporabljanevvsakdanjemgovoru.Natanačinbomogočeoblikovatit. i.definicijskialikontrolnislovar,kotgapoznajoLongmanovi ali Macmillanovi slovarji, v katerem je leksikografom na voljobesedišče, ki je določeno kot primerno za uporabo v pomenskih definicijah.Spodnja tabela prikazuje del pomenske členitve glagola pasti s pomenskimiindikatorjiinvpovezavispomenskimishemami.

Page 10: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

78 Polona Gantar

Pomen/ podpomen Pomenski indikator Pomenska shema

3 znižatisenalestvici

3.1 okoličinialivrednosti KOLIČINA,VREDNOSTaliPREDMET,kiimanekovrednost,pade na lestvici za določenoKOLIČINOaliVREDNOST

3.2 o intenzivnosti STANJE, v katerem je ČLOVEK aliUSTANOVA, pade tako, da izgubiintenzivnost

3.3 ostatusualikakovosti ČLOVEKaliUSTANOVA|ali|STATUS,KAKOVOSTaliPOLOŽAJčlovekaaliinstitucijepadenalestvicinadoločenoTOČKOaliVREDNOST

3.4 osocialnempoložaju ČLOVEKpadevmoralnemalisocialnemsmislutako,daizgubisvojstatusnadružbenilestvici

4 zgoditi,dogajatise NEKAJ,karpade,sezgodializačneobstajati

4.1 ostanju:doživljati ČLOVEK,kipadevdoločenoSTANJE,sevnjemnahajaaligadoživlja

4.2 oprostoru,situaciji ČLOVEK,kipadevPROSTOR,OKOLJEaliSITUACIJO,senenadomaznajdetam

4.3 odejavnosti:ukvarjatise ČLOVEK,kipadevnekoDEJAVNOST,seznjoukvarja

4.4 odogodku:nastopiti DOGODEKaliČASdogodkapade na določenČAS

4.5 obesedah:izreči koBESEDEpadejo,soizrečene

4.6 oneprijetnostih:doleteti naČLOVEKAaliUSTANOVOpade NEKAJneprijetnega

4.7 napasti ČLOVEKpadepodrugemČLOVEKU

Tabela 2:Pomenska členitev in pomenske sheme v LBS za glagol pasti.

2.3.1.3 Pomenska shema in teorija FrameNet

Opispomenske shemezavsakpomen inpodpomenglagolapredstavljavLBSzdružitevskladenjskihinpomenskihinformacijpriopisuglagolov(ponekodtudisamostalnikovinpridevnikov).PrioblikovanjupomenskeshemesmosepribližaliteorijipomenskihshemvprojektuFrameNet(FN)ameriškeuniverzevBerkeleyju

Page 11: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 79

Pomen/ podpomen Pomenski indikator Pomenska shema

3 znižatisenalestvici

3.1 okoličinialivrednosti KOLIČINA,VREDNOSTaliPREDMET,kiimanekovrednost,pade na lestvici za določenoKOLIČINOaliVREDNOST

3.2 o intenzivnosti STANJE, v katerem je ČLOVEK aliUSTANOVA, pade tako, da izgubiintenzivnost

3.3 ostatusualikakovosti ČLOVEKaliUSTANOVA|ali|STATUS,KAKOVOSTaliPOLOŽAJčlovekaaliinstitucijepadenalestvicinadoločenoTOČKOaliVREDNOST

3.4 osocialnempoložaju ČLOVEKpadevmoralnemalisocialnemsmislutako,daizgubisvojstatusnadružbenilestvici

4 zgoditi,dogajatise NEKAJ,karpade,sezgodializačneobstajati

4.1 ostanju:doživljati ČLOVEK,kipadevdoločenoSTANJE,sevnjemnahajaaligadoživlja

4.2 oprostoru,situaciji ČLOVEK,kipadevPROSTOR,OKOLJEaliSITUACIJO,senenadomaznajdetam

4.3 odejavnosti:ukvarjatise ČLOVEK,kipadevnekoDEJAVNOST,seznjoukvarja

4.4 odogodku:nastopiti DOGODEKaliČASdogodkapade na določenČAS

4.5 obesedah:izreči koBESEDEpadejo,soizrečene

4.6 oneprijetnostih:doleteti naČLOVEKAaliUSTANOVOpade NEKAJneprijetnega

4.7 napasti ČLOVEKpadepodrugemČLOVEKU

Tabela 2:Pomenska členitev in pomenske sheme v LBS za glagol pasti.

2.3.1.3 Pomenska shema in teorija FrameNet

Opispomenske shemezavsakpomen inpodpomenglagolapredstavljavLBSzdružitevskladenjskihinpomenskihinformacijpriopisuglagolov(ponekodtudisamostalnikovinpridevnikov).PrioblikovanjupomenskeshemesmosepribližaliteorijipomenskihshemvprojektuFrameNet(FN)ameriškeuniverzevBerkeleyju

(Fillmoreetal.2003),23hkratipapomenskashema,kotjovidimovLBS,ohranjagledenaizhodiščniprojektnekaterepomembnerazlike.

Tako kot pri FN temelji tudi v LBS opis pomenskega scenarija v pomenskishemi LE na analizi velikega števila korpusnih konkordanc.24 Za razliko odFNpanašnamenniopisatipomenabesedenapodlagiobstoječegaalivnaprejizdelanega seznama pomenskih shem in pomenskih elementov znotraj njih. VLBS je opis pomenskega scenarija v pomenski shemi prost; edini pogoj je, daredaktornatančnoopišesituacijopomenadoločeneLEinizpostavivsezapomennujneudeležence in okoliščine.Za razlikoodFN,ki zavsak shemski elementpredvideva ime, opis in semantično kategorijo, poimenovanje udeležencevin okoliščin v pomenskih shemahvLBSnifiksirano in vnaprej določeno, pačpa je poimenovanje udeležencev, npr. ČLOVEK, PREDMET, ŽIVAL, SNOV,DELTELESA itd. podrejeno opisu konkretnega pomenskega scenarija besedeoziromanjenegapomena.VnasprotjusFN,kjerformaliziranipomenskiokvirjiin elementi znotraj njih omogočajomedsebojno povezovanje in vzpostavljanjepomenskihrazmerijmedLE,namenLBSnizdruževatiLEnapodlagipomenskihshem,čepravnaknadnaanalizaomogočatudito.PovezovanjepomenskosorodnihbesedvFNnarekujeobravnavogledenapomenskopovezanostLE,karpomeni,davprimeru,česeznamvFNnevsebujepomenskesheme,kibiustrezalaopisudoločenenovebesede,tebesedenimogočevključitivsistem,doklersenepokažezadostnapotrebaoziromazadostnoštevilobesed,kibiustrezalenovipomenskishemi.VnasprotjustemjeLEvLBSmogočeobravnavatineodvisnoodnjihovepomenske (ne)povezanosti, kar omogoča vključitev jedrnega dela besedišča vLBSneodvisnoodmožnostipomenskegapovezovanjamedLE.IzistegarazlogalahkovLBSvečpozornostiposvečamopomenskemuopisuvečpomenskihbesed,tj.opisutuditistihpomenov,kinimajovcelotnileksikalnibaziizkazanesorodnepomenskepovezave.

2.3.1.3.1 Oblikovanje pomenske sheme

Vizhodiščujenašanalogaugotovitimehanizme,pokaterihsegovorcislovenščinemed seboj razumemo, oziroma mehanizme, na podlagi katerih smo sposobnirazločevatimedpomenomglagolastisnitivzgledih(a)odpomenaglagolastisniti vzgledih(b).Osnovniprincip,kigapritemupoštevamo,izhajaizteorijeCPA(Hanks2005)inpredpostavlja,dapomeniizhajajoizslovničnihvzorcev,vkaterihbesedenastopajo,inneizbesedsamihnasebi.

23TeorijainpraksaprojektaFrameNetjepodrobnopredstavljenavposebništevilkirevijeInternational Journal of Lexicography, Vol. 16, No. 3, september 2003, Special Issue: Framenet and FrameSemantics.Projektjebilpredstavljentudizvidikaslovenščine(Krek2008in<http://videolectures.net/solomon_krek_fn/>).SslovenskimFrameNetomseukvarjatudiBirteLönnekerRodman,večotemnaspletnistrani<http://www.icsi.berkeley.edu/~loenneke/>.24Analiza besedišča v celoti temelji na referenčnem korpusu FidaPLUS. Poleg tega uporabljamotudiorodjezaleksikalnoprofiliranjebesed,kotsoWord Sketcheszaslovenščino(KrekinKilgarriff2006).

Page 12: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

80 Polona Gantar

(a) Otipalježeninorokoinjomočnostisnil . AnjapaniMarjananitienkratstisnila zaramena. Eleanorjezdravilnazeliščainpismotrdnostisnila v dlan. Cezar z dlanjo stisne ročajmeča.

(b) Stisnite si limono, pomarančo, grenivko, melono, ananasitn. Iz grozdja so stisnili 70litrovledenegavina. Počasisegrevajtemareličnomarmelado,vkaterostestisnili malolimoninega

soka. Ulični prodajalci trs stisnejo v stiskalnici in soku dodajo nekaj soli inlimoninegasoka.

Če primerjamo pomene glagola stisniti v zgledih (a) in (b) zgoraj, lahkougotovimo, da ima pomen glagola v zgledih (a) nekatere skupne lastnosti, kise ločujejoodskupnihlastnostipomenavzgledih(b).Razlikemedpomenoma(a) in (b) v pomenski shemi opišemona način, s katerimdosežemonajmanjšiskupniimenovalecrazumevanjakonkretnegapomenaoziromaskupniimenovalecrazlikovanjamedobemapomenoma inmeddrugimi pomeni/podpomeni istegaglagola.Zaobapomenaglagolastisnitivzgledih(a) in (b)smozapisalipomenskiscenarijvoblikipomenskihshemtakole:

(a) ČLOVEK stisne PREDMETzDLANJO

(b) ČLOVEK s PRIPOMOČKOM stisne sadje |ali| stisne TEKOČINO izsadja|ali|stisne sadjevTEKOČINO

Zabesede,kisovpomenskisheminapisanezvelikimičrkami,predvidevamo,dasoobveznishemskielementizakonkretnipomenglagola,različnozapisanidelistavkavzgledihpaustrezajoshemskimelementomvpomenskihshemah.

2.3.1.3.2 (Ne)izraženost elementov pomenske sheme

V opisu pomenskega scenarija zapisujemo skladenjsko in pomensko nujneelemente pomenske sheme z velikimi črkami, s čimer nakažemo vezljivostnipotencial konkretnega pomena. Na tej stopnji se odločamo tudi o tem, ali sookoliščine imanentna lastnost konkretnegaglagolskegapomena.Če jeodgovorpritrdilen,jenjihovaobveznostrazvidnaizpomenskeshemezzapisomzvelikimičrkami.Zanalizokonkordančneganizalahkougotovimo,dasoobveznielementi,kotjerazvidnotudiizzgornjihzgledov,vstavkulahkoizraženialipane.Pritemso (a) izraženi elementi pomenske sheme lahko razvidni (a.1) znotraj ali (a.2) zunajstavčnezgradbealipaso(b)neizraženi.Neizraženostobveznihelementovjepovezanasstavčnostrukturo,kiomogočaizpuščanje(npr.brezosebnaraba,splošnivršilecipd.)alipaobstajasplošnovedenjeonujniprisotnostisicerneizraženegaelementa,npr.:Tomaž jé (hrano).Neizraženostelementovnaosebkovemmestuvargumentnistrukturijevslovenščinipogosto,kotizkazujejospodnjizgledi,zajeta

Page 13: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 81

vosebnioblikiglagola.Vpomenskishemi»ČLOVEK s PRIPOMOČKOM stisne sadje |ali|stisne TEKOČINOizsadja|ali|stisne sadjevTEKOČINO« so:

(a)izraženielementipomenskesheme(sadje,tekočina)(a.1)znotrajstavka: Iz grozdja so st isnil i 70 litrov ledenega vina.(a.2)zunajstavka: jaBolka je treba najprej umiti, razrezati in st isnit i . Jabolčni sok nato pustimo stati.(b)neizraženielementipomenskesheme:(tekočinainsredstvo): Stisnite si limono, pomarančo, grenivko, melono.

2.3.2 Skladenjske informacije

IzhajajočizleksikografsketeorijeinpraksenasnaskladenjskemnivojuzanimajopodrobnostiskladenjskegaokoljapreučevaneLE.Čepredstavljapomenskashemaopis pomenskega scenarija, v katerem so za glagolske iztočnice jasno izraženiudeleženci, njihova razporeditev v slovničnem vzorcu in okoliščine, beležimos skladenjskimi strukturami (ang. constructions) in slovničnimi vzorci (ang.syntactic patterns)tipičneskladenjskerealizacijekonkretnihpomenovpreučevaneLEoziromapovedanodrugače:sskladenjskimistrukturamibeležimoskladenjskerealizacijeobveznih(intipičnihopcijskih)elementov,izraženihvpomenskishemi.BeleženjeskladenjskihstrukturjevprvivrstinamenjenopotrebamRONJ,čemurjevcelotipodrejennjihovzapis.VLPBsotovrstnipodatkinavadnozapisanivoblikikod,vnašemprimeruvobliki atributov,ki jihpripisujemoposameznimdelomstrukturalivzorcev.Vtanamenjeredaktorjemnavoljozaključenseznamatributov,kigavključujeprogramskivmesnik.

ZapisovanjeskladenjskihinformacijvLBSsepriglagolskihiztočnicahnekolikorazlikuje od zapisa pri drugih besednih vrstah. Pri glagolih predvidevamo privsakem pomenu in podpomenu informacijo omegastrukturi, ki združuje vseskladenjske strukture,25 ki predstavljajo formalizirano podstavo slovničnih vzorcev. Namen megastruktur je predstaviti vse elemente, tj. besede oziromabesednezveze,vključnospredlogi,vezniki inodvisnimistavkiznotrajstavčnezgradbe,kisopotrebnizaizražanjekonkretnegapomenaglagolaviztočnici.Polegobveznihelementovsoizmegastrukturerazvidnitudimožni(opcijski)elementiinelementi,kisomedsebojnozamenljivi(alternativnielementistrukture).Naprimer,pomenglagolapobirati‘zaračunavatiplačilo’serealizirazmegastrukturo:sbz1GBZ sbz4(zasbz4|odsbz2), kijoberemotakole:samostalnikualisamostalniškibesednizvezivimenovalniku (sbz1)slediglagoloziromaglagolskabesednazveza(GBZ)pobirati insamostalnik/besednazvezavtožilniku (sbz4).Tejstrukturilahko(opcija) sledibodisipredlogza, kiveže samostalnik/besednozvezov tožilniku

25V fazi izdelave specifikacij zaLBS smooblikovali sezname skladenjskih struktur za posameznebesedne vrste, pri čemer smo strukture razdelili glede na to, ali je obravnavana besedna vrsta kotiztočnicajedrobesednezveze,karzapišemozvelikimičrkami,npr.SBZ2sbz2–meseca[aprila],aline,npr.sbz2SBZ2–[meseca]aprila.

Page 14: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

82 Polona Gantar

(zasbz4),bodisipredlogod,kivežesamostalnik/besednozvezovrodilniku(odsbz2).

Postopek lahko pogledamo tudi z vidika obrnjenega zaporedja, kjer za glagolstisniti v pomenu: ‘oprijeti z dlanjo’ predvidevamo najprej ločene skladenjskestrukture, skaterimisekonkretnipomen tipično izraža,natopa jihzdružimovmegastrukturo,kipolegosnovne,tj.zaizražanjekonkretnegapomenaminimalnestrukture,izražašeopcijskedele(voklepaju)inalternativneoziromamedsebojzamenljivedele(ločenespoševnico):

sbz1GBZsbz4 sbz1GBZsbz4zasbz4 sbz1GBZsbz4vsbz4 sbz1GBZsbz4z/ssbz6

Medsebojno prepletanje skladnje in pomena pri glagolskih iztočnicah najbolje(poleg pomenskih shem) odražajo slovnični vzorci. Predstavljajo namrečtisti del LBS, ki daje informacije o vezljivosti glagola, obenem pa predstavljaposredniško fazomed skladenjskimi strukturami (združenimi vmegastrukturo)innjihovimiuresničitvamivkonkretnemslovničnemvzorcu.Naprimer,zapisupomenske sheme za glagol roditi v pomenu ‘o rojstvu otroka’: ŽENSKA rodiOTROKAaliOTROKse rodiKOMU, sledijo slovničnivzorci,vkaterih se tapomentipičnorealizira,zatoizražajotudiokoliščine,najpogostejespredložnimizvezamivprislovnifunkciji.Konkretnazapolnitevpredložnihzvezjezabeleženanakolokacijskemnivoju.

roditi indikator: orojstvuotrokapomenska shema:ŽENSKArodiOTROKAaliOTROKserodiKOMUvzorec:kdorodikoga kolokacija: roditi[sina,hčerko,otroka,fantka]vzorec: kdorodi kolokacija:[ženska,žena]rodivzorec: kdoserodi kolokacija:[otrok,dete,dojenček,deklica]serodivzorec: kdoserodičesa/sbz2*KDAJ* kolokacija:roditise[aprila,maja]vzorec:kdorodikaj/sbz4*KDAJ* kolokacija:roditi[vsakoleto]vzorec: kdoserodipočem*KDAJ* kolokacija: roditisepo[vojni]vzorec: kdoserodimedčim*KDAJ* kolokacija: roditisemed[vojno]vzorec: kdoserodivčem*KJE* kolokacija: roditisev[Ljubljani,Mariboru,Trstu]vzorec: kdoserodinačem*KJE* kolokacija: roditisena[Dunaju,Hrvaškem,Ptuju]vzorec: kdoserodisčim kolokacija: roditisez/s[Downovimsindromom, okvaro,napako]

Zgled:Slovnični vzorci in kolokacije za pomen glagola roditi.

2.3.3 Kolokacijski nivo: sintagmatika LE

V tem segmentu LBS beležimo kolokacije, ki jih razumemo kot pogostekombinacijebesed,vkaterihdoločenabesedakažeočitnotežnjoposopojavljanju

sbz1GBZsbz4(zasbz4/vsbz4/z/ssbz6)

Page 15: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 83

zdrugobesedo,pričemerjepogostostvečjaodnaključnesopojavitve(Kilgarriff2006b:998).Tipičnekolokacije,vkaterevstopaobravnavanabesedaviztočnici,beležimogledenaregistriranepomeneinskladenjskestrukture.Zupoštevanjemstatističnih izračunov besedne povezovalnosti, kot so razvidni iz programaza izdelavo besednih skic za slovenščino, vključujemo v LBS informacijo osintagmatskempovezovanjubesed,npr.pasti pod (ničlo, vpliv, streli, mejo, kolo ...); pasti na (pamet, tla, izpitu, bojišču ...), s podrejanjemkolokacij pomenskičlenitvi pa upoštevamo tudi paradigmatski vidik besedne povezovalnosti, npr.pasti pod (ničlo, minus, ledišče)– ‘znižatise’; pasti na (tla, vozišče, pločnik) – ‘izgubitiravnotežje’.Topomeni,daobvsakempomenuali/inpodpomenu,kigazaobravnavanobesedo registriramovLBS,beležimovkolokacijah samo tistedelestrukturinslovničnihvzorcev,kisokolokabilni:

pogajati seindikator:poskušatisedogovoritipomenska shema:ČLOVEKsepogajazDRUGIMČLOVEKOMgledeVSEBINEdogovoraskladenjska (mega)struktura: sbz1GBZ(ssbz6)(osbz5/gledesbz2/zasbz4)vzorec:kdosepogajavzorec:kdosepogajaskomvzorec:kdosepogajaskomočemvzorec:kdosepogajaskomgledečesavzorec:kdosepogajaskomzakajkolokacija:[vlada,država,vodstvo]sepogajakolokacija:[sindikati,delodajalci,partnerji]sepogajajokolokacija:pogajatisez/s[sindikati,EU,vlado,Brusljem,delodajalci]kolokacija:pogajatisez/s[ugrabitelji,uporniki,teroristi]kolokacija:pogajatiseo[ceni,nakupu,odkupu,prodaji,pogojih,spremembah]kolokacija:pogajatiseo[članstvu,vstopu,sporazumu]kolokacija: pogajatiseo[vdaji,izpustitvi]kolokacija:pogajatiseza[ceno,plačo]kolokacija:pogajatiseza[vstop,članstvo,podaljšanje,izpustitev]struktura:rbzGBZkolokacija:[trdo,tajno,intenzivno,neuspešno,resno]sepogajatistruktura:Vez-gbzpbzGBZkolokacija:[bitipripravljen]pogajatisestruktura:gbzGBZkolokacija:[začeti,pričeti,nehati,nameravati,znati]sepogajati

Zgled:Kolokabilni deli slovničnih vzorcev in struktur za glagol pogajatise.

KolokacijepredvidevamotudinavsehtistihsegmentihLBS,kjersedelipredhod-no registriranih vzorcev, struktur in skladenjskih zvez kažejo kolokabilni, npr.zvezi:čas od (česa) do (česa) in v času po (čem) izkazujetalastnokolokabilnost:čas od [okužbe] do [pojava bolezni, obolenja]; v času po [volitvah, osamosvojitvi, vojni, revoluciji], in povsod tam, kjer imajo večbesedneLE, tj. stalne besednezvezeinfrazeološkeenote(FE),kolokabilnookolje,npr.glasbena šola:[učenec, ravnatelj, gojenec, učenka, ravnateljica] glasbene šole, [dvorana, prostori]

Page 16: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

84 Polona Gantar

glasbene šole, [srednja, nižja] glasbena šola, [obiskovati, vpisati se na] glasbeno šolo,neizključujemopatudimožnosti,dakolokatorsamnastopakotvečbesednaenota,npr.pasti na [pokrov motorja], [berlinski zid, železna zavesa] pade, [minuta molka] v spomin (komu), roditi se z/s [Downovim sindromom].

2.3.4 Stalne besedne zveze in frazeološke enote

VLBSpredvidevamodvatipavečbesednihleksikalnihenot:stalnebesednezveze(SBZ)infrazeološkeenote(FE).

KotSBZobravnavamotipičnebesednekombinacije,kisooblikovnoinpomenskoosamosvojene, kar pomeni, da imajo svoj lastni pomen (oziroma konkretnegananosnika),kijepogostovezannadoločenostrokovnoalikakodrugačeomejenopodročje rabe (npr. kisli dež, kisla juha, konj z ročaji), pri čemer vsaj enasestavina kaže asociativno povezavo s katerim od pomenov besede v iztočnici(npr. kisel: ‘o kemični sestavi’; ‘o hrani’).Tipičen pokazatelj leksikaliziranostijetudivečpomenskostSBZoziromadejstvo,daobstajatudidobesedna,navadnoneterminološkahomonimnabesednazveza,npr.črna luknjavprimeru:črne luknje razbitih oken in črne luknje so ključ za razumevanje poslednje usode vesolja.Variantnost sestavinSBZ jeomejenana sinonimijoali skupnopomenskopolje(npr.kratkoročni/kratkotrajni spomin;glasbena skupina/zasedba),hkratipaimajoSBZ pogostokrat tudi lastno tipično besedilno okolje, ki ga beležimo v oblikikolokacij,kotsmopokazalizgoraj.

Pomenski indikatorji na kratko opredelijo pomenski obseg SBZ. Z njimioznačujemo:(a) pripadnike določene vrste ali sorte,npr. arabskikonj–pasma, zlatidelišes – sorta;(b) poimenovanja predmetov, stvari, stanj, prepričanj, ustanov, kjer jeindikatorbodisiširša,npr. iskanjeskritegazaklada–družabna igra, konjzročaji–telovadno orodje,nilskikonj–žival, krompirvoblicah–jed,aliožjanadpomenka,npr.črnikos–pticazelenauš–škodljivec;(c) poimenovanja stvari, predmetov, pojavov ipd. na določenem strokovnem ali omejenem področju rabe, npr. otrok iz epruvete–medicina, zimski čas–geografija,kislidež–ekologija;(d) parafraze ali opise:knežjemesto–Celje, mestopodPohorjem–Maribor.

VsamostojnemrazdelkuLBS(tj.neodvisnoodpomenskečlenitve)beležimoFE.Grezatistebesednezveze,kigledenasestavneelementeizkazujejosamostojni,od sestavnih elementov neodvisni – t. i. frazeološki pomen. Ob tem se za FEzahtevatudiprenesenostpomena,kijoizkazujezvezakotcelota,karjidajegledena nefrazeološka večbesedna poimenovanja v besedilu ekspresivno oziromazaznamovanonoto.Pravzadnje izFE izloča tudivsavečbesedna terminološkapoimenovanja, ne glede na sicer izkazan pomenski prenos, npr. črna skrinjica ‘naprava’;sončni veter‘energija’.

Page 17: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 85

Vsako frazeološkoenotovLBSopredelimospomenskim indikatorjem,ki imaenakovlogokotprienobesednih iztočnicah,karpomeni,danakratkoopredelipomen FE, npr. stisniti zobe – ‘potrpeti ’, stisniti koga v kot – ‘spraviti vbrezizhodenpoložaj’,stisniti glave–‘sestatiseinskupajrazmisliti’,stisniti pas –‘varčevati’,stisniti ustnice–‘gestakotznakjeze,nestrinjanjaalikljubovanja’,oziromavzpostavljarazlikomedpomenivečpomenskeFE,npr.stisniti pest/pesti –1.‘gestakotznakupora,pripravljenostinaboj’,2.–‘gestakotznakpodpore,upanjanauspeh’,dol pasti–1.‘bitipresenečen,začuden’,2.–‘bitiutrujen’,3.–‘omagati,izgubitizavest’.

FEtipičnoizkazujejorazličnevariantnemožnostiženaravniposameznihsestavinzvezeali»zunanjih«udeležencev,npr.luč na koncu tunela/predora,stisniti pest/pesti,zastor/zavesa pade;biti trn v peti komu/koga, pasti v kremplje komu/čemu/koga, pogostokratvkombinacijizoblikoslovnimiprilagoditvami,kijihvariantazahteva,npr.stisniti skozi zobe in stisniti med zobmi, stisniti koga v kot in stisniti koga ob zid,zaiti v slepo ulico in znajti se v slepi ulici.Takevariante,vključnospretvorbenimimožnostmi,kizajemajo:(a) različno skladenjsko funkcijo FE, npr. beraška palica – spraviti koga na beraško palico;zdrava pamet – biti zdrave pameti/pri zdravi pameti – (narediti kaj) po zdravi pameti,pričemersezavedamo,dapriglagolskihrabahoziromaFEvfunkcijipovedkanapomenskeodtenkevplivajokonkretniglagoli,npr.princ na belem konju – čakati na princa na belem konju, iskati, najti (svojega) princa na belem konju – sanjati o princu na belem konjuitd.;(b) različne realizacijske možnosti,26 ki jih omogoča zgradba FE, zlastiposamostaljenje,npr.prati možgane – pranje možganov, pihati na dušo – pihanje na dušo,inpotrpnjenje,npr.stresati/zbijati šale – šale se stresajo/zbijajo; dvigati prah – prah se dviga,dati besedo – beseda je danaipd.(c) število in razporeditev »zunanjih« udeležencev, npr.prepustiti se na milost in nemilost komu/čemu – prepustiti koga na milost in nemilost komu/čemu – biti prepuščen na milost in nemilost komu/čemu;(č)realizacijavkateriodtipičnihupovedovalnihoziromanaklonskihmožnosti,kotsozanikanje,velelnost,vprašalnost ipd.,npr.kaj (ne) pade na pamet/misel/glavo/um komu in kaj ne pade niti na kraj pameti komu, saj nisem na glavo padel/la!;(d)fakultativnesestavineFE:pasti kot (zrela) hruška in pasti komu (v naročje) kot (zrela) hruška,podajati si kaj(iz rok v roke) kot vroč krompir, biti (vedno) korak pred časom;tudikadarsoopcijskielementi»zunanji«udeleženci,npr.pasti na limanice (komu), beležimo,česeizkazujejokottipičneinzaposameznoFErelevantne.

Pritemsedržimopravila,dakotvariante(zapisspoševnico)invariantneoblikerabeterpretvorbebeležimoznotrajeneganadelementafrazeološkaenotazaporedoma,čeneprihajadobistvenihpomenskihsprememb,medtemkovečpomenskeFEter

26Vprimeru,kosekateraodpretvorbizkažekotedinamožna,npr.kopja se lomijo(*lomitikopja),navajamosamotoobliko.

Page 18: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

86 Polona Gantar

sinonimneFE,npr.pasti na ritin(skoraj)pasti s stola,kjergrevobehprimerihza pomen ‘biti presenečen’, beležimokot samostojneFE, torej v samostojnemnadelementu, saj predvidevamo, da lahko tudi homonimne in sinonimne FEizkazujejolastnevarianteinpretvorbenemožnosti.

NaenaknačinkotFEbeležimovsamostojnemrazdelkuLBS–tj.neodvisnoodpomenskečlenitve–idiomatskeenote.SemprištevamoFEsstavčnozgradbo,t.i.pregovore in reke(razenglagolskihFEtipa:zob časa načne koga/kaj,mrak pade na oči komu, sekira pade v med komuipd.,kisevstavkuobnašajokotpovedki).Zanjevelja,daso»besedilažesamanasebi«,hkratipajezanjeznačilno,dasenanašajonakonkretnotemoalireferenta,izraženegavširšem(so)besedilu,npr.iz te moke ne bo kruha, jabolko ne pade daleč od drevesa, čas zaceli vse rane itd.

2.3.5 Primeri rabe

S primeri rabe, ki v celoti temeljijo na korpusu FidaPLUS oziroma bodo vnadaljevanjuizdelaveLBStemeljilinabodočemvokviruprojektanastajajočemmilijardnem korpusu SSJ in jih v programski vmesnik prenašamo s pomočjofunkcijeWSE(gl.vnadaljevanju),potrjujemovseinformacije,kismojihnavišjihnivojihvneslivLBS:zavsakzabeleženipomenLEmorajoprimeri,kiodražajorealno jezikovno rabo, potrditi s pomenskim indikatorjem opredeljen pomen,pomenskoshemozobveznimiinopcijskimiudeleženci,skladenjskestruktureinslovničnevzorcepriglagolskih iztočnicah.Najboljseprimeromrabepribližajokolokacije, ki so tipične potrditve skladenjskih struktur ali slovničnih vzorcev.S primeri rabe vedno potrdimo tudi realno obnašanje SBZ, FE v besedilu. VhierarhičnourejenihnivojihLBStakopredstavljajoprimerirabenajkonkretnejšoinformacijoinskupajspomenskimi,skladenjskimiinkolokacijskimipodatkioLEzaključujejoceloto,znotrajkateresoinformacijemedsebojneposrednopovezaneinsemedsebojnodopolnjujejo.

pastipomenski indikator: 1.2izgubiti;izpustitipomenska shema: PREDMETpadeČLOVEKUKAM|ali|MUpadeodKOD megastruktura: sbz1GBZsbz3(izsbz2)vsbz4/nasbz4/podsbz4 vzorec: kajpadekomuvkaj vzorec: kajpadekomunakaj vzorec: kajpadekomupodkaj vzorec: kajpadekomuizčesa kolokacija: [pištola,cigareta]pade kolokacija: pastiv[jarek,jašek] kolokacija: pastina[tla] kolokacija: pastipod[mizo] kolokacija: pastiiz[rok,roke,ust] kolokacija: pastiiz[žepa] zgled:Vžigalicesojipadlevcestnijarekinsozdajvse premočene.

Page 19: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 87

zgled:Fantkujeplastičnitovornjačekpadelvjašek. zgled:Pištolamujemedprerivanjempadlanatla. zgled:Čevamhranapadenatla,jelahkookuženavpetih sekundah. zgled:Vsekaže,damijepadlopodmizodesetšilingov. zgled:Poberemknjigo,kimijepadlaizrok,innadaljujem branje. zgled:Sneguljčicizastrupljenikoščekjabolkapadeizust indekleoživi. zgled:Medbegommujeukradenadenarnicapadlaizžepa.

Zgled: Leksikalno-gramatične informacije v LBS: od abstraktne pomenske členitve do konkretnih primerov rabe.

Pri izbiri primerov stremimok relativni kratkosti, če jemogoče, se izogibamolastnihimen,predvsempasmopozorninato,daizbiramoprimere,kinevnašajodvomavinformacije,kijihželimosprimeripotrditi.Sprimerirabeželimozajetituditipičnobesedilnorabo,tipbesedila,področjerabeinskladenjskookolje,čeganemoremozajetisskladenjskimistrukturami.Prinavajanjuštevilaprimerovnismoomejeni,pomembnopaje,dajevsakoskladenjskostrukturoinkolokacijomogočevidetivnjenemtipičnemživljenjskemokolju.

3 Pridobivanje podatkov iz korpusa in postopek izdelave iztočnic

3.1 FidaPLUS in Sketch Engine

Podatkizaizdelavoiztočnic,tj.opisLEpoposameznihnivojih,vcelotitemeljijonakorpusuFidaPLUS(ArharinGorjanc2007)inuporabiorodjaSketch Engine (SkE),27zlastifunkcijeWord Sketch(WSE)(Kilgarriffet.al2004),katereslovenskaverzija(KrekinKilgarriff2006)jebilavprocesutestiranjanadgrajenazanameneprojekta.PridelusFidoPLUSuporabljamokonkordančnikASP32. Možnosti,kinam jih ponuja, kot tudi statističnemetode in načine iskanja podrobnoopisujespletnipriročnik(Arhar2007),zatojihnatemmestunebomoopisovali.NekolikovečpozornostizahtevakorpusniiskalnisistemSkE,vkateregajevgrajenkorpusFidaPLUS in katerega beta verzijo uporabljamo za delo s konkordancami,izdelovanjegramatično-kolokacijskihprofilovbesedinizvažanjeprimerovrabe.Konkordančnikomogočaiskanjepolemi,frazah,besednioblikioziromanapodlagiiskalnegapogoja,kigadoločimospomočjokodiranegazapisavCQL(Corpus Query Language).Polegomenjenegalahkovkonkordančnikudoločimoobseginbesednovrstobesedvbesedilnemokoljuiskanebesedetertipebesedil,pokaterihželimo iskati, pri čemer lahko izbiramobesedila gledena leto izida, prenosnikin zvrst, če je seveda korpus temu primerno grajen. Posamezno konkordancolahkorazširimonapoljubenobsegodstavka.Konkordančninizpalahkourejamo

27<http://www.sketchengine.co.uk/>.

Page 20: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

88 Polona Gantar

glede na besede levo ali desno od iskane besede, filtriramo, izdelamo vzorec(npr.določenegaštevilanaključnoizbranihkonkordanc,kijihnatoizvozimozanadaljnjo analizo – gl. v nadaljevanju), analiziramo glede na pogostnost leme,besedneoblike,kombinacijemorfosintaktičnihoznakitd.Polegmožnosti,kinamjih ponuja konkordančnik, je za pridobivanje leksikalno-gramatičnih podatkovizkorpusapomembnafunkcijaWSE,spomočjokaterezaizbranolemodobimoseznamkolokatorjev,kiustrezajodoločeni skladenjski relaciji (npr.a modifier:(Prid-Sam):[lep,zgodovinski,trajen…]spomin;is obj3(Glag-Sam3):[pokloniti,posvetiti, oddolžiti se…] spominu), možnost izbire konkretnih kolokatorjev izseznama(TBL–Tick Box Lexicography)terizvozkorpusnihzgledov,kivsebujejoizbrane kolokatorje (GDEX – Good Dictionary Examples) (Kilgarriff et al.2008).

Leksikalno-gramatičniprofil,kotgaomogočaWSE,predstavljaskupajsprenosomkolokatorjev in zgledov rabe v programski vmesnik osnovo za pridobivanjeskladenjskihinkolokacijskihinformacijvLBS.PredtemizdelamozavsakoLEpomenskoanalizo,napodlagikateredoločimopomenskeindikatorjeinpomenskesheme.

skladenjskerelacije in povezavena kodiran zapis statistične vrednosti

frekvenca/ povezave na konkordance

povezava na izbrane kolokatorje z zgledi

seznam kolokatorjev možnost izbire kolokatorja (TBL)

Slika 3: Leksikalno-gramatični profil samostalnika spomin v WSE.

Page 21: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 89

3.2 Postopek izdelave gesla v LBS

Potem ko pripišemo analizirani besedi v iztočnici gesla osnovne informacije,ki sona tej stopnji omejene zgolj napodatekobesedni vrsti, jo analiziramozvidikapomenskerazčlenjenostiinskladenjskegaobnašanja.Pritemuporabljamonaslednji postopek: v SkE ali korpusu FidaPLUS izdelamo naključni vzoreckonkordanc (oziroma se po potrebi odločimo samo za določene tipe besedil)s približno 150 do 300 konkordancami. Število konkordanc, ki jih je potrebnoanalizirati, da si ustvarimo sliko o njeni pomenski razčlenjenosti in tipičnihskladenjskihrealizacijah,nifiksno in jeodvisnoodbesednevrste inpomenskekompleksnosti obravnavanebesede.Konkordančnivzorec spomočjoprogramaza konvertiranje28prenesemovexcelovodatoteko,kjerjepripravljenzanadaljnjoobdelavo.

Slika 4: Pomenska analiza konkordančnega niza z vidika udeleženske zgradbe za glagol stisniti.

Pomenski analizi sledi strukturna in kolokacijska analiza, ki jo izdelamo napodlagigramatično-kolokacijskegaprofila,kotgaomogočaWSE(Slika 3).Tuditu imamomožnost kolokacijske informacije izWSEkonvertirati v excelovodatoteko, kjer beležimo komentarje in opombe ob posamezni skladenjskirelacijiinkolokatorjih.Pomembnopritemje,dakonvertiranadatotekaohranjapovezavo s konkordancami, tako da je mogoče obnašanje in relevantnostkolokatorjainskladenjskerelacije,vkaterotipičnovstopa,preveritivdejanskibesedilnirabi.

28ProgramzakonvertiranjestazapotrebeprojektaizdelalasodelavcapodjetjaAmebis,RokRejcinPoloncaKocjančič.

Page 22: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

90 Polona Gantar

Slika 5: Kolokacijska analiza samostalnika konj.

UgotovljenejedrnepomeneinpodpomenezaobravnavanoLEskupajsskladenj-skimistrukturami,skladenjskimivzorcipriglagolihintipičnimikolokacijami,kipotrjujejozabeleženepomenskeinskladenjskeinformacije,vnesemovprogramskivmesnikDPS,kiganakratkopredstavimovnadaljevanju.

4 Programski vmesnik za izdelavo leksikalne baze

Za izdelavoLBS uporabljamo programsko opremo podjetja IDM,29 Dictionary Publishing System(DPS).Grezaprogram,kijenamenjensestavljanjuslovarjevinpodobnihjezikovnihvirov(Kocjančičetal.2006).Zasnovanjetako,daredaktorjidostopajo do podatkovne baze prek spleta in z njo delajo bodisi neposrednona strežniku ali pa vnaprej pripravljeno gradivo prenesejo na svoj računalnik,uredijoinvrnejovbazo,pričemerzaobdelavouporabljajoprogramskivmesnikza delo v brezpovezavnem načinu (Entry Editor). Program DPS uredništvuomogočanadzornadposameznimivsebinskimisegmenti,določitevfazobdelave,uporabniških pravic, razdeljevanje gradiva po različnih kriterijih, primerjavostareinnoverazličicegradiva,preverjanjeinpreusmerjanjegradiva,kompleksnaiskanjaterobdelavenacelotnemslovarskemgradivuvformatuXML.Programomogočatudipretvorbovpdfterhiterizvozinuvozpodatkov.Celotniprogramskipaketsestavljatadveosnovnikomponenti:DPSstrežnik(DPS Website) inDPSvmesnik(Entry Editor).DPS strežnik jespletnafunkcija,dokatereuporabnikidostopajosstandardnimiorodjizanavigacijopospletu.Nastrežnikusoorodjaza vodenje projektov, administriranje in konfiguriranje sistema ter uporabniškidostopdopodatkov,DPS vmesnikpajefunkcijazauporabovokoljuWindows,

29<http://www.idm.fr>.

Page 23: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 91

kijouporabniknaložinasvojračunalnik.Osnovnipostopekdelaje,dauporabnikz DPS strežnika pretoči podatke, jih obdela in vrne v skladišče (Repository).Ključneprednostiprogramasonadzornadopravljenimdelom,varnostpodatkov,večuporabniško delo na daljavo, upravljanje s centralno podatkovno bazo inuporabniškimidovoljenji.

ZadelozLBSjepomembenpredvsemDPSvmesnik(Entry Editor),kjerje celotno programskooknorazdeljenonaštiridele:1. okno (Navigation panel)jenamenjenodostopudogeselvdodeljenempaketuterkomunikacijizDPSstrežnikom.2. okno (Wysiwyg view)jenamenjenoogledugeslabrezXMLelementovvpogleduzabranje,pričemerjemogočeoknotudiurejati.3. okno (Tree view) je namenjeno prikazu drevesne strukture gesla z XMLelementi.Tojeglavnookno,kijenamenjenourejanjugesla.4. okno (Attributes and Annotations) jenamenjenourejanjuatributovpriXMLelementihtervstavljanjuredaktorskihopombkvsebini.

Zgornjidel1.oknaprikazujevsebino,kijenaloženanauporabnikovračunalnik– je torejvDPSvmesniku– spodnjidel2.oknapaprikazujevsebinonaDPSstrežniku. Hkrati uporabnik tudi vidi, ali so gesla zaklenjena s strani drugegauporabnika.2.in3.oknosesprotisinhronizirata,1.,2.in4.oknopajemogočeizklopiti in tako prilagoditi površino DPS vmesnika urejanju gesla. Opisanelastnostipovzemaspodnjaslika.

Slika 6: DPS vmesnik (EntryEditor).

Page 24: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

92 Polona Gantar

Zaključek

Leksikalna podatkovna baza za slovenščino, ki nastaja pri projektuSporazumevanje v slovenskem jeziku,jenamenjenaizdelavinajpomembnejšihinhkratinajpotrebnejšihslovarskihinjezikovnihpriročnikovzaslovenščino,kamorsodijozlastieno-indvojezičnislovarji,specializirani(frazeološki,kolokacijski,sinonimni…)inpedagoškislovarji,slovarji/priročnikizaučenjeslovenščinekottujegajezika,slovnice,slogovnipriročnikiitd.,terračunalniškiobdelavinaravnegajezika. Strukturiranost podatkov v elektronski obliki, upoštevanje leksikalno-gramatičnegapristopapriopisuLE,izhajanjeizteoretskihinpraktičnihspoznanjprioblikovanjutakoslovarjevkotleksikalnihpodatkovnihbazevropskihjezikovternenazadnjepremislekiovrstiinformacijinnjihovinotranjiorganizaciji,kibisledilispecifičnimlastnostimslovenščine,omogočaponašemmnenjuizgradnjovečkratuporabnegainvednoznovanadgradljivegaviraleksikalnihinslovničnihpodatkov,kibolahkodolgoročnosledilinzadoščalzgorajizpostavljenimciljem.

Seznam uporabljenih kratic

CPA(Corpus Pattern Analysis)–projektAnaliza korpusnih vzorcev DPS(Dictionary Production System)–računalniškisistemzaizdelavoslovarjevDTD(Document Type Definition)–definicijatipadokumentaEFL-slovarji(English as Foreign/Second Language)–slovarjizaučenjeangleščinekottujega/drugegajezikaFE–frazeološkaenotaFN–projekt:FrameNetgbz ali GBZ–glagolskabesednazvezaGDEX (Good Dictionary Examples)– računalniška funkcijaSkEzaavtomatično izbiroslovarskihzgledovLBS –leksikalnapodatkovnabazazaslovenščinoLE – leksikalna enotaLPB–leksikalnapodatkovnabazaRONJ–računalniškaobdelavanaravnegajezikasbz–samostalniškabesednazvezaSkE(Sketch Engine)–računalniškiprogramzaizdelavoleksikalno-gramatičnihprofilovbesedSSJ–projektSporazumevanje v slovenskem jezikuTBL(Tick Box Lexicography)–kliksikografija30

WSE(Word Sketch)–računalniškafunkcijaSkEzaizdelavobesednihskic

Literatura

Arhar,Špela, inGorjanc,Vojko,2007:KorpusFidaPLUS:novageneracija slovenskegareferenčnegakorpusa.Jezik in slovstvo52/2.95–110.

30Grezadelovniizraz,kigauporabljamovspecifikacijahzaizdelavoLBS.

Page 25: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

Leksikalnabaza:vse,karstevednoželelivedetiojeziku 93

Arhar, Špela, 2007: Kaj početi z referenčnim korpusom Fidaplus. Ljubljana: Filozofskafakulteta.<http://www.fidaplus.net/Info/Info_index.html>.

Atkins,SueB.T.,inRundell,Michael,2008:The Oxford Guide to Practical Lexicography.Oxford:OxfordUniversityPress.

BNC–British National Corpus:<http://www.natcorp.ox.ac.uk/>.

Čermák,František,2009:Leksikografovizapiskiokorpusnemslovarju.Jezik in slovstvo 25–42.

FidaPLUS:<http://www.fidaplus.net/>.

Fillmore,CharlesJ.,Johnson,ChristopherR.,inPetruck,MiriamR.L.,2003:BackgroundtoFramenet.International Journal of Lexicography 16/3.235–250.

Hanks,Patrick,1994:Linguisticnormsandpragmaticexploitations,orWhylexicographersneed prototype theory and vice versa.Kiefer, Ferenc,Kiss,Gabor, in Pajzs, Julia (ur.):Papers in Computational Lexicography: Complex ‘94. ResearchInstituteforLinguistics,HungarianAcademyofSciences.

Hanks, Patrick, 2009: Sestavljanje enojezičnega slovarja za domače govorce. Jezik in slovstvo7–24.

Kilgarriff,Adam,Richlý,Pavel,Smrz,Pavel,inTugwell,David,2004:TheSketchEngine.Williams, G. in Vessier, S. (ur.): EURALEX 2004 Proceedings. Lorient: Université deBretagne-Sud.

Kilgarriff, Adam, 2006a: Word senses. Agirre, E., in Edmonds, P. (ur.): Word Sense Disambiguation: Alghorithms and Applications.NewYork:Springer.29–45.

Kilgarriff, Adam, 2006b: Collocationality (and how to measure it). Corino et. al (ur):Proceedings of 12th EURALEX International Congress, EURALEX 2006. Alessandria:EdeizioniDell’Orso.

Kilgarriff,Adam, HusákMiloš,McAdam, Katy, Rundell,Michael, in Rychlý, Pavel, 2008:GDEX:AutomaticallyFindingGoodDictionaryExamples in aCorpus.Bernal,Elisenda, inDeCesaris, Janet (ur.): Proceedings of the XIII. Euralex international Congres (Barcelona, 15–19 july 2008). Barcelona: Institutuniversitaride lingüísticaaplicadaUniversitatPompeuFabra.

Kocjančič, Polonca, Krek, Simon, in Climent, Philippe, 2006: Bilingual dictionaries andIDMDPS: the development of a corpus-driven Slovenian-English pocket dictionary and itsimplementation in the IDMdictionary publishing system.Corino et. al (ur):Proceedings of 12th EURALEX International Congress, EURALEX2006.Alessandria: EdeizioniDell’Orso.431–438.

Krek,Simon,inKilgarriff,Adam,2006:SloveneWordSketches.Erjavec,Tomaž,inŽganecGros,Jerneja(ur.):Jezikovne tehnologije 5. Ljubljana:IJS.62–65.

Krek,Simon,2008:Framenetinslovenščina.Jezik in slovstvo53/5.37–54.

LDOCE–Longman Dictionary of Contemporary English,20034.Harlow:PearsonEducationLtd.

Page 26: LEKSIKALNA BAZA: VSE, KAR STE VEDNO ŽELELI VEDETI O JEZIKU · leksikologija, besedni pomen, računalniška obdelava naravnega jezika 1 Uvod 1.1 Kaj je leksikalna podatkovna baza

94 Polona Gantar

MEDAL–Macmillan English Dictionary for Advanced Learners,20072.Oxford:MacmillanPublishersLtd.

Meer,Geart vander, 2006: It’s aboutTime:OnCoherence andSimplicity inDictionaryEntries.English Studies.Routledge.602–616.

NODE–The New Oxford Dictionary of English,1998.Oxford:OxfordUniversityPress.

Pustejovsky,James,1995:The Generative Lexicon.Cambridge,Massachusetts:MITPress.

Sinclair,JohnMcHardy,inCoulthard,Malcolm,1975.Towards an Analysis of Discourse: the English Used by Teachers and Pupils.Oxford:OxfordUniversityPress.

Vidovič Muha, Ada, 2000: Slovensko leksikalno pomenoslovje – Govorica slovarja.Ljubljana:ZIFF.

Vodušek, Božo, 1961: O leksikografskem ugotavljanju in urejanju besednih pomenov(ReferatnaIII.jugoslovanskemslavističnemkongresu).Jezik in slovstvo7/1.5–10.

Spletne strani

Spletni slovarji:<http://www.sil.org/linguistics/GlossaryOfLinguisticTerms/Index.htm>. (Dostop: 6. 7.2009.)<http://www.thefreedictionary.com/lexical+database>.(Dostop:6.7.2009.)

Projekt SSJ:<http://www.slovenscina.eu/Vsebine/En/Dogodki/Slovarji/Program.aspx>. (Dostop: 6. 7.2009.)<http://www.slovenscina.eu/Vsebine/Sl/Domov/Domov.aspx>.(Dostop:6.7.2009.)

FrameNet:<http://videolectures.net/solomon_krek_fn>.(Dostop:6.7.2009.)<http://www.icsi.berkeley.edu/~loenneke/>.(Dostop:6.7.2009.)<http://framenet.icsi.berkeley.edu/>.(Dostop:4.8.2009.)

British National Corpus: <http://www.natcorp.ox.ac.uk/>.(Dostop:4.8.2009.)

Računalniški sistem za izdelavo slovarjev IDM DPS:<http://www.idm.fr>.(Dostop:6.7.2009.)