UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...

157
UNIVERZA V MARIBORU FILOZOFSKA FAKULTETA ODDELEK ZA PREVODOSLOVJE DIPLOMSKO DELO ANDREJ NEMEC MARIBOR 2012

Transcript of UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...

  • UNIVERZA V MARIBORU

    FILOZOFSKA FAKULTETA

    ODDELEK ZA PREVODOSLOVJE

    DIPLOMSKO DELO

    ANDREJ NEMEC

    MARIBOR

    2012

  • Univerza v Mariboru

    Filozofska fakulteta

    Oddelek za prevodoslovje

    Andrej Nemec

    POMEN ELEKTRONSKIH PREVAJALSKIH ORODIJ

    NA PRIMERU SLOVENSKO-NEMŠKEGA

    GLOSARJA S PODROČJA RAČUNALNIŠTVA

    THE ROLE OF TRANSLATION SOFTWARE – CASE

    STUDY OF SLOVENIAN-GERMAN GLOSSARY OF

    COMPUTER TERMS

    Diplomsko delo

    Mentorica: doc.dr. Vlasta Kučiš

    Maribor

    2012

  • ZAHVALA

    Za pomoč, nasvete, razumevanje in vso podporo pri izdelavi diplomskega dela se

    iskreno in najlepše zahvaljujem mentorici doc. dr. Vlasti Kučiš.

    Zahvaljujem se tudi družini, in sicer očetu Štefanu, mami Dragici in sestri Katji,

    za vso podporo, razumevanje in povezanost v tem pomembnem življenjskem

    obdobju.

    Na tem mestu pa hvala tudi vsem prijateljem, ki so me podpirali in mi stali ob

    strani v času študija, zlasti Nuši, Tadeju, Igorju, Klari, Mateju, Manji, Eriki, Ani

    in Damjanu. Brez vas ne bi bil, kjer sem. Hvala tudi Tini in Nini.

    Hvala vsem!

  • IZJAVA

    Podpisani Andrej Nemec, rojen 26.01.1984, študent Filozofske fakultete

    Univerze v Mariboru, smer prevajanje in tolmačenje – nemščina in

    računalništvo, izjavljam, da je diplomsko delo z naslovom Pomen elektronskih

    prevajalskih orodij na primeru slovensko-nemškega glosarja s področja

    računalništva pri mentorici doc. dr. Vlasti Kučiš, avtorsko delo.

    V diplomskem delu so uporabljeni viri in literatura korektno navedeni; teksti niso

    prepisani brez navedbe avtorjev.

    ____Andrej Nemec__________

    Maribor, 14.9.2012

  • POVZETEK

    Prevajanje je zelo kompleksen proces, v katerem mora prevajalec poznati številna

    področja in biti pripravljen se vedno na novo učiti. Pri svojem delu skorajda ne

    more več brez uporabe informacijsko-komunikacijske tehnologije, ki je v njegovo

    stroko vnesla številne možnosti za hitrejše in učinkovitejše, a obenem nič manj

    kakovostno delo. Obenem ga je naglica razvoja postavila pred nova dejstva in

    izzive, da med vsemi možnostmi, ki jih ima na voljo, izbere tiste najbolj primerne.

    Za prevajalca je pomembno, da kritično presodi in ovrednoti, kaj mu katero od

    orodij ponuja in kdaj naj katero uporabi. Nenazadnje mora zadostiti

    pričakovanjem ciljne publike in normam ciljne kulture. Ni vseeno, ali prevaja

    besedilo s področja medicine ali vremensko napoved. Tudi orodja mu pri tem

    nudijo različno podporo.

    Orodja, ki so mu na voljo, so pomnilniki prevodov, terminološki slovarji, tezavri,

    elektronski slovarji, korpusi, sistemi statističnega strojnega prevajanja in glosarji.

    V diplomskem delu so podrobneje obravnavana zadnja tri orodja. V nalogi je

    predstavljena zanimiva primerjava spletnih prevajalnikov Google Translate in

    Microsoft Bing, predstavljen pa je tudi glosar računalniškega strokovnega

    izrazoslovja v obliki programa v programskem jeziku Visual Basic, ki sem ga sam

    programiral. Čeprav se zdi, da so zlasti spletni prevajalniki ena od najbolj

    perspektivnih tehnologij, ki je dosegla zavidljivo raven zanesljivosti in

    natančnosti, pa je tudi na podlagi opravljene analize in primerjave razvidno, da

    jim vseeno še veliko manjka, da bodo ustrezno kakovosten pripomoček v

    prevajalskem procesu.

    Ključne besede: elektronska prevajalska orodja, informacijsko-komunikacijska

    tehnologija, prevajanje, korpus, sistemi statističnega strojnega prevajanja, Google

    Translate, Microsoft Bing, spletni prevajalnik, glosar, računalniški program

  • ABSTRACT

    Translation is a very complex process in which the translator has to be familiar

    with many fields and has to be willing to gain new knowledge. One’s line of work

    is almost impossible without the use of information and communication

    technology, which provides many options for quicker and more effective but not

    any less qualitative work in one’s discipline. At the same time one is faced with

    new facts and challenges due to the haste of the developments to select the most

    appropriate option amongst all those that are available. It is important for the

    translator to make a critical judgment and assessment of the software, i.e. what

    does it offer, and when and what software to use. Ultimately one has to fulfill the

    expectations of target audience and norms of target culture. It matters whether one

    translates a text in the field of medicine or a weather forecast. The software also

    offers different support.

    Tools, available to the translator, are translation memories, terminology

    dictionaries, thesauruses, electronic dictionaries, corpuses, systems of statistical

    machine translation and glossaries. Graduation thesis approaches last three listed

    tools in detail. Thesis makes an interesting comparison between online translation

    services Google Translate and Microsoft Bing, and also glossary of computer

    specialist terminology as a program in a programming language Visual Basics,

    which we programmed ourselves. Although it may seem that especially online

    translators present one of the most highly potential technologies which achieved

    enviable level of reliability and accuracy, performed analysis and comparison

    clearly show that they are not nearly sufficient to be an adequately qualitative

    device in the translation process.

    Key words: electronic translation tools, information and communication

    technology, translation, corpus, systems of statistical machine translation, Google

    Translate, Microsoft Bing, online translator, glossary, computer program

  • KAZALO VSEBINE

    1 Uvod ............................................................................................................... 1

    2 Prevajalske tehnologije ................................................................................... 4

    2.1 Osnovni pojmi............................................................................................... 4

    3 Strojno prevajanje ........................................................................................... 7

    3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov9 3.1.1 Podatkovne baze pri strojnem prevajanju .............................................. 10

    3.1.2 Transferni pristop .................................................................................. 11 3.1.3 Pristop interlingua.................................................................................. 14

    3.2 Sistemi statističnega strojnega prevajanja .................................................. 15

    4 Korpusi in korpusno jezikoslovje ................................................................. 18

    4.1 Zgodovinsko ozadje korpusnega jezikoslovja ............................................ 18

    4.2 Definicija korpusa ....................................................................................... 19

    4.3 Vrste korpusov ............................................................................................ 22

    4.4 Karakteristike korpusov .............................................................................. 27

    4.5 Obdelava korpusov ..................................................................................... 31

    4.5.1 Označevanje korpusov ........................................................................... 32 4.5.2 Standardi za zapis korpusov .................................................................. 36

    4.6 Orodja za delo s korpusi ............................................................................. 39

    4.7 Korpusi za slovenščino ............................................................................... 43

    4.8 Evrokorpus in Evroterm.............................................................................. 55 4.8.1 Gradnja Evrokorpusa in Evroterma ....................................................... 56

    4.8.2 Intervju z Miranom Željkom (avtor Evrokorpusa in Evroterma) .......... 64

    4.9 Korpus nemškega jezika Cosmas ............................................................... 72

    5 Spletni prevajalniki in njihove značilnosti ................................................... 84

    5.1 Primerjava prevajalnikov Google Translate in Microsoft Bing.................. 95

    5.2 Rezultati primerjave .................................................................................. 114

    6 Slovensko-nemški glosar računalniških terminoloških izrazov ................. 121

    6.1 Funkcije in delovanje programa ............................................................... 122

    7 Zaključek .................................................................................................... 128

    8 Viri in literatura .......................................................................................... 130

    9 Priloga ......................................................................................................... 133

  • KAZALO SLIK

    Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika ................................. 23

    Slika 2: Evroterm ‒ primer vzporednega korpusa................................................. 26

    Slika 3: Primer iskanja s seznamom besed ........................................................... 40

    Slika 4: Primer konkordančnih nizov za iskano besedo „jezik“ ........................... 41

    Slika 5: Možnosti za nastavljanje parametrov pri iskanju po Novi besedi ........... 42

    Slika 6: Deset najpogostejših besed v korpusu Nova beseda ................................ 44

    Slika 7: Desno od konkordančnega niza se izpiše tudi oznaka, ki je hkrati vir

    besedila .................................................................................................................. 45

    Slika 8: Besedilno okolje iskanega niza (en stavek pred njim in en stavek za njim)

    ............................................................................................................................... 46

    Slika 9: Konkordančnik iKorpusa ......................................................................... 47

    Slika 10: Transkripcija govora pri iskanem nizu „informatika“ ........................... 49

    Slika 11: Seznam zadetkov pri iskanju pokrajinsko specifičnega glasu oz. fonema

    ............................................................................................................................... 50

    Slika 12: Iskanje narečnega izraza „priša“, tipičnega za Prlekijo ......................... 50

    Slika 13: Delež besed, ki so bile v korpus GigaFIDA vključene v posameznih letih

    (vir: http://demo.gigafida.net/Content/Images/About/Words.jpg) ........................ 52

    Slika 14: Vmesnik za iskanje po korpusu GigaFIDA ........................................... 53

    Slika 15: Rezultati iskanja gesla „računalnik“ ...................................................... 54

    Slika 16: Podatki v Evrokorpusu na dan 17. 5. 2012 (vir:

    http://evrokorpus.gov.si/evroterm.php?jezik=slov) .............................................. 56

    Slika 17: Polja s podatki o prevodu ...................................................................... 58

    Slika 18: Uporabniški vmesnik Evrokorpusa ........................................................ 59

    Slika 19: Izpis zadetkov pri iskanju po nizu „Evropska unija“ v Evrokorpusu .... 60

    Slika 20: Primer izvornega izraza, ki ima v ciljnem jeziku več pomenov, ki pa

    niso nujno sinonimi ............................................................................................... 61

    Slika 21: Uporabniški vmesnik Termikor ............................................................. 62

    Slika 22: Rezultat iskanja izraza „Informatik“ v korpusu ..................................... 63

    Slika 23: Miran Željko .......................................................................................... 65

    Slika 24: Prijavno okno za Cosmas II ................................................................... 73

    Slika 25: Omejitev iskanja na enega od devetih arhivov korpusov ...................... 74

    Slika 26: Iskanje besed ali besednih zvez v enem od korpusov ............................ 75

    Slika 27: Kartica različnih možnosti iskanja ......................................................... 76

    Slika 28: Opcije lematizacije ................................................................................ 76

    Slika 29: Omejitev iskanja na enega od virtualnih korpusov ................................ 77

    Slika 30: Možnost urejanja korpusa ...................................................................... 78

    Slika 31: Omejitev velikosti korpusa .................................................................... 79

    Slika 32: Rezultati iskanja po samo eni komponenti sicer stalne besedne zveze . 80

    Slika 33: Rezultati iskanja iskalnega niza „Europäische NICHT Union“ ............ 80

    Slika 34: Grafična podoba sintakse za iskanje po korpusu ................................... 81

  • Slika 35: Možnosti urejanja izpisa zadetkov ......................................................... 82

    Slika 36: Izpis zadetkov po desetletjih .................................................................. 82

    Slika 37: Izpis zadetkov po letih ........................................................................... 83

    Slika 38: Primer težav pri prevajanju nemškega pregovora v slovenski jezik ...... 85

    Slika 39: Primer prevoda pregovora iz slovenščine v nemščino........................... 85

    Slika 40: Napake pri prevajanju metafore iz nemškega v slovenski jezik ............ 85

    Slika 41: Primer nepravilnega prevajanja citata.................................................... 86

    Slika 42: Primer nepravilnega prevoda primere.................................................... 86

    Slika 43: Prevod lastnega imena, ki pa lahko pomeni tudi kaj drugega ............... 87

    Slika 44: Spletni prevajalnik Yahoo Babel Fish ................................................... 88

    Slika 45: Rezultat prevoda preprostega angleškega stavka v nemškega ............... 88

    Slika 46: Prevod istega stavka, tokrat z veliko začetnico in s končnim ločilom .. 89

    Slika 47: Prevod gornjega stavka iz angleščine v nemščino na Googlovi strani .. 90

    Slika 48: Prevod angleškega stavka v slovenskega............................................... 91

    Slika 49: Prevod nemškega stavka (ki je tudi prevod iz angleščine) v slovenski

    jezik ....................................................................................................................... 91

    Slika 50: Prevod zahtevnejšega stavka iz nemščine v slovenščino ...................... 91

    Slika 51: Rezultat prevajanja že dokaj zahtevnega besedila ................................. 92

    Slika 52: Rezultat prevoda stavka o omrežjih iz nemščine v slovenščino pri

    Microsoftovem prevajalniku Bing ........................................................................ 93

    Slika 53: Vstopno okno ob začetku dela s programom ....................................... 122

    Slika 54: Okno s seznamom gesel ....................................................................... 123

    Slika 55: Padajoči meni s seznamom gesel ......................................................... 123

    Slika 56: Primer prikaza terminov in njunih definicij ......................................... 124

    Slika 57: Okno za vnos novega termina .............................................................. 124

    Slika 58: Izpis vsebine tekstovne datoteke.......................................................... 125

    Slika 59: Primer interaktivne dejavnosti za popestritev dela s programom ........ 126

    Slika 60: Okno z obvestilom o pravilnem odgovoru .......................................... 126

    Slika 61: Obvestilo o ponovnem poskusu v primeru napačnega odgovora ........ 127

    Slika 62: Primer izvorne kode ............................................................................. 127

  • KAZALO TABEL

    Tabela 1: Primerjava transfernih sistemov ............................................................ 13

    Tabela 2: Primer pretvarjanja besed v številčno kodo (vir:

    http://www.lancs.ac.uk/fss/courses/ling/corpus/Corpus2/2FRA1.HTM) ............. 35

    Tabela 3: Pregled prevodov prevajalnikov Google Translate in Microsoft Bing iz

    slovenskega v nemški jezik v neposredni primerjavi ............................................ 95

    Tabela 4: Predlagani prevodi, vsebovani tudi v programu - glosarju ................. 133

  • KAZALO GRAFIKONOV

    Grafikon 1: Ujemanje prevodnih enot prevajalnikov Google Translate in

    Microsoft Bing ob neupoštevanju razlik v sklonu, številu itd. ........................... 118

    Grafikon 2: Ujemanje prevodov prevajalnikov Google Translate in Microsoft

    Bing glede na slovnične lastnosti ........................................................................ 118

    Grafikon 3: Ustreznost prevodov prevajalnika Google Translate....................... 119

    Grafikon 4: Ustreznost prevodov prevajalnika Bing .......................................... 119

  • 1

    1 Uvod

    Živimo v hitro spreminjajoči se družbi, t. i. družbi znanja, strokovnjaki pa

    sodobnost označujejo tudi kot informacijsko dobo. Dejstvo je, da s tem ne

    pretiravajo, saj je vpliv informacijskih in komunikacijskih tehnologij na naše

    življenje izjemen. Če si je pred 15 leti le še malokdo predstavljal, da bo imel

    danes že skoraj vsak otrok v osnovni šoli svoj mobilni telefon, je to danes splošno

    veljaven trend, ki se le še stopnjuje in intenzivira. Ne samo, da ima skoraj vsak

    otrok v osnovni šoli svoj mobilni telefon, marsikateri ima celo že dva. Da pri tem

    ne omenjamo, kaj vse ima še ob tem; denimo tablični računalnik, če se omejimo le

    na najbolj sveže trende. Treba je poudariti, da z navedenim želimo le karikirati,

    kakšen prepih so v našem življenju in življenju povprečnega državljana povzročile

    informacijsko-komunikacijske tehnologije (v nadaljevanju IKT). Na le-te smo se

    tudi že tako privadili, da si dejansko ne moremo več predstavljati življenja brez

    njih. Pa naj gre pri tem za enostavno uporabo interneta, kje nekdo želi le

    pregledati dnevne novice ali svoj predal elektronske pošte, ali pa spremljanje

    novih TV programov v shemi svojega kabelskega operaterja IP-televizije. Če so v

    prejšnji povedi navedeni primeri pokazatelj vpliva oz. prisotnosti IKT v našem

    prostem času, pa so lahko tudi pokazatelj vpliva IKT v našem poklicnem

    življenju. Preden se osredotočimo na ta vidik, naj omenimo še eno nezanemarljivo

    plat prisotnosti IKT v naši resničnosti – olajšajo nam marsikaj, pa naj bo to način

    komuniciranja in življenja oz. preživljanja prostega časa (čedalje več primerov je,

    da posameznik preživlja prosti čas ob računalniku in prisotnosti na socialnem

    omrežju, pri čemer mu to nenazadnje odtehta stik z neko osebo v živo) ali pa

    opravljanje določenih nalog (še do pred nedavnim precej futuristična predstava

    avtomatizirane hiše dobiva v informacijski dobi precej konkretne obrise).

    Nepredstavljivo je na primer, da smo še pred nekaj leti vse pisali na roko, zdaj pa

    nam tega več ni treba zaradi poplave pisarniških programov. Priča smo obilici

    informacij, s katerimi nas nenehno „bombardirajo“ tako stari konvencionalni

    mediji (časopisi, revije) kot novodobni mediji, denimo spletni portali. Spreminja

    se tudi človeška percepcija – če se določeno delo opravi s pomočjo tehnologije, se

    opravi hitreje, učinkoviteje, zanesljivejše. Vse to so vidiki, ki jih ne moremo

  • 2

    zanemariti niti pri vplivu IKT na človekovo poklicno življenje. Ravno tako za

    človekovo življenje doma in v prostem času velja, da je IKT v veliki meri

    spremenila podobo opravljanja skoraj vseh strokovnih področij. In eno izmed teh,

    kjer je prisotna v čedalje večji meri in v različnih oblikah, je tudi prevajalsko

    področje. Prevajalstvo kot stroka je nenehno podvrženo stalnim spremembam. Če

    vzamemo pod drobnogled denimo samo področje računalništva, ki se danes ne

    more identificirati s pojmom IKT, saj le-ta pomeni veliko več kot zgolj računalnik

    in njegove sestavne dele, je že to področje podvrženo hitremu razvoju, kar pomeni

    nove tehnologije, nove naprave, nove programe, nova opravila itd. Vse to pa

    seveda zahteva nova imena oz. nova poimenovanja, kar postavlja prevajanje pred

    svojevrsten izziv – skupaj z jezikoslovci in drugimi tvornimi (so)oblikovalci

    razvoja jezikovnega področja na določenem prostoru v določenem času. Ne

    smemo pozabiti, da prevajalcu pripada osrednja vloga prenašalca informacij iz

    izvornega v ciljni jezik, pri čemer mora ohraniti tehnične in kulturne informacije.

    Pred nekaj desetletji je bil slovar v tiskani obliki najpomembnejši pripomoček za

    opravljanje te funkcije, danes jih je na voljo veliko več, pri čemer velja poudariti,

    da tu klasični slovar v tiskani obliki še vedno igra pomembno vlogo, vendar ni več

    tako osamljen, kot je morda bil v preteklosti. Prevajalec ima na voljo poleg

    klasičnih slovarjev elektronske vire. Prednost le-teh pred klasičnim slovarjem je

    denimo ažurnost. Prej smo omenjali hitro nastajanje novih pojmov. Preden ti

    najdejo svoje mesto v določenem slovarju in se znajdejo na knjižnih policah, je

    elektronski slovar že uspešno posodobljen v relativno kratkem času. To pa ni

    edina prednost, druge (a nikakor nepomembne) so široka dostopnost, nižji stroški,

    pa še kakšna bi se našla. Glede na to, da je cena dostopa do interneta padla, da si

    ga danes v razvitem svetu lahko privošči vsak in da so vzporedno s tem padle tudi

    cene računalnikov, je to še en pomemben vidik – dosegljivost v rekordno kratkem

    času in to dobesedno iz domače dnevne sobe. Koliko lažje je na primer dandanes

    nekomu posredovati digitalno obliko nekega besedila na njegov računalnik v

    njegovem domu, preden je informatizacija doživela tak razcvet, preden denimo

    marsikdo sploh še ni slišal za elektronsko pošto, kaj šele Skype ali podobne

    tehnologije. Pa roko na srce, to ni tako daleč nazaj, denimo dve desetletji. Vse

    navedeno pomeni, da je IKT tudi na področje prevajanja prinesla veliko koristi, s

  • 3

    čimer se je delo za prevajalca močno poenostavilo in postalo učinkovitejše. Od

    vsakega prevajalca posebej pa je odvisno, kako si organizira lastno delo.

    Konkretno to pomeni, katere iz širokega nabora pripomočkov bo uporabil pri

    svojem delu. Na voljo ima pisano paleto le-teh. V nadaljevanju bomo posamezne

    predstavili in skušali strniti njihove prednosti oz. slabosti. Velja pa poudariti, da je

    izbor orodij odvisen od značaja dela in vrste besedila, ki ga posamezen prevajalec

    prevaja. Pričakovati je, da bo za prevajanje kratke dnevne novice za tiskovno

    agencijo uporabil manj resursov, ki so tudi manj kompleksni od prevajanja pravne

    pogodbe na nekaj straneh.

    Nove informacijsko-komunikacijske tehnologije omogočajo hitrejše in

    učinkovitejše povezave med pripadniki različnih jezikovnih skupin ter vse bolj

    intenzivne gospodarske in politične poteze združevanja v Evropi in po svetu

    (Vintar, 1999). Hkrati se s povečanim povpraševanjem po prevajalcih od njih

    poleg jezikovne kompetentnosti pričakuje in zahteva še strokovno poznavanje

    področja in terminologije, v zadnjem času pa tudi ustrezna znanja o sodobnih

    prevajalskih tehnologijah in orodjih, o čemer bomo več pisali v nadaljevanju.

    Dejstvo je, da so z vsemi zahtevanimi znanji kakovostne prevajalske storitve

    visoko cenjene, tega pa si marsikateri naročnik ne more privoščiti. Tako ni nič

    nenavadnega, da razvoj na področju računalniškega prevajanja že nekaj časa

    narekujejo veliki naročniki prevodov – multinacionalni koncerni, Evropska unija

    ipd. (Vintar, 1999)

  • 4

    2 Prevajalske tehnologije

    2.1 Osnovni pojmi

    Prevajanje je kompleksen proces, ki je sestavljen iz številnih podrejenih procesov

    in obsega različna opravila. Amparo Alcina (2008, 79) pravi, da razmerje med

    računalništvom (posledično informacijsko-komunikacijsko tehnologijo) in

    prevajanjem pravega razcveta ni doživelo z razvojem programske opreme za

    strojno prevajanje, pač pa z razvojem elektronskih slovarjev in terminoloških

    podatkovnih baz, s pojavom interneta in njegovih številnih možnosti za iskanje po

    virih in črpanje znanja iz njih ter s pojavom računalniško podprtih prevajalskih

    orodij.

    Proces prevajanja tako že dolgo ne temelji več zgolj na prevajalčevem znanju

    dveh (ali več) jezikov, pač pa na njegovi zmožnosti analiziranja in razumevanja

    odnosov med izvornim in ciljnim jezikom, da lahko na tak način tvori prevod, ki

    bo čim bliže izvornem jeziku, obenem pa bo izpolnjeval vse jezikoslovne zahteve

    in kulturne konvencije v okolju ciljnega jezika (Jekat in Massey, 2003).

    V procesu prevajanja se lahko uporabijo številna elektronska in računalniška

    orodja za izboljšanje kakovosti, učinkovitosti in nenazadnje same dinamike

    prevajalskega dela, to pa so nedvomno tudi najpomembnejše karakteristike

    prevajalskega produkta. Prevajalci bi morali poznati in uporabljati taka

    prevajalska orodja ter izkoriščati njihov potencial, saj s tem izboljšujejo sami sebe

    in kakovost svojega dela, zato jih moramo upoštevati kot integralni del

    prevajalčeve realnosti, ki jo oblikujejo globalizacija in potreba po pretoku

    informacij (Kučiš, 2010). Primer take smiselne in nujne rabe računalniških

    prevajalskih orodij je projekt prevajanja dokumentacije za potrebe Evropske unije

    (Kučiš, 2010). Računalnik je že nekaj časa nepogrešljiv za delo prevajalca,

    količina znanja in potreba po znanju za delo s prevajalskimi tehnologijami pa

    naraščata iz dneva v dan. Število računalnikov po svetu in njihovih uporabnikov v

    zadnjih letih skokovito narašča in se še ne ustavlja. To dejstvo in raznovrstnost

    oblik in formatov elektronskih dokumentov pa so vplivali tudi na razmah novega

    specializiranega področja, t. i. lokalizacijo (Alcina, 2008, 80). Slednja označuje

    prevajanje dokumentacije, vmesnikov in datotek za pomoč, ki spremljajo

  • 5

    računalniške aplikacije in programsko opremo, obenem pa Alcina sem prišteva še

    prevajanje spletnih strani. Stolze (1999, 159) pa definira lokalizacijo kot

    prilagajanje določenega izdelka (ali storitve) in pripadajoče dokumentacije ciljni

    kulturi določenega tujega trga za ponudbo na tem trgu. Stolze kot enega

    pomembnejših vidikov lokalizacije izpostavlja t. i. internacionalizacijo, pri čemer

    misli na univerzalno in vsestransko združljivo jedro programske opreme, ki

    podpira za določeno območje značilno kodo, kot so znakovni nabori, ločljivosti

    zaslonov, formati za datum in čas, vhodne podatke, ki jih vnašamo preko

    tipkovnice ali ukaznega načina, itd.

    Po Alcini (2008, 80) so prevajalske tehnologije (oz. strojno prevajanje (MT –

    Machine Translation) ali tudi računalniško podprto prevajanje (CAT – Computer

    Aided Translation)) nova disciplina, ki kombinira računalnike, programsko

    opremo za prevajanje in njihov nadaljnji razvoj. Špela Vintar (1999) meni, da je

    razlika med obema pojmoma zlasti v tem, da je računalniško podprto prevajanje

    za jezikovne profesionalce bolj zanimivo, saj se z orodji za strojno prevajanje

    ukvarjajo zlasti strokovnjaki, ki niso jezikovni profesionalci in se torej z jezikom

    ne ukvarjajo poklicno. Avtorja Jekat in Massey (2003) dodajata pojmoma strojno

    prevajanje in računalniško podprto prevajanje še pojem informacijskega

    menedžmenta, ki ga opišeta kot pripomoček pri razvrščanju in organiziranju

    potrebnih informacij, ki so na razpolago za izvajanje prevajalskega procesa.

    Avtorja navajata, da je tu pomemben vidik podatkovnih baz, ki nastajajo v

    prevajalskem procesu. To se pokaže kot koristno zlasti v primeru dolgih besedil,

    saj je tu s pomočjo tehnologij strojnega in računalniško podprtega prevajanja

    zagotovljena terminološka in formalna konsistentnost. Podatkovne baze, nastale v

    takem procesu, izboljšujejo različne vrste sistemov strojnega prevajanja, ki so že

    implementirani znotraj sistemov računalniško podprtega prevajanja in kjer se

    segmenti izvornega jezika že ujemajo z obstoječimi prevodi v podatkovni bazi.

    Alcina (2008, 81) našteva tudi dejavnike za razvrščanje orodij strojnega in

    računalniško podprtega prevajanja:

    stopnja avtomatizacije prevajalskega procesa,

    trenutek v prevajalskem procesu, v katerem se začnejo prevajalska orodja

    uporabljati,

  • 6

    potrebna raven računalniškega znanja,

    razmerje med orodji in prevajanjem, ter

    stopnja uporabnosti posameznega orodja za določen vidik prevajalskega

    procesa.

    Kučiš (2010) pa opozarja še na en pomemben vidik, in sicer na šest strokovnih

    kompetenc, ki naj bi odlikovale sodobnega prevajalca in ki jih kot take

    prepoznava tudi Generalni direktorat za prevajanje pri Evropski komisiji. Med te

    kompetence sodijo poznavanje jezika, terminologije, tematike, tehnologij,

    medkulturnih vidikov in vodstvene sposobnosti. Nadalje je za prevajalca

    pomembno, da navedene kompetence lahko dodatno razvija, in to v obeh jezikih,

    sem pa spada tudi sposobnost dela s prevajalskimi orodji, med katere lahko

    uvrstimo terminološke podatkovne baze, pomnilnike prevodov in orodja

    računalniško podprtega prevajanja.

  • 7

    3 Strojno prevajanje

    Tako IKT kot prevajalstvo sta podvržena nenehnim spremembam. Pri tem gre za

    procese, ki obe področji tesno povezujejo, saj je že od nekdaj cilj strokovnjakov z

    obeh področij razviti sisteme oz. tehnologije, ki bodo prevajalcem delo olajšale in

    jih pri njihovem delu podpirale. Če smo iskreni, tehnološki sistemi verjetno ne

    bodo nikoli v celoti nadomestili prevajalca, saj je jezik tako živa in raznolika

    tvorba, da bi jo le težko ujeli v stroju. Zato pa so lahko zelo koristni pripomočki.

    Besedna zveza, ki obe področji povezuje že dalj časa, pa je strojno prevajanje. Kaj

    točno razumemo pod pojmom strojno prevajanje? Jezikoslovka in raziskovalka

    Špela Vintar (1999, 3) piše, da izraz strojno prevajanje označuje računalniške

    sisteme za prevajanje naravnih jezikov, pri katerih je prevajalski proces do

    največje možne mere avtomatiziran. Pri tem jih deli na lastne eno- in večjezične

    leksikone, programe za morfološko in sintaktično analizo in sintezo, razreševanje

    večpomenskosti, prepoznavanje večbesednih semantičnih enot in druge

    kompleksne mehanizme, ki naj bi omogočali avtomatski prevod s čim manj

    napakami. Vintarjeva pri tem navaja, da vloga uporabnika pri takem procesu ni

    povsem odpravljena in omenja, da je človekovo posredovanje potrebno zlasti

    zaradi odpravljanja težav glede večpomenskosti, ki jo stroji ne zaznavajo. Jernej

    Vičič (2002) v svoji magistrski nalogi Statistično strojno prevajanje naravnih

    jezikov opiše strojno prevajanje preprosto kot samodejno prevajanje iz enega

    jezika v drugega. Pri tem izpostavlja težave pri takem prevajanju, saj bi moral

    računalnik poleg obeh jezikov poznati še sintakso, semantična pravila, slovnico,

    večpomenskost besed in fraz itd. Pri tem imamo dve možnosti, da računalnik

    „naučimo“ potrebnega znanja. Prva možnost je, da množica strokovnjakov za

    določen jezikovni par pripravi vse potrebno za naknadno procesiranje v

    računalniškem sistemu. Ta sistem je dober, a daleč najdražji in zamuden. Druga

    možnost pa je, da se računalnik sam nauči sintaktičnih in semantičnih pravil, tako

    da pregleda velike količine dvojezičnih, tj. vzporednih, besedil. Besedila seveda

    morajo biti natančni prevodi. Govora je o statističnem strojnem prevajanju,

    kateremu se bomo posvetili kasneje.

  • 8

    Arturo Trujillo (1999, 3) meni, da imata strojno prevajanje in prevodoslovje kot

    stroka skupne cilje. Pri tem se sklicuje na teorijo skoposa, ki da je nastala kot

    odgovor na naraščajočo potrebo po neliterarnem prevajanju. Teorijo skoposa

    opiše kot okoliščine oz. dejavnike, ki v nekem določenem kontekstu spremljajo

    prevajalski projekt oz. prevajalsko aktivnost. Teorija skoposa ob tem vključuje

    naročnika prevoda, funkcijo teksta, ki je odvisna od ciljne skupine bralcev in

    poudarja tudi pomen kulturnega okolja teh istih bralcev. Če postavimo ta dejstva v

    kontekst sodobnih komunikacijskih metod in sredstev, je skopos ali namen

    prevoda posredovanje vsebine v čim širšem pomenskem smislu (Trujillo, 1993,

    3).

    Jasno je, da so računalniki računski stroji. Pri tem gre sicer za podobnost s

    procesom prevajanja iz izhodiščnega v ciljni jezik, če se osredotočimo na primer

    prevajanja programske kode v kontekstu programiranja. Podobno kot morajo

    sodobni programski jeziki pretvoriti kodo, ki jo napiše človek – programer, v

    dolga zaporedja 0 in 1, da bo jezik programerja razumljiv računalniku, ki pač

    razume ta dvojiški zapis, mora tudi prevajalec pretvoriti besedilo v izvornem

    jeziku v ciljni jezik, ki bo razumljiv govorcu tega dotičnega jezika. Pri tem nastaja

    edinstvena razlika v okoliščinah, ki jih računalnik kot stroj ne more in ne zna

    upoštevati, da bi programsko kodo ustrezno prilagodil, saj je v končni fazi nima

    komu prilagajati. Prevajalec pa mora upoštevati vrsto okoliščin, ko se loteva

    prevoda, da bo razumljivo ciljnemu bralcu oz. ciljni publiki. Tu naletimo tudi na

    zgoraj obravnavano teorijo skoposa. Proces prevajanja si je tako podoben le do

    določene mere. Lahko bi rekli, da je določena razlika tudi v stopnji kreativnosti –

    ni treba, da je računalnik ustvarjalen, prevajalec pa skoraj mora biti oz. ima to

    sposobnost, da je lahko.

    Strojno prevajanje na splošnih domenah trenutno še ne dosega kakovosti

    prevodov drugih računalniških področij. Za opravljanje predstavljenih opravil

    mora računalnik „poznati“ izvorni in ciljni jezik. Poleg osnovnih jezikovnih

    pravil, kot so sintaksa, gramatika, sinonimi besed oz. fraz v obeh jezikih, mora

    sistem poznati še semantiko oz. pomen prevajanih sporočil (Vičič, 2002). Da mu

    to res uspe, mora biti zelo izpopolnjen.

  • 9

    3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov

    Pri pregledu se bomo oprli na Špelo Vintar1. Prve resne raziskave sta izvajala

    IBM in Georgetown University v ZDA v 50-ih letih 20. stoletja. Šlo je za

    prevajanje iz ruščine v angleščino, sistem pa je obsegal skromnih 250 besed in

    6 slovničnih pravil. Začetni zagon je nekoliko upadel v 60-ih letih, ko so se

    pojavile težave zaradi večpomenskosti na leksikalni ravni. Podpora projektom je

    bila v ZDA ukinjena, nadaljevale pa so se raziskave v Evropi. Evropska

    gospodarska skupnost je v 60-ih podprla projekt Systran, tj. prevajalski sistem za

    angleški in francoski jezik, po tem pa tudi projekt EUROTRA.

    Prvi zgodnji pristop k poskusom strojnega prevajanja je bil direkten, deloval pa je

    na podlagi dvojezičnega leksikona in s tem direktnega prevajanja med dvema

    jezikoma. V okviru projekta Systran je bil zato razvit transferni pristop, ki je bil

    sestavljen iz več modulov. Ta je razdelil prevodno enoto na povedni ravni, kjer se

    najprej analizira izhodiščna stavčna struktura, v drugi fazi se prevede v ustrezno

    strukturo ciljnega jezika, na koncu pa se generira ciljna prevodna enota v tretji

    fazi. Vzporedno s tem poteka proces oblikoslovne analize in sinteze. Iz projekta

    EUROTRA pa je znan pristop interlingua, ki pomeni prevajanje izhodiščne

    povedi v t. i. medjezik oz. univerzalno, jezikovno neodvisno strukturno in

    semantično ponazoritev stavčnih členov ter odnosov med njimi v odvisnosti od

    povedka. Če bi bilo vse idealno, bi se iz takega vmesnega jezika dalo urejati

    prevode v vse jezike sveta, žal pa se je stvar izkazala za daleč od preproste. Zato

    se je kasneje razvoj osredotočil na podobnosti med izbranimi jeziki, kjer je bilo

    lažje odpravljati napake. Vintarjeva navaja, da danes večina znanih sistemov

    temelji na transfernem pristopu, pri tem pa se pri boljših sistemih vse bolj

    uveljavljajo empirični pristopi. Tako se za razjasnjevanje skladenjske ali

    leksikalne večpomenskosti uporabljajo vzporedni korpusi, ki računalniku pri vsaki

    obstoječi negotovosti nudijo zbirko primerov iz resničnih besedil, na podlagi

    katerih se je sistem s pomočjo primerjave frekventnosti sposoben odločiti za

    prevodno ustreznico. Da danes prevladuje transferni pristop, meni tudi Arturo

    Trujillo (1999).

    1 Http://www2.arnes.si/~svinta/ui.rtf.

  • 10

    Velja, da je za večje jezike na voljo cel kup specializiranih programskih orodij,

    tako komercialnih kot prosto dostopnih, ki se med seboj sicer razlikujejo. Špela

    Vintar1 navaja, da imajo boljši med njimi posebne zbirke oz. leksikone za

    posamezna področja, kar pripomore k razreševanju problema večpomenskosti,

    obenem pa ti sistemi v različnih obsegih nudijo tudi hranjenje besedil. Ti

    programi nato pomagajo pri obdelavi novih besedil.

    In kje je na tem področju Slovenija? Vintarjeva1 navaja, da se je nekaj poskusov

    razvijanja sistema za strojno prevajanje odvilo na Institutu Jožefa Štefana, od

    komercialnih ustanov pa prednjači podjetje Amebis s svojim prevajalskim

    sistemom Presis. Vintarjeva sicer zastavlja zanimivo vprašanje, ali je taka orodja

    sploh smiselno razvijati pri nas in za naš jezik, saj da imajo tuji proizvajalci že

    potrebne izkušnje in znanja (sami bi temu dodali, da verjetno tudi več sredstev,

    kot bi jih lahko v te namene pridobila kaka slovenska ustanova), a obenem

    priznava, da je pridobivanje lastnih izkušenj za naš jezik vseeno zelo pomembno.

    3.1.1 Podatkovne baze pri strojnem prevajanju

    Trujillo pravi (1999, 86), da za učinkovito strojno prevajanje rabimo ustrezno

    oblikovane podatkovne baze. Omenja, da obstajata dve temeljni metodi za

    strukturiranje takih podatkovnih baz. Prva metoda je metoda polnjenja baze z

    vsemi možnimi pregibnimi oblikami določene besede oz. pojma. To pomeni, da bi

    denimo v bazo vnesli vse možne oblike spreganja določenega glagola; Trujillo

    sam navaja primer glagola igrati (ang. play). Druga možnost pa je, da v bazi

    hranimo samo koren besede, s pomočjo oblikoslovnih pravil pa nato izpeljujemo

    možne različice z različnimi priponami. Trujillo glagolu igrati dodaja angleške

    pripone -ed, -ing in -s (torej različice played, playing in plays). V tem drugem

    primeru bi se v bazi pojavil samo glagol play, ostale oblike pa bi dobili s

    kombiniranjem tega korena besede in ustrezne pripone. Vsak od pristopov ima

    svoje prednosti in slabosti. Pri polnjenju baze z vsemi možnimi oblikami glagola

    je dostop do posamezne besede hitrejši, saj ne zahteva nobenega dodatnega

    procesiranja. Pri tem pristopu se lahko prostor, ki ga zasedejo pregibne oblike,

    zmanjša z uporabo podatkovnih struktur, kot so denimo drevesa. Manj časa in

    denarja za pripravo zahteva tudi razvoj ustreznih morfoloških in skladenjskih

  • 11

    pravil za procesiranje in obdelavo podatkov v bazi, po drugi strani pa se porabi

    več časa in denarja za polnjenje baze z ustreznimi pregibnimi oblikami

    posameznega vnosa. Po Trujillu je največja slabost tega pristopa odsotnost

    morfoloških in skladenjskih pravil, ki so potrebna pri jezikih, kjer je veliko

    pregibanj in posledično tudi več različnih oblik. Vsekakor je lažje vnesti samo

    koren besede kot pa vse možne oblike neke besede. Pri drugem pristopu je torej

    treba vložiti veliko dela, napora, časa in denarja v ustrezno oblikovanje zahtevanih

    morfoloških in skladenjskih pravil. Pri tej tehniki se porabi tudi znatno manj

    pomnilniškega prostora kot pri prvi. Trujillo zaključuje, da je pod črto vseeno

    boljša metoda korena in pripon. Navaja, da je najboljši znan pristop z

    morfološkega vidika t. i. dvonivojski model, ki so ga razvili finski računalniški

    strokovnjak Kimmo Koskenniemi ter raziskovalca Robert M. Kaplan in Martin

    Kay (www.sil.org/pckimmo/two-level_phon.html, dostop dne 8. 4. 2012).

    3.1.2 Transferni pristop

    Kot je omenjeno v predhodnem besedilu, danes prevladuje transferni pristop.

    Trujillo (1999, 121-122) opisuje transferni sistem kot kompromis med

    učinkovitim izkoriščanjem virov t. i. sistemov interlingua in preprosto

    implementacijo direktnega pristopa. Avtor izpostavlja, da za splošen večjezični

    sistem število transfernih modulov narašča polinomsko glede na število jezikov.

    To pomeni, da je za n jezikov potrebnih vsaj [n(n-1)]/2 transfernih modulov. Do

    te enačbe Trujillo pride z naslednjo razlago: za vsakega od n jezikov obstaja (n-1)

    možnih ciljnih jezikov v popolnem večjezičnem sistemu. Če so moduli sposobni

    povratnega podajanja informacij in podatkov, se to število skrči za polovico.

    Trujillo prikaže to kot slabost transfernega pristopa, saj postane sistem na tak

    način dražji sorazmerno s številom vključenih jezikov. Navaja pa tri dejavnike, ki

    vseeno govorijo v korist transfernim sistemov:

    veliko sistemov je zgolj dvojezičnih, njihov osnovni namen pa je zgolj

    enosmerno prevajanje iz enega v drugi jezik;

  • 12

    kjer obstaja potreba po popolni večjezičnosti, je možno uporabiti t. i.

    vmesni jezik, v in iz katerega se opravijo prevodi; ter

    določene dele posameznih transfernih modulov je mogoče večkrat

    uporabiti, če imamo opravka s prevajanjem med jeziki, ki so si blizu.

    Trujillo kot primer navaja modul za transferno prevajanje iz angleščine v

    portugalščino, ki lahko vsebuje komponente, ki so združljive z modulom

    za prevajanje iz angleščine v španščino.

    Ena od lastnosti, ki medsebojno ločuje transferne sisteme, je način in globina

    opravljene analize. Po eni strani imamo sisteme, ki opravljajo zgolj prevod na

    besedni ravni, torej prevod posameznih leksikalnih enot. Po drugi strani pa imamo

    take, ki opravijo morfološko procesiranje in površinsko segmentiranje frazemov.

    Nekateri sistemi opravijo prevod na različnih nivojih jezikoslovne analize, pri

    čemer vsebuje vsak od nivojev lastne zaloge pravil in oblik za tvorjenje struktur v

    ciljnem jeziku (Trujillo, 1999, 122). Avtor deli transferne sisteme na tri skupine

    glede na njihovo teoretsko zasnovo, praktično uporabnost in glede na strategije, ki

    jih uporabljajo za obdelavo oz. procesiranje besedil. Te tri skupine so sintaktični,

    semantični in leksikalni transferni sistemi.

    Sintaktični transferni sistem temelji na sorodnostih in povezavah med strukturami

    povedi na t. i. površju. Sistemi delujejo s pomočjo t. i. rekurzivnih2 dreves tako v

    izvornem kot ciljnem jeziku in z uporabo transformacij enega drevesa v drugega.

    Algoritem za transformacijo iz enega drevesa v drugega je rekurzivni algoritem,

    ki se odvija od zgoraj navzdol. Na eni strani imamo vhodno stavčno strukturo in

    transferna pravila, ki se uporabijo za analizo vhodne strukture. Iz vhodne strukture

    se tvori izhodna struktura na drugi strani, šele nato se kliče transformacijski

    algoritem, in sicer rekurzivno, pri čemer uporabi tiste vrednosti transfernih

    spremenljivk, ki dajo ustrezne strukture v ciljnem jeziku (Trujillo, 1999, 123).

    Semantični transferni sistem je izpostavljen številnim dilemam in težavam zaradi

    različnih pomenov, ki jih imajo določene besede in besedne zveze. Jezikoslovci in

    računalniški strokovnjaki so razvili različne semantične transferne sisteme,

    2 Rekurzija je postopek, ki je definiran (določen, opisan) sam s sabo; rešitev problema, podana s

    samim problemom le nad manjšim obsegom podatkov. V opisu postopka rešitve uporabimo kar ta

    postopek. Če želimo priti do rešitve, ne moremo nadaljevati v nedogled. Potreben je ustavitveni

    pogoj (http://wiki.fmf.uni-lj.si/wiki/Rekurzija, dostop dne 9. 4. 2012). V programiranju je

    rekurzija klic določene funkcije za reševanje nekega problema znotraj iste funkcije.

  • 13

    Trujillo (1999, 135) pa izpostavlja t. i. sistem kvazi-logične oblike (ang. Quasi-

    Logical Form). Leksikalni transferni pristop pa spada med nerekurzivne tehnike.

    Sistem, ki ga Trujillo (1999, 148) poimenuje LexMT, vzpostavlja medjezikovne

    povezave na nivoju besed in besednih nizov. Osnovna prednost sistema je v tem,

    da se da take besedne pare dokaj preprosto in učinkovito preveriti s pomočjo

    dvojezičnih korpusov ali slovarjev. Transferna razmerja se razvijejo v taki obliki,

    ki je sorodna tisti, najdeni v dvojezičnem korpusu. Razmerja pa so uporabna tudi

    v smislu, da so do določene mere neodvisna od semantične in sintaktične teorije in

    se lahko prilagajajo drugim transfernim pristopom. V fazi analize sistem poišče

    semantična razmerja med besedami v izvorni povedi. Te besede, v podatkovni

    strukturi drevesa, predstavljena kot listi, se nato prevedejo v ciljni jezik z vsemi

    svojimi pomenskimi značilnostmi. Rezultat transferja je niz besed, ki s svojim

    pomenom predstavljajo poved v ciljnem jeziku, a njihov vrstni red ni nujno

    pravilen. To je naloga generatorja ciljne povedi, ki si pri tem pomaga z vgrajeno

    slovnico ciljnega jezika.

    Prednosti in slabosti strategij oz. različnih transfernih sistemov so prikazane tudi v

    spodnji tabeli (Tabela 1, prirejeno po Trujillo, 1999, 165).

    Tabela 1: Primerjava transfernih sistemov

    Strategija Prednosti Slabosti

    sintaktični

    sistem lažja analiza

    hitrejši razvoj slovnice

    lažje samodejno posploševanje

    kompleksna transferna pravila in interakcije

    drago vzdrževanje

    semantični

    sistem lažja transferna

    pravila

    druge aplikacije, ne le strojno prevajanje

    teoretsko naravnana semantika

    pomanjkljivo strokovno znanje

    potreba po prilagajanju glede na razvoj

    semantičnega področja

    leksikalni sistem transparentna transferna pravila

    lažje uvajanje transfernih modulov

    zahtevno vključevanje neleksikalnih informacij

    med transferjem

    lahko se zgodi, da je sistem pomanjkljiv

  • 14

    3.1.3 Pristop interlingua

    Trujillo (1999, 167) opisuje sistem interlingua v njegovi temeljni zasnovi kot

    sistem, v katerem ima vsak od jezikov modul, ki je odgovoren za analizo stavčnih

    struktur v skupno, t. i. vmesno fazo in za tvorjenje slovnično ustreznih ciljnih

    struktur. To je splošna arhitektura tega sistema. Število modulov v sistemu

    narašča linearno glede na število vključenih jezikov. Če se za vsak jezik denimo

    rabijo ločene komponente za analizo in za tvorjenje stavčnih struktur, je število

    potrebnih modulov za 11 jezikov 22. Sistemi interlingua se velikokrat pomešajo s

    pojmom KBMT (ang. Knowledge Based Machine Translation), tj. sistemom, ki

    vsebuje besedišče, povezano z določeno (specializirano) domeno, ali besedišče, ki

    odraža t. i. znanje resničnega sveta. Oba sistema imata svoje omejitve in eden ne

    more brez drugega. To velja posebej zato, ker je težko potegniti ločnico med tem,

    kar je izključno jezikoslovno znanje in kaj je nejezikovno svetovno znanje. Po eni

    strani mora sistem interlingua vsebovati dejstva o svetu in domeni diskurza, da

    lahko razrešuje dvoumnosti in pomanjkljivosti v dobesednem znanju določenega

    stavka. V ta namen rabi tudi nejezikovno svetovno znanje. Sistem interlingua

    temelji na skupnem jeziku, ki mora biti sposoben razumevanja izvornega jezika in

    njegovega pretvarjanja v ciljni jezik. Kognitivni jezikoslovci in strokovnjaki za

    semantiko so razvili formalizme za izražanje lingvističnih pomenov v smislu čim

    večje neodvisnosti od katerega koli točno določenega jezika. Ena takih različic je

    t. i. LCS (leksikalna konceptualna struktura). Trujillo (1999, 168) omenja sistem

    UNITRAN za jezikovno trojico angleščina-nemščina-španščina. Sistem analizira

    stavek v enem od naštetih jezikov in tvori različico LCS izvornega pomena. Nato

    iz tega vmesnega jezika tvori ciljno poved. Trujillo pri tem navaja primer:

    angleščina: Bill went into the house. (slovenščina: Bill je šel v hišo.)

    LCS: GO (BILL,TO(IN(HOUSE)))

    španščina: Bill entro a la casa.

  • 15

    3.2 Sistemi statističnega strojnega prevajanja

    Sistemi statističnega strojnega prevajanja so v ospredju zanimanja te naloge, ker

    bo pregled in primerjava računalniškega strokovnega izrazja temeljila na

    prevajalnikih, ki izhajata ravno iz tega sistema. Po Arturu Trujillu (1999, 210)

    sistemi statističnega strojnega prevajanja temeljijo na verjetnostnih in statističnih

    modelih prevajalskega procesa, osnovanih na obsežnih količinah dvojezičnih

    vzporednih korpusov. Po njegovem mnenju je osnovna ideja statističnega

    strojnega prevajanja iskanje tistih značilnosti dvojezičnih korpusov, ki so merljive

    oz. določljive in jih kot take lahko izkoristimo za čim natančnejše predvidevanje

    končnega prevoda. Značilnosti, ki so take, so denimo kookurenca oz.

    sopojavljanje dveh ali več besed v izvornem in ciljnem besedilu, relativna pozicija

    besed znotraj stavkov in povedi, dolžina stavkov in povedi itd. Po Jerneju Vičiču

    (2010, 48) so statistični prevajalski sistemi osnovani na parametričnih statističnih

    modelih, ki so naučeni na poravnanih dvojezičnih korpusih (učnih primerih).

    Namesto razdeljevanja stavkov po slovničnih pravilih iščemo splošne vzorce, ki

    se pojavljajo pri rabi jezika. Glavna prednost tovrstnih metod je po Vičiču ta, da

    so relativno neodvisne od jezika. Med glavne slabosti takih sistemov pa po Vičiču

    spadajo slab pregled nad delovanjem sistema, sistemske napake je zelo težko

    odpraviti, uvajanje lingvističnega znanja pa je praktično nemogoče ali vsaj zelo

    oteženo. Tehniko statistične obdelave besedil Vičič (2002, 14) navaja kot

    primerno pri velikih količinah besedil, ki edine ponujajo dovolj informacij o

    nekem jeziku oz. dovolj informacij za prevod med dvema jezikoma. Dejstvo pa je,

    da je matematična podlaga za statistično strojno prevajanje zelo zahtevna, zato do

    pred kratkim ni bilo zelo razširjeno. To se je spremenilo s pohodom

    informacijskih velikanov, kakršna sta Google in Microsoft, ki imata dovolj virov

    in denarja za močne in zmogljive sisteme za obdelavo takih obsežnih količin,

    obenem pa dovolj sredstev za obsežne podatkovne zbirke, ki jih taki sistemi

    zahtevajo.

    Že samo ime statistično strojno prevajanje pomeni, da je velikega pomena za to

    vrsto prevajanja statistika. Phillip Koehn (2010, 82) kot ponazoritev uporabe

    statistike pri strojnem prevajanju navaja poravnano zbirko besedil iz nemškega in

  • 16

    angleškega jezika, pri čemer bi denimo prešteli, kolikokrat se v eni ali drugi zbirki

    pojavi samostalnik Haus. Kot primer Koehn navaja, da bi denimo v naši

    hipotetični zbirki našli besedo Haus 10 000-krat, pri čemer je 8 000-krat

    prevedena v angleški house, 1 600-krat v building, 200-krat v home, 150-krat v

    household itd. S tem pa je ta problem zelo posplošen, saj je povsem zanemarjen

    vidik konteksta posameznih pojavljanj. Zato skušamo določiti stopnjo verjetnosti,

    kakšen prevod nam bo ponudil sistem za nemški samostalnik Haus. Koehn govori

    o funkciji pf : e -> pf(e), pri čemer je f tuja beseda (Haus), ki vrne verjetnost za

    vsak možen angleški prevod e, to pa nam pove, kakšna je stopnja verjetnosti

    določenega prevoda. Če se s to funkcijo vrnemo na zgornji primer števila

    pojavljanj različnih samostalnikov v angleščini, bi morala funkcija vrniti visoko

    vrednost, če je angleški samostalnik e pogost prevod. Enako velja, da mora

    funkcija vrniti majhno vrednost, če je možen prevod e zelo redek. Funkcija pa

    vrne vrednost nič, če je angleški prevod e nemogoč. V naši zbirki imamo sedaj

    10 000 pojavitev samostalnika Haus. V 8 000 primerih je ta samostalnik preveden

    v house; če delimo ti dve vrednosti, dobimo vrednost 0,8. Tako je

    pHaus (house) = 0,8. Enako bi lahko izpeljali stopnjo verjetnosti prevoda v ostale

    angleške prevode. Koehn (2010, 83) poimenuje to metodo tudi ocena maksimalne

    verjetnosti, saj maksimira stopnjo verjetnosti.

    Na tem mestu bomo se osredotočili še na en vidik statističnega strojnega

    prevajanja. Kot največjo težavo te vrste strojnega prevajanja izpostavlja Vičič

    (2002, 18) učenje na nepopolnih podatkih. Osnovni korpus ima določeno število

    dovolj dobro opisanih pravil in dovolj pogosto zastopanih besed ter pravil. Z

    večanjem korpusa pa uvajamo nove besede, pri čemer se odstotek slabo opisanih

    besedil in pravil ne manjša. Problem takih pomanjkljivih podatkov skušamo rešiti

    s pomočjo naprednih algoritmov, ki take podatke skušajo zakriti. Algoritmi

    upoštevajo predhodno znanje o problemu, izkušnje iz sorodnih področij ali pa celo

    povsem tujih področij. Šumne podatke izločamo s pomočjo zakonitosti v

    podatkih, z izločanjem ekstremov. Pri tem izločanju pa moramo paziti, da ne

    pretiravamo in preveč „porežemo korpusa“. Napake v učni bazi odpravljamo

    samodejno ali ročno s pomočjo strokovnjakov. Samodejne metode so hitrejše in

    enostavnejše, a nimamo popolnega nadzora nad delovanjem. Pomoč

  • 17

    strokovnjakov pa lahko precej zoži korpus in ponudi manjši, a bolj informativen

    korpus, ki je lažji za obdelavo, obenem pa še vedno dovolj dobro opisuje jezik.

    Naj na tem mestu omenimo samo še en pomemben vidik statističnega strojnega

    prevajanja, na katerega opozarjata tako Vičič (2002, 19) kot Koehn (2010, 85).

    Govorimo o t. i. poravnavi (ang. alignment), ki izhaja tudi iz direktne primerjave

    stavkov v dveh jezikih. Oglejmo si primer Jerneja Vičiča:

    Direktno prevajanje tu ne bi prineslo dobrega rezultata, a povezave med besedami

    vseeno obstajajo. Takšen niz povezav imenujemo poravnava. Vičič definira

    poravnavo kot par , kjer vsak par predstavlja povezavo med j-to (slovensko)

    besedo f in i-to (angleško) besedo e. Povezati želimo fi in ei, kjer ei ustreza fi v

    angleščini. Vseh povezav pa ne moremo odkriti z gotovostjo, zato postavi sistem

    parametrični model P(f, a| e), kjer je poravnava a skrita. Verjetnost P (f | e) lahko

    dobimo kot vsoto vseh poravnav e in f. Podrobneje se v matematične modele in

    formule pri sistemih statističnega strojnega prevajanja ne bomo spuščali,

    navedeno naj zadostuje kot droben, a nazoren prikaz kompleksnosti in

    sistematike, ki se skriva za na videz preprostimi in hitrimi sistemi te vrste

    strojnega prevajanja.

    A dog stands on the street.

    Pes stoji na cesti.

  • 18

    4 Korpusi in korpusno jezikoslovje

    4.1 Zgodovinsko ozadje korpusnega jezikoslovja

    Pri pregledu zgodovinskega ozadja in razvoja korpusnega jezikoslovja se bomo

    oprli na zapise Geoffreyja Leecha (2005, 29). Leech se vrača v petdeseta leta 20.

    stoletja in začenja pri slovitem jezikoslovcu Chomskem, ki je takrat menil, da so

    korpusi neustrezni. Chomsky je izjavil, da je vsak naravni korpus nujno izkrivljen.

    Nekateri stavki se po njegovem ne bodo pojavili, ker so povsem očitni, drugi, ker

    so nepravilni, spet nekateri pa, ker so nevljudni. Korpus, če naj bo naraven, bo

    tako hudo izkrivljen, da opis ne bo nič drugega kot zgolj seznam. Po trditvah

    Leecha (2005, 30) so nekateri strokovnjaki, sam jih imenuje utemeljitelje nove

    šole korpusnega jezikoslovja, začeli s svojim delom v senci glavnega toka.

    Leta 1959 je denimo Randolph Quirk objavil svoj načrt za korpus govorne in

    pisne britanske angleščine, korpus The Survey of English Usage (SEU), kot ga

    poznamo danes. Kmalu zatem sta Nelson Francis in Henry Kučera zbrala skupino

    jezikoslovcev z univerze Brown in skupaj so izdelali korpus Brown, ki je bil

    „knjižni vzorec“ tiskane ameriške angleščine „za uporabo s pomočjo digitalnih

    računalnikov“. Velik korak k sodobnemu korpusnemu jezikoslovju pa je leta 1975

    storil Jan Svartik iz skupine iz Lunda, ki je osnoval The Survey of Spoken

    English, kar je bil poskus napraviti govorjena besedila iz korpusa SEU, ki niso

    bila nikoli zapisana, računalniško berljiva. Vseeno pa je nastali korpus London-

    Lund (LLC) po Leechu še danes daleč najboljši vir za raziskovanje govorne

    angleščine. Tri desetletja po letu 1961 je korpusno jezikoslovje v novi

    računalniški različici postopoma širilo svoje področje delovanja in vpliv. Kar se

    tiče računalniške obdelave naravnega jezika, je postalo skoraj glavni tok. Sicer ni

    obudilo zahteve ameriškega strukturalnega jezikoslovja po samozadostnem

    korpusu, je pa prispevalo k temu, da je korpus postal priznan vir za sistematično

    iskanje podatkov ter prostor preverjanja jezikoslovnih hipotez (Leech, 2005, 31).

  • 19

    4.2 Definicija korpusa

    Kaj pa korpus sploh je? Po definiciji avtorjev Vojka Gorjanca in Darje Fišer

    (2010, 10) je korpus računalniška zbirka besedil oz. delov besedil, zbranih po

    enotnih kriterijih za namene različnih, predvsem jezikoslovnih raziskav. Po

    njunem mnenju je korpus danes elektronska, računalniško berljiva besedila zbirka.

    Le-te so enovite, notranje strukturirane in standardno označene glede na namen

    korpusa v skladu z obstoječimi standardi za njihovo gradnjo. Pri tem pa so korpusi

    lahko sestavljeni iz posameznih zaključenih statističnih enot, t. i. podkorpusov, ta

    termin pa se uporabi tudi, ko iz obstoječega korpusa izberemo besedila za potrebe

    korpusne analize, torej lahko pomeni tudi dinamično izbiro. František Ćermak

    (2005, 137) pa meni, da je jezikovni korpus notranje strukturirana in poenotena,

    navadno pa še označena in v celoto zaokrožena obsežna zbirka elektronsko

    obdelanih jezikovnih podatkov, pretežno v besedilni obliki in oblikovano za ciljno

    rabo, zaradi česar je korpus obravnavan tudi reprezentativno. Opozarja na

    zavajajoče razumevanje korpusa kot velike zbirke računalniško berljivih besedil.

    Ćermak opozarja, da torej korpus ni samo računalniški korpus, pač pa gre za

    jezikovni korpus. Po njegovem mnenju obstoj in smisel tvorbe korpusov izhajata

    iz dveh teoretičnih predpostavk, ki sta hkrati jezikovni dejstvi. Po prvi so različni

    podatki v korpusu v svoji besedilni podobi in uporabi, kar omogoča njihov

    vsestranski objektivni študij in induktivne sklepe, po drugi pa obsežnost načrtno

    grajenega korpusa do najmanjše možne mere zmanjšuje možnost, da bi po čistem

    naključju prevladala izjemna in obrobna raba jezikovnih enot nad osnovno in

    tipično. O korpusih kot zbirkah besedil v elektronski obliki govorijo tudi Silvia

    Bernardini, Dominic Stewart in Federico Zanettin (2003, 1). V zvezi s tem

    omenjajo tudi korpusno jezikoslovje. Po njihovem mnenju je to področje, ki se je

    dodobra uveljavilo in se razvilo tudi kot metodologija. O korpusnem jezikoslovju

    govori tudi Jana Zemljarič Miklavčič (2008, 24). Po njej izhaja ta domena iz

    enakih predpostavk kot besediloslovje, da je namreč besedilo glavni nosilec

    pomena. V povezavi s tem avtorica oriše tudi razmerje med korpusom in

    besedilom ter se pri tem sklicuje na Togninija Bonellija. V skladu s tem je korpus

    zbirka besedil, korpusna analiza pa je lahko razumljena kot raziskovanje jezika,

    kakor je ta realiziran v besedilih. O korpusnem jezikoslovju govori tudi Nataša

  • 20

    Logar (2009, 320). Po njenem mnenju so korpusi predmet raziskovanja in vir

    podatkov za jezikoslovne opise in utemeljitve. Korpusno jezikoslovje naj bi v

    skladu s tem izhajalo iz spoznanja, da je jezik v prvi vrsti družbeni pojav, kot tak

    pa se manifestira izključno v besedilih, ki jih je mogoče napisati, opisati in

    analizirati. Logarjeva meni, da je korpusno jezikoslovje danes razvito zlasti na

    ravni različnih leksikalnih analiz, v tem okviru je postalo osnova vsakršni sodobni

    leksikografiji. Analiza korpusa lahko torej razkrije dejstva o jeziku, na katera

    morda prej sploh ne bi pomislili, da bi jih iskali. Tudi Ćermak (2005, 138) meni,

    da lahko korpusi z možnostjo obdelave množice podatkov in delo z njimi vodijo

    ne le k velikemu pospeševanju in olajševanju jezikoslovnega dela, pač pa na tak

    način pridobljeni podatki lahko predstavljajo najbogatejši in najbolj realen vir

    jezikovnih spoznanj sploh. Zato je tudi jezikovni korpus pogoj za resnično

    revolucijo pri delu z jezikom, tako da o zadnjem desetletju 20. stoletja upravičeno

    govorimo kot o desetletju korpusnega jezikoslovja. Korpus je lahko po Ćermaku

    (2005, 139) vir podatkov za delno ali priložnostno ciljno uporabo, lahko služi za

    raziskovalno ali slovarsko delo na različnih področjih, je pa tudi središčni in trajni

    raziskovalni objekt popolnoma posebnega samostojnega področja. Ćermak pa

    meni, da je korpusno jezikoslovje del jezikoslovja, ki sistematično obravnava

    korpus in njegova orodja. Wolfgang Teubert (2005, 103) meni, da je korpusnemu

    jezikoslovju, ki je bilo dolgo časa zgolj metodologija, šele zdaj pripisana ustrezna

    vloga ločenega raziskovalnega izhodišča. Po njegovem mnenju raziskuje jezik

    izključno na podlagi besedil, katerih celota tvori diskurzni univerzum in ki jih za

    doseganje ciljev raziskovanja združujejo v uporabne korpuse. Izpostavlja, da se

    korpusno jezikoslovje zanima predvsem za pomen, tj. pomen besed, fraz,

    segmentov besedil, ki se obravnava v diskurzu in manifestira kot jezikovna raba

    in parafraza. Prevodi so torej parafraze besedil v drugih jezikih. Večjezično

    korpusno jezikoslovje razvija postopke za luščenje praktičnega jezikovnega

    znanja prevajalca, ki je vsebovano v vzporednih korpusih in omogoči njihovo

    uporabo pri delno avtomatiziranem prevajanju. Teubert (2005, 104) kritizira

    dejstvo, da so bolj kot prispevek, ki ga lahko analiza korpusov prispeva k našemu

    vedenju o jeziku, v ospredju vprašanja zgradbe korpusov, njihovega zapisa ali

    označevanja ali pa denimo vprašanja standardizacije v smislu vsebinskih in

  • 21

    formalnih kategorij korpusov. Spomni na dejstvo, da je bil to cilj prve generacije

    korpusnih jezikoslovcev, pri čemer je že v 60-ih letih 20. stoletja Institut za

    nemško jezik (Institut für deutsche Sprache) začel z raziskovanjem korpusov v

    smislu dokumentiranja jezika. Tako Teubert (2005, 108) kot Logarjeva (2009,

    320) menita, da korpusno jezikoslovje širi naše jezikovno znanje, s tem da

    kombinira tri postopke, in sicer (proceduralno) identifikacijo jezikovnih podatkov

    v korpusu na podlagi določitve kategorij, korelacijo jezikovnih podatkov s

    pomočjo statističnih metod in na koncu (intelektualno) interpretacijo rezultatov.

    Prva dva koraka naj bi bila izvedena kolikor se da avtomatizirano, tretji pa

    namerno. Interpretacije so namreč dejanja in jih zato ni mogoče spraviti v

    algoritme. V tem pojmovanju pa leži bistvena razlika med korpusnim in

    računalniškim jezikoslovjem. Slednje jezik razume zlasti proceduralno (primer

    programiranja v strukturiranih programskih jezikih, kakršen je C ali C++).

    Korpusi so po Teubertu (2005, 108) presek diskurznega univerzuma, ki virtualno

    vsebuje vsa komunikacijska dejanja enojezične (na primer nemške), dvojezične

    (na primer južnotirolske) ali večjezične (na primer zahodnoevropske) jezikovne

    skupnosti, ki jo želimo definirati. Besedila, ki jih shranjujemo ali naredimo

    dostopna v korpusih, so načeloma minljiva – celo tiskana besedila, kot so denimo

    časopisna, v kratkem času več niso na voljo za splošno uporabo. Teubert

    utemeljuje, da je diskurzni univerzum preveč obsežen, da bi ga lahko v celoti

    naredili za predmet jezikoslovne analize, zato ga je treba zgostiti v že omenjeni

    presek oz. zreducirati na korpus, s katerim je mogoče delati. Pri tem pridejo v

    poštev parametri, kot so jezik (sociolekt, strokovni jezik ipd.), časovni izrez,

    religija, situacija, zunanje in notranje značilnosti besedila ter veliko več. Še eno

    prednost vidi Teubert (2005, 109) v korpusih: v njih so besede vključene v svoje

    kontekste. Tako lahko korpusno jezikoslovje še posebej dobro dokumentira

    postopno spreminjanje pomena, saj je kontekst tisti, ki v širokih področjih

    besedišča definira konkretni pomen.

    Korpusi pa so v jezikoslovno delo vnesli besedilno gradivo, ki je količinsko in

    kakovostno preseglo predračunalniške gradivne zbirke, hkrati pa pokazalo na

    njihove omejitve in izpostavilo pomanjkljivosti. Menita, da na korpusu temelječi

    jezikovni opisi v svojem izhodišču prisegajo na jezikovno realnost, tudi ob

  • 22

    nepričakovanih rezultatih ne podlegajo intuiciji, vključujejo več podatkov o

    tipičnem besednem okolju in sploh podatkov o komunikacijski realnosti. Danes pa

    so korpusi tudi na številnih jezikoslovnih področjih bolj kot komplementarni

    pristop samostojna raziskovalna izhodišča (Gorjanc, Fišer, 2010, 10).

    4.3 Vrste korpusov

    Pri vrstah korpusov se bomo najprej osredotočili na različne definicije določenih

    vrst korpusov in njihova teoretska izhodišča, v nadaljevanju pa bomo izvedli

    pregled nekaterih predstavnikov posameznih vrst korpusov. Vojko Gorjanc in

    Darja Fišer (2010, 11) delita korpuse glede na izhodišča evropske pobude

    EAGLES (http://www.ilc.cnr.it/EAGLES/typology/typology.html, dostop

    14. 4. 2012). V skladu s tem se korpusi delijo na spodaj naštete skupine.

    Referenčni korpusi so temeljna vrsta korpusov. Ti naj bi predstavljali celovito

    podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi

    najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne

    raziskave predvsem s področja slovnice in slovarja, vse bolj pa tudi vseh na

    jezikovni realnosti temelječih jezikoslovnih ter tudi drugih humanističnih in

    družboslovnih raziskav. Za njihovo gradnjo se v izhodišču predvideva mreža

    kriterijev za zajemanje različnih besedil v korpuse glede na vrsto predvsem

    besediloslovnih in sociolingvističnih kriterijev. Ker so veliki in obsežni, so prav

    zato razdeljeni na podkorpuse, za katere pa spet veljajo kriteriji zajemanja besedil

    vanje. Med slovenskimi korpusi sta taka na primer FIDA in FidaPLUS. Velikost

    referenčnega korpusa je sicer zelo težko določljiva, poleg tega pa se razumevanje

    velikosti spreminja praktično iz dneva v dan. Za slovenske in svetovne razmere je

    danes velik referenčni korpus FidaPLUS, ki obsega skoraj 621 milijonov besed

    (pojavnic) (Zemljarič Miklavčič, 2008, 25). Referenčni korpus pa je glede na

    definicijo Špele Vintar (2008, 79) enojezikovna zbirka besedil, ki predstavlja

    celovito podobo nekega jezika in tako služi kot izhodišče za temeljne jezikovne

    raziskave.

  • 23

    Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika

    Referenčni korpusi danes vsebujejo transkripcijo govora, sicer pa so govorni

    korpusi zaradi bistveno drugačne metodologije oblikovani samostojno, znotraj

    referenčnih ostanejo ločene enote, največkrat v obliki podkorpusov. Za referenčne

    korpuse so v glavnem zanimive samo slovnično-leksikalne jezikovne lastnosti; ne

    gre torej za korpuse, namenjene raziskavi govora, ampak za zajetje posebnosti

    govorne komunikacije v referenčnih priročnikih. Korpusi za potrebo tako

    fonetično-fonoloških raziskav kot tudi govornih tehnologij se oblikujejo posebej

    kot t. i. korpusi govora. Včasih pa gre pri tem zgolj za zajemanje posameznih

    stavkov namesto celotnih besedil, zato govorimo tudi o govornih zbirkah. Sodobni

    govorni korpusi danes vzporedno s transkripcijo shranjujejo tudi avdio- oz.

    videozapis (Gorjanc, Fišer, 2010, 12). Govorni korpusi tako nastajajo kot studijski

    posnetki, zajemajo samo izbrane (prebrane) stavke (Zemljarič Miklavčič, 2008,

    26). V zvezi s tem govori Špela Vintar (2008, 80) o mediju kot kriteriju za

    razvrščanje korpusa. Medij je v tem primeru pisno ali govorno besedilo.

    Vintarjeva pri tem opozarja tudi na t. i. hibridne medije na področju elektronske

    komunikacije, ki v pisni obliki kažejo izrazite značilnosti govornih besedil

    (denimo sporočila SMS, forumi, blogi, tehnologije za čvekanje po internetu

    (Twitter, Facebook, chat, …)).

  • 24

    Naslednja skupina korpusov so specializirani korpusi. Ti predstavljajo jezik v

    točno določeni rabi, gre torej za izbor besedil v določeni rabi, izbor pa je določen

    z namenom takega korpusa. Metodologija gradnje se v veliki meri prekriva z

    referenčnimi, zaznamujejo pa jo posebnosti, denimo homogenost, odvisno od

    namena korpusa (Gorjanc, Fišer, 2010, 12). Špela Vintar (2008, 79-81) pa pravi,

    da je specializirani korpus reprezentativni vzorec jezikovnih zvrsti v okviru

    določenega strokovno, socialno in geografsko opredeljenega specialnega jezika.

    Specializirane in referenčne korpuse pa Vintarjeva uvršča v skupino korpusov, ki

    se delijo glede na obseg jezikovne zvrsti. Vintarjeva izpostavlja, da med

    specializiranimi korpusi prevladujejo angleški; tako obstajajo korpusi s

    transkripcijami pogovorov med potovalnimi agencijami in strankami, pogovori

    med kontrolorji letenja in piloti, strokovni korpusi akademskih člankov in

    doktorskih disertacij, pa tudi korpusi posameznih sociolektov, na primer

    londonskega najstniškega govora COLT. Ob tem Vintarjeva poudari, da so

    specializirani korpusi zelo pomembni za potrebe terminologije. Za nekatere

    metode pri ugotavljanju terminološke ustreznosti pa potrebujemo za primerjavo še

    splošnojezikovni, v idealnem primeru referenčni korpus jezika.

    O vzorčnih korpusih (Gorjanc, Fišer, 2010, 12) govorimo, ko sestavimo korpus

    le iz besedilnih fragmentov in ne celotnih besedil. Prvi taki korpusi so se v težnji

    po zajemanju čim bolj raznoterih besedil odločali za načelo vzorčenja, tj. enako

    dolgih fragmentov besedil različnih zvrsti in vrst. Metoda se je z jezikoslovnega

    vidika izkazala za neustrezno, ker besedilo kot fragment izgubi status besedila,

    korpus pa zaradi posebnosti posameznih delov besedila na zajame nekaterih

    značilnosti besedilnih vrst. Z razvojem tehnologije, ki je omogočala zajemanje

    velikih količin besedil, so tovrstni korpusi postali manj aktualni.

    Špela Vintar (2008, 80) deli korpuse tudi glede na označenost. Glede na raven

    jezikoslovne analize jih lahko razdelimo na neoznačene, oblikoskladenjsko

    označene, polno razčlenjene (kjer so besedila označena s polno skladenjsko

    strukturo) in druge, saj se glede na namen korpusa pogosto označujejo tudi druge

    jezikoslovne prvine.

    Naslednja skupina po Gorjancu in Fišerjevi (2010, 12-13) so statični in

    dinamični korpusi. Vsak korpus v trenutku dokončne izgradnje postane statična

  • 25

    pojavnost, da pa bi čim bolj sledili jezikovni dinamiki, se razmišlja o dinamičnem

    korpusu. Ta bi spremljal jezikovno dinamiko in odseval trenutno podobo jezika.

    Tako lahko v korpus novo gradivo nenehno dodajamo, pri čemer so parametri za

    zajemanje tako velikih količin ohlapni, dinamičnost jezika pa tako spremljamo s

    pomočjo neke vrste megakorpusa. Drugi način dodajanja novega gradiva pa bi

    pomenil sočasno izločanje starega v t. i. diahrone podkorpuse, pri tem pa bi

    zagotavljal bolj ali manj enaka razmerja med besedili. Problemov kakovosti

    jezikovnih podatkov namreč naj ne bi zagotavljala samo količina, ampak tudi

    zgradba korpusa. Aktualna pa je tudi vmesna možnost s kombinacijo

    megakorpusa in robustnih parametrov vključevanja besedil in dela korpusa, za

    katerega veljajo natančno izdelani parametri vključevanja besedil.

    O časovnem vidiku govori tudi Špela Vintar (2008, 80). Korpus namreč lahko

    predstavlja jezik določenega obdobja v zaključeni besedilni zbirki (statični) ali pa

    je zasnovan kot spremljevalni (dinamični) korpus. V zvezi s tem imamo tudi že

    omenjene diahrone korpuse, ki so prerez zgodovine jezika in zajemajo besedila

    širšega časovnega razpona.

    Glede na jezik Špela Vintar deli korpuse na eno- in večjezikovne. Slednje pa deli

    še naprej na vzporedne in primerljive. Po njenem vsebuje vzporedni korpus

    poravnana besedila v izvirniku in najmanj enem prevodu, primerljivi korpus pa

    vsebuje besedila, ki so primerljiva glede na žanrsko opredelitev, register, temo

    ipd. (2008, 78). Primerljivi korpus je po Gorjancu in Fišerjevi (2010, 13) zanimiv

    za kontrastivne študije, ker vsebuje v prejšnjem stavku omenjena primerljiva

    besedila v različnih jezikih. Idealen zgled primerljivega megakorpusa bi bil

    korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po

    prekrivnih izhodiščnih načelih, pri čemer bi ta načela morala biti jezikovno

    neodvisna. O primerljivih dvojezičnih korpusih pa govorijo tudi Zanettin,

    Bernardini in Stewart (2003, 6), saj omogočajo prevode z boljšim razumevanjem

    izvornega in ciljnega jezika, ker lahko primerjamo terminologijo, frazeologijo in

    besedilne konvencije med različnimi jeziki in kulturami. Avtorji dodajajo, da so

    taki primerljivi korpusi ponavadi majhni po obsegu in specializirani.

  • 26

    Slika 2: Evroterm ‒ primer vzporednega korpusa

    Vzporedni korpusi so po mnenju Gorjanca in Fišerjeve (2010, 13) zelo zanimivi

    za prevodoslovje. Ti korpusi postavljajo poravnano izhodiščno besedilo in prevod

    oziroma prevode istega besedila v drug jezik oz. druge jezike. Poravnani korpus

    omogoča vpogled v prevajalske odločitve in strategije prevajanja. Zagotavljanje

    jezikovnih virov je za take korpuse zahtevnejše, zato se pri tem velikokrat

    odpovemo načelom reprezentativnosti. Pri gradnji se odloča podobno kot pri

    korpusih podjezikov samo za segment; odločitev za samo na primer določeno

    področje ali določen besedilni tip pa nam z vidika prevajalstva da tudi boljše

    rezultate. Gorjanc in Fišerjeva kot primer vzporednega slovensko-angleškega

    korpusa navajata korpusa ELAN in TRANS, Špela Vintar pa temu dodaja še

    Evrokorpus (2008, 81).

    Če se vzporedni korpus uporabi v kombinaciji z enojezičnim korpusom izvornega

    in ciljnega jezika, je možen vpogled v značilnosti besedil, nastalih v okviru

    prevajanja iz enega jezika v drugega in obratno. Gre torej za neke vrste dvosmerni

    vzporedni ali t. i. recipročni korpus (Zanettin, Bernardini, Stewart, 2003, 6).

    Vintarjeva (2008, 81) navaja še nekaj specializiranih korpusov v Sloveniji,

    nastalih za namene terminografije:

    Korpus DSI je korpus s področja informatike, ki vsebuje zbornike srečanj

    Dnevi slovenske informatike od leta 2003 naprej. Ta se sproti dopolnjuje

  • 27

    s svežimi zborniki. Ker je informatika s terminološkega stališča izredno

    živahna veda, je korpus dragocena podpora pri terminografskem projektu

    Islovarja.

    Korpus slovenskih vojaških besedil vsebuje 5,5 milijona besed iz

    različnih serijskih in drugih publikacij s področja vojaštva (Naša

    obramba, Slovenska vojska itd.).

    KoRP je sinhroni enojezični korpus pisnih besedil odnosov z javnostmi.

    Obsega 1 824 699 besed in zajema besedila od leta 1994 naprej. Je

    rezultat 1. faze projekta Slovar slovenskega izrazja odnosov z javnostmi,

    katerega izvajalec je Center za družboslovnoterminološko in publicistično

    raziskovanje Fakultete za družbene vede, naročnik in glavni financer pa je

    podjetje Pristop d.o.o.

    4.4 Karakteristike korpusov

    Vsaki zbirki, zbrani in berljivi na računalniku, lahko pripišemo določene lastnosti.

    Vojko Gorjanc in Darja Fišer (2010, 14-15) se naslanjata na dokumentacijo

    projekta EAGLES in govorita o v nadaljevanju naštetih karakteristikah.

    Prva je količina. Količinski podatek o korpusu je njegova velikost. Velikost se

    izraža v številu besed. Pri tem podatku gre v bistvu za podatke o absolutnem

    številu izraznih enot korpusa, torej o številu enot med presledkoma. To

    imenujemo pojavnica (ang. token), za razliko od podatkov o različnih besedilih, za

    kar Gorjanc in Fišerjeva uporabita poimenovanje različnica (type). Korpusi so se

    skozi leta seveda povečevali glede na število vključenih enot. Tako tudi danes

    referenčni korpus želi zajeti čim več besedil. Ni pa pomembna le velikost samega

    korpusa, pač pa tudi velikosti posameznih komponent, ker so tudi razmerja med

    deli korpusa zelo pomembna. V korpusu govora pa lahko pričakujemo tudi

    nekatere različnice, ki jih v pisnem korpusu denimo ni, poleg tega pa lahko med

    različnice uvrstimo tudi polverbalne izraze, na primer „mhm“ ali „ə“ (Zemljarič

    Miklavčič, 2008, 26). Glede velikosti je precizna tudi Špela Vintar (2008, 82-83).

    Po njenem mnenju vprašanje o velikosti korpusov vključuje tudi število besedil iz

  • 28

    posamezne zvrsti, število vzorcev iz posameznega besedila in število besed v

    vzorcu. V zvezi s tem izpostavlja pojem reprezentativnosti.

    Reprezentativnost je tista lastnost korpusa, s katero ta predstavlja ustrezen

    vzorec jezika ali strokovnega jezika, ki ga opazujemo, izhaja pa iz jedra vseh

    korpusnih pristopov, ki je sklepanje o jeziku na podlagi vzorca. O tem, kdaj lahko

    korpus upravičeno obravnavamo kot reprezentativen vzorec opazovane

    populacije, v tem primeru jezika, je razpravljalo že veliko avtorjev. Pri raziskavah

    jezikovnih zvrsti in jezikovne norme je uravnotežena sestava korpusa temeljni

    dejavnik, saj so v nasprotnem primeru pogostostna razmerja v korpusu

    zamaknjena in onemogočajo vrednotenje statističnih rezultatov. Tako je velikost

    pomemben vidik reprezentativnosti in Vintarjeva navaja študije, v katerih avtorji

    ugotavljajo, da je za ugotavljanje lastnosti določene jezikovne zvrsti dovolj že 10

    besedil, od vsakega besedila pa zadošča naključen vzorec v dolžini 1 000 besed.

    Za leksikografske namene pa se nasprotno rabi veliko več besedilnega materiala,

    denimo od 100 milijonov besed naprej. Drug vidik reprezentativnosti je

    raznoterost. Gre za raznoterost v smislu zastopanosti čim večjega števila različnih

    zvrsti in registrov. V tem smislu je splošen jezik v bistvu povsem abstrakten

    pojem, saj ima vsaka besedilna vrsta oz. vsak register lastne vzorce jezikovne

    rabe. Raznoterost pa pomeni tudi ustrezno vključevanje dialektalnih ali

    regionalnih jezikovnih zvrsti, pa tudi uravnoteženost v smislu tematskih področij

    (Vintar, 2008, 82). Avtorica pa opozarja še na en vidik, in sicer glede

    reprezentativnosti specializiranih korpusov. Taki korpusi naj bi čim bolj odsevali

    določeno stroko in naj bi tako vsebovali veliko število terminoloških izrazov. Prva

    težava, ki se pojavi, je opredelitev strokovnega področja, saj so danes meje med

    strokami in disciplinami pogosto nejasne ali zabrisane. Tako prihaja do

    prekrivanj, kar se kaže tudi v večpomenskosti določenih strokovnih izrazov. To

    prekrivanje je zelo izrazito v samih besedilih, ki služijo kot vzorec za določeno

    področje. Tu posamezna besedila uporabljajo (po Vintarjevi gostujoče) izrazje. Pri

    korpusni obdelavi se običajno osredotočimo na določeno področje, zato so izrazi

    iz drugih področjih t. i. šum, četudi so morda informativni za besedilo. Korpusna

    terminografija zato zahteva besedila, ki so čim tesneje povezana s področjem in ne

  • 29

    vsebujejo veliko takih „gostujočih“ izrazov iz drugih področij (Vintar, 2008, 83-

    84).

    Naslednja lastnost korpusov je kakovost. Ta je določena z avtentičnostjo besedil

    (Gorjanc, Fišer, 2010, 14‒15). Besedila v korpusu morajo biti del realne pisne,

    govorne ali elektronske komunikacije. Morebitne vplive na nerealnost

    komunikacije je potrebno v korpusu označiti. Tako je denimo pri transkripcijah

    govora potrebno označiti, ali je bil dialog posnet z vednostjo udeležencev, saj

    zavedanje snemanja pomeni simuliranje govorne situacije in s tem njeno

    nerealnost. Kakovost korpusa je s tem odvisna tudi od avtentičnosti zapisa

    korpusa, ne le od avtentičnosti besedil. Korpus v bistvu ni nikoli sistematično

    „očiščen“ napačnih oz. variantnih zapisov in nenormativne rabe. Če bi korpus na

    tak način „čistili“, bi lahko uničili dragocene, jezikoslovno relevantne informacije

    (na primer podatke o razmerju jezikovne rabe do jezikovne norme, t. i. ortografske

    napake itd.).

    Naslednja lastnost korpusov je dokumentiranost. Pod tem pojmom razumemo

    urejenost spremljevalnih podatkov o besedilu, kot so avtor, čas nastanka, mesto

    objave itd., poleg tega pa tudi ločenost teh podatkov od samega besedila.

    Organizacijo in urejenost teh podatkov pa dosegamo s standardi za zapis in

    označevanje takih podatkov.

    Po dokumentaciji EAGLES imamo še eno lastnost korpusov, in sicer

    enostavnost. Ta se povezuje s standardi za zapis. V korpusu je pomembno, da

    oznake, ki služijo dokumentiranosti besedil, ne motijo dostopa do samega besedila

    in prepoznavanja le-tega. Zapis korpusa pa nam mora hkrati omogočiti, da ostane

    v besedilu označeno nekaj, kar se je pri vnosu besedila izgubilo, na primer izpust

    naslova, slike itd. To so še vedno podatki, ki so z jezikovnega vidika relevantni.

    Vse to so danes sestavni del korpusa, a zaradi tega po Gorjancu (2010, 15) še ne

    govorimo o označenih korpusih. Ti postanejo označeni, ko besedilom dodamo

    jezikovno analitične korpusne oznake. Takrat govorimo o jezikoslovno

    označenem korpusu.

    Špela Vintar (2008, 84) opozarja še na nekatere vidike o karakteristikah

    specializiranih korpusov in vzporednih korpusov:

  • 30

    Časovni razpon besedil je pomemben dejavnik pri delu s korpusi. Danes se

    strokovna področja zelo hitro spreminjajo, s tem pa tudi besedišča strok.

    Velik časovni razpon pa pomeni težjo obdelavo terminologije, ker moramo

    upoštevati možnost nedoslednih terminov, nedoslednosti pri zapisu itd.

    Za razpoznavanje terminoloških vzorcev je potrebna večkratna pojavitev

    določenega izraza, kar zagotavlja le primerna velikost korpusa. Z večjim

    vzorcem besedil bomo tudi sposobni pokriti več izrazja izbrane stroke.

    Pri snovanju korpusa je pomembna odločitev ta, ali je pomembna smer

    prevoda. Če želimo iz korpusa ugotoviti prevajalske strategije ali

    značilnosti prevedenih besedil, mora biti korpus glede smeri opredeljen.

    To pomeni, da izberemo le en jezik izvirnika in en jezik prevoda, vsa

    vzporedna besedila so torej prevodi v isti jezik. Prevajalec, ki bi želel

    uporabiti vzporedni korpus kot vir prevodnih ustreznic, mora poznati

    sestavo korpusa, ker bo drugače le stežka vrednotil status najdenih izrazov

    in možnih ustreznic.

    Eno od pomembnih vprašanj v zvezi z reprezentativnostjo korpusa pa je

    tudi že omenjena kakovost izvornih besedil in njihovih prevodov, saj to

    dvoje vpliva tudi na kakovost pridobljenega terminološkega gradiva.

    Prevodi besedil s poljubnih področij, kjer si prevajalci niso prizadevali za

    terminološko doslednost, ali so besedilo terminološko osiromašili ali pa

    izbrali razlagalne rešitve, za terminografske namene niso primerni. Po

    drugi strani pa nudijo taka besedila s pomočjo avtomatskih metod

    ugotavljanje nedoslednosti in terminoloških variacij.

    V zvezi s specializiranimi korpusi je zanimiv tudi vidik homogenosti le-teh. Po

    eni strani je raznoterost korpusa ne nujno želena lastnost, po drugi strani pa bi si

    želeli, da je korpus homogen glede na besedišče, ki ga predstavlja. Za iskanje

    razlik ali podobnosti dveh korpusov je jezikoslovec in raziskovalec Adam

    Kilgarriff predlagal metodo primerjanja pogo