UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...

UNIVERZA V MARIBORU

FILOZOFSKA FAKULTETA

ODDELEK ZA PREVODOSLOVJE

DIPLOMSKO DELO

ANDREJ NEMEC

MARIBOR

2012

Univerza v Mariboru

Filozofska fakulteta

Oddelek za prevodoslovje

Andrej Nemec

POMEN ELEKTRONSKIH PREVAJALSKIH ORODIJ

NA PRIMERU SLOVENSKO-NEMŠKEGA

GLOSARJA S PODROČJA RAČUNALNIŠTVA

THE ROLE OF TRANSLATION SOFTWARE – CASE

STUDY OF SLOVENIAN-GERMAN GLOSSARY OF

COMPUTER TERMS

Diplomsko delo

Mentorica: doc.dr. Vlasta Kučiš

Maribor

2012

ZAHVALA

Za pomoč, nasvete, razumevanje in vso podporo pri izdelavi diplomskega dela se

iskreno in najlepše zahvaljujem mentorici doc. dr. Vlasti Kučiš.

Zahvaljujem se tudi družini, in sicer očetu Štefanu, mami Dragici in sestri Katji,

za vso podporo, razumevanje in povezanost v tem pomembnem življenjskem

obdobju.

Na tem mestu pa hvala tudi vsem prijateljem, ki so me podpirali in mi stali ob

strani v času študija, zlasti Nuši, Tadeju, Igorju, Klari, Mateju, Manji, Eriki, Ani

in Damjanu. Brez vas ne bi bil, kjer sem. Hvala tudi Tini in Nini.

Hvala vsem!

IZJAVA

Podpisani Andrej Nemec, rojen 26.01.1984, študent Filozofske fakultete

Univerze v Mariboru, smer prevajanje in tolmačenje – nemščina in

računalništvo, izjavljam, da je diplomsko delo z naslovom Pomen elektronskih

prevajalskih orodij na primeru slovensko-nemškega glosarja s področja

računalništva pri mentorici doc. dr. Vlasti Kučiš, avtorsko delo.

V diplomskem delu so uporabljeni viri in literatura korektno navedeni; teksti niso

prepisani brez navedbe avtorjev.

____Andrej Nemec__________

Maribor, 14.9.2012

POVZETEK

Prevajanje je zelo kompleksen proces, v katerem mora prevajalec poznati številna

področja in biti pripravljen se vedno na novo učiti. Pri svojem delu skorajda ne

more več brez uporabe informacijsko-komunikacijske tehnologije, ki je v njegovo

stroko vnesla številne možnosti za hitrejše in učinkovitejše, a obenem nič manj

kakovostno delo. Obenem ga je naglica razvoja postavila pred nova dejstva in

izzive, da med vsemi možnostmi, ki jih ima na voljo, izbere tiste najbolj primerne.

Za prevajalca je pomembno, da kritično presodi in ovrednoti, kaj mu katero od

orodij ponuja in kdaj naj katero uporabi. Nenazadnje mora zadostiti

pričakovanjem ciljne publike in normam ciljne kulture. Ni vseeno, ali prevaja

besedilo s področja medicine ali vremensko napoved. Tudi orodja mu pri tem

nudijo različno podporo.

Orodja, ki so mu na voljo, so pomnilniki prevodov, terminološki slovarji, tezavri,

elektronski slovarji, korpusi, sistemi statističnega strojnega prevajanja in glosarji.

V diplomskem delu so podrobneje obravnavana zadnja tri orodja. V nalogi je

predstavljena zanimiva primerjava spletnih prevajalnikov Google Translate in

Microsoft Bing, predstavljen pa je tudi glosar računalniškega strokovnega

izrazoslovja v obliki programa v programskem jeziku Visual Basic, ki sem ga sam

programiral. Čeprav se zdi, da so zlasti spletni prevajalniki ena od najbolj

perspektivnih tehnologij, ki je dosegla zavidljivo raven zanesljivosti in

natančnosti, pa je tudi na podlagi opravljene analize in primerjave razvidno, da

jim vseeno še veliko manjka, da bodo ustrezno kakovosten pripomoček v

prevajalskem procesu.

Ključne besede: elektronska prevajalska orodja, informacijsko-komunikacijska

tehnologija, prevajanje, korpus, sistemi statističnega strojnega prevajanja, Google

Translate, Microsoft Bing, spletni prevajalnik, glosar, računalniški program

ABSTRACT

Translation is a very complex process in which the translator has to be familiar

with many fields and has to be willing to gain new knowledge. One’s line of work

is almost impossible without the use of information and communication

technology, which provides many options for quicker and more effective but not

any less qualitative work in one’s discipline. At the same time one is faced with

new facts and challenges due to the haste of the developments to select the most

appropriate option amongst all those that are available. It is important for the

translator to make a critical judgment and assessment of the software, i.e. what

does it offer, and when and what software to use. Ultimately one has to fulfill the

expectations of target audience and norms of target culture. It matters whether one

translates a text in the field of medicine or a weather forecast. The software also

offers different support.

Tools, available to the translator, are translation memories, terminology

dictionaries, thesauruses, electronic dictionaries, corpuses, systems of statistical

machine translation and glossaries. Graduation thesis approaches last three listed

tools in detail. Thesis makes an interesting comparison between online translation

services Google Translate and Microsoft Bing, and also glossary of computer

specialist terminology as a program in a programming language Visual Basics,

which we programmed ourselves. Although it may seem that especially online

translators present one of the most highly potential technologies which achieved

enviable level of reliability and accuracy, performed analysis and comparison

clearly show that they are not nearly sufficient to be an adequately qualitative

device in the translation process.

Key words: electronic translation tools, information and communication

technology, translation, corpus, systems of statistical machine translation, Google

Translate, Microsoft Bing, online translator, glossary, computer program

KAZALO VSEBINE

1 Uvod ............................................................................................................... 1

2 Prevajalske tehnologije ................................................................................... 4

2.1 Osnovni pojmi............................................................................................... 4

3 Strojno prevajanje ........................................................................................... 7

3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov9 3.1.1 Podatkovne baze pri strojnem prevajanju .............................................. 10

3.1.2 Transferni pristop .................................................................................. 11 3.1.3 Pristop interlingua.................................................................................. 14

3.2 Sistemi statističnega strojnega prevajanja .................................................. 15

4 Korpusi in korpusno jezikoslovje ................................................................. 18

4.1 Zgodovinsko ozadje korpusnega jezikoslovja ............................................ 18

4.2 Definicija korpusa ....................................................................................... 19

4.3 Vrste korpusov ............................................................................................ 22

4.4 Karakteristike korpusov .............................................................................. 27

4.5 Obdelava korpusov ..................................................................................... 31

4.5.1 Označevanje korpusov ........................................................................... 32 4.5.2 Standardi za zapis korpusov .................................................................. 36

4.6 Orodja za delo s korpusi ............................................................................. 39

4.7 Korpusi za slovenščino ............................................................................... 43

4.8 Evrokorpus in Evroterm.............................................................................. 55 4.8.1 Gradnja Evrokorpusa in Evroterma ....................................................... 56

4.8.2 Intervju z Miranom Željkom (avtor Evrokorpusa in Evroterma) .......... 64

4.9 Korpus nemškega jezika Cosmas ............................................................... 72

5 Spletni prevajalniki in njihove značilnosti ................................................... 84

5.1 Primerjava prevajalnikov Google Translate in Microsoft Bing.................. 95

5.2 Rezultati primerjave .................................................................................. 114

6 Slovensko-nemški glosar računalniških terminoloških izrazov ................. 121

6.1 Funkcije in delovanje programa ............................................................... 122

7 Zaključek .................................................................................................... 128

8 Viri in literatura .......................................................................................... 130

9 Priloga ......................................................................................................... 133

KAZALO SLIK

Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika ................................. 23

Slika 2: Evroterm ‒ primer vzporednega korpusa................................................. 26

Slika 3: Primer iskanja s seznamom besed ........................................................... 40

Slika 4: Primer konkordančnih nizov za iskano besedo „jezik“ ........................... 41

Slika 5: Možnosti za nastavljanje parametrov pri iskanju po Novi besedi ........... 42

Slika 6: Deset najpogostejših besed v korpusu Nova beseda ................................ 44

Slika 7: Desno od konkordančnega niza se izpiše tudi oznaka, ki je hkrati vir

besedila .................................................................................................................. 45

Slika 8: Besedilno okolje iskanega niza (en stavek pred njim in en stavek za njim)

............................................................................................................................... 46

Slika 9: Konkordančnik iKorpusa ......................................................................... 47

Slika 10: Transkripcija govora pri iskanem nizu „informatika“ ........................... 49

Slika 11: Seznam zadetkov pri iskanju pokrajinsko specifičnega glasu oz. fonema

............................................................................................................................... 50

Slika 12: Iskanje narečnega izraza „priša“, tipičnega za Prlekijo ......................... 50

Slika 13: Delež besed, ki so bile v korpus GigaFIDA vključene v posameznih letih

(vir: http://demo.gigafida.net/Content/Images/About/Words.jpg) ........................ 52

Slika 14: Vmesnik za iskanje po korpusu GigaFIDA ........................................... 53

Slika 15: Rezultati iskanja gesla „računalnik“ ...................................................... 54

Slika 16: Podatki v Evrokorpusu na dan 17. 5. 2012 (vir:

http://evrokorpus.gov.si/evroterm.php?jezik=slov) .............................................. 56

Slika 17: Polja s podatki o prevodu ...................................................................... 58

Slika 18: Uporabniški vmesnik Evrokorpusa ........................................................ 59

Slika 19: Izpis zadetkov pri iskanju po nizu „Evropska unija“ v Evrokorpusu .... 60

Slika 20: Primer izvornega izraza, ki ima v ciljnem jeziku več pomenov, ki pa

niso nujno sinonimi ............................................................................................... 61

Slika 21: Uporabniški vmesnik Termikor ............................................................. 62

Slika 22: Rezultat iskanja izraza „Informatik“ v korpusu ..................................... 63

Slika 23: Miran Željko .......................................................................................... 65

Slika 24: Prijavno okno za Cosmas II ................................................................... 73

Slika 25: Omejitev iskanja na enega od devetih arhivov korpusov ...................... 74

Slika 26: Iskanje besed ali besednih zvez v enem od korpusov ............................ 75

Slika 27: Kartica različnih možnosti iskanja ......................................................... 76

Slika 28: Opcije lematizacije ................................................................................ 76

Slika 29: Omejitev iskanja na enega od virtualnih korpusov ................................ 77

Slika 30: Možnost urejanja korpusa ...................................................................... 78

Slika 31: Omejitev velikosti korpusa .................................................................... 79

Slika 32: Rezultati iskanja po samo eni komponenti sicer stalne besedne zveze . 80

Slika 33: Rezultati iskanja iskalnega niza „Europäische NICHT Union“ ............ 80

Slika 34: Grafična podoba sintakse za iskanje po korpusu ................................... 81

Slika 35: Možnosti urejanja izpisa zadetkov ......................................................... 82

Slika 36: Izpis zadetkov po desetletjih .................................................................. 82

Slika 37: Izpis zadetkov po letih ........................................................................... 83

Slika 38: Primer težav pri prevajanju nemškega pregovora v slovenski jezik ...... 85

Slika 39: Primer prevoda pregovora iz slovenščine v nemščino........................... 85

Slika 40: Napake pri prevajanju metafore iz nemškega v slovenski jezik ............ 85

Slika 41: Primer nepravilnega prevajanja citata.................................................... 86

Slika 42: Primer nepravilnega prevoda primere.................................................... 86

Slika 43: Prevod lastnega imena, ki pa lahko pomeni tudi kaj drugega ............... 87

Slika 44: Spletni prevajalnik Yahoo Babel Fish ................................................... 88

Slika 45: Rezultat prevoda preprostega angleškega stavka v nemškega ............... 88

Slika 46: Prevod istega stavka, tokrat z veliko začetnico in s končnim ločilom .. 89

Slika 47: Prevod gornjega stavka iz angleščine v nemščino na Googlovi strani .. 90

Slika 48: Prevod angleškega stavka v slovenskega............................................... 91

Slika 49: Prevod nemškega stavka (ki je tudi prevod iz angleščine) v slovenski

jezik ....................................................................................................................... 91

Slika 50: Prevod zahtevnejšega stavka iz nemščine v slovenščino ...................... 91

Slika 51: Rezultat prevajanja že dokaj zahtevnega besedila ................................. 92

Slika 52: Rezultat prevoda stavka o omrežjih iz nemščine v slovenščino pri

Microsoftovem prevajalniku Bing ........................................................................ 93

Slika 53: Vstopno okno ob začetku dela s programom ....................................... 122

Slika 54: Okno s seznamom gesel ....................................................................... 123

Slika 55: Padajoči meni s seznamom gesel ......................................................... 123

Slika 56: Primer prikaza terminov in njunih definicij ......................................... 124

Slika 57: Okno za vnos novega termina .............................................................. 124

Slika 58: Izpis vsebine tekstovne datoteke.......................................................... 125

Slika 59: Primer interaktivne dejavnosti za popestritev dela s programom ........ 126

Slika 60: Okno z obvestilom o pravilnem odgovoru .......................................... 126

Slika 61: Obvestilo o ponovnem poskusu v primeru napačnega odgovora ........ 127

Slika 62: Primer izvorne kode ............................................................................. 127

KAZALO TABEL

Tabela 1: Primerjava transfernih sistemov ............................................................ 13

Tabela 2: Primer pretvarjanja besed v številčno kodo (vir:

http://www.lancs.ac.uk/fss/courses/ling/corpus/Corpus2/2FRA1.HTM) ............. 35

Tabela 3: Pregled prevodov prevajalnikov Google Translate in Microsoft Bing iz

slovenskega v nemški jezik v neposredni primerjavi ............................................ 95

Tabela 4: Predlagani prevodi, vsebovani tudi v programu - glosarju ................. 133

KAZALO GRAFIKONOV

Grafikon 1: Ujemanje prevodnih enot prevajalnikov Google Translate in

Microsoft Bing ob neupoštevanju razlik v sklonu, številu itd. ........................... 118

Grafikon 2: Ujemanje prevodov prevajalnikov Google Translate in Microsoft

Bing glede na slovnične lastnosti ........................................................................ 118

Grafikon 3: Ustreznost prevodov prevajalnika Google Translate....................... 119

Grafikon 4: Ustreznost prevodov prevajalnika Bing .......................................... 119

1

1 Uvod

Živimo v hitro spreminjajoči se družbi, t. i. družbi znanja, strokovnjaki pa

sodobnost označujejo tudi kot informacijsko dobo. Dejstvo je, da s tem ne

pretiravajo, saj je vpliv informacijskih in komunikacijskih tehnologij na naše

življenje izjemen. Če si je pred 15 leti le še malokdo predstavljal, da bo imel

danes že skoraj vsak otrok v osnovni šoli svoj mobilni telefon, je to danes splošno

veljaven trend, ki se le še stopnjuje in intenzivira. Ne samo, da ima skoraj vsak

otrok v osnovni šoli svoj mobilni telefon, marsikateri ima celo že dva. Da pri tem

ne omenjamo, kaj vse ima še ob tem; denimo tablični računalnik, če se omejimo le

na najbolj sveže trende. Treba je poudariti, da z navedenim želimo le karikirati,

kakšen prepih so v našem življenju in življenju povprečnega državljana povzročile

informacijsko-komunikacijske tehnologije (v nadaljevanju IKT). Na le-te smo se

tudi že tako privadili, da si dejansko ne moremo več predstavljati življenja brez

njih. Pa naj gre pri tem za enostavno uporabo interneta, kje nekdo želi le

pregledati dnevne novice ali svoj predal elektronske pošte, ali pa spremljanje

novih TV programov v shemi svojega kabelskega operaterja IP-televizije. Če so v

prejšnji povedi navedeni primeri pokazatelj vpliva oz. prisotnosti IKT v našem

prostem času, pa so lahko tudi pokazatelj vpliva IKT v našem poklicnem

življenju. Preden se osredotočimo na ta vidik, naj omenimo še eno nezanemarljivo

plat prisotnosti IKT v naši resničnosti – olajšajo nam marsikaj, pa naj bo to način

komuniciranja in življenja oz. preživljanja prostega časa (čedalje več primerov je,

da posameznik preživlja prosti čas ob računalniku in prisotnosti na socialnem

omrežju, pri čemer mu to nenazadnje odtehta stik z neko osebo v živo) ali pa

opravljanje določenih nalog (še do pred nedavnim precej futuristična predstava

avtomatizirane hiše dobiva v informacijski dobi precej konkretne obrise).

Nepredstavljivo je na primer, da smo še pred nekaj leti vse pisali na roko, zdaj pa

nam tega več ni treba zaradi poplave pisarniških programov. Priča smo obilici

informacij, s katerimi nas nenehno „bombardirajo“ tako stari konvencionalni

mediji (časopisi, revije) kot novodobni mediji, denimo spletni portali. Spreminja

se tudi človeška percepcija – če se določeno delo opravi s pomočjo tehnologije, se

opravi hitreje, učinkoviteje, zanesljivejše. Vse to so vidiki, ki jih ne moremo

2

zanemariti niti pri vplivu IKT na človekovo poklicno življenje. Ravno tako za

človekovo življenje doma in v prostem času velja, da je IKT v veliki meri

spremenila podobo opravljanja skoraj vseh strokovnih področij. In eno izmed teh,

kjer je prisotna v čedalje večji meri in v različnih oblikah, je tudi prevajalsko

področje. Prevajalstvo kot stroka je nenehno podvrženo stalnim spremembam. Če

vzamemo pod drobnogled denimo samo področje računalništva, ki se danes ne

more identificirati s pojmom IKT, saj le-ta pomeni veliko več kot zgolj računalnik

in njegove sestavne dele, je že to področje podvrženo hitremu razvoju, kar pomeni

nove tehnologije, nove naprave, nove programe, nova opravila itd. Vse to pa

seveda zahteva nova imena oz. nova poimenovanja, kar postavlja prevajanje pred

svojevrsten izziv – skupaj z jezikoslovci in drugimi tvornimi (so)oblikovalci

razvoja jezikovnega področja na določenem prostoru v določenem času. Ne

smemo pozabiti, da prevajalcu pripada osrednja vloga prenašalca informacij iz

izvornega v ciljni jezik, pri čemer mora ohraniti tehnične in kulturne informacije.

Pred nekaj desetletji je bil slovar v tiskani obliki najpomembnejši pripomoček za

opravljanje te funkcije, danes jih je na voljo veliko več, pri čemer velja poudariti,

da tu klasični slovar v tiskani obliki še vedno igra pomembno vlogo, vendar ni več

tako osamljen, kot je morda bil v preteklosti. Prevajalec ima na voljo poleg

klasičnih slovarjev elektronske vire. Prednost le-teh pred klasičnim slovarjem je

denimo ažurnost. Prej smo omenjali hitro nastajanje novih pojmov. Preden ti

najdejo svoje mesto v določenem slovarju in se znajdejo na knjižnih policah, je

elektronski slovar že uspešno posodobljen v relativno kratkem času. To pa ni

edina prednost, druge (a nikakor nepomembne) so široka dostopnost, nižji stroški,

pa še kakšna bi se našla. Glede na to, da je cena dostopa do interneta padla, da si

ga danes v razvitem svetu lahko privošči vsak in da so vzporedno s tem padle tudi

cene računalnikov, je to še en pomemben vidik – dosegljivost v rekordno kratkem

času in to dobesedno iz domače dnevne sobe. Koliko lažje je na primer dandanes

nekomu posredovati digitalno obliko nekega besedila na njegov računalnik v

njegovem domu, preden je informatizacija doživela tak razcvet, preden denimo

marsikdo sploh še ni slišal za elektronsko pošto, kaj šele Skype ali podobne

tehnologije. Pa roko na srce, to ni tako daleč nazaj, denimo dve desetletji. Vse

navedeno pomeni, da je IKT tudi na področje prevajanja prinesla veliko koristi, s

3

čimer se je delo za prevajalca močno poenostavilo in postalo učinkovitejše. Od

vsakega prevajalca posebej pa je odvisno, kako si organizira lastno delo.

Konkretno to pomeni, katere iz širokega nabora pripomočkov bo uporabil pri

svojem delu. Na voljo ima pisano paleto le-teh. V nadaljevanju bomo posamezne

predstavili in skušali strniti njihove prednosti oz. slabosti. Velja pa poudariti, da je

izbor orodij odvisen od značaja dela in vrste besedila, ki ga posamezen prevajalec

prevaja. Pričakovati je, da bo za prevajanje kratke dnevne novice za tiskovno

agencijo uporabil manj resursov, ki so tudi manj kompleksni od prevajanja pravne

pogodbe na nekaj straneh.

Nove informacijsko-komunikacijske tehnologije omogočajo hitrejše in

učinkovitejše povezave med pripadniki različnih jezikovnih skupin ter vse bolj

intenzivne gospodarske in politične poteze združevanja v Evropi in po svetu

(Vintar, 1999). Hkrati se s povečanim povpraševanjem po prevajalcih od njih

poleg jezikovne kompetentnosti pričakuje in zahteva še strokovno poznavanje

področja in terminologije, v zadnjem času pa tudi ustrezna znanja o sodobnih

prevajalskih tehnologijah in orodjih, o čemer bomo več pisali v nadaljevanju.

Dejstvo je, da so z vsemi zahtevanimi znanji kakovostne prevajalske storitve

visoko cenjene, tega pa si marsikateri naročnik ne more privoščiti. Tako ni nič

nenavadnega, da razvoj na področju računalniškega prevajanja že nekaj časa

narekujejo veliki naročniki prevodov – multinacionalni koncerni, Evropska unija

ipd. (Vintar, 1999)

4

2 Prevajalske tehnologije

2.1 Osnovni pojmi

Prevajanje je kompleksen proces, ki je sestavljen iz številnih podrejenih procesov

in obsega različna opravila. Amparo Alcina (2008, 79) pravi, da razmerje med

računalništvom (posledično informacijsko-komunikacijsko tehnologijo) in

prevajanjem pravega razcveta ni doživelo z razvojem programske opreme za

strojno prevajanje, pač pa z razvojem elektronskih slovarjev in terminoloških

podatkovnih baz, s pojavom interneta in njegovih številnih možnosti za iskanje po

virih in črpanje znanja iz njih ter s pojavom računalniško podprtih prevajalskih

orodij.

Proces prevajanja tako že dolgo ne temelji več zgolj na prevajalčevem znanju

dveh (ali več) jezikov, pač pa na njegovi zmožnosti analiziranja in razumevanja

odnosov med izvornim in ciljnim jezikom, da lahko na tak način tvori prevod, ki

bo čim bliže izvornem jeziku, obenem pa bo izpolnjeval vse jezikoslovne zahteve

in kulturne konvencije v okolju ciljnega jezika (Jekat in Massey, 2003).

V procesu prevajanja se lahko uporabijo številna elektronska in računalniška

orodja za izboljšanje kakovosti, učinkovitosti in nenazadnje same dinamike

prevajalskega dela, to pa so nedvomno tudi najpomembnejše karakteristike

prevajalskega produkta. Prevajalci bi morali poznati in uporabljati taka

prevajalska orodja ter izkoriščati njihov potencial, saj s tem izboljšujejo sami sebe

in kakovost svojega dela, zato jih moramo upoštevati kot integralni del

prevajalčeve realnosti, ki jo oblikujejo globalizacija in potreba po pretoku

informacij (Kučiš, 2010). Primer take smiselne in nujne rabe računalniških

prevajalskih orodij je projekt prevajanja dokumentacije za potrebe Evropske unije

(Kučiš, 2010). Računalnik je že nekaj časa nepogrešljiv za delo prevajalca,

količina znanja in potreba po znanju za delo s prevajalskimi tehnologijami pa

naraščata iz dneva v dan. Število računalnikov po svetu in njihovih uporabnikov v

zadnjih letih skokovito narašča in se še ne ustavlja. To dejstvo in raznovrstnost

oblik in formatov elektronskih dokumentov pa so vplivali tudi na razmah novega

specializiranega področja, t. i. lokalizacijo (Alcina, 2008, 80). Slednja označuje

prevajanje dokumentacije, vmesnikov in datotek za pomoč, ki spremljajo

5

računalniške aplikacije in programsko opremo, obenem pa Alcina sem prišteva še

prevajanje spletnih strani. Stolze (1999, 159) pa definira lokalizacijo kot

prilagajanje določenega izdelka (ali storitve) in pripadajoče dokumentacije ciljni

kulturi določenega tujega trga za ponudbo na tem trgu. Stolze kot enega

pomembnejših vidikov lokalizacije izpostavlja t. i. internacionalizacijo, pri čemer

misli na univerzalno in vsestransko združljivo jedro programske opreme, ki

podpira za določeno območje značilno kodo, kot so znakovni nabori, ločljivosti

zaslonov, formati za datum in čas, vhodne podatke, ki jih vnašamo preko

tipkovnice ali ukaznega načina, itd.

Po Alcini (2008, 80) so prevajalske tehnologije (oz. strojno prevajanje (MT –

Machine Translation) ali tudi računalniško podprto prevajanje (CAT – Computer

Aided Translation)) nova disciplina, ki kombinira računalnike, programsko

opremo za prevajanje in njihov nadaljnji razvoj. Špela Vintar (1999) meni, da je

razlika med obema pojmoma zlasti v tem, da je računalniško podprto prevajanje

za jezikovne profesionalce bolj zanimivo, saj se z orodji za strojno prevajanje

ukvarjajo zlasti strokovnjaki, ki niso jezikovni profesionalci in se torej z jezikom

ne ukvarjajo poklicno. Avtorja Jekat in Massey (2003) dodajata pojmoma strojno

prevajanje in računalniško podprto prevajanje še pojem informacijskega

menedžmenta, ki ga opišeta kot pripomoček pri razvrščanju in organiziranju

potrebnih informacij, ki so na razpolago za izvajanje prevajalskega procesa.

Avtorja navajata, da je tu pomemben vidik podatkovnih baz, ki nastajajo v

prevajalskem procesu. To se pokaže kot koristno zlasti v primeru dolgih besedil,

saj je tu s pomočjo tehnologij strojnega in računalniško podprtega prevajanja

zagotovljena terminološka in formalna konsistentnost. Podatkovne baze, nastale v

takem procesu, izboljšujejo različne vrste sistemov strojnega prevajanja, ki so že

implementirani znotraj sistemov računalniško podprtega prevajanja in kjer se

segmenti izvornega jezika že ujemajo z obstoječimi prevodi v podatkovni bazi.

Alcina (2008, 81) našteva tudi dejavnike za razvrščanje orodij strojnega in

računalniško podprtega prevajanja:

stopnja avtomatizacije prevajalskega procesa,

trenutek v prevajalskem procesu, v katerem se začnejo prevajalska orodja

uporabljati,

6

potrebna raven računalniškega znanja,

razmerje med orodji in prevajanjem, ter

stopnja uporabnosti posameznega orodja za določen vidik prevajalskega

procesa.

Kučiš (2010) pa opozarja še na en pomemben vidik, in sicer na šest strokovnih

kompetenc, ki naj bi odlikovale sodobnega prevajalca in ki jih kot take

prepoznava tudi Generalni direktorat za prevajanje pri Evropski komisiji. Med te

kompetence sodijo poznavanje jezika, terminologije, tematike, tehnologij,

medkulturnih vidikov in vodstvene sposobnosti. Nadalje je za prevajalca

pomembno, da navedene kompetence lahko dodatno razvija, in to v obeh jezikih,

sem pa spada tudi sposobnost dela s prevajalskimi orodji, med katere lahko

uvrstimo terminološke podatkovne baze, pomnilnike prevodov in orodja

računalniško podprtega prevajanja.

7

3 Strojno prevajanje

Tako IKT kot prevajalstvo sta podvržena nenehnim spremembam. Pri tem gre za

procese, ki obe področji tesno povezujejo, saj je že od nekdaj cilj strokovnjakov z

obeh področij razviti sisteme oz. tehnologije, ki bodo prevajalcem delo olajšale in

jih pri njihovem delu podpirale. Če smo iskreni, tehnološki sistemi verjetno ne

bodo nikoli v celoti nadomestili prevajalca, saj je jezik tako živa in raznolika

tvorba, da bi jo le težko ujeli v stroju. Zato pa so lahko zelo koristni pripomočki.

Besedna zveza, ki obe področji povezuje že dalj časa, pa je strojno prevajanje. Kaj

točno razumemo pod pojmom strojno prevajanje? Jezikoslovka in raziskovalka

Špela Vintar (1999, 3) piše, da izraz strojno prevajanje označuje računalniške

sisteme za prevajanje naravnih jezikov, pri katerih je prevajalski proces do

največje možne mere avtomatiziran. Pri tem jih deli na lastne eno- in večjezične

leksikone, programe za morfološko in sintaktično analizo in sintezo, razreševanje

večpomenskosti, prepoznavanje večbesednih semantičnih enot in druge

kompleksne mehanizme, ki naj bi omogočali avtomatski prevod s čim manj

napakami. Vintarjeva pri tem navaja, da vloga uporabnika pri takem procesu ni

povsem odpravljena in omenja, da je človekovo posredovanje potrebno zlasti

zaradi odpravljanja težav glede večpomenskosti, ki jo stroji ne zaznavajo. Jernej

Vičič (2002) v svoji magistrski nalogi Statistično strojno prevajanje naravnih

jezikov opiše strojno prevajanje preprosto kot samodejno prevajanje iz enega

jezika v drugega. Pri tem izpostavlja težave pri takem prevajanju, saj bi moral

računalnik poleg obeh jezikov poznati še sintakso, semantična pravila, slovnico,

večpomenskost besed in fraz itd. Pri tem imamo dve možnosti, da računalnik

„naučimo“ potrebnega znanja. Prva možnost je, da množica strokovnjakov za

določen jezikovni par pripravi vse potrebno za naknadno procesiranje v

računalniškem sistemu. Ta sistem je dober, a daleč najdražji in zamuden. Druga

možnost pa je, da se računalnik sam nauči sintaktičnih in semantičnih pravil, tako

da pregleda velike količine dvojezičnih, tj. vzporednih, besedil. Besedila seveda

morajo biti natančni prevodi. Govora je o statističnem strojnem prevajanju,

kateremu se bomo posvetili kasneje.

8

Arturo Trujillo (1999, 3) meni, da imata strojno prevajanje in prevodoslovje kot

stroka skupne cilje. Pri tem se sklicuje na teorijo skoposa, ki da je nastala kot

odgovor na naraščajočo potrebo po neliterarnem prevajanju. Teorijo skoposa

opiše kot okoliščine oz. dejavnike, ki v nekem določenem kontekstu spremljajo

prevajalski projekt oz. prevajalsko aktivnost. Teorija skoposa ob tem vključuje

naročnika prevoda, funkcijo teksta, ki je odvisna od ciljne skupine bralcev in

poudarja tudi pomen kulturnega okolja teh istih bralcev. Če postavimo ta dejstva v

kontekst sodobnih komunikacijskih metod in sredstev, je skopos ali namen

prevoda posredovanje vsebine v čim širšem pomenskem smislu (Trujillo, 1993,

3).

Jasno je, da so računalniki računski stroji. Pri tem gre sicer za podobnost s

procesom prevajanja iz izhodiščnega v ciljni jezik, če se osredotočimo na primer

prevajanja programske kode v kontekstu programiranja. Podobno kot morajo

sodobni programski jeziki pretvoriti kodo, ki jo napiše človek – programer, v

dolga zaporedja 0 in 1, da bo jezik programerja razumljiv računalniku, ki pač

razume ta dvojiški zapis, mora tudi prevajalec pretvoriti besedilo v izvornem

jeziku v ciljni jezik, ki bo razumljiv govorcu tega dotičnega jezika. Pri tem nastaja

edinstvena razlika v okoliščinah, ki jih računalnik kot stroj ne more in ne zna

upoštevati, da bi programsko kodo ustrezno prilagodil, saj je v končni fazi nima

komu prilagajati. Prevajalec pa mora upoštevati vrsto okoliščin, ko se loteva

prevoda, da bo razumljivo ciljnemu bralcu oz. ciljni publiki. Tu naletimo tudi na

zgoraj obravnavano teorijo skoposa. Proces prevajanja si je tako podoben le do

določene mere. Lahko bi rekli, da je določena razlika tudi v stopnji kreativnosti –

ni treba, da je računalnik ustvarjalen, prevajalec pa skoraj mora biti oz. ima to

sposobnost, da je lahko.

Strojno prevajanje na splošnih domenah trenutno še ne dosega kakovosti

prevodov drugih računalniških področij. Za opravljanje predstavljenih opravil

mora računalnik „poznati“ izvorni in ciljni jezik. Poleg osnovnih jezikovnih

pravil, kot so sintaksa, gramatika, sinonimi besed oz. fraz v obeh jezikih, mora

sistem poznati še semantiko oz. pomen prevajanih sporočil (Vičič, 2002). Da mu

to res uspe, mora biti zelo izpopolnjen.

9

3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov

Pri pregledu se bomo oprli na Špelo Vintar1. Prve resne raziskave sta izvajala

IBM in Georgetown University v ZDA v 50-ih letih 20. stoletja. Šlo je za

prevajanje iz ruščine v angleščino, sistem pa je obsegal skromnih 250 besed in

6 slovničnih pravil. Začetni zagon je nekoliko upadel v 60-ih letih, ko so se

pojavile težave zaradi večpomenskosti na leksikalni ravni. Podpora projektom je

bila v ZDA ukinjena, nadaljevale pa so se raziskave v Evropi. Evropska

gospodarska skupnost je v 60-ih podprla projekt Systran, tj. prevajalski sistem za

angleški in francoski jezik, po tem pa tudi projekt EUROTRA.

Prvi zgodnji pristop k poskusom strojnega prevajanja je bil direkten, deloval pa je

na podlagi dvojezičnega leksikona in s tem direktnega prevajanja med dvema

jezikoma. V okviru projekta Systran je bil zato razvit transferni pristop, ki je bil

sestavljen iz več modulov. Ta je razdelil prevodno enoto na povedni ravni, kjer se

najprej analizira izhodiščna stavčna struktura, v drugi fazi se prevede v ustrezno

strukturo ciljnega jezika, na koncu pa se generira ciljna prevodna enota v tretji

fazi. Vzporedno s tem poteka proces oblikoslovne analize in sinteze. Iz projekta

EUROTRA pa je znan pristop interlingua, ki pomeni prevajanje izhodiščne

povedi v t. i. medjezik oz. univerzalno, jezikovno neodvisno strukturno in

semantično ponazoritev stavčnih členov ter odnosov med njimi v odvisnosti od

povedka. Če bi bilo vse idealno, bi se iz takega vmesnega jezika dalo urejati

prevode v vse jezike sveta, žal pa se je stvar izkazala za daleč od preproste. Zato

se je kasneje razvoj osredotočil na podobnosti med izbranimi jeziki, kjer je bilo

lažje odpravljati napake. Vintarjeva navaja, da danes večina znanih sistemov

temelji na transfernem pristopu, pri tem pa se pri boljših sistemih vse bolj

uveljavljajo empirični pristopi. Tako se za razjasnjevanje skladenjske ali

leksikalne večpomenskosti uporabljajo vzporedni korpusi, ki računalniku pri vsaki

obstoječi negotovosti nudijo zbirko primerov iz resničnih besedil, na podlagi

katerih se je sistem s pomočjo primerjave frekventnosti sposoben odločiti za

prevodno ustreznico. Da danes prevladuje transferni pristop, meni tudi Arturo

Trujillo (1999).

1 Http://www2.arnes.si/~svinta/ui.rtf.

10

Velja, da je za večje jezike na voljo cel kup specializiranih programskih orodij,

tako komercialnih kot prosto dostopnih, ki se med seboj sicer razlikujejo. Špela

Vintar1 navaja, da imajo boljši med njimi posebne zbirke oz. leksikone za

posamezna področja, kar pripomore k razreševanju problema večpomenskosti,

obenem pa ti sistemi v različnih obsegih nudijo tudi hranjenje besedil. Ti

programi nato pomagajo pri obdelavi novih besedil.

In kje je na tem področju Slovenija? Vintarjeva1 navaja, da se je nekaj poskusov

razvijanja sistema za strojno prevajanje odvilo na Institutu Jožefa Štefana, od

komercialnih ustanov pa prednjači podjetje Amebis s svojim prevajalskim

sistemom Presis. Vintarjeva sicer zastavlja zanimivo vprašanje, ali je taka orodja

sploh smiselno razvijati pri nas in za naš jezik, saj da imajo tuji proizvajalci že

potrebne izkušnje in znanja (sami bi temu dodali, da verjetno tudi več sredstev,

kot bi jih lahko v te namene pridobila kaka slovenska ustanova), a obenem

priznava, da je pridobivanje lastnih izkušenj za naš jezik vseeno zelo pomembno.

3.1.1 Podatkovne baze pri strojnem prevajanju

Trujillo pravi (1999, 86), da za učinkovito strojno prevajanje rabimo ustrezno

oblikovane podatkovne baze. Omenja, da obstajata dve temeljni metodi za

strukturiranje takih podatkovnih baz. Prva metoda je metoda polnjenja baze z

vsemi možnimi pregibnimi oblikami določene besede oz. pojma. To pomeni, da bi

denimo v bazo vnesli vse možne oblike spreganja določenega glagola; Trujillo

sam navaja primer glagola igrati (ang. play). Druga možnost pa je, da v bazi

hranimo samo koren besede, s pomočjo oblikoslovnih pravil pa nato izpeljujemo

možne različice z različnimi priponami. Trujillo glagolu igrati dodaja angleške

pripone -ed, -ing in -s (torej različice played, playing in plays). V tem drugem

primeru bi se v bazi pojavil samo glagol play, ostale oblike pa bi dobili s

kombiniranjem tega korena besede in ustrezne pripone. Vsak od pristopov ima

svoje prednosti in slabosti. Pri polnjenju baze z vsemi možnimi oblikami glagola

je dostop do posamezne besede hitrejši, saj ne zahteva nobenega dodatnega

procesiranja. Pri tem pristopu se lahko prostor, ki ga zasedejo pregibne oblike,

zmanjša z uporabo podatkovnih struktur, kot so denimo drevesa. Manj časa in

denarja za pripravo zahteva tudi razvoj ustreznih morfoloških in skladenjskih

11

pravil za procesiranje in obdelavo podatkov v bazi, po drugi strani pa se porabi

več časa in denarja za polnjenje baze z ustreznimi pregibnimi oblikami

posameznega vnosa. Po Trujillu je največja slabost tega pristopa odsotnost

morfoloških in skladenjskih pravil, ki so potrebna pri jezikih, kjer je veliko

pregibanj in posledično tudi več različnih oblik. Vsekakor je lažje vnesti samo

koren besede kot pa vse možne oblike neke besede. Pri drugem pristopu je torej

treba vložiti veliko dela, napora, časa in denarja v ustrezno oblikovanje zahtevanih

morfoloških in skladenjskih pravil. Pri tej tehniki se porabi tudi znatno manj

pomnilniškega prostora kot pri prvi. Trujillo zaključuje, da je pod črto vseeno

boljša metoda korena in pripon. Navaja, da je najboljši znan pristop z

morfološkega vidika t. i. dvonivojski model, ki so ga razvili finski računalniški

strokovnjak Kimmo Koskenniemi ter raziskovalca Robert M. Kaplan in Martin

Kay (www.sil.org/pckimmo/two-level_phon.html, dostop dne 8. 4. 2012).

3.1.2 Transferni pristop

Kot je omenjeno v predhodnem besedilu, danes prevladuje transferni pristop.

Trujillo (1999, 121-122) opisuje transferni sistem kot kompromis med

učinkovitim izkoriščanjem virov t. i. sistemov interlingua in preprosto

implementacijo direktnega pristopa. Avtor izpostavlja, da za splošen večjezični

sistem število transfernih modulov narašča polinomsko glede na število jezikov.

To pomeni, da je za n jezikov potrebnih vsaj [n(n-1)]/2 transfernih modulov. Do

te enačbe Trujillo pride z naslednjo razlago: za vsakega od n jezikov obstaja (n-1)

možnih ciljnih jezikov v popolnem večjezičnem sistemu. Če so moduli sposobni

povratnega podajanja informacij in podatkov, se to število skrči za polovico.

Trujillo prikaže to kot slabost transfernega pristopa, saj postane sistem na tak

način dražji sorazmerno s številom vključenih jezikov. Navaja pa tri dejavnike, ki

vseeno govorijo v korist transfernim sistemov:

veliko sistemov je zgolj dvojezičnih, njihov osnovni namen pa je zgolj

enosmerno prevajanje iz enega v drugi jezik;

12

kjer obstaja potreba po popolni večjezičnosti, je možno uporabiti t. i.

vmesni jezik, v in iz katerega se opravijo prevodi; ter

določene dele posameznih transfernih modulov je mogoče večkrat

uporabiti, če imamo opravka s prevajanjem med jeziki, ki so si blizu.

Trujillo kot primer navaja modul za transferno prevajanje iz angleščine v

portugalščino, ki lahko vsebuje komponente, ki so združljive z modulom

za prevajanje iz angleščine v španščino.

Ena od lastnosti, ki medsebojno ločuje transferne sisteme, je način in globina

opravljene analize. Po eni strani imamo sisteme, ki opravljajo zgolj prevod na

besedni ravni, torej prevod posameznih leksikalnih enot. Po drugi strani pa imamo

take, ki opravijo morfološko procesiranje in površinsko segmentiranje frazemov.

Nekateri sistemi opravijo prevod na različnih nivojih jezikoslovne analize, pri

čemer vsebuje vsak od nivojev lastne zaloge pravil in oblik za tvorjenje struktur v

ciljnem jeziku (Trujillo, 1999, 122). Avtor deli transferne sisteme na tri skupine

glede na njihovo teoretsko zasnovo, praktično uporabnost in glede na strategije, ki

jih uporabljajo za obdelavo oz. procesiranje besedil. Te tri skupine so sintaktični,

semantični in leksikalni transferni sistemi.

Sintaktični transferni sistem temelji na sorodnostih in povezavah med strukturami

povedi na t. i. površju. Sistemi delujejo s pomočjo t. i. rekurzivnih2 dreves tako v

izvornem kot ciljnem jeziku in z uporabo transformacij enega drevesa v drugega.

Algoritem za transformacijo iz enega drevesa v drugega je rekurzivni algoritem,

ki se odvija od zgoraj navzdol. Na eni strani imamo vhodno stavčno strukturo in

transferna pravila, ki se uporabijo za analizo vhodne strukture. Iz vhodne strukture

se tvori izhodna struktura na drugi strani, šele nato se kliče transformacijski

algoritem, in sicer rekurzivno, pri čemer uporabi tiste vrednosti transfernih

spremenljivk, ki dajo ustrezne strukture v ciljnem jeziku (Trujillo, 1999, 123).

Semantični transferni sistem je izpostavljen številnim dilemam in težavam zaradi

različnih pomenov, ki jih imajo določene besede in besedne zveze. Jezikoslovci in

računalniški strokovnjaki so razvili različne semantične transferne sisteme,

2 Rekurzija je postopek, ki je definiran (določen, opisan) sam s sabo; rešitev problema, podana s

samim problemom le nad manjšim obsegom podatkov. V opisu postopka rešitve uporabimo kar ta

postopek. Če želimo priti do rešitve, ne moremo nadaljevati v nedogled. Potreben je ustavitveni

pogoj (http://wiki.fmf.uni-lj.si/wiki/Rekurzija, dostop dne 9. 4. 2012). V programiranju je

rekurzija klic določene funkcije za reševanje nekega problema znotraj iste funkcije.

13

Trujillo (1999, 135) pa izpostavlja t. i. sistem kvazi-logične oblike (ang. Quasi-

Logical Form). Leksikalni transferni pristop pa spada med nerekurzivne tehnike.

Sistem, ki ga Trujillo (1999, 148) poimenuje LexMT, vzpostavlja medjezikovne

povezave na nivoju besed in besednih nizov. Osnovna prednost sistema je v tem,

da se da take besedne pare dokaj preprosto in učinkovito preveriti s pomočjo

dvojezičnih korpusov ali slovarjev. Transferna razmerja se razvijejo v taki obliki,

ki je sorodna tisti, najdeni v dvojezičnem korpusu. Razmerja pa so uporabna tudi

v smislu, da so do določene mere neodvisna od semantične in sintaktične teorije in

se lahko prilagajajo drugim transfernim pristopom. V fazi analize sistem poišče

semantična razmerja med besedami v izvorni povedi. Te besede, v podatkovni

strukturi drevesa, predstavljena kot listi, se nato prevedejo v ciljni jezik z vsemi

svojimi pomenskimi značilnostmi. Rezultat transferja je niz besed, ki s svojim

pomenom predstavljajo poved v ciljnem jeziku, a njihov vrstni red ni nujno

pravilen. To je naloga generatorja ciljne povedi, ki si pri tem pomaga z vgrajeno

slovnico ciljnega jezika.

Prednosti in slabosti strategij oz. različnih transfernih sistemov so prikazane tudi v

spodnji tabeli (Tabela 1, prirejeno po Trujillo, 1999, 165).

Tabela 1: Primerjava transfernih sistemov

Strategija Prednosti Slabosti

sintaktični

sistem lažja analiza

hitrejši razvoj slovnice

lažje samodejno posploševanje

kompleksna transferna pravila in interakcije

drago vzdrževanje

semantični

sistem lažja transferna

pravila

druge aplikacije, ne le strojno prevajanje

teoretsko naravnana semantika

pomanjkljivo strokovno znanje

potreba po prilagajanju glede na razvoj

semantičnega področja

leksikalni sistem transparentna transferna pravila

lažje uvajanje transfernih modulov

zahtevno vključevanje neleksikalnih informacij

med transferjem

lahko se zgodi, da je sistem pomanjkljiv

14

3.1.3 Pristop interlingua

Trujillo (1999, 167) opisuje sistem interlingua v njegovi temeljni zasnovi kot

sistem, v katerem ima vsak od jezikov modul, ki je odgovoren za analizo stavčnih

struktur v skupno, t. i. vmesno fazo in za tvorjenje slovnično ustreznih ciljnih

struktur. To je splošna arhitektura tega sistema. Število modulov v sistemu

narašča linearno glede na število vključenih jezikov. Če se za vsak jezik denimo

rabijo ločene komponente za analizo in za tvorjenje stavčnih struktur, je število

potrebnih modulov za 11 jezikov 22. Sistemi interlingua se velikokrat pomešajo s

pojmom KBMT (ang. Knowledge Based Machine Translation), tj. sistemom, ki

vsebuje besedišče, povezano z določeno (specializirano) domeno, ali besedišče, ki

odraža t. i. znanje resničnega sveta. Oba sistema imata svoje omejitve in eden ne

more brez drugega. To velja posebej zato, ker je težko potegniti ločnico med tem,

kar je izključno jezikoslovno znanje in kaj je nejezikovno svetovno znanje. Po eni

strani mora sistem interlingua vsebovati dejstva o svetu in domeni diskurza, da

lahko razrešuje dvoumnosti in pomanjkljivosti v dobesednem znanju določenega

stavka. V ta namen rabi tudi nejezikovno svetovno znanje. Sistem interlingua

temelji na skupnem jeziku, ki mora biti sposoben razumevanja izvornega jezika in

njegovega pretvarjanja v ciljni jezik. Kognitivni jezikoslovci in strokovnjaki za

semantiko so razvili formalizme za izražanje lingvističnih pomenov v smislu čim

večje neodvisnosti od katerega koli točno določenega jezika. Ena takih različic je

t. i. LCS (leksikalna konceptualna struktura). Trujillo (1999, 168) omenja sistem

UNITRAN za jezikovno trojico angleščina-nemščina-španščina. Sistem analizira

stavek v enem od naštetih jezikov in tvori različico LCS izvornega pomena. Nato

iz tega vmesnega jezika tvori ciljno poved. Trujillo pri tem navaja primer:

angleščina: Bill went into the house. (slovenščina: Bill je šel v hišo.)

LCS: GO (BILL,TO(IN(HOUSE)))

španščina: Bill entro a la casa.

15

3.2 Sistemi statističnega strojnega prevajanja

Sistemi statističnega strojnega prevajanja so v ospredju zanimanja te naloge, ker

bo pregled in primerjava računalniškega strokovnega izrazja temeljila na

prevajalnikih, ki izhajata ravno iz tega sistema. Po Arturu Trujillu (1999, 210)

sistemi statističnega strojnega prevajanja temeljijo na verjetnostnih in statističnih

modelih prevajalskega procesa, osnovanih na obsežnih količinah dvojezičnih

vzporednih korpusov. Po njegovem mnenju je osnovna ideja statističnega

strojnega prevajanja iskanje tistih značilnosti dvojezičnih korpusov, ki so merljive

oz. določljive in jih kot take lahko izkoristimo za čim natančnejše predvidevanje

končnega prevoda. Značilnosti, ki so take, so denimo kookurenca oz.

sopojavljanje dveh ali več besed v izvornem in ciljnem besedilu, relativna pozicija

besed znotraj stavkov in povedi, dolžina stavkov in povedi itd. Po Jerneju Vičiču

(2010, 48) so statistični prevajalski sistemi osnovani na parametričnih statističnih

modelih, ki so naučeni na poravnanih dvojezičnih korpusih (učnih primerih).

Namesto razdeljevanja stavkov po slovničnih pravilih iščemo splošne vzorce, ki

se pojavljajo pri rabi jezika. Glavna prednost tovrstnih metod je po Vičiču ta, da

so relativno neodvisne od jezika. Med glavne slabosti takih sistemov pa po Vičiču

spadajo slab pregled nad delovanjem sistema, sistemske napake je zelo težko

odpraviti, uvajanje lingvističnega znanja pa je praktično nemogoče ali vsaj zelo

oteženo. Tehniko statistične obdelave besedil Vičič (2002, 14) navaja kot

primerno pri velikih količinah besedil, ki edine ponujajo dovolj informacij o

nekem jeziku oz. dovolj informacij za prevod med dvema jezikoma. Dejstvo pa je,

da je matematična podlaga za statistično strojno prevajanje zelo zahtevna, zato do

pred kratkim ni bilo zelo razširjeno. To se je spremenilo s pohodom

informacijskih velikanov, kakršna sta Google in Microsoft, ki imata dovolj virov

in denarja za močne in zmogljive sisteme za obdelavo takih obsežnih količin,

obenem pa dovolj sredstev za obsežne podatkovne zbirke, ki jih taki sistemi

zahtevajo.

Že samo ime statistično strojno prevajanje pomeni, da je velikega pomena za to

vrsto prevajanja statistika. Phillip Koehn (2010, 82) kot ponazoritev uporabe

statistike pri strojnem prevajanju navaja poravnano zbirko besedil iz nemškega in

16

angleškega jezika, pri čemer bi denimo prešteli, kolikokrat se v eni ali drugi zbirki

pojavi samostalnik Haus. Kot primer Koehn navaja, da bi denimo v naši

hipotetični zbirki našli besedo Haus 10 000-krat, pri čemer je 8 000-krat

prevedena v angleški house, 1 600-krat v building, 200-krat v home, 150-krat v

household itd. S tem pa je ta problem zelo posplošen, saj je povsem zanemarjen

vidik konteksta posameznih pojavljanj. Zato skušamo določiti stopnjo verjetnosti,

kakšen prevod nam bo ponudil sistem za nemški samostalnik Haus. Koehn govori

o funkciji pf : e -> pf(e), pri čemer je f tuja beseda (Haus), ki vrne verjetnost za

vsak možen angleški prevod e, to pa nam pove, kakšna je stopnja verjetnosti

določenega prevoda. Če se s to funkcijo vrnemo na zgornji primer števila

pojavljanj različnih samostalnikov v angleščini, bi morala funkcija vrniti visoko

vrednost, če je angleški samostalnik e pogost prevod. Enako velja, da mora

funkcija vrniti majhno vrednost, če je možen prevod e zelo redek. Funkcija pa

vrne vrednost nič, če je angleški prevod e nemogoč. V naši zbirki imamo sedaj

10 000 pojavitev samostalnika Haus. V 8 000 primerih je ta samostalnik preveden

v house; če delimo ti dve vrednosti, dobimo vrednost 0,8. Tako je

pHaus (house) = 0,8. Enako bi lahko izpeljali stopnjo verjetnosti prevoda v ostale

angleške prevode. Koehn (2010, 83) poimenuje to metodo tudi ocena maksimalne

verjetnosti, saj maksimira stopnjo verjetnosti.

Na tem mestu bomo se osredotočili še na en vidik statističnega strojnega

prevajanja. Kot največjo težavo te vrste strojnega prevajanja izpostavlja Vičič

(2002, 18) učenje na nepopolnih podatkih. Osnovni korpus ima določeno število

dovolj dobro opisanih pravil in dovolj pogosto zastopanih besed ter pravil. Z

večanjem korpusa pa uvajamo nove besede, pri čemer se odstotek slabo opisanih

besedil in pravil ne manjša. Problem takih pomanjkljivih podatkov skušamo rešiti

s pomočjo naprednih algoritmov, ki take podatke skušajo zakriti. Algoritmi

upoštevajo predhodno znanje o problemu, izkušnje iz sorodnih področij ali pa celo

povsem tujih področij. Šumne podatke izločamo s pomočjo zakonitosti v

podatkih, z izločanjem ekstremov. Pri tem izločanju pa moramo paziti, da ne

pretiravamo in preveč „porežemo korpusa“. Napake v učni bazi odpravljamo

samodejno ali ročno s pomočjo strokovnjakov. Samodejne metode so hitrejše in

enostavnejše, a nimamo popolnega nadzora nad delovanjem. Pomoč

17

strokovnjakov pa lahko precej zoži korpus in ponudi manjši, a bolj informativen

korpus, ki je lažji za obdelavo, obenem pa še vedno dovolj dobro opisuje jezik.

Naj na tem mestu omenimo samo še en pomemben vidik statističnega strojnega

prevajanja, na katerega opozarjata tako Vičič (2002, 19) kot Koehn (2010, 85).

Govorimo o t. i. poravnavi (ang. alignment), ki izhaja tudi iz direktne primerjave

stavkov v dveh jezikih. Oglejmo si primer Jerneja Vičiča:

Direktno prevajanje tu ne bi prineslo dobrega rezultata, a povezave med besedami

vseeno obstajajo. Takšen niz povezav imenujemo poravnava. Vičič definira

poravnavo kot par , kjer vsak par predstavlja povezavo med j-to (slovensko)

besedo f in i-to (angleško) besedo e. Povezati želimo fi in ei, kjer ei ustreza fi v

angleščini. Vseh povezav pa ne moremo odkriti z gotovostjo, zato postavi sistem

parametrični model P(f, a| e), kjer je poravnava a skrita. Verjetnost P (f | e) lahko

dobimo kot vsoto vseh poravnav e in f. Podrobneje se v matematične modele in

formule pri sistemih statističnega strojnega prevajanja ne bomo spuščali,

navedeno naj zadostuje kot droben, a nazoren prikaz kompleksnosti in

sistematike, ki se skriva za na videz preprostimi in hitrimi sistemi te vrste

strojnega prevajanja.

A dog stands on the street.

Pes stoji na cesti.

18

4 Korpusi in korpusno jezikoslovje

4.1 Zgodovinsko ozadje korpusnega jezikoslovja

Pri pregledu zgodovinskega ozadja in razvoja korpusnega jezikoslovja se bomo

oprli na zapise Geoffreyja Leecha (2005, 29). Leech se vrača v petdeseta leta 20.

stoletja in začenja pri slovitem jezikoslovcu Chomskem, ki je takrat menil, da so

korpusi neustrezni. Chomsky je izjavil, da je vsak naravni korpus nujno izkrivljen.

Nekateri stavki se po njegovem ne bodo pojavili, ker so povsem očitni, drugi, ker

so nepravilni, spet nekateri pa, ker so nevljudni. Korpus, če naj bo naraven, bo

tako hudo izkrivljen, da opis ne bo nič drugega kot zgolj seznam. Po trditvah

Leecha (2005, 30) so nekateri strokovnjaki, sam jih imenuje utemeljitelje nove

šole korpusnega jezikoslovja, začeli s svojim delom v senci glavnega toka.

Leta 1959 je denimo Randolph Quirk objavil svoj načrt za korpus govorne in

pisne britanske angleščine, korpus The Survey of English Usage (SEU), kot ga

poznamo danes. Kmalu zatem sta Nelson Francis in Henry Kučera zbrala skupino

jezikoslovcev z univerze Brown in skupaj so izdelali korpus Brown, ki je bil

„knjižni vzorec“ tiskane ameriške angleščine „za uporabo s pomočjo digitalnih

računalnikov“. Velik korak k sodobnemu korpusnemu jezikoslovju pa je leta 1975

storil Jan Svartik iz skupine iz Lunda, ki je osnoval The Survey of Spoken

English, kar je bil poskus napraviti govorjena besedila iz korpusa SEU, ki niso

bila nikoli zapisana, računalniško berljiva. Vseeno pa je nastali korpus London-

Lund (LLC) po Leechu še danes daleč najboljši vir za raziskovanje govorne

angleščine. Tri desetletja po letu 1961 je korpusno jezikoslovje v novi

računalniški različici postopoma širilo svoje področje delovanja in vpliv. Kar se

tiče računalniške obdelave naravnega jezika, je postalo skoraj glavni tok. Sicer ni

obudilo zahteve ameriškega strukturalnega jezikoslovja po samozadostnem

korpusu, je pa prispevalo k temu, da je korpus postal priznan vir za sistematično

iskanje podatkov ter prostor preverjanja jezikoslovnih hipotez (Leech, 2005, 31).

19

4.2 Definicija korpusa

Kaj pa korpus sploh je? Po definiciji avtorjev Vojka Gorjanca in Darje Fišer

(2010, 10) je korpus računalniška zbirka besedil oz. delov besedil, zbranih po

enotnih kriterijih za namene različnih, predvsem jezikoslovnih raziskav. Po

njunem mnenju je korpus danes elektronska, računalniško berljiva besedila zbirka.

Le-te so enovite, notranje strukturirane in standardno označene glede na namen

korpusa v skladu z obstoječimi standardi za njihovo gradnjo. Pri tem pa so korpusi

lahko sestavljeni iz posameznih zaključenih statističnih enot, t. i. podkorpusov, ta

termin pa se uporabi tudi, ko iz obstoječega korpusa izberemo besedila za potrebe

korpusne analize, torej lahko pomeni tudi dinamično izbiro. František Ćermak

(2005, 137) pa meni, da je jezikovni korpus notranje strukturirana in poenotena,

navadno pa še označena in v celoto zaokrožena obsežna zbirka elektronsko

obdelanih jezikovnih podatkov, pretežno v besedilni obliki in oblikovano za ciljno

rabo, zaradi česar je korpus obravnavan tudi reprezentativno. Opozarja na

zavajajoče razumevanje korpusa kot velike zbirke računalniško berljivih besedil.

Ćermak opozarja, da torej korpus ni samo računalniški korpus, pač pa gre za

jezikovni korpus. Po njegovem mnenju obstoj in smisel tvorbe korpusov izhajata

iz dveh teoretičnih predpostavk, ki sta hkrati jezikovni dejstvi. Po prvi so različni

podatki v korpusu v svoji besedilni podobi in uporabi, kar omogoča njihov

vsestranski objektivni študij in induktivne sklepe, po drugi pa obsežnost načrtno

grajenega korpusa do najmanjše možne mere zmanjšuje možnost, da bi po čistem

naključju prevladala izjemna in obrobna raba jezikovnih enot nad osnovno in

tipično. O korpusih kot zbirkah besedil v elektronski obliki govorijo tudi Silvia

Bernardini, Dominic Stewart in Federico Zanettin (2003, 1). V zvezi s tem

omenjajo tudi korpusno jezikoslovje. Po njihovem mnenju je to področje, ki se je

dodobra uveljavilo in se razvilo tudi kot metodologija. O korpusnem jezikoslovju

govori tudi Jana Zemljarič Miklavčič (2008, 24). Po njej izhaja ta domena iz

enakih predpostavk kot besediloslovje, da je namreč besedilo glavni nosilec

pomena. V povezavi s tem avtorica oriše tudi razmerje med korpusom in

besedilom ter se pri tem sklicuje na Togninija Bonellija. V skladu s tem je korpus

zbirka besedil, korpusna analiza pa je lahko razumljena kot raziskovanje jezika,

kakor je ta realiziran v besedilih. O korpusnem jezikoslovju govori tudi Nataša

20

Logar (2009, 320). Po njenem mnenju so korpusi predmet raziskovanja in vir

podatkov za jezikoslovne opise in utemeljitve. Korpusno jezikoslovje naj bi v

skladu s tem izhajalo iz spoznanja, da je jezik v prvi vrsti družbeni pojav, kot tak

pa se manifestira izključno v besedilih, ki jih je mogoče napisati, opisati in

analizirati. Logarjeva meni, da je korpusno jezikoslovje danes razvito zlasti na

ravni različnih leksikalnih analiz, v tem okviru je postalo osnova vsakršni sodobni

leksikografiji. Analiza korpusa lahko torej razkrije dejstva o jeziku, na katera

morda prej sploh ne bi pomislili, da bi jih iskali. Tudi Ćermak (2005, 138) meni,

da lahko korpusi z možnostjo obdelave množice podatkov in delo z njimi vodijo

ne le k velikemu pospeševanju in olajševanju jezikoslovnega dela, pač pa na tak

način pridobljeni podatki lahko predstavljajo najbogatejši in najbolj realen vir

jezikovnih spoznanj sploh. Zato je tudi jezikovni korpus pogoj za resnično

revolucijo pri delu z jezikom, tako da o zadnjem desetletju 20. stoletja upravičeno

govorimo kot o desetletju korpusnega jezikoslovja. Korpus je lahko po Ćermaku

(2005, 139) vir podatkov za delno ali priložnostno ciljno uporabo, lahko služi za

raziskovalno ali slovarsko delo na različnih področjih, je pa tudi središčni in trajni

raziskovalni objekt popolnoma posebnega samostojnega področja. Ćermak pa

meni, da je korpusno jezikoslovje del jezikoslovja, ki sistematično obravnava

korpus in njegova orodja. Wolfgang Teubert (2005, 103) meni, da je korpusnemu

jezikoslovju, ki je bilo dolgo časa zgolj metodologija, šele zdaj pripisana ustrezna

vloga ločenega raziskovalnega izhodišča. Po njegovem mnenju raziskuje jezik

izključno na podlagi besedil, katerih celota tvori diskurzni univerzum in ki jih za

doseganje ciljev raziskovanja združujejo v uporabne korpuse. Izpostavlja, da se

korpusno jezikoslovje zanima predvsem za pomen, tj. pomen besed, fraz,

segmentov besedil, ki se obravnava v diskurzu in manifestira kot jezikovna raba

in parafraza. Prevodi so torej parafraze besedil v drugih jezikih. Večjezično

korpusno jezikoslovje razvija postopke za luščenje praktičnega jezikovnega

znanja prevajalca, ki je vsebovano v vzporednih korpusih in omogoči njihovo

uporabo pri delno avtomatiziranem prevajanju. Teubert (2005, 104) kritizira

dejstvo, da so bolj kot prispevek, ki ga lahko analiza korpusov prispeva k našemu

vedenju o jeziku, v ospredju vprašanja zgradbe korpusov, njihovega zapisa ali

označevanja ali pa denimo vprašanja standardizacije v smislu vsebinskih in

21

formalnih kategorij korpusov. Spomni na dejstvo, da je bil to cilj prve generacije

korpusnih jezikoslovcev, pri čemer je že v 60-ih letih 20. stoletja Institut za

nemško jezik (Institut für deutsche Sprache) začel z raziskovanjem korpusov v

smislu dokumentiranja jezika. Tako Teubert (2005, 108) kot Logarjeva (2009,

320) menita, da korpusno jezikoslovje širi naše jezikovno znanje, s tem da

kombinira tri postopke, in sicer (proceduralno) identifikacijo jezikovnih podatkov

v korpusu na podlagi določitve kategorij, korelacijo jezikovnih podatkov s

pomočjo statističnih metod in na koncu (intelektualno) interpretacijo rezultatov.

Prva dva koraka naj bi bila izvedena kolikor se da avtomatizirano, tretji pa

namerno. Interpretacije so namreč dejanja in jih zato ni mogoče spraviti v

algoritme. V tem pojmovanju pa leži bistvena razlika med korpusnim in

računalniškim jezikoslovjem. Slednje jezik razume zlasti proceduralno (primer

programiranja v strukturiranih programskih jezikih, kakršen je C ali C++).

Korpusi so po Teubertu (2005, 108) presek diskurznega univerzuma, ki virtualno

vsebuje vsa komunikacijska dejanja enojezične (na primer nemške), dvojezične

(na primer južnotirolske) ali večjezične (na primer zahodnoevropske) jezikovne

skupnosti, ki jo želimo definirati. Besedila, ki jih shranjujemo ali naredimo

dostopna v korpusih, so načeloma minljiva – celo tiskana besedila, kot so denimo

časopisna, v kratkem času več niso na voljo za splošno uporabo. Teubert

utemeljuje, da je diskurzni univerzum preveč obsežen, da bi ga lahko v celoti

naredili za predmet jezikoslovne analize, zato ga je treba zgostiti v že omenjeni

presek oz. zreducirati na korpus, s katerim je mogoče delati. Pri tem pridejo v

poštev parametri, kot so jezik (sociolekt, strokovni jezik ipd.), časovni izrez,

religija, situacija, zunanje in notranje značilnosti besedila ter veliko več. Še eno

prednost vidi Teubert (2005, 109) v korpusih: v njih so besede vključene v svoje

kontekste. Tako lahko korpusno jezikoslovje še posebej dobro dokumentira

postopno spreminjanje pomena, saj je kontekst tisti, ki v širokih področjih

besedišča definira konkretni pomen.

Korpusi pa so v jezikoslovno delo vnesli besedilno gradivo, ki je količinsko in

kakovostno preseglo predračunalniške gradivne zbirke, hkrati pa pokazalo na

njihove omejitve in izpostavilo pomanjkljivosti. Menita, da na korpusu temelječi

jezikovni opisi v svojem izhodišču prisegajo na jezikovno realnost, tudi ob

22

nepričakovanih rezultatih ne podlegajo intuiciji, vključujejo več podatkov o

tipičnem besednem okolju in sploh podatkov o komunikacijski realnosti. Danes pa

so korpusi tudi na številnih jezikoslovnih področjih bolj kot komplementarni

pristop samostojna raziskovalna izhodišča (Gorjanc, Fišer, 2010, 10).

4.3 Vrste korpusov

Pri vrstah korpusov se bomo najprej osredotočili na različne definicije določenih

vrst korpusov in njihova teoretska izhodišča, v nadaljevanju pa bomo izvedli

pregled nekaterih predstavnikov posameznih vrst korpusov. Vojko Gorjanc in

Darja Fišer (2010, 11) delita korpuse glede na izhodišča evropske pobude

EAGLES (http://www.ilc.cnr.it/EAGLES/typology/typology.html, dostop

14. 4. 2012). V skladu s tem se korpusi delijo na spodaj naštete skupine.

Referenčni korpusi so temeljna vrsta korpusov. Ti naj bi predstavljali celovito

podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi

najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne

raziskave predvsem s področja slovnice in slovarja, vse bolj pa tudi vseh na

jezikovni realnosti temelječih jezikoslovnih ter tudi drugih humanističnih in

družboslovnih raziskav. Za njihovo gradnjo se v izhodišču predvideva mreža

kriterijev za zajemanje različnih besedil v korpuse glede na vrsto predvsem

besediloslovnih in sociolingvističnih kriterijev. Ker so veliki in obsežni, so prav

zato razdeljeni na podkorpuse, za katere pa spet veljajo kriteriji zajemanja besedil

vanje. Med slovenskimi korpusi sta taka na primer FIDA in FidaPLUS. Velikost

referenčnega korpusa je sicer zelo težko določljiva, poleg tega pa se razumevanje

velikosti spreminja praktično iz dneva v dan. Za slovenske in svetovne razmere je

danes velik referenčni korpus FidaPLUS, ki obsega skoraj 621 milijonov besed

(pojavnic) (Zemljarič Miklavčič, 2008, 25). Referenčni korpus pa je glede na

definicijo Špele Vintar (2008, 79) enojezikovna zbirka besedil, ki predstavlja

celovito podobo nekega jezika in tako služi kot izhodišče za temeljne jezikovne

raziskave.

23

Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika

Referenčni korpusi danes vsebujejo transkripcijo govora, sicer pa so govorni

korpusi zaradi bistveno drugačne metodologije oblikovani samostojno, znotraj

referenčnih ostanejo ločene enote, največkrat v obliki podkorpusov. Za referenčne

korpuse so v glavnem zanimive samo slovnično-leksikalne jezikovne lastnosti; ne

gre torej za korpuse, namenjene raziskavi govora, ampak za zajetje posebnosti

govorne komunikacije v referenčnih priročnikih. Korpusi za potrebo tako

fonetično-fonoloških raziskav kot tudi govornih tehnologij se oblikujejo posebej

kot t. i. korpusi govora. Včasih pa gre pri tem zgolj za zajemanje posameznih

stavkov namesto celotnih besedil, zato govorimo tudi o govornih zbirkah. Sodobni

govorni korpusi danes vzporedno s transkripcijo shranjujejo tudi avdio- oz.

videozapis (Gorjanc, Fišer, 2010, 12). Govorni korpusi tako nastajajo kot studijski

posnetki, zajemajo samo izbrane (prebrane) stavke (Zemljarič Miklavčič, 2008,

26). V zvezi s tem govori Špela Vintar (2008, 80) o mediju kot kriteriju za

razvrščanje korpusa. Medij je v tem primeru pisno ali govorno besedilo.

Vintarjeva pri tem opozarja tudi na t. i. hibridne medije na področju elektronske

komunikacije, ki v pisni obliki kažejo izrazite značilnosti govornih besedil

(denimo sporočila SMS, forumi, blogi, tehnologije za čvekanje po internetu

(Twitter, Facebook, chat, …)).

24

Naslednja skupina korpusov so specializirani korpusi. Ti predstavljajo jezik v

točno določeni rabi, gre torej za izbor besedil v določeni rabi, izbor pa je določen

z namenom takega korpusa. Metodologija gradnje se v veliki meri prekriva z

referenčnimi, zaznamujejo pa jo posebnosti, denimo homogenost, odvisno od

namena korpusa (Gorjanc, Fišer, 2010, 12). Špela Vintar (2008, 79-81) pa pravi,

da je specializirani korpus reprezentativni vzorec jezikovnih zvrsti v okviru

določenega strokovno, socialno in geografsko opredeljenega specialnega jezika.

Specializirane in referenčne korpuse pa Vintarjeva uvršča v skupino korpusov, ki

se delijo glede na obseg jezikovne zvrsti. Vintarjeva izpostavlja, da med

specializiranimi korpusi prevladujejo angleški; tako obstajajo korpusi s

transkripcijami pogovorov med potovalnimi agencijami in strankami, pogovori

med kontrolorji letenja in piloti, strokovni korpusi akademskih člankov in

doktorskih disertacij, pa tudi korpusi posameznih sociolektov, na primer

londonskega najstniškega govora COLT. Ob tem Vintarjeva poudari, da so

specializirani korpusi zelo pomembni za potrebe terminologije. Za nekatere

metode pri ugotavljanju terminološke ustreznosti pa potrebujemo za primerjavo še

splošnojezikovni, v idealnem primeru referenčni korpus jezika.

O vzorčnih korpusih (Gorjanc, Fišer, 2010, 12) govorimo, ko sestavimo korpus

le iz besedilnih fragmentov in ne celotnih besedil. Prvi taki korpusi so se v težnji

po zajemanju čim bolj raznoterih besedil odločali za načelo vzorčenja, tj. enako

dolgih fragmentov besedil različnih zvrsti in vrst. Metoda se je z jezikoslovnega

vidika izkazala za neustrezno, ker besedilo kot fragment izgubi status besedila,

korpus pa zaradi posebnosti posameznih delov besedila na zajame nekaterih

značilnosti besedilnih vrst. Z razvojem tehnologije, ki je omogočala zajemanje

velikih količin besedil, so tovrstni korpusi postali manj aktualni.

Špela Vintar (2008, 80) deli korpuse tudi glede na označenost. Glede na raven

jezikoslovne analize jih lahko razdelimo na neoznačene, oblikoskladenjsko

označene, polno razčlenjene (kjer so besedila označena s polno skladenjsko

strukturo) in druge, saj se glede na namen korpusa pogosto označujejo tudi druge

jezikoslovne prvine.

Naslednja skupina po Gorjancu in Fišerjevi (2010, 12-13) so statični in

dinamični korpusi. Vsak korpus v trenutku dokončne izgradnje postane statična

25

pojavnost, da pa bi čim bolj sledili jezikovni dinamiki, se razmišlja o dinamičnem

korpusu. Ta bi spremljal jezikovno dinamiko in odseval trenutno podobo jezika.

Tako lahko v korpus novo gradivo nenehno dodajamo, pri čemer so parametri za

zajemanje tako velikih količin ohlapni, dinamičnost jezika pa tako spremljamo s

pomočjo neke vrste megakorpusa. Drugi način dodajanja novega gradiva pa bi

pomenil sočasno izločanje starega v t. i. diahrone podkorpuse, pri tem pa bi

zagotavljal bolj ali manj enaka razmerja med besedili. Problemov kakovosti

jezikovnih podatkov namreč naj ne bi zagotavljala samo količina, ampak tudi

zgradba korpusa. Aktualna pa je tudi vmesna možnost s kombinacijo

megakorpusa in robustnih parametrov vključevanja besedil in dela korpusa, za

katerega veljajo natančno izdelani parametri vključevanja besedil.

O časovnem vidiku govori tudi Špela Vintar (2008, 80). Korpus namreč lahko

predstavlja jezik določenega obdobja v zaključeni besedilni zbirki (statični) ali pa

je zasnovan kot spremljevalni (dinamični) korpus. V zvezi s tem imamo tudi že

omenjene diahrone korpuse, ki so prerez zgodovine jezika in zajemajo besedila

širšega časovnega razpona.

Glede na jezik Špela Vintar deli korpuse na eno- in večjezikovne. Slednje pa deli

še naprej na vzporedne in primerljive. Po njenem vsebuje vzporedni korpus

poravnana besedila v izvirniku in najmanj enem prevodu, primerljivi korpus pa

vsebuje besedila, ki so primerljiva glede na žanrsko opredelitev, register, temo

ipd. (2008, 78). Primerljivi korpus je po Gorjancu in Fišerjevi (2010, 13) zanimiv

za kontrastivne študije, ker vsebuje v prejšnjem stavku omenjena primerljiva

besedila v različnih jezikih. Idealen zgled primerljivega megakorpusa bi bil

korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po

prekrivnih izhodiščnih načelih, pri čemer bi ta načela morala biti jezikovno

neodvisna. O primerljivih dvojezičnih korpusih pa govorijo tudi Zanettin,

Bernardini in Stewart (2003, 6), saj omogočajo prevode z boljšim razumevanjem

izvornega in ciljnega jezika, ker lahko primerjamo terminologijo, frazeologijo in

besedilne konvencije med različnimi jeziki in kulturami. Avtorji dodajajo, da so

taki primerljivi korpusi ponavadi majhni po obsegu in specializirani.

26

Slika 2: Evroterm ‒ primer vzporednega korpusa

Vzporedni korpusi so po mnenju Gorjanca in Fišerjeve (2010, 13) zelo zanimivi

za prevodoslovje. Ti korpusi postavljajo poravnano izhodiščno besedilo in prevod

oziroma prevode istega besedila v drug jezik oz. druge jezike. Poravnani korpus

omogoča vpogled v prevajalske odločitve in strategije prevajanja. Zagotavljanje

jezikovnih virov je za take korpuse zahtevnejše, zato se pri tem velikokrat

odpovemo načelom reprezentativnosti. Pri gradnji se odloča podobno kot pri

korpusih podjezikov samo za segment; odločitev za samo na primer določeno

področje ali določen besedilni tip pa nam z vidika prevajalstva da tudi boljše

rezultate. Gorjanc in Fišerjeva kot primer vzporednega slovensko-angleškega

korpusa navajata korpusa ELAN in TRANS, Špela Vintar pa temu dodaja še

Evrokorpus (2008, 81).

Če se vzporedni korpus uporabi v kombinaciji z enojezičnim korpusom izvornega

in ciljnega jezika, je možen vpogled v značilnosti besedil, nastalih v okviru

prevajanja iz enega jezika v drugega in obratno. Gre torej za neke vrste dvosmerni

vzporedni ali t. i. recipročni korpus (Zanettin, Bernardini, Stewart, 2003, 6).

Vintarjeva (2008, 81) navaja še nekaj specializiranih korpusov v Sloveniji,

nastalih za namene terminografije:

Korpus DSI je korpus s področja informatike, ki vsebuje zbornike srečanj

Dnevi slovenske informatike od leta 2003 naprej. Ta se sproti dopolnjuje

27

s svežimi zborniki. Ker je informatika s terminološkega stališča izredno

živahna veda, je korpus dragocena podpora pri terminografskem projektu

Islovarja.

Korpus slovenskih vojaških besedil vsebuje 5,5 milijona besed iz

različnih serijskih in drugih publikacij s področja vojaštva (Naša

obramba, Slovenska vojska itd.).

KoRP je sinhroni enojezični korpus pisnih besedil odnosov z javnostmi.

Obsega 1 824 699 besed in zajema besedila od leta 1994 naprej. Je

rezultat 1. faze projekta Slovar slovenskega izrazja odnosov z javnostmi,

katerega izvajalec je Center za družboslovnoterminološko in publicistično

raziskovanje Fakultete za družbene vede, naročnik in glavni financer pa je

podjetje Pristop d.o.o.

4.4 Karakteristike korpusov

Vsaki zbirki, zbrani in berljivi na računalniku, lahko pripišemo določene lastnosti.

Vojko Gorjanc in Darja Fišer (2010, 14-15) se naslanjata na dokumentacijo

projekta EAGLES in govorita o v nadaljevanju naštetih karakteristikah.

Prva je količina. Količinski podatek o korpusu je njegova velikost. Velikost se

izraža v številu besed. Pri tem podatku gre v bistvu za podatke o absolutnem

številu izraznih enot korpusa, torej o številu enot med presledkoma. To

imenujemo pojavnica (ang. token), za razliko od podatkov o različnih besedilih, za

kar Gorjanc in Fišerjeva uporabita poimenovanje različnica (type). Korpusi so se

skozi leta seveda povečevali glede na število vključenih enot. Tako tudi danes

referenčni korpus želi zajeti čim več besedil. Ni pa pomembna le velikost samega

korpusa, pač pa tudi velikosti posameznih komponent, ker so tudi razmerja med

deli korpusa zelo pomembna. V korpusu govora pa lahko pričakujemo tudi

nekatere različnice, ki jih v pisnem korpusu denimo ni, poleg tega pa lahko med

različnice uvrstimo tudi polverbalne izraze, na primer „mhm“ ali „ə“ (Zemljarič

Miklavčič, 2008, 26). Glede velikosti je precizna tudi Špela Vintar (2008, 82-83).

Po njenem mnenju vprašanje o velikosti korpusov vključuje tudi število besedil iz

28

posamezne zvrsti, število vzorcev iz posameznega besedila in število besed v

vzorcu. V zvezi s tem izpostavlja pojem reprezentativnosti.

Reprezentativnost je tista lastnost korpusa, s katero ta predstavlja ustrezen

vzorec jezika ali strokovnega jezika, ki ga opazujemo, izhaja pa iz jedra vseh

korpusnih pristopov, ki je sklepanje o jeziku na podlagi vzorca. O tem, kdaj lahko

korpus upravičeno obravnavamo kot reprezentativen vzorec opazovane

populacije, v tem primeru jezika, je razpravljalo že veliko avtorjev. Pri raziskavah

jezikovnih zvrsti in jezikovne norme je uravnotežena sestava korpusa temeljni

dejavnik, saj so v nasprotnem primeru pogostostna razmerja v korpusu

zamaknjena in onemogočajo vrednotenje statističnih rezultatov. Tako je velikost

pomemben vidik reprezentativnosti in Vintarjeva navaja študije, v katerih avtorji

ugotavljajo, da je za ugotavljanje lastnosti določene jezikovne zvrsti dovolj že 10

besedil, od vsakega besedila pa zadošča naključen vzorec v dolžini 1 000 besed.

Za leksikografske namene pa se nasprotno rabi veliko več besedilnega materiala,

denimo od 100 milijonov besed naprej. Drug vidik reprezentativnosti je

raznoterost. Gre za raznoterost v smislu zastopanosti čim večjega števila različnih

zvrsti in registrov. V tem smislu je splošen jezik v bistvu povsem abstrakten

pojem, saj ima vsaka besedilna vrsta oz. vsak register lastne vzorce jezikovne

rabe. Raznoterost pa pomeni tudi ustrezno vključevanje dialektalnih ali

regionalnih jezikovnih zvrsti, pa tudi uravnoteženost v smislu tematskih področij

(Vintar, 2008, 82). Avtorica pa opozarja še na en vidik, in sicer glede

reprezentativnosti specializiranih korpusov. Taki korpusi naj bi čim bolj odsevali

določeno stroko in naj bi tako vsebovali veliko število terminoloških izrazov. Prva

težava, ki se pojavi, je opredelitev strokovnega področja, saj so danes meje med

strokami in disciplinami pogosto nejasne ali zabrisane. Tako prihaja do

prekrivanj, kar se kaže tudi v večpomenskosti določenih strokovnih izrazov. To

prekrivanje je zelo izrazito v samih besedilih, ki služijo kot vzorec za določeno

področje. Tu posamezna besedila uporabljajo (po Vintarjevi gostujoče) izrazje. Pri

korpusni obdelavi se običajno osredotočimo na določeno področje, zato so izrazi

iz drugih področjih t. i. šum, četudi so morda informativni za besedilo. Korpusna

terminografija zato zahteva besedila, ki so čim tesneje povezana s področjem in ne

29

vsebujejo veliko takih „gostujočih“ izrazov iz drugih področij (Vintar, 2008, 83-

84).

Naslednja lastnost korpusov je kakovost. Ta je določena z avtentičnostjo besedil

(Gorjanc, Fišer, 2010, 14‒15). Besedila v korpusu morajo biti del realne pisne,

govorne ali elektronske komunikacije. Morebitne vplive na nerealnost

komunikacije je potrebno v korpusu označiti. Tako je denimo pri transkripcijah

govora potrebno označiti, ali je bil dialog posnet z vednostjo udeležencev, saj

zavedanje snemanja pomeni simuliranje govorne situacije in s tem njeno

nerealnost. Kakovost korpusa je s tem odvisna tudi od avtentičnosti zapisa

korpusa, ne le od avtentičnosti besedil. Korpus v bistvu ni nikoli sistematično

„očiščen“ napačnih oz. variantnih zapisov in nenormativne rabe. Če bi korpus na

tak način „čistili“, bi lahko uničili dragocene, jezikoslovno relevantne informacije

(na primer podatke o razmerju jezikovne rabe do jezikovne norme, t. i. ortografske

napake itd.).

Naslednja lastnost korpusov je dokumentiranost. Pod tem pojmom razumemo

urejenost spremljevalnih podatkov o besedilu, kot so avtor, čas nastanka, mesto

objave itd., poleg tega pa tudi ločenost teh podatkov od samega besedila.

Organizacijo in urejenost teh podatkov pa dosegamo s standardi za zapis in

označevanje takih podatkov.

Po dokumentaciji EAGLES imamo še eno lastnost korpusov, in sicer

enostavnost. Ta se povezuje s standardi za zapis. V korpusu je pomembno, da

oznake, ki služijo dokumentiranosti besedil, ne motijo dostopa do samega besedila

in prepoznavanja le-tega. Zapis korpusa pa nam mora hkrati omogočiti, da ostane

v besedilu označeno nekaj, kar se je pri vnosu besedila izgubilo, na primer izpust

naslova, slike itd. To so še vedno podatki, ki so z jezikovnega vidika relevantni.

Vse to so danes sestavni del korpusa, a zaradi tega po Gorjancu (2010, 15) še ne

govorimo o označenih korpusih. Ti postanejo označeni, ko besedilom dodamo

jezikovno analitične korpusne oznake. Takrat govorimo o jezikoslovno

označenem korpusu.

Špela Vintar (2008, 84) opozarja še na nekatere vidike o karakteristikah

specializiranih korpusov in vzporednih korpusov:

30

Časovni razpon besedil je pomemben dejavnik pri delu s korpusi. Danes se

strokovna področja zelo hitro spreminjajo, s tem pa tudi besedišča strok.

Velik časovni razpon pa pomeni težjo obdelavo terminologije, ker moramo

upoštevati možnost nedoslednih terminov, nedoslednosti pri zapisu itd.

Za razpoznavanje terminoloških vzorcev je potrebna večkratna pojavitev

določenega izraza, kar zagotavlja le primerna velikost korpusa. Z večjim

vzorcem besedil bomo tudi sposobni pokriti več izrazja izbrane stroke.

Pri snovanju korpusa je pomembna odločitev ta, ali je pomembna smer

prevoda. Če želimo iz korpusa ugotoviti prevajalske strategije ali

značilnosti prevedenih besedil, mora biti korpus glede smeri opredeljen.

To pomeni, da izberemo le en jezik izvirnika in en jezik prevoda, vsa

vzporedna besedila so torej prevodi v isti jezik. Prevajalec, ki bi želel

uporabiti vzporedni korpus kot vir prevodnih ustreznic, mora poznati

sestavo korpusa, ker bo drugače le stežka vrednotil status najdenih izrazov

in možnih ustreznic.

Eno od pomembnih vprašanj v zvezi z reprezentativnostjo korpusa pa je

tudi že omenjena kakovost izvornih besedil in njihovih prevodov, saj to

dvoje vpliva tudi na kakovost pridobljenega terminološkega gradiva.

Prevodi besedil s poljubnih področij, kjer si prevajalci niso prizadevali za

terminološko doslednost, ali so besedilo terminološko osiromašili ali pa

izbrali razlagalne rešitve, za terminografske namene niso primerni. Po

drugi strani pa nudijo taka besedila s pomočjo avtomatskih metod

ugotavljanje nedoslednosti in terminoloških variacij.

V zvezi s specializiranimi korpusi je zanimiv tudi vidik homogenosti le-teh. Po

eni strani je raznoterost korpusa ne nujno želena lastnost, po drugi strani pa bi si

želeli, da je korpus homogen glede na besedišče, ki ga predstavlja. Za iskanje

razlik ali podobnosti dveh korpusov je jezikoslovec in raziskovalec Adam

Kilgarriff predlagal metodo primerjanja pogo

UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...

Documents

Transcript of UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...