UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...
Transcript of UNIVERZA V MARIBORU - COnnecting REpositories · V diplomskem delu so podrobneje obravnavana zadnja...
-
UNIVERZA V MARIBORU
FILOZOFSKA FAKULTETA
ODDELEK ZA PREVODOSLOVJE
DIPLOMSKO DELO
ANDREJ NEMEC
MARIBOR
2012
-
Univerza v Mariboru
Filozofska fakulteta
Oddelek za prevodoslovje
Andrej Nemec
POMEN ELEKTRONSKIH PREVAJALSKIH ORODIJ
NA PRIMERU SLOVENSKO-NEMŠKEGA
GLOSARJA S PODROČJA RAČUNALNIŠTVA
THE ROLE OF TRANSLATION SOFTWARE – CASE
STUDY OF SLOVENIAN-GERMAN GLOSSARY OF
COMPUTER TERMS
Diplomsko delo
Mentorica: doc.dr. Vlasta Kučiš
Maribor
2012
-
ZAHVALA
Za pomoč, nasvete, razumevanje in vso podporo pri izdelavi diplomskega dela se
iskreno in najlepše zahvaljujem mentorici doc. dr. Vlasti Kučiš.
Zahvaljujem se tudi družini, in sicer očetu Štefanu, mami Dragici in sestri Katji,
za vso podporo, razumevanje in povezanost v tem pomembnem življenjskem
obdobju.
Na tem mestu pa hvala tudi vsem prijateljem, ki so me podpirali in mi stali ob
strani v času študija, zlasti Nuši, Tadeju, Igorju, Klari, Mateju, Manji, Eriki, Ani
in Damjanu. Brez vas ne bi bil, kjer sem. Hvala tudi Tini in Nini.
Hvala vsem!
-
IZJAVA
Podpisani Andrej Nemec, rojen 26.01.1984, študent Filozofske fakultete
Univerze v Mariboru, smer prevajanje in tolmačenje – nemščina in
računalništvo, izjavljam, da je diplomsko delo z naslovom Pomen elektronskih
prevajalskih orodij na primeru slovensko-nemškega glosarja s področja
računalništva pri mentorici doc. dr. Vlasti Kučiš, avtorsko delo.
V diplomskem delu so uporabljeni viri in literatura korektno navedeni; teksti niso
prepisani brez navedbe avtorjev.
____Andrej Nemec__________
Maribor, 14.9.2012
-
POVZETEK
Prevajanje je zelo kompleksen proces, v katerem mora prevajalec poznati številna
področja in biti pripravljen se vedno na novo učiti. Pri svojem delu skorajda ne
more več brez uporabe informacijsko-komunikacijske tehnologije, ki je v njegovo
stroko vnesla številne možnosti za hitrejše in učinkovitejše, a obenem nič manj
kakovostno delo. Obenem ga je naglica razvoja postavila pred nova dejstva in
izzive, da med vsemi možnostmi, ki jih ima na voljo, izbere tiste najbolj primerne.
Za prevajalca je pomembno, da kritično presodi in ovrednoti, kaj mu katero od
orodij ponuja in kdaj naj katero uporabi. Nenazadnje mora zadostiti
pričakovanjem ciljne publike in normam ciljne kulture. Ni vseeno, ali prevaja
besedilo s področja medicine ali vremensko napoved. Tudi orodja mu pri tem
nudijo različno podporo.
Orodja, ki so mu na voljo, so pomnilniki prevodov, terminološki slovarji, tezavri,
elektronski slovarji, korpusi, sistemi statističnega strojnega prevajanja in glosarji.
V diplomskem delu so podrobneje obravnavana zadnja tri orodja. V nalogi je
predstavljena zanimiva primerjava spletnih prevajalnikov Google Translate in
Microsoft Bing, predstavljen pa je tudi glosar računalniškega strokovnega
izrazoslovja v obliki programa v programskem jeziku Visual Basic, ki sem ga sam
programiral. Čeprav se zdi, da so zlasti spletni prevajalniki ena od najbolj
perspektivnih tehnologij, ki je dosegla zavidljivo raven zanesljivosti in
natančnosti, pa je tudi na podlagi opravljene analize in primerjave razvidno, da
jim vseeno še veliko manjka, da bodo ustrezno kakovosten pripomoček v
prevajalskem procesu.
Ključne besede: elektronska prevajalska orodja, informacijsko-komunikacijska
tehnologija, prevajanje, korpus, sistemi statističnega strojnega prevajanja, Google
Translate, Microsoft Bing, spletni prevajalnik, glosar, računalniški program
-
ABSTRACT
Translation is a very complex process in which the translator has to be familiar
with many fields and has to be willing to gain new knowledge. One’s line of work
is almost impossible without the use of information and communication
technology, which provides many options for quicker and more effective but not
any less qualitative work in one’s discipline. At the same time one is faced with
new facts and challenges due to the haste of the developments to select the most
appropriate option amongst all those that are available. It is important for the
translator to make a critical judgment and assessment of the software, i.e. what
does it offer, and when and what software to use. Ultimately one has to fulfill the
expectations of target audience and norms of target culture. It matters whether one
translates a text in the field of medicine or a weather forecast. The software also
offers different support.
Tools, available to the translator, are translation memories, terminology
dictionaries, thesauruses, electronic dictionaries, corpuses, systems of statistical
machine translation and glossaries. Graduation thesis approaches last three listed
tools in detail. Thesis makes an interesting comparison between online translation
services Google Translate and Microsoft Bing, and also glossary of computer
specialist terminology as a program in a programming language Visual Basics,
which we programmed ourselves. Although it may seem that especially online
translators present one of the most highly potential technologies which achieved
enviable level of reliability and accuracy, performed analysis and comparison
clearly show that they are not nearly sufficient to be an adequately qualitative
device in the translation process.
Key words: electronic translation tools, information and communication
technology, translation, corpus, systems of statistical machine translation, Google
Translate, Microsoft Bing, online translator, glossary, computer program
-
KAZALO VSEBINE
1 Uvod ............................................................................................................... 1
2 Prevajalske tehnologije ................................................................................... 4
2.1 Osnovni pojmi............................................................................................... 4
3 Strojno prevajanje ........................................................................................... 7
3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov9 3.1.1 Podatkovne baze pri strojnem prevajanju .............................................. 10
3.1.2 Transferni pristop .................................................................................. 11 3.1.3 Pristop interlingua.................................................................................. 14
3.2 Sistemi statističnega strojnega prevajanja .................................................. 15
4 Korpusi in korpusno jezikoslovje ................................................................. 18
4.1 Zgodovinsko ozadje korpusnega jezikoslovja ............................................ 18
4.2 Definicija korpusa ....................................................................................... 19
4.3 Vrste korpusov ............................................................................................ 22
4.4 Karakteristike korpusov .............................................................................. 27
4.5 Obdelava korpusov ..................................................................................... 31
4.5.1 Označevanje korpusov ........................................................................... 32 4.5.2 Standardi za zapis korpusov .................................................................. 36
4.6 Orodja za delo s korpusi ............................................................................. 39
4.7 Korpusi za slovenščino ............................................................................... 43
4.8 Evrokorpus in Evroterm.............................................................................. 55 4.8.1 Gradnja Evrokorpusa in Evroterma ....................................................... 56
4.8.2 Intervju z Miranom Željkom (avtor Evrokorpusa in Evroterma) .......... 64
4.9 Korpus nemškega jezika Cosmas ............................................................... 72
5 Spletni prevajalniki in njihove značilnosti ................................................... 84
5.1 Primerjava prevajalnikov Google Translate in Microsoft Bing.................. 95
5.2 Rezultati primerjave .................................................................................. 114
6 Slovensko-nemški glosar računalniških terminoloških izrazov ................. 121
6.1 Funkcije in delovanje programa ............................................................... 122
7 Zaključek .................................................................................................... 128
8 Viri in literatura .......................................................................................... 130
9 Priloga ......................................................................................................... 133
-
KAZALO SLIK
Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika ................................. 23
Slika 2: Evroterm ‒ primer vzporednega korpusa................................................. 26
Slika 3: Primer iskanja s seznamom besed ........................................................... 40
Slika 4: Primer konkordančnih nizov za iskano besedo „jezik“ ........................... 41
Slika 5: Možnosti za nastavljanje parametrov pri iskanju po Novi besedi ........... 42
Slika 6: Deset najpogostejših besed v korpusu Nova beseda ................................ 44
Slika 7: Desno od konkordančnega niza se izpiše tudi oznaka, ki je hkrati vir
besedila .................................................................................................................. 45
Slika 8: Besedilno okolje iskanega niza (en stavek pred njim in en stavek za njim)
............................................................................................................................... 46
Slika 9: Konkordančnik iKorpusa ......................................................................... 47
Slika 10: Transkripcija govora pri iskanem nizu „informatika“ ........................... 49
Slika 11: Seznam zadetkov pri iskanju pokrajinsko specifičnega glasu oz. fonema
............................................................................................................................... 50
Slika 12: Iskanje narečnega izraza „priša“, tipičnega za Prlekijo ......................... 50
Slika 13: Delež besed, ki so bile v korpus GigaFIDA vključene v posameznih letih
(vir: http://demo.gigafida.net/Content/Images/About/Words.jpg) ........................ 52
Slika 14: Vmesnik za iskanje po korpusu GigaFIDA ........................................... 53
Slika 15: Rezultati iskanja gesla „računalnik“ ...................................................... 54
Slika 16: Podatki v Evrokorpusu na dan 17. 5. 2012 (vir:
http://evrokorpus.gov.si/evroterm.php?jezik=slov) .............................................. 56
Slika 17: Polja s podatki o prevodu ...................................................................... 58
Slika 18: Uporabniški vmesnik Evrokorpusa ........................................................ 59
Slika 19: Izpis zadetkov pri iskanju po nizu „Evropska unija“ v Evrokorpusu .... 60
Slika 20: Primer izvornega izraza, ki ima v ciljnem jeziku več pomenov, ki pa
niso nujno sinonimi ............................................................................................... 61
Slika 21: Uporabniški vmesnik Termikor ............................................................. 62
Slika 22: Rezultat iskanja izraza „Informatik“ v korpusu ..................................... 63
Slika 23: Miran Željko .......................................................................................... 65
Slika 24: Prijavno okno za Cosmas II ................................................................... 73
Slika 25: Omejitev iskanja na enega od devetih arhivov korpusov ...................... 74
Slika 26: Iskanje besed ali besednih zvez v enem od korpusov ............................ 75
Slika 27: Kartica različnih možnosti iskanja ......................................................... 76
Slika 28: Opcije lematizacije ................................................................................ 76
Slika 29: Omejitev iskanja na enega od virtualnih korpusov ................................ 77
Slika 30: Možnost urejanja korpusa ...................................................................... 78
Slika 31: Omejitev velikosti korpusa .................................................................... 79
Slika 32: Rezultati iskanja po samo eni komponenti sicer stalne besedne zveze . 80
Slika 33: Rezultati iskanja iskalnega niza „Europäische NICHT Union“ ............ 80
Slika 34: Grafična podoba sintakse za iskanje po korpusu ................................... 81
-
Slika 35: Možnosti urejanja izpisa zadetkov ......................................................... 82
Slika 36: Izpis zadetkov po desetletjih .................................................................. 82
Slika 37: Izpis zadetkov po letih ........................................................................... 83
Slika 38: Primer težav pri prevajanju nemškega pregovora v slovenski jezik ...... 85
Slika 39: Primer prevoda pregovora iz slovenščine v nemščino........................... 85
Slika 40: Napake pri prevajanju metafore iz nemškega v slovenski jezik ............ 85
Slika 41: Primer nepravilnega prevajanja citata.................................................... 86
Slika 42: Primer nepravilnega prevoda primere.................................................... 86
Slika 43: Prevod lastnega imena, ki pa lahko pomeni tudi kaj drugega ............... 87
Slika 44: Spletni prevajalnik Yahoo Babel Fish ................................................... 88
Slika 45: Rezultat prevoda preprostega angleškega stavka v nemškega ............... 88
Slika 46: Prevod istega stavka, tokrat z veliko začetnico in s končnim ločilom .. 89
Slika 47: Prevod gornjega stavka iz angleščine v nemščino na Googlovi strani .. 90
Slika 48: Prevod angleškega stavka v slovenskega............................................... 91
Slika 49: Prevod nemškega stavka (ki je tudi prevod iz angleščine) v slovenski
jezik ....................................................................................................................... 91
Slika 50: Prevod zahtevnejšega stavka iz nemščine v slovenščino ...................... 91
Slika 51: Rezultat prevajanja že dokaj zahtevnega besedila ................................. 92
Slika 52: Rezultat prevoda stavka o omrežjih iz nemščine v slovenščino pri
Microsoftovem prevajalniku Bing ........................................................................ 93
Slika 53: Vstopno okno ob začetku dela s programom ....................................... 122
Slika 54: Okno s seznamom gesel ....................................................................... 123
Slika 55: Padajoči meni s seznamom gesel ......................................................... 123
Slika 56: Primer prikaza terminov in njunih definicij ......................................... 124
Slika 57: Okno za vnos novega termina .............................................................. 124
Slika 58: Izpis vsebine tekstovne datoteke.......................................................... 125
Slika 59: Primer interaktivne dejavnosti za popestritev dela s programom ........ 126
Slika 60: Okno z obvestilom o pravilnem odgovoru .......................................... 126
Slika 61: Obvestilo o ponovnem poskusu v primeru napačnega odgovora ........ 127
Slika 62: Primer izvorne kode ............................................................................. 127
-
KAZALO TABEL
Tabela 1: Primerjava transfernih sistemov ............................................................ 13
Tabela 2: Primer pretvarjanja besed v številčno kodo (vir:
http://www.lancs.ac.uk/fss/courses/ling/corpus/Corpus2/2FRA1.HTM) ............. 35
Tabela 3: Pregled prevodov prevajalnikov Google Translate in Microsoft Bing iz
slovenskega v nemški jezik v neposredni primerjavi ............................................ 95
Tabela 4: Predlagani prevodi, vsebovani tudi v programu - glosarju ................. 133
-
KAZALO GRAFIKONOV
Grafikon 1: Ujemanje prevodnih enot prevajalnikov Google Translate in
Microsoft Bing ob neupoštevanju razlik v sklonu, številu itd. ........................... 118
Grafikon 2: Ujemanje prevodov prevajalnikov Google Translate in Microsoft
Bing glede na slovnične lastnosti ........................................................................ 118
Grafikon 3: Ustreznost prevodov prevajalnika Google Translate....................... 119
Grafikon 4: Ustreznost prevodov prevajalnika Bing .......................................... 119
-
1
1 Uvod
Živimo v hitro spreminjajoči se družbi, t. i. družbi znanja, strokovnjaki pa
sodobnost označujejo tudi kot informacijsko dobo. Dejstvo je, da s tem ne
pretiravajo, saj je vpliv informacijskih in komunikacijskih tehnologij na naše
življenje izjemen. Če si je pred 15 leti le še malokdo predstavljal, da bo imel
danes že skoraj vsak otrok v osnovni šoli svoj mobilni telefon, je to danes splošno
veljaven trend, ki se le še stopnjuje in intenzivira. Ne samo, da ima skoraj vsak
otrok v osnovni šoli svoj mobilni telefon, marsikateri ima celo že dva. Da pri tem
ne omenjamo, kaj vse ima še ob tem; denimo tablični računalnik, če se omejimo le
na najbolj sveže trende. Treba je poudariti, da z navedenim želimo le karikirati,
kakšen prepih so v našem življenju in življenju povprečnega državljana povzročile
informacijsko-komunikacijske tehnologije (v nadaljevanju IKT). Na le-te smo se
tudi že tako privadili, da si dejansko ne moremo več predstavljati življenja brez
njih. Pa naj gre pri tem za enostavno uporabo interneta, kje nekdo želi le
pregledati dnevne novice ali svoj predal elektronske pošte, ali pa spremljanje
novih TV programov v shemi svojega kabelskega operaterja IP-televizije. Če so v
prejšnji povedi navedeni primeri pokazatelj vpliva oz. prisotnosti IKT v našem
prostem času, pa so lahko tudi pokazatelj vpliva IKT v našem poklicnem
življenju. Preden se osredotočimo na ta vidik, naj omenimo še eno nezanemarljivo
plat prisotnosti IKT v naši resničnosti – olajšajo nam marsikaj, pa naj bo to način
komuniciranja in življenja oz. preživljanja prostega časa (čedalje več primerov je,
da posameznik preživlja prosti čas ob računalniku in prisotnosti na socialnem
omrežju, pri čemer mu to nenazadnje odtehta stik z neko osebo v živo) ali pa
opravljanje določenih nalog (še do pred nedavnim precej futuristična predstava
avtomatizirane hiše dobiva v informacijski dobi precej konkretne obrise).
Nepredstavljivo je na primer, da smo še pred nekaj leti vse pisali na roko, zdaj pa
nam tega več ni treba zaradi poplave pisarniških programov. Priča smo obilici
informacij, s katerimi nas nenehno „bombardirajo“ tako stari konvencionalni
mediji (časopisi, revije) kot novodobni mediji, denimo spletni portali. Spreminja
se tudi človeška percepcija – če se določeno delo opravi s pomočjo tehnologije, se
opravi hitreje, učinkoviteje, zanesljivejše. Vse to so vidiki, ki jih ne moremo
-
2
zanemariti niti pri vplivu IKT na človekovo poklicno življenje. Ravno tako za
človekovo življenje doma in v prostem času velja, da je IKT v veliki meri
spremenila podobo opravljanja skoraj vseh strokovnih področij. In eno izmed teh,
kjer je prisotna v čedalje večji meri in v različnih oblikah, je tudi prevajalsko
področje. Prevajalstvo kot stroka je nenehno podvrženo stalnim spremembam. Če
vzamemo pod drobnogled denimo samo področje računalništva, ki se danes ne
more identificirati s pojmom IKT, saj le-ta pomeni veliko več kot zgolj računalnik
in njegove sestavne dele, je že to področje podvrženo hitremu razvoju, kar pomeni
nove tehnologije, nove naprave, nove programe, nova opravila itd. Vse to pa
seveda zahteva nova imena oz. nova poimenovanja, kar postavlja prevajanje pred
svojevrsten izziv – skupaj z jezikoslovci in drugimi tvornimi (so)oblikovalci
razvoja jezikovnega področja na določenem prostoru v določenem času. Ne
smemo pozabiti, da prevajalcu pripada osrednja vloga prenašalca informacij iz
izvornega v ciljni jezik, pri čemer mora ohraniti tehnične in kulturne informacije.
Pred nekaj desetletji je bil slovar v tiskani obliki najpomembnejši pripomoček za
opravljanje te funkcije, danes jih je na voljo veliko več, pri čemer velja poudariti,
da tu klasični slovar v tiskani obliki še vedno igra pomembno vlogo, vendar ni več
tako osamljen, kot je morda bil v preteklosti. Prevajalec ima na voljo poleg
klasičnih slovarjev elektronske vire. Prednost le-teh pred klasičnim slovarjem je
denimo ažurnost. Prej smo omenjali hitro nastajanje novih pojmov. Preden ti
najdejo svoje mesto v določenem slovarju in se znajdejo na knjižnih policah, je
elektronski slovar že uspešno posodobljen v relativno kratkem času. To pa ni
edina prednost, druge (a nikakor nepomembne) so široka dostopnost, nižji stroški,
pa še kakšna bi se našla. Glede na to, da je cena dostopa do interneta padla, da si
ga danes v razvitem svetu lahko privošči vsak in da so vzporedno s tem padle tudi
cene računalnikov, je to še en pomemben vidik – dosegljivost v rekordno kratkem
času in to dobesedno iz domače dnevne sobe. Koliko lažje je na primer dandanes
nekomu posredovati digitalno obliko nekega besedila na njegov računalnik v
njegovem domu, preden je informatizacija doživela tak razcvet, preden denimo
marsikdo sploh še ni slišal za elektronsko pošto, kaj šele Skype ali podobne
tehnologije. Pa roko na srce, to ni tako daleč nazaj, denimo dve desetletji. Vse
navedeno pomeni, da je IKT tudi na področje prevajanja prinesla veliko koristi, s
-
3
čimer se je delo za prevajalca močno poenostavilo in postalo učinkovitejše. Od
vsakega prevajalca posebej pa je odvisno, kako si organizira lastno delo.
Konkretno to pomeni, katere iz širokega nabora pripomočkov bo uporabil pri
svojem delu. Na voljo ima pisano paleto le-teh. V nadaljevanju bomo posamezne
predstavili in skušali strniti njihove prednosti oz. slabosti. Velja pa poudariti, da je
izbor orodij odvisen od značaja dela in vrste besedila, ki ga posamezen prevajalec
prevaja. Pričakovati je, da bo za prevajanje kratke dnevne novice za tiskovno
agencijo uporabil manj resursov, ki so tudi manj kompleksni od prevajanja pravne
pogodbe na nekaj straneh.
Nove informacijsko-komunikacijske tehnologije omogočajo hitrejše in
učinkovitejše povezave med pripadniki različnih jezikovnih skupin ter vse bolj
intenzivne gospodarske in politične poteze združevanja v Evropi in po svetu
(Vintar, 1999). Hkrati se s povečanim povpraševanjem po prevajalcih od njih
poleg jezikovne kompetentnosti pričakuje in zahteva še strokovno poznavanje
področja in terminologije, v zadnjem času pa tudi ustrezna znanja o sodobnih
prevajalskih tehnologijah in orodjih, o čemer bomo več pisali v nadaljevanju.
Dejstvo je, da so z vsemi zahtevanimi znanji kakovostne prevajalske storitve
visoko cenjene, tega pa si marsikateri naročnik ne more privoščiti. Tako ni nič
nenavadnega, da razvoj na področju računalniškega prevajanja že nekaj časa
narekujejo veliki naročniki prevodov – multinacionalni koncerni, Evropska unija
ipd. (Vintar, 1999)
-
4
2 Prevajalske tehnologije
2.1 Osnovni pojmi
Prevajanje je kompleksen proces, ki je sestavljen iz številnih podrejenih procesov
in obsega različna opravila. Amparo Alcina (2008, 79) pravi, da razmerje med
računalništvom (posledično informacijsko-komunikacijsko tehnologijo) in
prevajanjem pravega razcveta ni doživelo z razvojem programske opreme za
strojno prevajanje, pač pa z razvojem elektronskih slovarjev in terminoloških
podatkovnih baz, s pojavom interneta in njegovih številnih možnosti za iskanje po
virih in črpanje znanja iz njih ter s pojavom računalniško podprtih prevajalskih
orodij.
Proces prevajanja tako že dolgo ne temelji več zgolj na prevajalčevem znanju
dveh (ali več) jezikov, pač pa na njegovi zmožnosti analiziranja in razumevanja
odnosov med izvornim in ciljnim jezikom, da lahko na tak način tvori prevod, ki
bo čim bliže izvornem jeziku, obenem pa bo izpolnjeval vse jezikoslovne zahteve
in kulturne konvencije v okolju ciljnega jezika (Jekat in Massey, 2003).
V procesu prevajanja se lahko uporabijo številna elektronska in računalniška
orodja za izboljšanje kakovosti, učinkovitosti in nenazadnje same dinamike
prevajalskega dela, to pa so nedvomno tudi najpomembnejše karakteristike
prevajalskega produkta. Prevajalci bi morali poznati in uporabljati taka
prevajalska orodja ter izkoriščati njihov potencial, saj s tem izboljšujejo sami sebe
in kakovost svojega dela, zato jih moramo upoštevati kot integralni del
prevajalčeve realnosti, ki jo oblikujejo globalizacija in potreba po pretoku
informacij (Kučiš, 2010). Primer take smiselne in nujne rabe računalniških
prevajalskih orodij je projekt prevajanja dokumentacije za potrebe Evropske unije
(Kučiš, 2010). Računalnik je že nekaj časa nepogrešljiv za delo prevajalca,
količina znanja in potreba po znanju za delo s prevajalskimi tehnologijami pa
naraščata iz dneva v dan. Število računalnikov po svetu in njihovih uporabnikov v
zadnjih letih skokovito narašča in se še ne ustavlja. To dejstvo in raznovrstnost
oblik in formatov elektronskih dokumentov pa so vplivali tudi na razmah novega
specializiranega področja, t. i. lokalizacijo (Alcina, 2008, 80). Slednja označuje
prevajanje dokumentacije, vmesnikov in datotek za pomoč, ki spremljajo
-
5
računalniške aplikacije in programsko opremo, obenem pa Alcina sem prišteva še
prevajanje spletnih strani. Stolze (1999, 159) pa definira lokalizacijo kot
prilagajanje določenega izdelka (ali storitve) in pripadajoče dokumentacije ciljni
kulturi določenega tujega trga za ponudbo na tem trgu. Stolze kot enega
pomembnejših vidikov lokalizacije izpostavlja t. i. internacionalizacijo, pri čemer
misli na univerzalno in vsestransko združljivo jedro programske opreme, ki
podpira za določeno območje značilno kodo, kot so znakovni nabori, ločljivosti
zaslonov, formati za datum in čas, vhodne podatke, ki jih vnašamo preko
tipkovnice ali ukaznega načina, itd.
Po Alcini (2008, 80) so prevajalske tehnologije (oz. strojno prevajanje (MT –
Machine Translation) ali tudi računalniško podprto prevajanje (CAT – Computer
Aided Translation)) nova disciplina, ki kombinira računalnike, programsko
opremo za prevajanje in njihov nadaljnji razvoj. Špela Vintar (1999) meni, da je
razlika med obema pojmoma zlasti v tem, da je računalniško podprto prevajanje
za jezikovne profesionalce bolj zanimivo, saj se z orodji za strojno prevajanje
ukvarjajo zlasti strokovnjaki, ki niso jezikovni profesionalci in se torej z jezikom
ne ukvarjajo poklicno. Avtorja Jekat in Massey (2003) dodajata pojmoma strojno
prevajanje in računalniško podprto prevajanje še pojem informacijskega
menedžmenta, ki ga opišeta kot pripomoček pri razvrščanju in organiziranju
potrebnih informacij, ki so na razpolago za izvajanje prevajalskega procesa.
Avtorja navajata, da je tu pomemben vidik podatkovnih baz, ki nastajajo v
prevajalskem procesu. To se pokaže kot koristno zlasti v primeru dolgih besedil,
saj je tu s pomočjo tehnologij strojnega in računalniško podprtega prevajanja
zagotovljena terminološka in formalna konsistentnost. Podatkovne baze, nastale v
takem procesu, izboljšujejo različne vrste sistemov strojnega prevajanja, ki so že
implementirani znotraj sistemov računalniško podprtega prevajanja in kjer se
segmenti izvornega jezika že ujemajo z obstoječimi prevodi v podatkovni bazi.
Alcina (2008, 81) našteva tudi dejavnike za razvrščanje orodij strojnega in
računalniško podprtega prevajanja:
stopnja avtomatizacije prevajalskega procesa,
trenutek v prevajalskem procesu, v katerem se začnejo prevajalska orodja
uporabljati,
-
6
potrebna raven računalniškega znanja,
razmerje med orodji in prevajanjem, ter
stopnja uporabnosti posameznega orodja za določen vidik prevajalskega
procesa.
Kučiš (2010) pa opozarja še na en pomemben vidik, in sicer na šest strokovnih
kompetenc, ki naj bi odlikovale sodobnega prevajalca in ki jih kot take
prepoznava tudi Generalni direktorat za prevajanje pri Evropski komisiji. Med te
kompetence sodijo poznavanje jezika, terminologije, tematike, tehnologij,
medkulturnih vidikov in vodstvene sposobnosti. Nadalje je za prevajalca
pomembno, da navedene kompetence lahko dodatno razvija, in to v obeh jezikih,
sem pa spada tudi sposobnost dela s prevajalskimi orodji, med katere lahko
uvrstimo terminološke podatkovne baze, pomnilnike prevodov in orodja
računalniško podprtega prevajanja.
-
7
3 Strojno prevajanje
Tako IKT kot prevajalstvo sta podvržena nenehnim spremembam. Pri tem gre za
procese, ki obe področji tesno povezujejo, saj je že od nekdaj cilj strokovnjakov z
obeh področij razviti sisteme oz. tehnologije, ki bodo prevajalcem delo olajšale in
jih pri njihovem delu podpirale. Če smo iskreni, tehnološki sistemi verjetno ne
bodo nikoli v celoti nadomestili prevajalca, saj je jezik tako živa in raznolika
tvorba, da bi jo le težko ujeli v stroju. Zato pa so lahko zelo koristni pripomočki.
Besedna zveza, ki obe področji povezuje že dalj časa, pa je strojno prevajanje. Kaj
točno razumemo pod pojmom strojno prevajanje? Jezikoslovka in raziskovalka
Špela Vintar (1999, 3) piše, da izraz strojno prevajanje označuje računalniške
sisteme za prevajanje naravnih jezikov, pri katerih je prevajalski proces do
največje možne mere avtomatiziran. Pri tem jih deli na lastne eno- in večjezične
leksikone, programe za morfološko in sintaktično analizo in sintezo, razreševanje
večpomenskosti, prepoznavanje večbesednih semantičnih enot in druge
kompleksne mehanizme, ki naj bi omogočali avtomatski prevod s čim manj
napakami. Vintarjeva pri tem navaja, da vloga uporabnika pri takem procesu ni
povsem odpravljena in omenja, da je človekovo posredovanje potrebno zlasti
zaradi odpravljanja težav glede večpomenskosti, ki jo stroji ne zaznavajo. Jernej
Vičič (2002) v svoji magistrski nalogi Statistično strojno prevajanje naravnih
jezikov opiše strojno prevajanje preprosto kot samodejno prevajanje iz enega
jezika v drugega. Pri tem izpostavlja težave pri takem prevajanju, saj bi moral
računalnik poleg obeh jezikov poznati še sintakso, semantična pravila, slovnico,
večpomenskost besed in fraz itd. Pri tem imamo dve možnosti, da računalnik
„naučimo“ potrebnega znanja. Prva možnost je, da množica strokovnjakov za
določen jezikovni par pripravi vse potrebno za naknadno procesiranje v
računalniškem sistemu. Ta sistem je dober, a daleč najdražji in zamuden. Druga
možnost pa je, da se računalnik sam nauči sintaktičnih in semantičnih pravil, tako
da pregleda velike količine dvojezičnih, tj. vzporednih, besedil. Besedila seveda
morajo biti natančni prevodi. Govora je o statističnem strojnem prevajanju,
kateremu se bomo posvetili kasneje.
-
8
Arturo Trujillo (1999, 3) meni, da imata strojno prevajanje in prevodoslovje kot
stroka skupne cilje. Pri tem se sklicuje na teorijo skoposa, ki da je nastala kot
odgovor na naraščajočo potrebo po neliterarnem prevajanju. Teorijo skoposa
opiše kot okoliščine oz. dejavnike, ki v nekem določenem kontekstu spremljajo
prevajalski projekt oz. prevajalsko aktivnost. Teorija skoposa ob tem vključuje
naročnika prevoda, funkcijo teksta, ki je odvisna od ciljne skupine bralcev in
poudarja tudi pomen kulturnega okolja teh istih bralcev. Če postavimo ta dejstva v
kontekst sodobnih komunikacijskih metod in sredstev, je skopos ali namen
prevoda posredovanje vsebine v čim širšem pomenskem smislu (Trujillo, 1993,
3).
Jasno je, da so računalniki računski stroji. Pri tem gre sicer za podobnost s
procesom prevajanja iz izhodiščnega v ciljni jezik, če se osredotočimo na primer
prevajanja programske kode v kontekstu programiranja. Podobno kot morajo
sodobni programski jeziki pretvoriti kodo, ki jo napiše človek – programer, v
dolga zaporedja 0 in 1, da bo jezik programerja razumljiv računalniku, ki pač
razume ta dvojiški zapis, mora tudi prevajalec pretvoriti besedilo v izvornem
jeziku v ciljni jezik, ki bo razumljiv govorcu tega dotičnega jezika. Pri tem nastaja
edinstvena razlika v okoliščinah, ki jih računalnik kot stroj ne more in ne zna
upoštevati, da bi programsko kodo ustrezno prilagodil, saj je v končni fazi nima
komu prilagajati. Prevajalec pa mora upoštevati vrsto okoliščin, ko se loteva
prevoda, da bo razumljivo ciljnemu bralcu oz. ciljni publiki. Tu naletimo tudi na
zgoraj obravnavano teorijo skoposa. Proces prevajanja si je tako podoben le do
določene mere. Lahko bi rekli, da je določena razlika tudi v stopnji kreativnosti –
ni treba, da je računalnik ustvarjalen, prevajalec pa skoraj mora biti oz. ima to
sposobnost, da je lahko.
Strojno prevajanje na splošnih domenah trenutno še ne dosega kakovosti
prevodov drugih računalniških področij. Za opravljanje predstavljenih opravil
mora računalnik „poznati“ izvorni in ciljni jezik. Poleg osnovnih jezikovnih
pravil, kot so sintaksa, gramatika, sinonimi besed oz. fraz v obeh jezikih, mora
sistem poznati še semantiko oz. pomen prevajanih sporočil (Vičič, 2002). Da mu
to res uspe, mora biti zelo izpopolnjen.
-
9
3.1 Zgodovinski pregled strojnega prevajanja in pristopov k izgradnji sistemov
Pri pregledu se bomo oprli na Špelo Vintar1. Prve resne raziskave sta izvajala
IBM in Georgetown University v ZDA v 50-ih letih 20. stoletja. Šlo je za
prevajanje iz ruščine v angleščino, sistem pa je obsegal skromnih 250 besed in
6 slovničnih pravil. Začetni zagon je nekoliko upadel v 60-ih letih, ko so se
pojavile težave zaradi večpomenskosti na leksikalni ravni. Podpora projektom je
bila v ZDA ukinjena, nadaljevale pa so se raziskave v Evropi. Evropska
gospodarska skupnost je v 60-ih podprla projekt Systran, tj. prevajalski sistem za
angleški in francoski jezik, po tem pa tudi projekt EUROTRA.
Prvi zgodnji pristop k poskusom strojnega prevajanja je bil direkten, deloval pa je
na podlagi dvojezičnega leksikona in s tem direktnega prevajanja med dvema
jezikoma. V okviru projekta Systran je bil zato razvit transferni pristop, ki je bil
sestavljen iz več modulov. Ta je razdelil prevodno enoto na povedni ravni, kjer se
najprej analizira izhodiščna stavčna struktura, v drugi fazi se prevede v ustrezno
strukturo ciljnega jezika, na koncu pa se generira ciljna prevodna enota v tretji
fazi. Vzporedno s tem poteka proces oblikoslovne analize in sinteze. Iz projekta
EUROTRA pa je znan pristop interlingua, ki pomeni prevajanje izhodiščne
povedi v t. i. medjezik oz. univerzalno, jezikovno neodvisno strukturno in
semantično ponazoritev stavčnih členov ter odnosov med njimi v odvisnosti od
povedka. Če bi bilo vse idealno, bi se iz takega vmesnega jezika dalo urejati
prevode v vse jezike sveta, žal pa se je stvar izkazala za daleč od preproste. Zato
se je kasneje razvoj osredotočil na podobnosti med izbranimi jeziki, kjer je bilo
lažje odpravljati napake. Vintarjeva navaja, da danes večina znanih sistemov
temelji na transfernem pristopu, pri tem pa se pri boljših sistemih vse bolj
uveljavljajo empirični pristopi. Tako se za razjasnjevanje skladenjske ali
leksikalne večpomenskosti uporabljajo vzporedni korpusi, ki računalniku pri vsaki
obstoječi negotovosti nudijo zbirko primerov iz resničnih besedil, na podlagi
katerih se je sistem s pomočjo primerjave frekventnosti sposoben odločiti za
prevodno ustreznico. Da danes prevladuje transferni pristop, meni tudi Arturo
Trujillo (1999).
1 Http://www2.arnes.si/~svinta/ui.rtf.
-
10
Velja, da je za večje jezike na voljo cel kup specializiranih programskih orodij,
tako komercialnih kot prosto dostopnih, ki se med seboj sicer razlikujejo. Špela
Vintar1 navaja, da imajo boljši med njimi posebne zbirke oz. leksikone za
posamezna področja, kar pripomore k razreševanju problema večpomenskosti,
obenem pa ti sistemi v različnih obsegih nudijo tudi hranjenje besedil. Ti
programi nato pomagajo pri obdelavi novih besedil.
In kje je na tem področju Slovenija? Vintarjeva1 navaja, da se je nekaj poskusov
razvijanja sistema za strojno prevajanje odvilo na Institutu Jožefa Štefana, od
komercialnih ustanov pa prednjači podjetje Amebis s svojim prevajalskim
sistemom Presis. Vintarjeva sicer zastavlja zanimivo vprašanje, ali je taka orodja
sploh smiselno razvijati pri nas in za naš jezik, saj da imajo tuji proizvajalci že
potrebne izkušnje in znanja (sami bi temu dodali, da verjetno tudi več sredstev,
kot bi jih lahko v te namene pridobila kaka slovenska ustanova), a obenem
priznava, da je pridobivanje lastnih izkušenj za naš jezik vseeno zelo pomembno.
3.1.1 Podatkovne baze pri strojnem prevajanju
Trujillo pravi (1999, 86), da za učinkovito strojno prevajanje rabimo ustrezno
oblikovane podatkovne baze. Omenja, da obstajata dve temeljni metodi za
strukturiranje takih podatkovnih baz. Prva metoda je metoda polnjenja baze z
vsemi možnimi pregibnimi oblikami določene besede oz. pojma. To pomeni, da bi
denimo v bazo vnesli vse možne oblike spreganja določenega glagola; Trujillo
sam navaja primer glagola igrati (ang. play). Druga možnost pa je, da v bazi
hranimo samo koren besede, s pomočjo oblikoslovnih pravil pa nato izpeljujemo
možne različice z različnimi priponami. Trujillo glagolu igrati dodaja angleške
pripone -ed, -ing in -s (torej različice played, playing in plays). V tem drugem
primeru bi se v bazi pojavil samo glagol play, ostale oblike pa bi dobili s
kombiniranjem tega korena besede in ustrezne pripone. Vsak od pristopov ima
svoje prednosti in slabosti. Pri polnjenju baze z vsemi možnimi oblikami glagola
je dostop do posamezne besede hitrejši, saj ne zahteva nobenega dodatnega
procesiranja. Pri tem pristopu se lahko prostor, ki ga zasedejo pregibne oblike,
zmanjša z uporabo podatkovnih struktur, kot so denimo drevesa. Manj časa in
denarja za pripravo zahteva tudi razvoj ustreznih morfoloških in skladenjskih
-
11
pravil za procesiranje in obdelavo podatkov v bazi, po drugi strani pa se porabi
več časa in denarja za polnjenje baze z ustreznimi pregibnimi oblikami
posameznega vnosa. Po Trujillu je največja slabost tega pristopa odsotnost
morfoloških in skladenjskih pravil, ki so potrebna pri jezikih, kjer je veliko
pregibanj in posledično tudi več različnih oblik. Vsekakor je lažje vnesti samo
koren besede kot pa vse možne oblike neke besede. Pri drugem pristopu je torej
treba vložiti veliko dela, napora, časa in denarja v ustrezno oblikovanje zahtevanih
morfoloških in skladenjskih pravil. Pri tej tehniki se porabi tudi znatno manj
pomnilniškega prostora kot pri prvi. Trujillo zaključuje, da je pod črto vseeno
boljša metoda korena in pripon. Navaja, da je najboljši znan pristop z
morfološkega vidika t. i. dvonivojski model, ki so ga razvili finski računalniški
strokovnjak Kimmo Koskenniemi ter raziskovalca Robert M. Kaplan in Martin
Kay (www.sil.org/pckimmo/two-level_phon.html, dostop dne 8. 4. 2012).
3.1.2 Transferni pristop
Kot je omenjeno v predhodnem besedilu, danes prevladuje transferni pristop.
Trujillo (1999, 121-122) opisuje transferni sistem kot kompromis med
učinkovitim izkoriščanjem virov t. i. sistemov interlingua in preprosto
implementacijo direktnega pristopa. Avtor izpostavlja, da za splošen večjezični
sistem število transfernih modulov narašča polinomsko glede na število jezikov.
To pomeni, da je za n jezikov potrebnih vsaj [n(n-1)]/2 transfernih modulov. Do
te enačbe Trujillo pride z naslednjo razlago: za vsakega od n jezikov obstaja (n-1)
možnih ciljnih jezikov v popolnem večjezičnem sistemu. Če so moduli sposobni
povratnega podajanja informacij in podatkov, se to število skrči za polovico.
Trujillo prikaže to kot slabost transfernega pristopa, saj postane sistem na tak
način dražji sorazmerno s številom vključenih jezikov. Navaja pa tri dejavnike, ki
vseeno govorijo v korist transfernim sistemov:
veliko sistemov je zgolj dvojezičnih, njihov osnovni namen pa je zgolj
enosmerno prevajanje iz enega v drugi jezik;
-
12
kjer obstaja potreba po popolni večjezičnosti, je možno uporabiti t. i.
vmesni jezik, v in iz katerega se opravijo prevodi; ter
določene dele posameznih transfernih modulov je mogoče večkrat
uporabiti, če imamo opravka s prevajanjem med jeziki, ki so si blizu.
Trujillo kot primer navaja modul za transferno prevajanje iz angleščine v
portugalščino, ki lahko vsebuje komponente, ki so združljive z modulom
za prevajanje iz angleščine v španščino.
Ena od lastnosti, ki medsebojno ločuje transferne sisteme, je način in globina
opravljene analize. Po eni strani imamo sisteme, ki opravljajo zgolj prevod na
besedni ravni, torej prevod posameznih leksikalnih enot. Po drugi strani pa imamo
take, ki opravijo morfološko procesiranje in površinsko segmentiranje frazemov.
Nekateri sistemi opravijo prevod na različnih nivojih jezikoslovne analize, pri
čemer vsebuje vsak od nivojev lastne zaloge pravil in oblik za tvorjenje struktur v
ciljnem jeziku (Trujillo, 1999, 122). Avtor deli transferne sisteme na tri skupine
glede na njihovo teoretsko zasnovo, praktično uporabnost in glede na strategije, ki
jih uporabljajo za obdelavo oz. procesiranje besedil. Te tri skupine so sintaktični,
semantični in leksikalni transferni sistemi.
Sintaktični transferni sistem temelji na sorodnostih in povezavah med strukturami
povedi na t. i. površju. Sistemi delujejo s pomočjo t. i. rekurzivnih2 dreves tako v
izvornem kot ciljnem jeziku in z uporabo transformacij enega drevesa v drugega.
Algoritem za transformacijo iz enega drevesa v drugega je rekurzivni algoritem,
ki se odvija od zgoraj navzdol. Na eni strani imamo vhodno stavčno strukturo in
transferna pravila, ki se uporabijo za analizo vhodne strukture. Iz vhodne strukture
se tvori izhodna struktura na drugi strani, šele nato se kliče transformacijski
algoritem, in sicer rekurzivno, pri čemer uporabi tiste vrednosti transfernih
spremenljivk, ki dajo ustrezne strukture v ciljnem jeziku (Trujillo, 1999, 123).
Semantični transferni sistem je izpostavljen številnim dilemam in težavam zaradi
različnih pomenov, ki jih imajo določene besede in besedne zveze. Jezikoslovci in
računalniški strokovnjaki so razvili različne semantične transferne sisteme,
2 Rekurzija je postopek, ki je definiran (določen, opisan) sam s sabo; rešitev problema, podana s
samim problemom le nad manjšim obsegom podatkov. V opisu postopka rešitve uporabimo kar ta
postopek. Če želimo priti do rešitve, ne moremo nadaljevati v nedogled. Potreben je ustavitveni
pogoj (http://wiki.fmf.uni-lj.si/wiki/Rekurzija, dostop dne 9. 4. 2012). V programiranju je
rekurzija klic določene funkcije za reševanje nekega problema znotraj iste funkcije.
-
13
Trujillo (1999, 135) pa izpostavlja t. i. sistem kvazi-logične oblike (ang. Quasi-
Logical Form). Leksikalni transferni pristop pa spada med nerekurzivne tehnike.
Sistem, ki ga Trujillo (1999, 148) poimenuje LexMT, vzpostavlja medjezikovne
povezave na nivoju besed in besednih nizov. Osnovna prednost sistema je v tem,
da se da take besedne pare dokaj preprosto in učinkovito preveriti s pomočjo
dvojezičnih korpusov ali slovarjev. Transferna razmerja se razvijejo v taki obliki,
ki je sorodna tisti, najdeni v dvojezičnem korpusu. Razmerja pa so uporabna tudi
v smislu, da so do določene mere neodvisna od semantične in sintaktične teorije in
se lahko prilagajajo drugim transfernim pristopom. V fazi analize sistem poišče
semantična razmerja med besedami v izvorni povedi. Te besede, v podatkovni
strukturi drevesa, predstavljena kot listi, se nato prevedejo v ciljni jezik z vsemi
svojimi pomenskimi značilnostmi. Rezultat transferja je niz besed, ki s svojim
pomenom predstavljajo poved v ciljnem jeziku, a njihov vrstni red ni nujno
pravilen. To je naloga generatorja ciljne povedi, ki si pri tem pomaga z vgrajeno
slovnico ciljnega jezika.
Prednosti in slabosti strategij oz. različnih transfernih sistemov so prikazane tudi v
spodnji tabeli (Tabela 1, prirejeno po Trujillo, 1999, 165).
Tabela 1: Primerjava transfernih sistemov
Strategija Prednosti Slabosti
sintaktični
sistem lažja analiza
hitrejši razvoj slovnice
lažje samodejno posploševanje
kompleksna transferna pravila in interakcije
drago vzdrževanje
semantični
sistem lažja transferna
pravila
druge aplikacije, ne le strojno prevajanje
teoretsko naravnana semantika
pomanjkljivo strokovno znanje
potreba po prilagajanju glede na razvoj
semantičnega področja
leksikalni sistem transparentna transferna pravila
lažje uvajanje transfernih modulov
zahtevno vključevanje neleksikalnih informacij
med transferjem
lahko se zgodi, da je sistem pomanjkljiv
-
14
3.1.3 Pristop interlingua
Trujillo (1999, 167) opisuje sistem interlingua v njegovi temeljni zasnovi kot
sistem, v katerem ima vsak od jezikov modul, ki je odgovoren za analizo stavčnih
struktur v skupno, t. i. vmesno fazo in za tvorjenje slovnično ustreznih ciljnih
struktur. To je splošna arhitektura tega sistema. Število modulov v sistemu
narašča linearno glede na število vključenih jezikov. Če se za vsak jezik denimo
rabijo ločene komponente za analizo in za tvorjenje stavčnih struktur, je število
potrebnih modulov za 11 jezikov 22. Sistemi interlingua se velikokrat pomešajo s
pojmom KBMT (ang. Knowledge Based Machine Translation), tj. sistemom, ki
vsebuje besedišče, povezano z določeno (specializirano) domeno, ali besedišče, ki
odraža t. i. znanje resničnega sveta. Oba sistema imata svoje omejitve in eden ne
more brez drugega. To velja posebej zato, ker je težko potegniti ločnico med tem,
kar je izključno jezikoslovno znanje in kaj je nejezikovno svetovno znanje. Po eni
strani mora sistem interlingua vsebovati dejstva o svetu in domeni diskurza, da
lahko razrešuje dvoumnosti in pomanjkljivosti v dobesednem znanju določenega
stavka. V ta namen rabi tudi nejezikovno svetovno znanje. Sistem interlingua
temelji na skupnem jeziku, ki mora biti sposoben razumevanja izvornega jezika in
njegovega pretvarjanja v ciljni jezik. Kognitivni jezikoslovci in strokovnjaki za
semantiko so razvili formalizme za izražanje lingvističnih pomenov v smislu čim
večje neodvisnosti od katerega koli točno določenega jezika. Ena takih različic je
t. i. LCS (leksikalna konceptualna struktura). Trujillo (1999, 168) omenja sistem
UNITRAN za jezikovno trojico angleščina-nemščina-španščina. Sistem analizira
stavek v enem od naštetih jezikov in tvori različico LCS izvornega pomena. Nato
iz tega vmesnega jezika tvori ciljno poved. Trujillo pri tem navaja primer:
angleščina: Bill went into the house. (slovenščina: Bill je šel v hišo.)
LCS: GO (BILL,TO(IN(HOUSE)))
španščina: Bill entro a la casa.
-
15
3.2 Sistemi statističnega strojnega prevajanja
Sistemi statističnega strojnega prevajanja so v ospredju zanimanja te naloge, ker
bo pregled in primerjava računalniškega strokovnega izrazja temeljila na
prevajalnikih, ki izhajata ravno iz tega sistema. Po Arturu Trujillu (1999, 210)
sistemi statističnega strojnega prevajanja temeljijo na verjetnostnih in statističnih
modelih prevajalskega procesa, osnovanih na obsežnih količinah dvojezičnih
vzporednih korpusov. Po njegovem mnenju je osnovna ideja statističnega
strojnega prevajanja iskanje tistih značilnosti dvojezičnih korpusov, ki so merljive
oz. določljive in jih kot take lahko izkoristimo za čim natančnejše predvidevanje
končnega prevoda. Značilnosti, ki so take, so denimo kookurenca oz.
sopojavljanje dveh ali več besed v izvornem in ciljnem besedilu, relativna pozicija
besed znotraj stavkov in povedi, dolžina stavkov in povedi itd. Po Jerneju Vičiču
(2010, 48) so statistični prevajalski sistemi osnovani na parametričnih statističnih
modelih, ki so naučeni na poravnanih dvojezičnih korpusih (učnih primerih).
Namesto razdeljevanja stavkov po slovničnih pravilih iščemo splošne vzorce, ki
se pojavljajo pri rabi jezika. Glavna prednost tovrstnih metod je po Vičiču ta, da
so relativno neodvisne od jezika. Med glavne slabosti takih sistemov pa po Vičiču
spadajo slab pregled nad delovanjem sistema, sistemske napake je zelo težko
odpraviti, uvajanje lingvističnega znanja pa je praktično nemogoče ali vsaj zelo
oteženo. Tehniko statistične obdelave besedil Vičič (2002, 14) navaja kot
primerno pri velikih količinah besedil, ki edine ponujajo dovolj informacij o
nekem jeziku oz. dovolj informacij za prevod med dvema jezikoma. Dejstvo pa je,
da je matematična podlaga za statistično strojno prevajanje zelo zahtevna, zato do
pred kratkim ni bilo zelo razširjeno. To se je spremenilo s pohodom
informacijskih velikanov, kakršna sta Google in Microsoft, ki imata dovolj virov
in denarja za močne in zmogljive sisteme za obdelavo takih obsežnih količin,
obenem pa dovolj sredstev za obsežne podatkovne zbirke, ki jih taki sistemi
zahtevajo.
Že samo ime statistično strojno prevajanje pomeni, da je velikega pomena za to
vrsto prevajanja statistika. Phillip Koehn (2010, 82) kot ponazoritev uporabe
statistike pri strojnem prevajanju navaja poravnano zbirko besedil iz nemškega in
-
16
angleškega jezika, pri čemer bi denimo prešteli, kolikokrat se v eni ali drugi zbirki
pojavi samostalnik Haus. Kot primer Koehn navaja, da bi denimo v naši
hipotetični zbirki našli besedo Haus 10 000-krat, pri čemer je 8 000-krat
prevedena v angleški house, 1 600-krat v building, 200-krat v home, 150-krat v
household itd. S tem pa je ta problem zelo posplošen, saj je povsem zanemarjen
vidik konteksta posameznih pojavljanj. Zato skušamo določiti stopnjo verjetnosti,
kakšen prevod nam bo ponudil sistem za nemški samostalnik Haus. Koehn govori
o funkciji pf : e -> pf(e), pri čemer je f tuja beseda (Haus), ki vrne verjetnost za
vsak možen angleški prevod e, to pa nam pove, kakšna je stopnja verjetnosti
določenega prevoda. Če se s to funkcijo vrnemo na zgornji primer števila
pojavljanj različnih samostalnikov v angleščini, bi morala funkcija vrniti visoko
vrednost, če je angleški samostalnik e pogost prevod. Enako velja, da mora
funkcija vrniti majhno vrednost, če je možen prevod e zelo redek. Funkcija pa
vrne vrednost nič, če je angleški prevod e nemogoč. V naši zbirki imamo sedaj
10 000 pojavitev samostalnika Haus. V 8 000 primerih je ta samostalnik preveden
v house; če delimo ti dve vrednosti, dobimo vrednost 0,8. Tako je
pHaus (house) = 0,8. Enako bi lahko izpeljali stopnjo verjetnosti prevoda v ostale
angleške prevode. Koehn (2010, 83) poimenuje to metodo tudi ocena maksimalne
verjetnosti, saj maksimira stopnjo verjetnosti.
Na tem mestu bomo se osredotočili še na en vidik statističnega strojnega
prevajanja. Kot največjo težavo te vrste strojnega prevajanja izpostavlja Vičič
(2002, 18) učenje na nepopolnih podatkih. Osnovni korpus ima določeno število
dovolj dobro opisanih pravil in dovolj pogosto zastopanih besed ter pravil. Z
večanjem korpusa pa uvajamo nove besede, pri čemer se odstotek slabo opisanih
besedil in pravil ne manjša. Problem takih pomanjkljivih podatkov skušamo rešiti
s pomočjo naprednih algoritmov, ki take podatke skušajo zakriti. Algoritmi
upoštevajo predhodno znanje o problemu, izkušnje iz sorodnih področij ali pa celo
povsem tujih področij. Šumne podatke izločamo s pomočjo zakonitosti v
podatkih, z izločanjem ekstremov. Pri tem izločanju pa moramo paziti, da ne
pretiravamo in preveč „porežemo korpusa“. Napake v učni bazi odpravljamo
samodejno ali ročno s pomočjo strokovnjakov. Samodejne metode so hitrejše in
enostavnejše, a nimamo popolnega nadzora nad delovanjem. Pomoč
-
17
strokovnjakov pa lahko precej zoži korpus in ponudi manjši, a bolj informativen
korpus, ki je lažji za obdelavo, obenem pa še vedno dovolj dobro opisuje jezik.
Naj na tem mestu omenimo samo še en pomemben vidik statističnega strojnega
prevajanja, na katerega opozarjata tako Vičič (2002, 19) kot Koehn (2010, 85).
Govorimo o t. i. poravnavi (ang. alignment), ki izhaja tudi iz direktne primerjave
stavkov v dveh jezikih. Oglejmo si primer Jerneja Vičiča:
Direktno prevajanje tu ne bi prineslo dobrega rezultata, a povezave med besedami
vseeno obstajajo. Takšen niz povezav imenujemo poravnava. Vičič definira
poravnavo kot par , kjer vsak par predstavlja povezavo med j-to (slovensko)
besedo f in i-to (angleško) besedo e. Povezati želimo fi in ei, kjer ei ustreza fi v
angleščini. Vseh povezav pa ne moremo odkriti z gotovostjo, zato postavi sistem
parametrični model P(f, a| e), kjer je poravnava a skrita. Verjetnost P (f | e) lahko
dobimo kot vsoto vseh poravnav e in f. Podrobneje se v matematične modele in
formule pri sistemih statističnega strojnega prevajanja ne bomo spuščali,
navedeno naj zadostuje kot droben, a nazoren prikaz kompleksnosti in
sistematike, ki se skriva za na videz preprostimi in hitrimi sistemi te vrste
strojnega prevajanja.
A dog stands on the street.
Pes stoji na cesti.
-
18
4 Korpusi in korpusno jezikoslovje
4.1 Zgodovinsko ozadje korpusnega jezikoslovja
Pri pregledu zgodovinskega ozadja in razvoja korpusnega jezikoslovja se bomo
oprli na zapise Geoffreyja Leecha (2005, 29). Leech se vrača v petdeseta leta 20.
stoletja in začenja pri slovitem jezikoslovcu Chomskem, ki je takrat menil, da so
korpusi neustrezni. Chomsky je izjavil, da je vsak naravni korpus nujno izkrivljen.
Nekateri stavki se po njegovem ne bodo pojavili, ker so povsem očitni, drugi, ker
so nepravilni, spet nekateri pa, ker so nevljudni. Korpus, če naj bo naraven, bo
tako hudo izkrivljen, da opis ne bo nič drugega kot zgolj seznam. Po trditvah
Leecha (2005, 30) so nekateri strokovnjaki, sam jih imenuje utemeljitelje nove
šole korpusnega jezikoslovja, začeli s svojim delom v senci glavnega toka.
Leta 1959 je denimo Randolph Quirk objavil svoj načrt za korpus govorne in
pisne britanske angleščine, korpus The Survey of English Usage (SEU), kot ga
poznamo danes. Kmalu zatem sta Nelson Francis in Henry Kučera zbrala skupino
jezikoslovcev z univerze Brown in skupaj so izdelali korpus Brown, ki je bil
„knjižni vzorec“ tiskane ameriške angleščine „za uporabo s pomočjo digitalnih
računalnikov“. Velik korak k sodobnemu korpusnemu jezikoslovju pa je leta 1975
storil Jan Svartik iz skupine iz Lunda, ki je osnoval The Survey of Spoken
English, kar je bil poskus napraviti govorjena besedila iz korpusa SEU, ki niso
bila nikoli zapisana, računalniško berljiva. Vseeno pa je nastali korpus London-
Lund (LLC) po Leechu še danes daleč najboljši vir za raziskovanje govorne
angleščine. Tri desetletja po letu 1961 je korpusno jezikoslovje v novi
računalniški različici postopoma širilo svoje področje delovanja in vpliv. Kar se
tiče računalniške obdelave naravnega jezika, je postalo skoraj glavni tok. Sicer ni
obudilo zahteve ameriškega strukturalnega jezikoslovja po samozadostnem
korpusu, je pa prispevalo k temu, da je korpus postal priznan vir za sistematično
iskanje podatkov ter prostor preverjanja jezikoslovnih hipotez (Leech, 2005, 31).
-
19
4.2 Definicija korpusa
Kaj pa korpus sploh je? Po definiciji avtorjev Vojka Gorjanca in Darje Fišer
(2010, 10) je korpus računalniška zbirka besedil oz. delov besedil, zbranih po
enotnih kriterijih za namene različnih, predvsem jezikoslovnih raziskav. Po
njunem mnenju je korpus danes elektronska, računalniško berljiva besedila zbirka.
Le-te so enovite, notranje strukturirane in standardno označene glede na namen
korpusa v skladu z obstoječimi standardi za njihovo gradnjo. Pri tem pa so korpusi
lahko sestavljeni iz posameznih zaključenih statističnih enot, t. i. podkorpusov, ta
termin pa se uporabi tudi, ko iz obstoječega korpusa izberemo besedila za potrebe
korpusne analize, torej lahko pomeni tudi dinamično izbiro. František Ćermak
(2005, 137) pa meni, da je jezikovni korpus notranje strukturirana in poenotena,
navadno pa še označena in v celoto zaokrožena obsežna zbirka elektronsko
obdelanih jezikovnih podatkov, pretežno v besedilni obliki in oblikovano za ciljno
rabo, zaradi česar je korpus obravnavan tudi reprezentativno. Opozarja na
zavajajoče razumevanje korpusa kot velike zbirke računalniško berljivih besedil.
Ćermak opozarja, da torej korpus ni samo računalniški korpus, pač pa gre za
jezikovni korpus. Po njegovem mnenju obstoj in smisel tvorbe korpusov izhajata
iz dveh teoretičnih predpostavk, ki sta hkrati jezikovni dejstvi. Po prvi so različni
podatki v korpusu v svoji besedilni podobi in uporabi, kar omogoča njihov
vsestranski objektivni študij in induktivne sklepe, po drugi pa obsežnost načrtno
grajenega korpusa do najmanjše možne mere zmanjšuje možnost, da bi po čistem
naključju prevladala izjemna in obrobna raba jezikovnih enot nad osnovno in
tipično. O korpusih kot zbirkah besedil v elektronski obliki govorijo tudi Silvia
Bernardini, Dominic Stewart in Federico Zanettin (2003, 1). V zvezi s tem
omenjajo tudi korpusno jezikoslovje. Po njihovem mnenju je to področje, ki se je
dodobra uveljavilo in se razvilo tudi kot metodologija. O korpusnem jezikoslovju
govori tudi Jana Zemljarič Miklavčič (2008, 24). Po njej izhaja ta domena iz
enakih predpostavk kot besediloslovje, da je namreč besedilo glavni nosilec
pomena. V povezavi s tem avtorica oriše tudi razmerje med korpusom in
besedilom ter se pri tem sklicuje na Togninija Bonellija. V skladu s tem je korpus
zbirka besedil, korpusna analiza pa je lahko razumljena kot raziskovanje jezika,
kakor je ta realiziran v besedilih. O korpusnem jezikoslovju govori tudi Nataša
-
20
Logar (2009, 320). Po njenem mnenju so korpusi predmet raziskovanja in vir
podatkov za jezikoslovne opise in utemeljitve. Korpusno jezikoslovje naj bi v
skladu s tem izhajalo iz spoznanja, da je jezik v prvi vrsti družbeni pojav, kot tak
pa se manifestira izključno v besedilih, ki jih je mogoče napisati, opisati in
analizirati. Logarjeva meni, da je korpusno jezikoslovje danes razvito zlasti na
ravni različnih leksikalnih analiz, v tem okviru je postalo osnova vsakršni sodobni
leksikografiji. Analiza korpusa lahko torej razkrije dejstva o jeziku, na katera
morda prej sploh ne bi pomislili, da bi jih iskali. Tudi Ćermak (2005, 138) meni,
da lahko korpusi z možnostjo obdelave množice podatkov in delo z njimi vodijo
ne le k velikemu pospeševanju in olajševanju jezikoslovnega dela, pač pa na tak
način pridobljeni podatki lahko predstavljajo najbogatejši in najbolj realen vir
jezikovnih spoznanj sploh. Zato je tudi jezikovni korpus pogoj za resnično
revolucijo pri delu z jezikom, tako da o zadnjem desetletju 20. stoletja upravičeno
govorimo kot o desetletju korpusnega jezikoslovja. Korpus je lahko po Ćermaku
(2005, 139) vir podatkov za delno ali priložnostno ciljno uporabo, lahko služi za
raziskovalno ali slovarsko delo na različnih področjih, je pa tudi središčni in trajni
raziskovalni objekt popolnoma posebnega samostojnega področja. Ćermak pa
meni, da je korpusno jezikoslovje del jezikoslovja, ki sistematično obravnava
korpus in njegova orodja. Wolfgang Teubert (2005, 103) meni, da je korpusnemu
jezikoslovju, ki je bilo dolgo časa zgolj metodologija, šele zdaj pripisana ustrezna
vloga ločenega raziskovalnega izhodišča. Po njegovem mnenju raziskuje jezik
izključno na podlagi besedil, katerih celota tvori diskurzni univerzum in ki jih za
doseganje ciljev raziskovanja združujejo v uporabne korpuse. Izpostavlja, da se
korpusno jezikoslovje zanima predvsem za pomen, tj. pomen besed, fraz,
segmentov besedil, ki se obravnava v diskurzu in manifestira kot jezikovna raba
in parafraza. Prevodi so torej parafraze besedil v drugih jezikih. Večjezično
korpusno jezikoslovje razvija postopke za luščenje praktičnega jezikovnega
znanja prevajalca, ki je vsebovano v vzporednih korpusih in omogoči njihovo
uporabo pri delno avtomatiziranem prevajanju. Teubert (2005, 104) kritizira
dejstvo, da so bolj kot prispevek, ki ga lahko analiza korpusov prispeva k našemu
vedenju o jeziku, v ospredju vprašanja zgradbe korpusov, njihovega zapisa ali
označevanja ali pa denimo vprašanja standardizacije v smislu vsebinskih in
-
21
formalnih kategorij korpusov. Spomni na dejstvo, da je bil to cilj prve generacije
korpusnih jezikoslovcev, pri čemer je že v 60-ih letih 20. stoletja Institut za
nemško jezik (Institut für deutsche Sprache) začel z raziskovanjem korpusov v
smislu dokumentiranja jezika. Tako Teubert (2005, 108) kot Logarjeva (2009,
320) menita, da korpusno jezikoslovje širi naše jezikovno znanje, s tem da
kombinira tri postopke, in sicer (proceduralno) identifikacijo jezikovnih podatkov
v korpusu na podlagi določitve kategorij, korelacijo jezikovnih podatkov s
pomočjo statističnih metod in na koncu (intelektualno) interpretacijo rezultatov.
Prva dva koraka naj bi bila izvedena kolikor se da avtomatizirano, tretji pa
namerno. Interpretacije so namreč dejanja in jih zato ni mogoče spraviti v
algoritme. V tem pojmovanju pa leži bistvena razlika med korpusnim in
računalniškim jezikoslovjem. Slednje jezik razume zlasti proceduralno (primer
programiranja v strukturiranih programskih jezikih, kakršen je C ali C++).
Korpusi so po Teubertu (2005, 108) presek diskurznega univerzuma, ki virtualno
vsebuje vsa komunikacijska dejanja enojezične (na primer nemške), dvojezične
(na primer južnotirolske) ali večjezične (na primer zahodnoevropske) jezikovne
skupnosti, ki jo želimo definirati. Besedila, ki jih shranjujemo ali naredimo
dostopna v korpusih, so načeloma minljiva – celo tiskana besedila, kot so denimo
časopisna, v kratkem času več niso na voljo za splošno uporabo. Teubert
utemeljuje, da je diskurzni univerzum preveč obsežen, da bi ga lahko v celoti
naredili za predmet jezikoslovne analize, zato ga je treba zgostiti v že omenjeni
presek oz. zreducirati na korpus, s katerim je mogoče delati. Pri tem pridejo v
poštev parametri, kot so jezik (sociolekt, strokovni jezik ipd.), časovni izrez,
religija, situacija, zunanje in notranje značilnosti besedila ter veliko več. Še eno
prednost vidi Teubert (2005, 109) v korpusih: v njih so besede vključene v svoje
kontekste. Tako lahko korpusno jezikoslovje še posebej dobro dokumentira
postopno spreminjanje pomena, saj je kontekst tisti, ki v širokih področjih
besedišča definira konkretni pomen.
Korpusi pa so v jezikoslovno delo vnesli besedilno gradivo, ki je količinsko in
kakovostno preseglo predračunalniške gradivne zbirke, hkrati pa pokazalo na
njihove omejitve in izpostavilo pomanjkljivosti. Menita, da na korpusu temelječi
jezikovni opisi v svojem izhodišču prisegajo na jezikovno realnost, tudi ob
-
22
nepričakovanih rezultatih ne podlegajo intuiciji, vključujejo več podatkov o
tipičnem besednem okolju in sploh podatkov o komunikacijski realnosti. Danes pa
so korpusi tudi na številnih jezikoslovnih področjih bolj kot komplementarni
pristop samostojna raziskovalna izhodišča (Gorjanc, Fišer, 2010, 10).
4.3 Vrste korpusov
Pri vrstah korpusov se bomo najprej osredotočili na različne definicije določenih
vrst korpusov in njihova teoretska izhodišča, v nadaljevanju pa bomo izvedli
pregled nekaterih predstavnikov posameznih vrst korpusov. Vojko Gorjanc in
Darja Fišer (2010, 11) delita korpuse glede na izhodišča evropske pobude
EAGLES (http://www.ilc.cnr.it/EAGLES/typology/typology.html, dostop
14. 4. 2012). V skladu s tem se korpusi delijo na spodaj naštete skupine.
Referenčni korpusi so temeljna vrsta korpusov. Ti naj bi predstavljali celovito
podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi
najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temeljne
raziskave predvsem s področja slovnice in slovarja, vse bolj pa tudi vseh na
jezikovni realnosti temelječih jezikoslovnih ter tudi drugih humanističnih in
družboslovnih raziskav. Za njihovo gradnjo se v izhodišču predvideva mreža
kriterijev za zajemanje različnih besedil v korpuse glede na vrsto predvsem
besediloslovnih in sociolingvističnih kriterijev. Ker so veliki in obsežni, so prav
zato razdeljeni na podkorpuse, za katere pa spet veljajo kriteriji zajemanja besedil
vanje. Med slovenskimi korpusi sta taka na primer FIDA in FidaPLUS. Velikost
referenčnega korpusa je sicer zelo težko določljiva, poleg tega pa se razumevanje
velikosti spreminja praktično iz dneva v dan. Za slovenske in svetovne razmere je
danes velik referenčni korpus FidaPLUS, ki obsega skoraj 621 milijonov besed
(pojavnic) (Zemljarič Miklavčič, 2008, 25). Referenčni korpus pa je glede na
definicijo Špele Vintar (2008, 79) enojezikovna zbirka besedil, ki predstavlja
celovito podobo nekega jezika in tako služi kot izhodišče za temeljne jezikovne
raziskave.
-
23
Slika 1: Nova beseda ‒ primer korpusa slovenskega jezika
Referenčni korpusi danes vsebujejo transkripcijo govora, sicer pa so govorni
korpusi zaradi bistveno drugačne metodologije oblikovani samostojno, znotraj
referenčnih ostanejo ločene enote, največkrat v obliki podkorpusov. Za referenčne
korpuse so v glavnem zanimive samo slovnično-leksikalne jezikovne lastnosti; ne
gre torej za korpuse, namenjene raziskavi govora, ampak za zajetje posebnosti
govorne komunikacije v referenčnih priročnikih. Korpusi za potrebo tako
fonetično-fonoloških raziskav kot tudi govornih tehnologij se oblikujejo posebej
kot t. i. korpusi govora. Včasih pa gre pri tem zgolj za zajemanje posameznih
stavkov namesto celotnih besedil, zato govorimo tudi o govornih zbirkah. Sodobni
govorni korpusi danes vzporedno s transkripcijo shranjujejo tudi avdio- oz.
videozapis (Gorjanc, Fišer, 2010, 12). Govorni korpusi tako nastajajo kot studijski
posnetki, zajemajo samo izbrane (prebrane) stavke (Zemljarič Miklavčič, 2008,
26). V zvezi s tem govori Špela Vintar (2008, 80) o mediju kot kriteriju za
razvrščanje korpusa. Medij je v tem primeru pisno ali govorno besedilo.
Vintarjeva pri tem opozarja tudi na t. i. hibridne medije na področju elektronske
komunikacije, ki v pisni obliki kažejo izrazite značilnosti govornih besedil
(denimo sporočila SMS, forumi, blogi, tehnologije za čvekanje po internetu
(Twitter, Facebook, chat, …)).
-
24
Naslednja skupina korpusov so specializirani korpusi. Ti predstavljajo jezik v
točno določeni rabi, gre torej za izbor besedil v določeni rabi, izbor pa je določen
z namenom takega korpusa. Metodologija gradnje se v veliki meri prekriva z
referenčnimi, zaznamujejo pa jo posebnosti, denimo homogenost, odvisno od
namena korpusa (Gorjanc, Fišer, 2010, 12). Špela Vintar (2008, 79-81) pa pravi,
da je specializirani korpus reprezentativni vzorec jezikovnih zvrsti v okviru
določenega strokovno, socialno in geografsko opredeljenega specialnega jezika.
Specializirane in referenčne korpuse pa Vintarjeva uvršča v skupino korpusov, ki
se delijo glede na obseg jezikovne zvrsti. Vintarjeva izpostavlja, da med
specializiranimi korpusi prevladujejo angleški; tako obstajajo korpusi s
transkripcijami pogovorov med potovalnimi agencijami in strankami, pogovori
med kontrolorji letenja in piloti, strokovni korpusi akademskih člankov in
doktorskih disertacij, pa tudi korpusi posameznih sociolektov, na primer
londonskega najstniškega govora COLT. Ob tem Vintarjeva poudari, da so
specializirani korpusi zelo pomembni za potrebe terminologije. Za nekatere
metode pri ugotavljanju terminološke ustreznosti pa potrebujemo za primerjavo še
splošnojezikovni, v idealnem primeru referenčni korpus jezika.
O vzorčnih korpusih (Gorjanc, Fišer, 2010, 12) govorimo, ko sestavimo korpus
le iz besedilnih fragmentov in ne celotnih besedil. Prvi taki korpusi so se v težnji
po zajemanju čim bolj raznoterih besedil odločali za načelo vzorčenja, tj. enako
dolgih fragmentov besedil različnih zvrsti in vrst. Metoda se je z jezikoslovnega
vidika izkazala za neustrezno, ker besedilo kot fragment izgubi status besedila,
korpus pa zaradi posebnosti posameznih delov besedila na zajame nekaterih
značilnosti besedilnih vrst. Z razvojem tehnologije, ki je omogočala zajemanje
velikih količin besedil, so tovrstni korpusi postali manj aktualni.
Špela Vintar (2008, 80) deli korpuse tudi glede na označenost. Glede na raven
jezikoslovne analize jih lahko razdelimo na neoznačene, oblikoskladenjsko
označene, polno razčlenjene (kjer so besedila označena s polno skladenjsko
strukturo) in druge, saj se glede na namen korpusa pogosto označujejo tudi druge
jezikoslovne prvine.
Naslednja skupina po Gorjancu in Fišerjevi (2010, 12-13) so statični in
dinamični korpusi. Vsak korpus v trenutku dokončne izgradnje postane statična
-
25
pojavnost, da pa bi čim bolj sledili jezikovni dinamiki, se razmišlja o dinamičnem
korpusu. Ta bi spremljal jezikovno dinamiko in odseval trenutno podobo jezika.
Tako lahko v korpus novo gradivo nenehno dodajamo, pri čemer so parametri za
zajemanje tako velikih količin ohlapni, dinamičnost jezika pa tako spremljamo s
pomočjo neke vrste megakorpusa. Drugi način dodajanja novega gradiva pa bi
pomenil sočasno izločanje starega v t. i. diahrone podkorpuse, pri tem pa bi
zagotavljal bolj ali manj enaka razmerja med besedili. Problemov kakovosti
jezikovnih podatkov namreč naj ne bi zagotavljala samo količina, ampak tudi
zgradba korpusa. Aktualna pa je tudi vmesna možnost s kombinacijo
megakorpusa in robustnih parametrov vključevanja besedil in dela korpusa, za
katerega veljajo natančno izdelani parametri vključevanja besedil.
O časovnem vidiku govori tudi Špela Vintar (2008, 80). Korpus namreč lahko
predstavlja jezik določenega obdobja v zaključeni besedilni zbirki (statični) ali pa
je zasnovan kot spremljevalni (dinamični) korpus. V zvezi s tem imamo tudi že
omenjene diahrone korpuse, ki so prerez zgodovine jezika in zajemajo besedila
širšega časovnega razpona.
Glede na jezik Špela Vintar deli korpuse na eno- in večjezikovne. Slednje pa deli
še naprej na vzporedne in primerljive. Po njenem vsebuje vzporedni korpus
poravnana besedila v izvirniku in najmanj enem prevodu, primerljivi korpus pa
vsebuje besedila, ki so primerljiva glede na žanrsko opredelitev, register, temo
ipd. (2008, 78). Primerljivi korpus je po Gorjancu in Fišerjevi (2010, 13) zanimiv
za kontrastivne študije, ker vsebuje v prejšnjem stavku omenjena primerljiva
besedila v različnih jezikih. Idealen zgled primerljivega megakorpusa bi bil
korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po
prekrivnih izhodiščnih načelih, pri čemer bi ta načela morala biti jezikovno
neodvisna. O primerljivih dvojezičnih korpusih pa govorijo tudi Zanettin,
Bernardini in Stewart (2003, 6), saj omogočajo prevode z boljšim razumevanjem
izvornega in ciljnega jezika, ker lahko primerjamo terminologijo, frazeologijo in
besedilne konvencije med različnimi jeziki in kulturami. Avtorji dodajajo, da so
taki primerljivi korpusi ponavadi majhni po obsegu in specializirani.
-
26
Slika 2: Evroterm ‒ primer vzporednega korpusa
Vzporedni korpusi so po mnenju Gorjanca in Fišerjeve (2010, 13) zelo zanimivi
za prevodoslovje. Ti korpusi postavljajo poravnano izhodiščno besedilo in prevod
oziroma prevode istega besedila v drug jezik oz. druge jezike. Poravnani korpus
omogoča vpogled v prevajalske odločitve in strategije prevajanja. Zagotavljanje
jezikovnih virov je za take korpuse zahtevnejše, zato se pri tem velikokrat
odpovemo načelom reprezentativnosti. Pri gradnji se odloča podobno kot pri
korpusih podjezikov samo za segment; odločitev za samo na primer določeno
področje ali določen besedilni tip pa nam z vidika prevajalstva da tudi boljše
rezultate. Gorjanc in Fišerjeva kot primer vzporednega slovensko-angleškega
korpusa navajata korpusa ELAN in TRANS, Špela Vintar pa temu dodaja še
Evrokorpus (2008, 81).
Če se vzporedni korpus uporabi v kombinaciji z enojezičnim korpusom izvornega
in ciljnega jezika, je možen vpogled v značilnosti besedil, nastalih v okviru
prevajanja iz enega jezika v drugega in obratno. Gre torej za neke vrste dvosmerni
vzporedni ali t. i. recipročni korpus (Zanettin, Bernardini, Stewart, 2003, 6).
Vintarjeva (2008, 81) navaja še nekaj specializiranih korpusov v Sloveniji,
nastalih za namene terminografije:
Korpus DSI je korpus s področja informatike, ki vsebuje zbornike srečanj
Dnevi slovenske informatike od leta 2003 naprej. Ta se sproti dopolnjuje
-
27
s svežimi zborniki. Ker je informatika s terminološkega stališča izredno
živahna veda, je korpus dragocena podpora pri terminografskem projektu
Islovarja.
Korpus slovenskih vojaških besedil vsebuje 5,5 milijona besed iz
različnih serijskih in drugih publikacij s področja vojaštva (Naša
obramba, Slovenska vojska itd.).
KoRP je sinhroni enojezični korpus pisnih besedil odnosov z javnostmi.
Obsega 1 824 699 besed in zajema besedila od leta 1994 naprej. Je
rezultat 1. faze projekta Slovar slovenskega izrazja odnosov z javnostmi,
katerega izvajalec je Center za družboslovnoterminološko in publicistično
raziskovanje Fakultete za družbene vede, naročnik in glavni financer pa je
podjetje Pristop d.o.o.
4.4 Karakteristike korpusov
Vsaki zbirki, zbrani in berljivi na računalniku, lahko pripišemo določene lastnosti.
Vojko Gorjanc in Darja Fišer (2010, 14-15) se naslanjata na dokumentacijo
projekta EAGLES in govorita o v nadaljevanju naštetih karakteristikah.
Prva je količina. Količinski podatek o korpusu je njegova velikost. Velikost se
izraža v številu besed. Pri tem podatku gre v bistvu za podatke o absolutnem
številu izraznih enot korpusa, torej o številu enot med presledkoma. To
imenujemo pojavnica (ang. token), za razliko od podatkov o različnih besedilih, za
kar Gorjanc in Fišerjeva uporabita poimenovanje različnica (type). Korpusi so se
skozi leta seveda povečevali glede na število vključenih enot. Tako tudi danes
referenčni korpus želi zajeti čim več besedil. Ni pa pomembna le velikost samega
korpusa, pač pa tudi velikosti posameznih komponent, ker so tudi razmerja med
deli korpusa zelo pomembna. V korpusu govora pa lahko pričakujemo tudi
nekatere različnice, ki jih v pisnem korpusu denimo ni, poleg tega pa lahko med
različnice uvrstimo tudi polverbalne izraze, na primer „mhm“ ali „ə“ (Zemljarič
Miklavčič, 2008, 26). Glede velikosti je precizna tudi Špela Vintar (2008, 82-83).
Po njenem mnenju vprašanje o velikosti korpusov vključuje tudi število besedil iz
-
28
posamezne zvrsti, število vzorcev iz posameznega besedila in število besed v
vzorcu. V zvezi s tem izpostavlja pojem reprezentativnosti.
Reprezentativnost je tista lastnost korpusa, s katero ta predstavlja ustrezen
vzorec jezika ali strokovnega jezika, ki ga opazujemo, izhaja pa iz jedra vseh
korpusnih pristopov, ki je sklepanje o jeziku na podlagi vzorca. O tem, kdaj lahko
korpus upravičeno obravnavamo kot reprezentativen vzorec opazovane
populacije, v tem primeru jezika, je razpravljalo že veliko avtorjev. Pri raziskavah
jezikovnih zvrsti in jezikovne norme je uravnotežena sestava korpusa temeljni
dejavnik, saj so v nasprotnem primeru pogostostna razmerja v korpusu
zamaknjena in onemogočajo vrednotenje statističnih rezultatov. Tako je velikost
pomemben vidik reprezentativnosti in Vintarjeva navaja študije, v katerih avtorji
ugotavljajo, da je za ugotavljanje lastnosti določene jezikovne zvrsti dovolj že 10
besedil, od vsakega besedila pa zadošča naključen vzorec v dolžini 1 000 besed.
Za leksikografske namene pa se nasprotno rabi veliko več besedilnega materiala,
denimo od 100 milijonov besed naprej. Drug vidik reprezentativnosti je
raznoterost. Gre za raznoterost v smislu zastopanosti čim večjega števila različnih
zvrsti in registrov. V tem smislu je splošen jezik v bistvu povsem abstrakten
pojem, saj ima vsaka besedilna vrsta oz. vsak register lastne vzorce jezikovne
rabe. Raznoterost pa pomeni tudi ustrezno vključevanje dialektalnih ali
regionalnih jezikovnih zvrsti, pa tudi uravnoteženost v smislu tematskih področij
(Vintar, 2008, 82). Avtorica pa opozarja še na en vidik, in sicer glede
reprezentativnosti specializiranih korpusov. Taki korpusi naj bi čim bolj odsevali
določeno stroko in naj bi tako vsebovali veliko število terminoloških izrazov. Prva
težava, ki se pojavi, je opredelitev strokovnega področja, saj so danes meje med
strokami in disciplinami pogosto nejasne ali zabrisane. Tako prihaja do
prekrivanj, kar se kaže tudi v večpomenskosti določenih strokovnih izrazov. To
prekrivanje je zelo izrazito v samih besedilih, ki služijo kot vzorec za določeno
področje. Tu posamezna besedila uporabljajo (po Vintarjevi gostujoče) izrazje. Pri
korpusni obdelavi se običajno osredotočimo na določeno področje, zato so izrazi
iz drugih področjih t. i. šum, četudi so morda informativni za besedilo. Korpusna
terminografija zato zahteva besedila, ki so čim tesneje povezana s področjem in ne
-
29
vsebujejo veliko takih „gostujočih“ izrazov iz drugih področij (Vintar, 2008, 83-
84).
Naslednja lastnost korpusov je kakovost. Ta je določena z avtentičnostjo besedil
(Gorjanc, Fišer, 2010, 14‒15). Besedila v korpusu morajo biti del realne pisne,
govorne ali elektronske komunikacije. Morebitne vplive na nerealnost
komunikacije je potrebno v korpusu označiti. Tako je denimo pri transkripcijah
govora potrebno označiti, ali je bil dialog posnet z vednostjo udeležencev, saj
zavedanje snemanja pomeni simuliranje govorne situacije in s tem njeno
nerealnost. Kakovost korpusa je s tem odvisna tudi od avtentičnosti zapisa
korpusa, ne le od avtentičnosti besedil. Korpus v bistvu ni nikoli sistematično
„očiščen“ napačnih oz. variantnih zapisov in nenormativne rabe. Če bi korpus na
tak način „čistili“, bi lahko uničili dragocene, jezikoslovno relevantne informacije
(na primer podatke o razmerju jezikovne rabe do jezikovne norme, t. i. ortografske
napake itd.).
Naslednja lastnost korpusov je dokumentiranost. Pod tem pojmom razumemo
urejenost spremljevalnih podatkov o besedilu, kot so avtor, čas nastanka, mesto
objave itd., poleg tega pa tudi ločenost teh podatkov od samega besedila.
Organizacijo in urejenost teh podatkov pa dosegamo s standardi za zapis in
označevanje takih podatkov.
Po dokumentaciji EAGLES imamo še eno lastnost korpusov, in sicer
enostavnost. Ta se povezuje s standardi za zapis. V korpusu je pomembno, da
oznake, ki služijo dokumentiranosti besedil, ne motijo dostopa do samega besedila
in prepoznavanja le-tega. Zapis korpusa pa nam mora hkrati omogočiti, da ostane
v besedilu označeno nekaj, kar se je pri vnosu besedila izgubilo, na primer izpust
naslova, slike itd. To so še vedno podatki, ki so z jezikovnega vidika relevantni.
Vse to so danes sestavni del korpusa, a zaradi tega po Gorjancu (2010, 15) še ne
govorimo o označenih korpusih. Ti postanejo označeni, ko besedilom dodamo
jezikovno analitične korpusne oznake. Takrat govorimo o jezikoslovno
označenem korpusu.
Špela Vintar (2008, 84) opozarja še na nekatere vidike o karakteristikah
specializiranih korpusov in vzporednih korpusov:
-
30
Časovni razpon besedil je pomemben dejavnik pri delu s korpusi. Danes se
strokovna področja zelo hitro spreminjajo, s tem pa tudi besedišča strok.
Velik časovni razpon pa pomeni težjo obdelavo terminologije, ker moramo
upoštevati možnost nedoslednih terminov, nedoslednosti pri zapisu itd.
Za razpoznavanje terminoloških vzorcev je potrebna večkratna pojavitev
določenega izraza, kar zagotavlja le primerna velikost korpusa. Z večjim
vzorcem besedil bomo tudi sposobni pokriti več izrazja izbrane stroke.
Pri snovanju korpusa je pomembna odločitev ta, ali je pomembna smer
prevoda. Če želimo iz korpusa ugotoviti prevajalske strategije ali
značilnosti prevedenih besedil, mora biti korpus glede smeri opredeljen.
To pomeni, da izberemo le en jezik izvirnika in en jezik prevoda, vsa
vzporedna besedila so torej prevodi v isti jezik. Prevajalec, ki bi želel
uporabiti vzporedni korpus kot vir prevodnih ustreznic, mora poznati
sestavo korpusa, ker bo drugače le stežka vrednotil status najdenih izrazov
in možnih ustreznic.
Eno od pomembnih vprašanj v zvezi z reprezentativnostjo korpusa pa je
tudi že omenjena kakovost izvornih besedil in njihovih prevodov, saj to
dvoje vpliva tudi na kakovost pridobljenega terminološkega gradiva.
Prevodi besedil s poljubnih področij, kjer si prevajalci niso prizadevali za
terminološko doslednost, ali so besedilo terminološko osiromašili ali pa
izbrali razlagalne rešitve, za terminografske namene niso primerni. Po
drugi strani pa nudijo taka besedila s pomočjo avtomatskih metod
ugotavljanje nedoslednosti in terminoloških variacij.
V zvezi s specializiranimi korpusi je zanimiv tudi vidik homogenosti le-teh. Po
eni strani je raznoterost korpusa ne nujno želena lastnost, po drugi strani pa bi si
želeli, da je korpus homogen glede na besedišče, ki ga predstavlja. Za iskanje
razlik ali podobnosti dveh korpusov je jezikoslovec in raziskovalec Adam
Kilgarriff predlagal metodo primerjanja pogo