Korpusna analiza

18
RPU ALI VOJKO GORJANC, DARJA FIšER KORPUSNA ANALIZA Oddelek za prevajalstvo Ljubljana 2013

description

Učbenik Korpusna analiza je oblikovan predvsem za študente Medjezikovnega posredovanja na Oddelku za prevajalstvo FF UL. Študentje se ob njem seznanijo s pomenom in temeljnimi pojmi korpusnega jezikoslovja, usvojijo osnove korpusne analize, nato pa se usposobijo za samostojno delo s korpusi – enojezičnimi in vzporednimi. Naučijo se uporabljati orodja za delo s korpusi in graditi korpuse za svoje lastne raziskave. Ker so v učbeniku celostno predstavljena orodja za korpusno analizo z vrsto praktičnih vaj, je lahko dobrodošel tudi študentom vseh drugih študijskih programov, pri katerih se študentje srečujejo s korpusnimi vsebinami.

Transcript of Korpusna analiza

Page 1: Korpusna analiza

KORPUANALIVo

jko

Gorj

anc,

Dar

ja F

išer

: kor

pusn

a an

aliz

a

9 789612 376109

ISBN 978-961-237-610-9

Darja Fišer je docentka na Oddelku za pre-vajalstvo Filozofske fakultete Univerze v Ljubljani. Pri raz-iskovalnem delu sodeluje pri zbiranju, označevanju in anali-zi različnih vrst eno- in večje-zičnih korpusov, od historičnih do tviteraških. Iz njih nato z vr-sto statističnih metod lušči se-mantično povezano besedišče, prevodne ustreznice in lažne prijatelje. Na področju leksi-kalne semantike se posveča tudi izdelavi slovenskega se-mantičnega leksikona sloWNet in uvajanju množičenja v leksi-kografsko delo, na Oddelku za prevajalstvo pa vodi vaje z vseh teh področij.

Vojko Gorjancje redni profesor na Oddelku za prevajalstvo Filozofske fakulte-te Univerze v Ljubljani, kjer je vodja slovenistične katedre. Je avtor prve slovenske monogra-fije s področja korpusnega je-zikoslovja, sodeloval pa je tudi pri vrsti korpusnih projektov v slovenskem prostoru. V svojih raziskavah prevod in prevodni proces raziskuje v sociolingvi-stičnem okviru, v ta kontekst pa sodijo tudi njegova razpravlja-nja o prevajanju in tolmačenju kot človekovi pravici, predvsem ko gre za skupnostno tolmače-nje. S tega področja je uredil tudi monografijo Slovensko tol-mačeslovje.

Učbenik Korpusna analiza je oblikovan predvsem za štu-dente Medjezikovnega posre-dovanja na Oddelku za preva-jalstvo FF UL. Študentje se ob njem seznanijo s pomenom in temeljnimi pojmi korpusnega jezikoslovja, usvojijo osnove korpusne analize, nato pa se usposobijo za samostojno delo s korpusi – enojezičnimi in vzporednimi. Naučijo se upo-rabljati orodja za delo s korpu-si in graditi korpuse za svoje lastne raziskave. Ker so v uč-beniku celostno predstavljena orodja za korpusno analizo z vr-sto praktičnih vaj, je lahko do-brodošel tudi študentom vseh drugih študijskih programov, pri katerih se študentje sreču-jejo s korpusnimi vsebinami.

Vojko Gorjanc, Darja Fišer

korpusna analizaOddelek za prevajalstvoLjubljana 2013

Page 2: Korpusna analiza
Page 3: Korpusna analiza

Vojko GorjancDarja Fišer

Ljubljana 2013

Korpusna analiza

Page 4: Korpusna analiza

Korpusna analiza

Avtorja: Vojko Gorjanc in Darja Fišer

Recenzentki: Špela Vintar, Nataša Logar Berginc

Lektor: Damjan Popič

Tehnično urejanje in prelom: Jure Preglau

© Univerza v Ljubljani, Filozofska fakulteta, 2013. Vse pravice pridržane.

Založila: Znanstvena založba Filozofske fakultete Univerze v Ljubljani

Izdal: Oddelek za prevajalstvo

Za založbo: Branka Kalenić Ramšak, dekanja Filozofske fakultete

Vodja Uredništva visokošolskih in drugih učbenikov: Janica Kalin

Ljubljana, 2013

Druga, predelana in razširjena izdaja

Naklada: 200 izvodov

Tisk: Birografika Bori, d. o. o.

Cena: 8,74 EUR

CIP - Kataložni zapis o publikacijiNarodna in univerzitetna knjižnica, Ljubljana

81'322(075.8)

GORJANC, Vojko Korpusna analiza / Vojko Gorjanc, Darja Fišer. - 2., predelana in razširjena izd. - Ljubljana : Znanstvena založba Filozofske fakultete, 2013

ISBN 978-961-237-610-9 1. Fišer, Darja, 1978- 269429504

Page 5: Korpusna analiza

3Kazalo

Kazalo

1 Predgovor ..................................................................................................................................92 Uvod v delo s korpusi .......................................................................................................10

2.1 Tipi korpusov ..................................................................................................................11

2.1.1 Referenčni korpusi ...............................................................................................11

2.1.2 Govorni korpusi ...................................................................................................11

2.1.3 Specializirani korpusi .........................................................................................12

2.1.4 Vzorčni korpusi ....................................................................................................12

2.1.5 Statični in dinamični korpusi ...........................................................................12

2.1.6 Primerljivi korpusi ...............................................................................................13

2.1.7 Vzporedni korpusi ...............................................................................................13

2.2 Karakteristike korpusov ...............................................................................................14

2.2.1 Količina .................................................................................................................14

2.2.2 Kakovost ................................................................................................................14

2.2.3 Dokumentiranost ................................................................................................15

2.2.4 Enostavnost ...........................................................................................................15

2.3 Korpusi in jezikoslovje ..................................................................................................15

2.4 Zapomnite si....................................................................................................................18

2.5 Preberite še .......................................................................................................................18

2.6 Vaje .....................................................................................................................................183 Osnovni pojmi korpusne analize ...............................................................................21

3.1 Priprava korpusnih podatkov......................................................................................21

3.1.1 Poenotenje zapisa .................................................................................................21

3.1.2 Tokenizacija ...........................................................................................................21

3.1.3 Lematizacija ...........................................................................................................22

3.1.4 Označevanje korpusov ........................................................................................22

3.2 Postopki korpusne analize ...........................................................................................23

3.2.1 Seznami besed ......................................................................................................23

3.2.2 Konkordance .........................................................................................................23

3.2.3 Korpusni vzorci ....................................................................................................23

Page 6: Korpusna analiza

4 Korpusna analiza

3.2.4 Večbesedne enote .................................................................................................24

3.3 Zapomnite si....................................................................................................................25

3.4 Preberite še .......................................................................................................................26

3.5 Vaje .....................................................................................................................................264 Iskanje po korpusih za slovenščino...........................................................................29

4.1 Korpusi slovenskega jezika ..........................................................................................29

4.1.1 Korpusa FIDA in FidaPLUS ..............................................................................29

4.1.2 Korpus Nova beseda ............................................................................................30

4.1.3 Korpusa Gigafida in Kres ..................................................................................30

4.1.4 Korpus Gos ............................................................................................................30

4.1.5 Specializirani korpusi ........................................................................................31

4.1.6 Vzporedni korpusi ...............................................................................................31

4.2 Prihodnost .......................................................................................................................31

4.3 Zapomnite si....................................................................................................................32

4.4 Preberite še .......................................................................................................................32

4.5 Vaje iz iskanja po korpusu Nova beseda ...................................................................33

4.6 Vaje iz iskanja po korpusu FidaPLUS .......................................................................34

4.6.1 Osnove iskanja ......................................................................................................34

4.6.2 Iskanje po besednih oblikah in po lemah ......................................................36

4.6.3 Iskanje po oblikoskladenjskih oznakah .........................................................36

4.6.4 Iskanje po frazah in po bližini ..........................................................................37

4.6.5 Uporaba metapodatkov v FidiPLUS ...............................................................38

4.6.6 Kombiniranje iskalnih pogojev z operatorji .................................................39

4.6.7 Razširjeno iskanje ................................................................................................39

4.6.8 Obdelava podatkov ..............................................................................................41

4.7 Vaje iz iskanja po korpusu Gigafida ..........................................................................43

4.7.1 Iskanje .....................................................................................................................43

4.7.2 Okolica ....................................................................................................................45

4.7.3 Seznam ...................................................................................................................45

4.7.4 Obdelava rezultatov .............................................................................................46

4.8 Vaje iz iskanja po korpusih nl.ijs.si ............................................................................47

4.8.1 Enostavno iskanje ................................................................................................47

Page 7: Korpusna analiza

5Kazalo

4.8.2 Zahtevno iskanje ..................................................................................................48

4.8.3 Regularni izrazi ....................................................................................................49

4.8.4 Iskanje z jezikom CQP........................................................................................515 Orodja za analizo enojezičnih korpusov ................................................................53

5.1 SketchEngine ...................................................................................................................53

5.1.1 Konkordance v orodju SketchEngine .............................................................53

5.1.2 Besedni seznami v orodju SketchEngine .......................................................56

5.1.3 Izdelava podkorpusov v orodju SketchEngine .............................................58

5.1.4 Tezaver v orodju SketchEngine .........................................................................59

5.1.5 Besedne in razlikovalne skice v orodju SketchEngine ................................60

5.2 WebBootCaT ...................................................................................................................61

5.3 WordSmith Tools ...........................................................................................................62

5.3.1 Uporaba konkordanc v orodju WordSmith Tools .......................................63

5.3.2 Izdelava besednih seznamov .............................................................................64

5.3.3 Ključne besede ......................................................................................................67

5.4 JOS ToTaLe in Obeliks ..................................................................................................69

5.5 Zapomnite si....................................................................................................................72

5.6 Preberite še .......................................................................................................................726 Delo z vzporednimi korpusi .........................................................................................73

6.1 Iskanje po Evrokorpusu ................................................................................................73

6.2 Iskanje po korpusih na nl.ijs.si ...................................................................................74

6.3 ParaConc ..........................................................................................................................75

6.3.1 Osnovne funkcije ..................................................................................................75

6.3.2 Funkcija Hot Words ............................................................................................76

6.3.3 Grafični vpogled v korpus .................................................................................77

6.4 Zapomnite si....................................................................................................................78

6.5 Preberite še .......................................................................................................................797 Seznam spletnih virov in orodij ..................................................................................80

7.1 Korpusi ..............................................................................................................................80

7.2 Orodja za iskanje po korpusih ....................................................................................808 Stvarno in imensko kazalo ............................................................................................819 Literatura ................................................................................................................................85

Page 8: Korpusna analiza

6 Korpusna analiza

Seznam slik

Slika 1: Konkordance za besedo glas iz korpusa FidaPLUS ..............................................19Slika 2: Geslo kartica v SSKJ .....................................................................................................19Slika 3: Konkordance za besedo kartica iz korpusa FidaPLUS ........................................20Slika 4: Konkordance za pridevnik+samostalnik v korpusu jos100k .................................27Slika 5: Besedni seznam za pridevnik+samostalnik v korpusu jos100k .............................28Slika 6: Iskanje po lemi v FidiPLUS ........................................................................................36Slika 7: Iskanje po oblikoskladenjskih oznakah v FidiPLUS............................................36Slika 8: Iskanje po frazah v FidiPLUS ....................................................................................37Slika 9: Iskanje po bližini v FidiPLUS ....................................................................................37Slika 10: Metapodatki v korpusu FidaPLUS ........................................................................38Slika 11: Razširjeno iskanje po FidiPLUS ..............................................................................40Slika 12: Urejanje konkordanc v korpusu FidaPLUS .........................................................41Slika 13: Statistična obdelava rezultatov v FidiPLUS ........................................................41Slika 14: Urejen seznam kolokatorjev za besedo plošča, izdelan v FidiPLUS ................42Slika 15: Uporaba sita za izločanje neželenih konkordančnih nizov v FidiPLUS .......42Slika 16: Primer enostavnega iskanja v korpusu Gigadida, s katerim iščemo določeno besedno obliko besedne zveze majski hrošč. ....................................... 44Slika 17: Primer zahtevnega iskanja v korpusu Gigafida, v katerem iščemo pojavitve samostalnika klop, neposredno pred katerim se pojavlja pridevnik šolski. ........................................................................................................... 44Slika 18: Primer iskanja v korpusu Gigafida, v katerem raziskujemo sobesedilno okolico pridevnika umazan. ..............................................................45Slika 19: Primer iskanja v korpusu Gigafida, v katerem izdelujemo seznam vseh besed, ki se končajo na -ček. .............................................................45Slika 20: Primer preprostega iskanja v konkordančniku CUWI, s katerim v korpusu Korp iščemo besedo stranka. ...................................................................47Slika 21: Primer zahtevnega iskanja v konkordančniku CUWI, s katerim v korpusu Korp iščemo besedo stranka. ................................................................48Slika 22: Iskanje po korpusih z orodjem SketchEngine ....................................................54Slika 23: Filtriranje zadetkov glede na sobesedilo in besedilno zvrst v orodju SketchEngine ..............................................................................................54

Page 9: Korpusna analiza

7Seznam slik

Slika 24: Pregledovanje konkordanc v orodju SketchEngine ...........................................55Slika 25: Frekvenčni seznam, izdelan z orodjem SketchEngine ......................................55Slika 26: Iskanje kolokacij v orodju SketchEngine .............................................................56Slika 27: Izdelava besednega seznama v orodju SketchEngine ........................................57Slika 28: Urejanje besednega seznama po frekvenci in po abecedi v orodju SketchEngine ..............................................................................................58Slika 29: Izdelava podkorpusa v orodju SketchEngine ......................................................58Slika 30: Izdelava seznama sinonimov v orodju SketchEngine .......................................59Slika 31: Seznam sinonimov, izdelan z orodjem SketchEngine ......................................59Slika 32: Besedne skice za besedo študij..................................................................................60Slika 33 Razlikovalne skice za besedi območje in cona .........................................................61Slika 34: Avtomatizirana gradnja specializiranega korpusa z orodjem WebBootCaT ............................................................................................62Slika 35: WordSmithov kontrolnik.........................................................................................63Slika 36: Začetek dela v WordSmithu ....................................................................................63Slika 37: Konkordance v WordSmithu ...................................................................................64Slika 38: Izdelava besednih seznamov v WordSmithu .......................................................65Slika 39: Frekvenčni seznam z izločenimi praznimi besedami, izdelan z WordSmithom ...........................................................................................65Slika 40: Seznam dvobesednih enot, izdelan z WordSmithom .......................................66Slika 41: WordSmithovi statistični podatki o korpusu .....................................................67Slika 42: Izdelava seznama ključnih besed v WordSmithu ...............................................67Slika 43: Seznam ključnih besed, izdelan z WordSmithom .............................................68Slika 44: Označevanje korpusa s spletnim servisom JOS ToTaLe ...........................................70Slika 45: Označevanje korpusa s spletnim servisom Obeliks....................................................70Slika 46: Primer označenega besedila s servisom JOS ToTaLe .........................................71Slika 47: Primer označenega besedila s servisom Obeliks .................................................71Slika 48: Iskanje prevodnih ustreznic v Evrokorpusu ........................................................73Slika 49: Iskanje prevodnih ustreznic v korpusu EU DGT s CUWI-jem .......................74Slika 50: Iskanje prevodnih ustreznic v korpusu EU DGT z noSketchEngine ............74Slika 51: Rezultati iskalnega niza guerre* v ParaConcu .....................................................76Slika 52: Vroče besede v ParaConcu ......................................................................................77Slika 53: ParaConcov grafični prikaz zadetkov v posameznih francoskih in slovenskih datotekah ............................................................................................78

Page 10: Korpusna analiza

8 Korpusna analiza

Seznam vaj

1. vaja: Jezikovna intuicija in korpus ......................................................................................182. vaja: Slovar in korpus .............................................................................................................193. vaja: Primerjava korpusov .....................................................................................................204. vaja: Pojavnice in različnice ..................................................................................................265. vaja: Enopojavnice in bogatost besedišča ..........................................................................266. vaja: Besedne oblike in leme .................................................................................................277. vaja: Konkordance in frekvenčni seznami .........................................................................278. vaja: Iskanje po korpusu Nova beseda ...............................................................................349. vaja: Osnovno iskanje po korpusu FidaPLUS ..................................................................3510. vaja: Iskanje po besednih oblikah in po lemah v FidiPLUS .......................................3611. vaja: Iskanje po oblikoskladenjskih oznakah v FidiPLUS ..........................................3712. vaja: Iskanje po frazah in po bližini v FidiPLUS ...........................................................3813. vaja: Metapodatki v korpusu FidaPLUS .........................................................................3814. vaja: Kombiniranje iskalnih pogojev z operatorji v FidiPLUS ...................................3915. vaja: Razširjeno iskanje po korpusu FidaPLUS .............................................................4016. vaja: Obdelava podatkov v FidiPLUS ...............................................................................4317. vaja: Raziskovanje s pomočjo stalnih besedilnih vzorcev ............................................4318. vaja: Iskanje po korpusu Gigafida ...................................................................................4619. vaja: Iskanje s CUWI-jem ....................................................................................................4920. vaja: Iskanje z regularnimi izrazi ......................................................................................5021. vaja: Iskanje z jezikom CQP ...............................................................................................5122. vaja: Uporaba konkordanc v orodju SketchEngine ......................................................5623. vaja: Uporaba besednih seznamov in podkorpusov v orodju SketchEngine .........5824. vaja: Uporaba tezavra v orodju SketchEngine ...............................................................6025. vaja: Uporaba besednih skic v orodju SketchEngine ...................................................6126. vaja: Izdelava korpusa s pomočjo svetovnega spleta ....................................................6227. vaja: Analiza korpusa z orodjem WordSmith Tools .....................................................6828. vaja: Označevanje korpusa s spletnim servisom JOS ToTaLe in Obeliks................7129. vaja: Iskanje po Evrokorpusu .............................................................................................7430. vaja: Iskanje po vzporednih korpusih na nl.ijs.si ..........................................................7431. vaja: Stavčna poravnava vzporednega korpusa z orodjem ParaConc .......................7832. vaja: Iskanje po vzporednem korpusu z orodjem ParaConc ......................................78

Page 11: Korpusna analiza

9Predgovor

1 Predgovor

Dopolnjena in razširjena izdaja učbenika iz leta 2010 je namenjena vsem, ki se prvič srečujejo z analizo referenčnih, specializiranih in vzporednih korpusov, pa tudi tistim, ki želijo svoje znanje s področja analize korpusov poglobiti in nadgraditi. Usmerjen je v analizo enojezičnih slovenskih korpusov in tistih dvo-jezičnih, kjer se v jezikovnem paru pojavlja slovenščina.

Učbenik je oblikovan prvenstveno za študente Medjezikovnega posredova-nja na Oddelku za prevajalstvo FF UL. Obsega vsebine, ki jih študentje absor-birajo v okviru slovenističnih in skupnih splošnih vsebin v prvem in drugem letniku svojega študija. Namenjen je za rabo pri predavanjih in vajah, hkrati pa je oblikovan tako, da študente usmerja v samostojni študij. Ker gre za učbenik, ki celostno predstavlja orodja za korpusno analizo z vrsto praktičnih vaj, sva prepričana, da bo dobrodošel tudi študentom drugih jezikoslovnih študijskih programov, pri katerih se srečujejo s korpusnimi vsebinami.

Poglavja v učbeniku so oblikovana tako, da izhodiščni predstavitvi teme sle-di povzetek temeljnih novih spoznanj ter usmeritev na dodatno študijsko litera-turo, v drugem delu pa so prikazani zgledi korpusne analize in raba predstavlje-nih orodij s številnimi praktičnimi vajami, s katerimi študentje lahko preverijo razumevanje snovi in se urijo v samostojni korpusni analizi.

V Ljubljani, oktobra 2013.

Avtorja

Page 12: Korpusna analiza

10 Korpusna analiza

2 Uvod v delo s korpusi

Korpus je računalniška zbirka besedil oz. delov besedil, zbranih po enotnih krite-rijih za namene različnih, predvsem jezikoslovnih raziskav (Atkins et al. 1992: 1). Če se je v preteklosti uporabljal tudi za neelektronske oblike besedilnega gradi-va, kakršno je v slovenskem prostoru npr. listkovno gradivo za izdelavo Slovarja slovenskega knjižnega jezika, pa gre danes pri terminu korpus za elektronske, torej računalniško berljive besedilne zbirke (Kennedy 1998: 3), ki so • enovite, • notranje strukturirane in • standardno označene glede na namen korpusa v skladu z obstoječimi standardi za njihovo gradnjo (Meyer in Mackintosh 1996: 266). Korpusi so lahko sestavljeni iz posame-znih zaključenih statičnih enot, imenujemo jih podkorpusi, termin podkor-pus pa uporabljamo tudi, ko iz obstoječega korpusa izberemo besedila za potrebe korpusne analize, torej lahko pomeni tudi dinamično izbiro (Atkins et al 1992: 1).

Korpusi lahko veliko pripomorejo ne le h kultiviranju in razumevanju jezi-ka, ampak tudi k razumevanju in opisovanju sodobne družbe, kot odseva v je-ziku. Korpusni pristop v analizo jezika vnaša večjo verodostojnost – velik obseg načrtno zbranega gradiva namreč omogoča izpostavitev v jeziku tipičnega in zmanjšuje možnost interpretiranja le obrobnega kot temeljnega (Čermák 1995: 119). Korpusi so v jezikoslovno delo vnesli besedilno gradivo, ki je količinsko in kakovostno preseglo predračunalniške gradivne zbirke, hkrati pa pokazalo na njihove omejitve in izpostavilo pomanjkljivosti. Vendar pa pojav korpusov v jezikoslovju pomeni mnogo več kot zgolj gradivo za jezikoslovno analizo. Ob metodologiji za gradnjo korpusov se je oblikovala tudi metodologija korpusne analize in opisov jezikovne rabe.

Na korpusu temelječi jezikovni opisi • v svojem izhodišču prisegajo na jezikovno realnost, • tudi ob nepričakovanih rezultatih ne podlegajo intuiciji, • vključujejo več podatkov o tipičnem besedilnem okolju ter • podatkov o komunikacijski realnosti.

Če je še do nedavnega korpusni pristop v jezikoslovju veljal za komplemen-tarnega tradicionalnim (Kennedy 1998: 5–12; McEnery in Wilson 1996: 2), je danes na nakaterih področjih jezikoslovja, npr. v leksikologiji in leksikografiji,

Page 13: Korpusna analiza

11Uvod v delo s korpusi

vse bolj pa tudi na vseh drugih jezikoslovnih področjih, korpus samostojno raz-iskovalno izhodišče (Gorjanc 2005; Gantar 2007; Zemljarič Miklavčič 2008).

2.1 Tipi korpusov

Z razvojem različnih korpusov je nastopila tudi potreba po njihovi tipologiza-ciji in oblikovanju vsaj osnovnih kriterijev za njihovo vrednotenje. S tipologijo korpusov, tipologijo besedil in drugimi aktualnimi vprašanji korpusnega jez-koslovja se je ukvarjala evropska pobuda EAGLES;1 njeni dokumenti in pripo-ročila v veliki meri predstavljajo izhodišče za gradnjo različnih tipov korpusov.

2.1.1 Referenčni korpusi

Temeljno vrsto korpusov predstavljajo referenčni korpusi, ki naj bi predstavili ce-lovito podobo nekega jezika. So večjega obsega, zanje je glede na tradicijo tudi najnatančneje izdelana metodologija gradnje; predstavljajo izhodišče za temelj-ne jezikoslovne raziskave predvsem s področja slovnice in slovarja, vse bolj pa tudi vseh na jezikovni realnosti temelječih jezikoslovnih in tudi drugih huma-nističnih in družboslovnih raziskav. Za njihovo gradnjo se v izhodišču predvi-deva mreža kriterijev za zajemanje raznoterih besedil v korpuse glede na vrsto predvsem besediloslovnih in sociolingvističnih kriterijev. Zaradi svoje velikosti so prav glede raznoterosti besedil, ki jih vključujejo, razdeljeni na podkorpuse, za katere pa spet veljajo kriteriji zajemanja besedil vanje (Gorjanc 2005).

Med slovenskimi sta taka npr. korpusa Kres in FidaPLUS.

2.1.2 Govorni korpusi

Danes referenčni korpusi večinoma vključujejo tudi transkripcijo govora, sicer pa se govorni korpusi zaradi bistveno drugačne metodologije oblikujejo samostojno, znotraj referenčnih ostajajo ločene enote, največkrat kot podkorpusi. Za refe-renčne korpuse v glavnem niso zanimive prozodične jezikovne lastnosti, ampak le slovnično-leksikalne; ne gre torej za korpuse, namenjene raziskavi govora, am-pak le za zajetje posebnosti govorne komunikacije v referenčnih priročnikih (At-kins et al. 1992: 2). Korpusi za potrebe tako fonetično-fonoloških raziskav kot tudi govornih tehnologij se zato oblikujejo posebej kot t. i. korpusi govora. Ker pa pri tem včasih ne gre za zajemanje celotnih besedil, ampak npr. le posameznih

1 http://www.ilc.cnr.it/EAGLES/typology/typology.html (dostop: 20. 8. 2013). Pri tipologiji korpusov za-enkrat puščamo ob strani tipologije, usmerjene v prevajalsko delo in prevodoslovje.

Page 14: Korpusna analiza

12 Korpusna analiza

stavkov, v takih primerih govorimo o govornih zbirkah (Gorjanc 2005: 8; Zemlja-rič Miklavčič 2008: 26). Sodobni govorni korpusi danes vzporedno s transkrip-cijo shranjujejo tudi avdio- oz. videozapis (Zemljarič Miklavčič 2008: 49).

Korpus govorjene slovenščine je GOS.

2.1.3 Specializirani korpusi

Za razliko od referenčnih korpusov predstavljajo specializirani korpusi jezik v točno določeni rabi; gre torej za izbor besedil v določeni rabi, izbor pa določa predvsem namen takega korpusa. Metodologija gradnje je pri slednjih v veliki meri prekrivna z referenčnimi, vendar pa pri gradnji korpusa izpostavljajo do-ločene kriterije glede na namen korpusa (Gorjanc in Logar Berginc 2007), npr. homogenost, kot je to v primeru korpusov za terminološke raziskave (Vintar 2008: 85). V začetku korpusnega pristopa v jezikoslovju sta predvsem zaradi tehnoloških omejitev in izjemne dinamike razvoja strok terminologija in termi-nografija v veliki meri uporabljali tradicionalne pristope (Mayer in Mackintosh 1996: 285), z vzpostavljeno dinamiko gradnje korpusov in njihovega nenehnega nadgrajevanja pa sta postali to področji, ki prav zaradi možnosti hitrega spro-tnega opazovanja jezikovnih sprememb vse bolj temeljita na delu s korpusom (Vintar 2008: 78–86).

Za slovenščino je tak korpus npr. Korpus besedil odnosov z javnostmi KoRP.

2.1.4 Vzorčni korpusi

Ko sestavimo korpus le iz besedilnih fragmentov in ne celotnih besedil, govo-rimo o vzorčnem korpusu. Korpusi prve generacije, ki so bili z današnjega vidika sorazmerno majhni, so se v težnji po zajemanju čimbolj raznoterih besedil od-ločali za načelo vzorčenja, tj. enako dolgih fragmentov besedil različnih zvrsti in vrst. Besediloslovne študije so kasneje z jezikoslovnega vidika opozorile na neustreznost metode, saj besedilo kot fragment v bistvu izgubi status besedila, korpus pa zaradi posebnosti posameznih delov besedila ne zajame nekaterih značilnosti besedilnih vrst. Z razvojem tehnologije, ki je omogočala zajemanje večjih količin besedil, so tovrstni korpusi postali manj aktualni, z vidika korpu-snega jezikoslovja pa ostajajo zanimivi, saj so postavili neke vrste standard za zajemanje raznoterih besedil v korpuse (Gorjanc 2005: 9).

2.1.5 Statični in dinamični korpusi

Korpusi v trenutku dokončne izgradnje postanejo statična pojavnost; da bi čim bolj sledili jezikovni dinamiki, se vse bolj razmišlja o dinamičnem korpusu,

Page 15: Korpusna analiza

13Uvod v delo s korpusi

torej takem, ki bi v času spremljal jezikovno dinamiko ter tako zares odseval trenutno podobo jezika. Pri tem lahko korpuse razvijajo v dveh smereh. V kor-pus novo besedilno gradivo nenehno le dodajamo, zaradi velike količine jezi-kovnih podatkov pa so parametri za zajemanje besedil bolj ohlapni (Kennedy 1998: 61); dinamičnost jezika tako spremljamo s pomočjo neke vrste mega-korpusa (Sinclair 1991: 9, 25). Drugi pa je osnovan na ideji potovanja korpusa skozi čas; ta bi novo gradivo nenehno sprejemal, staro pa izločal v diahrone podkorpuse, pri tem pa zagotavljal bolj ali manj enaka razmerja med besedili; probleme kakovosti jezikovnih podatkov naj namreč ne bi zagotavljala samo količina, ampak tudi zgradba korpusa (Biber 1993: 245). Vse bolj pa posta-ja aktualna vmesna možnost, ki kombinira idejo megakorpusa z robustnimi parametri vključevanja besedil in dela korpusa, za katerega veljajo natančno izdelani parametri vključevanja besedil (Logar in Šuster 2009: 57–68).

Večinoma so korpusi slovenskega jezika statični korpusi.

2.1.6 Primerljivi korpusi

Za kontrastivne študije so zanimivi primerljivi korpusi, saj vključujejo primerljiva (tematsko, žanrsko ipd.) besedila v različnih jezikih. Idealen zgled primerljivega megakorpusa bi bil korpus, sestavljen iz referenčnih korpusov različnih jezikov, grajenih po prekrivnih izhodiščnih načelih. Seveda bi morala biti načela gradnje jezikovno neodvisna (Gorjanc 2005: 9).

2.1.7 Vzporedni korpusi

Predvsem za prevodoslovje so zanimivi vzporedni korpusi; ti namreč sopostavljajo poravnano izhodiščno besedilo in prevod oziroma prevode istega besedila v dru-gi jezik oziroma druge jezike; poravnani korpus omogoča vpogled v prevajalske odločitve in strategije prevajanja. Tovrstne korpuse je v osnovi težje graditi, ker je zagotavljanje ustreznih jezikovnih virov zahtevnejše, zato se pri tem veliko-krat odpoveduje načelom reprezentativnosti, pri gradnji pa se odloča podobno kot pri korpusih podjezikov samo za segment jezika (Vintar 2001: 232); prav odločitev samo za npr. določeno področje ali določen besedilni tip nam z vidika prevajalstva da tudi boljše (nerazpršene) rezultate.

Največji vzporedni korpus s slovenščino je vzporedi korpus prevodov Evro-korpus, vzporedni je tudi slovenski prevodoslovni korpus SPOOK.

Page 16: Korpusna analiza

14 Korpusna analiza

2.2 Karakteristike korpusov

Vsaki računalniški besedilni zbirki, ki se uporablja za jezikoslovne analize, lahko pripišemo določene lastnosti, ki zagotavljajo korpusu njegov status.2

2.2.1 Količina

Količinski podatek o korpusu je njegova velikost, izražena v številu besed. Pri podatku o velikosti korpusa gre v bistvu za podatke o absolutnem številu izra-znih enot korpusa, torej o številu enot med dvema presledkoma, kar imenuje-mo pojavnica (token), za razliko od podatkov o različnih besedah, za kar upora-bljamo poimenovanje različnica (type). Velikost korpusov prve glede na korpuse druge generacije se je povečala z indeksom 100. Tudi danes smo predvsem pri referenčnih korpusih priča težnji po zajemanju čim večje količine besedil. Ob velikosti celotnega korpusa pa je pomembna tudi velikost njegovih komponent, saj ni vseeno, v kakšnem razmerju so posamezni deli korpusa. Pri referenčnih korpusih so zaenkrat zunaj uveljavljenih razmerij komponent korpusa govorni podkorpusi, ker količina zajetja govora dejansko ne odseva realnosti količine govorne komunikacije glede na pisno.

2.2.2 Kakovost

Kakovost korpusa je določena z avtentičnostjo besedil. Predvideva se, da so bese-dila v korpusu avtentična, torej del realne pisne, govorne ali elektronske komu-nikacije. Morebitne vplive na nerealnost komunikacije je potrebno v korpusu označiti. Tako se lahko snovalci korpusov odločijo npr. označiti izpust slike pri pisnem korpusu, saj je z vidika besedilne zgradbe to kostitutivni del avtentič-nega besedila, pri transkripcijah govora v korpusu je obvezen podatek, ali je bil npr. dialog posnet z vednostjo udeležencev ali ne, saj zavedanje snemanja pomeni v bistvu simuliranje govorne situacije in s tem njeno nerealnost. Kako-vost korpusa je vezana tako na avtentičnost besedil kot tudi avtentičnost zapisa korpusa, kjer se pričakuje vključevanje podatkov o postopkih priprave besedil od pridobljenih za namene vključevanja korpusa do končnega procesiranja kor-pusnih dokumentov.

Pri analizi korpusa se je treba avtentičnosti besedil zavedati, kar pomeni, da v korpusu lahko pričakujemo tudi npr. napake v zapisu, saj ta s svojo avtentično-stjo prinaša tudi tovrste podatke, nikoli ni sistematično »očiščen« napačnih oz.

2 Karakteristike korpusov so povzete po dokumentaciji EAGLES http://www.ilc.cnr.it/EAGLES/typolo-gy/typology.html (dostop: 20. 8. 2013).

Page 17: Korpusna analiza

15Uvod v delo s korpusi

variantnih zapisov in nenormativne rabe (Aston in Burnard 1998: 37). Tovrstna »čiščenja« korpusa bi lahko vodila tudi do uničenja dragocenih jezikoslovno re-levantnih informacij, npr. podatke o razmerju jezikovne rabe do jezikovne nor-me. T. i. ortografske napake so lahko tudi kazalec jezikovne rabe pri variantnih zapisih, zato jih pri odpravljanju v korpusu ne smemo obravnavati enakovredno (Gorjanc 2005: 11–12).

2.2.3 Dokumentiranost

Pri dokumentiranosti je poleg dejstva, da je vsako besedilo v korpusu natančno popisano, kar vključuje različne podatke, npr. o avtorju, času nastanka, mestu ob-jave ...; pomembno, kako so dokumentacijski podatki o besedilu ločeni od besedi-la samega. To zagotavljajo standardi za zapis in označevanje elektronskih besedil.

2.2.4 Enostavnost

Tudi ta karakteristika je povezana z označevanjem korpusa, torej neposredno s standardi in priporočili. Pri korpusnih dokumentih je pomembno, da pripisane oznake nikoli ne motijo prepoznavanja besedila samega, da torej lahko kadarkoli pridemo do neprekinjenega besedilnega niza, golega besedila torej. Zapis korpusa nam mora hkrati omogočiti, da v besedilu lahko ostane označeno kaj, kar se je pri vnosu besedila v korpus izgubilo, npr. izpust naslova, slike ipd., torej podatki, ki so z jezikovnega vidika relevantni. Vse to so danes standardni elementi korpusa, vendar ob tem še ne govorimo o označenih (anotiranih) korpusih; korpus namreč postane označeni korpus takrat, ko so besedilom v korpusu dodane jezikovnoanali-tične korpusne oznake, torej ko govorimo o jezikoslovno označenem korpusu.

2.3 Korpusi in jezikoslovje

V tradicionalnih jezikoslovnih raziskavah, posebej še v raziskavah mrtvih jezikov, je bil korpus razpoložljivih besedil – največkrat seveda fragmentarnih – vedno temelj raziskovanja. Kasneje, v prvi polovici 20. stoletja, pa korpusi postanejo aktualni v okviru analiz jezikov brez pisne tradicije; gre za transkripcije govorov kot gradivnega temelja raziskav npr. Franza Boasa in generacije jezikoslovcev, ki so sledile njegovemu delu (Malmkjaer 1996: 73).

Prav analiza in klasifikacija jezikov brez pisne tradicije v jezikoslovju nare-kuje načrtno zbiranje jezikovnih podatkov – ameriško strukturalno jezikoslovje, oprto na delo Bloomfielda, ima korpus ne le za nepogrešljivo praktično orodje, ampak nujno potrebno gradivno osnovo. Kljub diskusijam o ustreznosti gradiva

Page 18: Korpusna analiza

KORPUANALIVo

jko

Gorj

anc,

Dar

ja F

išer

: kor

pusn

a an

aliz

a

9 789612 376109

ISBN 978-961-237-610-9

Darja Fišer je docentka na Oddelku za pre-vajalstvo Filozofske fakultete Univerze v Ljubljani. Pri raz-iskovalnem delu sodeluje pri zbiranju, označevanju in anali-zi različnih vrst eno- in večje-zičnih korpusov, od historičnih do tviteraških. Iz njih nato z vr-sto statističnih metod lušči se-mantično povezano besedišče, prevodne ustreznice in lažne prijatelje. Na področju leksi-kalne semantike se posveča tudi izdelavi slovenskega se-mantičnega leksikona sloWNet in uvajanju množičenja v leksi-kografsko delo, na Oddelku za prevajalstvo pa vodi vaje z vseh teh področij.

Vojko Gorjancje redni profesor na Oddelku za prevajalstvo Filozofske fakulte-te Univerze v Ljubljani, kjer je vodja slovenistične katedre. Je avtor prve slovenske monogra-fije s področja korpusnega je-zikoslovja, sodeloval pa je tudi pri vrsti korpusnih projektov v slovenskem prostoru. V svojih raziskavah prevod in prevodni proces raziskuje v sociolingvi-stičnem okviru, v ta kontekst pa sodijo tudi njegova razpravlja-nja o prevajanju in tolmačenju kot človekovi pravici, predvsem ko gre za skupnostno tolmače-nje. S tega področja je uredil tudi monografijo Slovensko tol-mačeslovje.

Učbenik Korpusna analiza je oblikovan predvsem za štu-dente Medjezikovnega posre-dovanja na Oddelku za preva-jalstvo FF UL. Študentje se ob njem seznanijo s pomenom in temeljnimi pojmi korpusnega jezikoslovja, usvojijo osnove korpusne analize, nato pa se usposobijo za samostojno delo s korpusi – enojezičnimi in vzporednimi. Naučijo se upo-rabljati orodja za delo s korpu-si in graditi korpuse za svoje lastne raziskave. Ker so v uč-beniku celostno predstavljena orodja za korpusno analizo z vr-sto praktičnih vaj, je lahko do-brodošel tudi študentom vseh drugih študijskih programov, pri katerih se študentje sreču-jejo s korpusnimi vsebinami.

Vojko Gorjanc, Darja Fišer

korpusna analizaOddelek za prevajalstvoLjubljana 2013