Vara, nauda un fakti latviešu valodas korpusā

29
Vara, nauda un fakti latviešu valodas korpusā Everita Andronova Ilze Auziņa Normunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūts CLARIN seminārs 2010. gada 26. februārī

description

Vara, nauda un fakti latviešu valodas korpusā. Everita Andronova Ilze Auziņa Normunds Grūzītis Gunta Nešpore LU Matemātikas un informātikas institūts. CLARIN seminārs 2010. gada 26. februārī. Atskats nesenā pagātnē. - PowerPoint PPT Presentation

Transcript of Vara, nauda un fakti latviešu valodas korpusā

Page 1: Vara, nauda un fakti  latviešu valodas korpusā

Vara, nauda un fakti

latviešu valodas korpusā Everita Andronova

Ilze AuziņaNormunds Grūzītis

Gunta Nešpore

LU Matemātikas un informātikas institūts

CLARIN seminārs 2010. gada 26. februārī

Page 2: Vara, nauda un fakti  latviešu valodas korpusā

2

Atskats nesenā pagātnē

2003. g. VVK „Latvijas valodas politikas stratēģija (2003–2013)“ (LU MII priekšlikums – izveidot latviešu valodas korpusu (vismaz līdz 150 milj. vārdl.))

IZM „Valsts valodas politikas programmā 2006.–2010. g.“ 6.3. uzdevumā „Valsts valodas zinātniska izpēte, kopšana un attīstīšana“ paredzēts „Izveidot latviešu valodas tekstu un runas elektronisko korpusu, nodrošināt tā izveidošanai un uzturēšanai nepieciešamās programmatūras attīstību”

2005 — pēc VVA pasūtījuma LU MII tika sagatavota „Latviešu valodas korpusa koncepcija“, pamatojot korpusa nepieciešamību

2007–2008 — ar VVA atbalstu LU MII izveidots 1 milj. vārdlietojumu liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem

2009. g. oktobris — ar VVA atbalstu LU MII papildina korpusu ar 2,5 milj. vārdl.; pieejams 3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem

CLARIN seminārs 2010. gada 26. februārī

Page 3: Vara, nauda un fakti  latviešu valodas korpusā

3

Papildus piedāvātie latviešu valodas korpusi (izmantojot pārlūkprogrammu Bonito) miljons-2.0m — līdzsvarota mūsdienu latviešu valodas korpusa

morfoloģiski marķēta versija; ~3,5 milj. vārdl., atstātas visas sintaktiski pieļaujamās morfoloģiski daudznozīmīgās formas

ledus — morfoloģiski marķēts ~14 000 vārdl. liels paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)

saeima-1.0 — Latvijas Republikas 5. Saeimas sēžu stenogrammas ar metadatiem; ~4,7 milj. vārdl.

saeima-2.0 — Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem; 22,5 milj. vārdl.

timeklis-1.0 — ~97 milj. vārdl. liels latviešu valodas tīmekļa korpuss (ar SemTi-Kamols gramatisko analizatoru 100% automātiski nomarķēti ~60 000 vārdlietojumu)

CLARIN seminārs 2010. gada 26. februārī

Page 4: Vara, nauda un fakti  latviešu valodas korpusā

4

Korpusa izmantošana

Gramatikas un citu valodniecības jautājumu izpētē Leksikogrāfijā Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulku apmācībā, mašīntulkošanā

Dabiskās valodas apstrādē (statistika un varbūtības), informācijas izguvē, precedenta mašīnmācīšanās

Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs Humanitārajās un sociālajās zinātnēs

CLARIN seminārs 2010. gada 26. februārī

Page 5: Vara, nauda un fakti  latviešu valodas korpusā

5

Cik sen mēs pazīstam ķibeles? 5. Saeimas sēdēs — 2×

(kaut kādas ķibeles ar balsošanas ierīcēm; nevajadzētu baidīties no tā, ka notiks visādas ķibeles)

6. Saeimas sēdēs — 5× (pacelties virs ikdienas ķibelēm; vēl visādas ķibeles; milzīga ķibele; jaunām ķibelēm; ar mani šāda ķibele notiek ne jau pirmo reizi)

7. Saeimas sēdēs — 1× (rodas visādas nelaimes un ķibeles) 8. Saeimas sēdēs — 1× (visādas ķibeles ar to) 9. Saeimas sēdēs — 2× (visās mūsu ķibelēs vainojama esot

Eiropas Savienība; gadās viena ķibele pēc otras) dižķibele sastopama vien 9. Saeimas laikā (3×), to 2× lietojis Jānis

Urbanovičs (pārciestu ne tikai šo dižķibeli, bet varbūt arī vēl nākamās; tie vecie ļauži, viņi nekādā ziņā nav vainīgi pie tās dižķibeles, kura Latvijā ir lielāka nekā visur citur pasaulē)

CLARIN seminārs 2010. gada 26. februārī

Page 6: Vara, nauda un fakti  latviešu valodas korpusā

6

Korpusa izmantošana sabiedrisko norišu izpētē

CLARIN seminārs 2010. gada 26. februārī

saeima-2.0 sastopam 2189 lietojumus ar krīzi

Page 7: Vara, nauda un fakti  latviešu valodas korpusā

7

Korpusa izmantošana sabiedrisko norišu izpētē ..raksturojot situāciju, tiek lietoti daudzi vārdi, un viens no tiem ir

krīze (5. Saeima, Indulis Bērziņš) Mēs bieži televīzijā dzirdam nopietnu cilvēku uzstāšanos par to,

ka mūsu valstī ir krīze un ka neviens nav pateicis krīzes formulējumu (7. Saeima, Oskars Grīgs)

Nu ir atkal krīze (7. Saeima, Modris Lujāns)

Kas ir krīze? finansu krīze jeb budžeta situācija (nav) lielas krīzes jeb liela sabrukuma tā saucamajam negatīvajam scenārijam jeb krīzes scenārijam ar krīzi es domāju gan inflāciju, gan masveida emigrāciju, gan to,

kas notiek.. finanšu krīze īsumā nozīmē to, ka naudas ir mazāk...

CLARIN seminārs 2010. gada 26. februārī

Page 8: Vara, nauda un fakti  latviešu valodas korpusā

8

Kādas krīzes satrauc parlamentāriešus? banku krīze (155×), krīze banku sistēmā (1×), bankas „Baltija“

krīze (36×), komercbanku krīze (3×), banku un banku sistēmas krīze (1×), „Parex“ bankas krīze (1×)

ekonomiskā krīze (145×), ekonomijas krīze (17×) finansu (finanšu kopš 8. Saeimas laikiem) krīze (80×), finansiālā krīze

(13×) politiskā krīze (42×), arī politikas krīze (1×) valdības krīze (42×) Krievijas krīze (37×) budžeta krīze (36×) demogrāfiskā (arī demogrāfijas) krīze (29×) veselības aprūpes krīze, krīze veselības aprūpē (arī aizsardzībā) (18×) uzticības krīze (16×) globālā krīze (14×) kāda krīze (9×), kaut kāda krīze (5×) pašreizējā krīze (14×)

CLARIN seminārs 2010. gada 26. februārī

Page 9: Vara, nauda un fakti  latviešu valodas korpusā

9

Kādas krīzes satrauc parlamentāriešus?

saimnieciskā krīze (9×) morālā krīze (8×) konstitucionāla krīze (8×) Irākas krīze (8×) pasaules krīze (8×) parlamentāra (6×), parlamenta krīze

(1×) enerģijas (arī enerģētiskā) krīze (6×) tautsaimniecības (arī

tautsaimnieciska) krīze (5×) tiesiskuma krīze (4×) iekšējā krīze (4×) lokāla krīze (4×) sociālā krīze (4×)

CLARIN seminārs 2010. gada 26. februārī

izglītības krīze (3×), krīze izglītībā (2×)

zināma krīze (4×) valsts krīze (3×) parlamentārās demokrātijas

(arī demokrātiskā) krīze (3×)

vērtību krīze (3×) starptautiska krīze (3×) kredītu krīze (3×) naftas krīze (3×) ekoloģiskā krīze (2×)

Page 10: Vara, nauda un fakti  latviešu valodas korpusā

10

Kāda mēdz būt krīze?

dramatiska (3×) drausmīga (2×) dziļa (11×), tik dziļa (1×), diezgan dziļa (1×), ļoti dziļa (3×),

daudz dziļāka (1×), arvien dziļāka (1×), vēl dziļāka (4×), visdziļākā (5×) grūta (4×) liela (9×), ļoti liela (2×), vēl lielāka (2×), pati lielākā (1×) līdzīga (6×) nopietna (7×), ļoti nopietna (6×), dziļi nopietna (1×), visnopietnākā (1×) pilnīga (5×) reāla (3×) smaga (8×), ļoti smaga (2×), ārkārtīgi smaga (3×), daudz smagāka (1×),

vissmagākā (1×) totāla (4×) tāda (11×)

CLARIN seminārs 2010. gada 26. februārī

Page 11: Vara, nauda un fakti  latviešu valodas korpusā

11

Par ko runā Saeimā?

krīzes apturēšana (2×) krīzes programma (2×) krīzes analīze (3×) krīzes problēmas (3×) krīzes saasināšanās (3×) krīzes simptomi (3×) krīzes norise (4×) krīzes pazīmes (4×) krīzes sekas (5×) krīzes iemesli (6×) krīzes periods (7×)

CLARIN seminārs 2010. gada 26. februārī

krīzes ietekme (10×) krīzes rezultāts (10×) krīzes risināšana (arī risinājums)

(10×) krīzes likvidēšana (arī likvidācija)

(11×) kad tā izbeigsies (3×), beigsies (8×) krīze veselības aprūpē

(arī aizsardzībā) (13×)

Page 12: Vara, nauda un fakti  latviešu valodas korpusā

12

Par ko runā Saeimā?

krīzes sākums (arī sākties) (14×)

krīzes novēršana (arī novērst) (20×)

krīzes attīstība (21×) krīzes stāvoklis (21×) krīzes cēloņi (33×), (visvairāk

skatīti tieši bankas „Baltija” krīzes cēloņi (18×))

krīze valstī (26×)

CLARIN seminārs 2010. gada 26. februārī

krīzes iztikas minimums (50×) krīzes pārvarēšana (arī

pārvarēt) (62×) kas notiek krīzes apstākļos

(72×) krīzes situācijā (211×)

Page 13: Vara, nauda un fakti  latviešu valodas korpusā

13

Kā runā Saeimā?

Novērojumi un ticējumi: Ja politiķis saka, ka krīzes nav, tad valsts patiesībā ir dziļā krīzē

(5. Saeima, Aivars Kreituss) 24 kredītu izzagšanas un banku krīzes rēgs klīst apkārt

(6. Saeima, Aivars Kreituss) Un tas, ka vienā valstī krīze parādās ātrāk, otrā vēlāk — tas ir

tikai laika jautājums (9. Saeima, Ainārs Šlesers) Jūs nevarēsiet pārpeldēt krīzes upi, jo nemākat to darīt

(9. Saeima, Aleksandrs Mirskis) Un tagad ir jautājums — vai mēs esam krīzē vai neesam?

(9. Saeima, Ivars Godmanis) Krīze atnāca, krīze aizies, bet bērni paliks (9. Saeima, Jakovs

Pliners)

CLARIN seminārs 2010. gada 26. februārī

Page 14: Vara, nauda un fakti  latviešu valodas korpusā

14

Kā runā Saeimā?

Tautasdziesmas: Visu gadu krīze nāca,

Nu atnāca šovasar.Dod, Dieviņ, tādu prātu,Lai birst lati budžetā.

(9. Saeima, Anna Seile) Mācība par krīzi:

šo krīzi valstī esam izraisījuši mēs paši (7. Saeima, Jānis Jurkāns)

iziet no šīs finanšu krīzes var tikai kopā (9. Saeima, Ivars Godmanis)

katra krīze var kļūt par soli pareizajā virzienā (7. Saeima, Valdis Birkavs)

CLARIN seminārs 2010. gada 26. februārī

Page 15: Vara, nauda un fakti  latviešu valodas korpusā

15

Korpusa izmantošana leksikas izpētē (vēsturiski)

Latviešu valodas seno tekstu korpusā (1 milj. vārdl., 16.–18. gs.) sastopam 50 vārdformas (208 vārdl.) ar komponentu ‘nauda’:

dominē nominālas vārdkopas, kur nauda ir galvenais komponents, bieži vien vārdkopām ir termina nozīme, piem., asins nauda ‘nauda, ko saņem par asins grēku’, dzeramnauda, kroņa nauda ‘pūra nauda; pabalsts’, kūmu / pādes / zobu nauda, mesla nauda, mēness nauda ‘mēnešalga’, nomas nauda, pusvērša nauda, sudraba nauda, tīruma nauda u. c.

sastopam arī vārdkopas, kur nauda ģenitīvā ir vārdkopas atkarīgais komponents, piem., naudas aizdevējs, naudas gabals (arī gabaliņš), naudas kaša (naudas

kasis), naudas mains ‘maiņas punkts’, naudas maiss, naudas maks, naudas mijēji (arī maininieki), naudas sargs, (pasaules kaķes un) naudas žurkas

pavisam nedaudz korpusā sastopam darbību nosaukumus, piem., precēšana ar naudu ‘tirgošanās’, nemaksāt ar naudu, palaist par lētu naudu,

pārdot par nieka naudu

CLARIN seminārs 2010. gada 26. februārī

Page 16: Vara, nauda un fakti  latviešu valodas korpusā

16

Mūsdienās vārdi nauda un naudiņa (arī salikteņi ar sakni naud-)ieņem daudz lielāku īpatsvaru tekstā (vārdlietojumu skaits :: relatīvais biežums)

1 milj. korpusā — 619 vārdl. :: 0,0557 3,5 milj. korpusā — 2696 vārdl. :: 0,0661 5. Saeimas sēžu stenogrammās — 3422 vārdl. :: 0,0728 5.–9. Saeimas sēžu stenogrammās — 16 956 vārdl. :: 0,0753 tīmekļa korpusā — 43 678 vārdl. :: 0,0356

CLARIN seminārs 2010. gada 26. februārī

Korpusa izmantošana leksikas izpētē (mūsdienas)

Page 17: Vara, nauda un fakti  latviešu valodas korpusā

17

Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā

ES nauda (9×), Eiropas nauda (8×), Eiropas līdzfinansējuma nauda (1), Briseles nauda (1×)

skaidra nauda (11×) soda nauda (10×) rokas nauda (6×), rokas naudas

līgums (4×) (sociālā, valsts) budžeta nauda (5×) valsts nauda (5×)

CLARIN seminārs 2010. gada 26. februārī

naudas sods (arī naudassods) (23×)

(brīvie, esošie, izņemtie) naudas līdzekļi (22×)

krimināllietās (arī kratīšanā) izņemtie naudas līdzekļi (7×)

naudas summa (19×) naudas plūsma (6×) naudas daudzums (5×)

naudas paveidi balta nauda (par gāzi jāmaksā balta nauda) nederīga nauda (padomju rublis ar sirpi un āmuru) baigā nauda, traka nauda vs. smiekla nauda vecā nauda (3×)

Page 18: Vara, nauda un fakti  latviešu valodas korpusā

18

Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā Kam trūkst naudas?

valstij nav tik daudz naudas daudz krietnu, prasmīgu cilvēku, kuriem nav daudz naudas visbiežākais kavēklis arī ļoti labām idejām ir naudas trūkums naudas trūkuma dēļ esmu atteicies no fermas celtniecības kolektoru skalošanai nepietiek naudas Izdomājām, ka mums būs T krekli. Taču pietrūka naudas. Pašvaldībām nereti pietrūkst naudas Eiropas Savienības struktūrfondu

projektu finansēšanai Daudziem var pietrūkt naudas mājas celtniecībai Studentiem trūkst naudas. trūkst naudas arī citas spēkbarības iepirkšanai Tramvajiem trūkst naudas.

CLARIN seminārs 2010. gada 26. februārī

Page 19: Vara, nauda un fakti  latviešu valodas korpusā

19

Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā Lai gan parasti nauda ir sastopama vienskaitļa formā, korpusā mēs

sastopam arī daudzskaitļa formu: naudas (4×) un naudiņas (4×): Tagad jau baigās naudas maksā, ja ir sīkais. (daiļlit.) iespēja nākotnē pārtikt no pacientu aplokšņu naudām.. (public.) ieskaitot mārketinga naudas, atlaides, bonusus un citus labumus.. (public.) solot (..) kaut kādas milzīgas, dabā neeksistējošas naudas! (stenogr.)

noņēma viņai no acīm naudiņas, kuras tur rūpīgi bija uzlicis Pēteris. (daiļlit.) Helēna aplūkoja naudiņas - cara laika pusrublis un sudraba vienlatnieks.

(daiļlit.) būtu tev tās naudiņas, tu taču nespēlētu teātri..(daiļlit.) Lilija to bieži lietoja pamazināmā formā un daudzskaitlī - naudiņas. (daiļlit.)

CLARIN seminārs 2010. gada 26. februārī

Page 20: Vara, nauda un fakti  latviešu valodas korpusā

20

Korpusa izmantošana dabiskās valodas apstrādē

lingvistiskās intuīcijas pārbaude tekstos, uzlabojot formālo gramatiku rakstīšanu

mašīnmācīšanās rezultātā uzlabojas programmrīku kvalitāte programmrīku testēšana korpusā

CLARIN seminārs 2010. gada 26. februārī

Page 21: Vara, nauda un fakti  latviešu valodas korpusā

21

Lingvistiskās intuīcijas pārbaude tekstos izstrādājot SemTi-Kamols gramatisko analizatoru, jārisina vairāki

teorētiski latviešu valodas gramatikas jautājumi, piem., tādu darbības vārdu kā gribēt, sākt, beigt u. tml. statuss (vai tekstos lielākoties tie sastopami patstāvīgā nozīmē vai kā semantiskie modificētāji)

izmantojot tīmekļa un morfoloģiski anotēta korpusa datus, tika pārbaudīti lietojumi ar šiem verbiem

pēc korpusā sastapto lietojumu analīzes gramatikā iestrādāta likumsakarība, ka šie darbības vārdi ir semantiskie modificētāji es gribu saldējumu = es gribu (ēst, pirkt…) saldējumu es gribu uz mājām = es gribu (braukt, iet, doties…) uz mājām

CLARIN seminārs 2010. gada 26. februārī

Page 22: Vara, nauda un fakti  latviešu valodas korpusā

22

Mašīnmācīšanās morfoloģiski marķētā korpusā Marķētāja apmācīšanai tika izmantoti cilvēka marķēti teksti

(vairāk nekā 60 000 vārdl.), kurā ir daļa „Latvijas Vēstneša“ tekstu no 1 milj. korpusa marķētais „ledus“ korpuss ES juridiskie teksti

Marķētāja izvērtēšanai izveidots testa korpuss (3881 vārdl., 200 teikumi)

Pašlaik marķētāja kvalitāte svārstās no 70% līdz 90%, to ietekmē: marķējamā teksta līdzība ar tekstiem apmācības korpusā reti lietotu īpašvārdu un citu neatpazītu vārdu biežums tekstā vai jānosaka tikai vārdšķira (augsta kvalitāte), vai jāveic pilns

marķējums (kvalitāte krītas)

CLARIN seminārs 2010. gada 26. februārī

Page 23: Vara, nauda un fakti  latviešu valodas korpusā

23

Automātiski marķēta teikuma piemērs

Snigšanas/nfsg un/c lietus/nmsn laikā/nmsl būtiski/r samazinās/v3si--p redzamība/nfsn un/c uz/ssa brauktuvēm/nfpd veidojas/v3si--p piebraukta/v-spfn sniega/nmsg kārta/nfsn ,/zc atkala/nfsn un/c apledojums/nmsn ./zs

CLARIN seminārs 2010. gada 26. februārī

Page 24: Vara, nauda un fakti  latviešu valodas korpusā

24

Programmrīku testēšana korpusā SemTi-Kamols gramatiskais analizators izmanto leksikonu, kurā

ir 50 000 vārdu analizators tiek testēts 3,5 miljonu vārdlietojumu korpusā un

tīmekļa korpusā, lai noskaidrotu, cik daudz vārdu ir atpazīti, kāds ir vidējais teikuma fragmenta garums, ko atpazīst

analizators; iegūtā informācija ļauj izvērtēt gramatiski izanalizēto gadījumu

pārklājumu korpusā un papildināt gramatiku ar jauniem likumiem

CLARIN seminārs 2010. gada 26. februārī

Page 25: Vara, nauda un fakti  latviešu valodas korpusā

25

Teikuma fragmentu atpazīšana 1 milj. vārdlietojumu korpusā (2009)

CLARIN seminārs 2010. gada 26. februārī

Rezultāts Teikumu skaits Komentāri

Pilnībā atpazīts 7019 (7,7%) viennozīmīga fragmenta atpazīšana

Visi vārdi atpazīti 26524 (29,1%) atpazīti visi vārdi, bet tos nav izdevies izanalizēt kā vienotu fragmentu / teikumu

Daļēji atpazīts 40664 (44,7%) vismaz 1 vārds teikumā nav atpazīts, piem., datumi, īpašvārdi

Daudznozīmīgi 9718 (10,7%) vairāki sintaktiski iespējami analīzes varianti

Pārsniegts laiks 7082 (7,8%) bez rezultāta, jo tiek pārsniegts analīzes laika ierobežojums

Kopā 91007 (100%)

Page 26: Vara, nauda un fakti  latviešu valodas korpusā

26

Teikuma fragmentu atpazīšana 3,5 milj. vārdlietojumu korpusā (2010)

CLARIN seminārs 2010. gada 26. februārī

Page 27: Vara, nauda un fakti  latviešu valodas korpusā

27

Korpusa izmantošana gramatikas jautājumu izpētē simtām (Blinkena, 1976; Holvoet,

Judžentis 2003) miljons-1.0: — miljons-2.0: simtām reižu (1×) saeima-1.0: — saeima-2.0: simtām reižu (3×) timeklis-1.0: simtām reižu (10×),

un es nezinu starp zemēm simtām (2×), dega simtām ēku (1×), nobraukt simtām verstīm (1×), simtām fašistu koncentrācijas nometnēs (1×), zvana negaisu no simtu simtām balsīm kā draudu atbalstu (1×)

CLARIN seminārs 2010. gada 26. februārī

-iem -ām

miljons-1.0 desmit-simt-

miljons-2.0 desmit-simt-

5×2×

1×1×

saeima-1.0 desmit-simt-

2×1×

saeima-2.0 desmit-simt-

32×11×

18×3×

timeklis-1.0 desmit-simt-

36×56×

9×10×

savienojumā ar reižu

Page 28: Vara, nauda un fakti  latviešu valodas korpusā

28

Latviešu valodas korpusu izmantošana

CLARIN seminārs 2010. gada 26. februārī

Page 29: Vara, nauda un fakti  latviešu valodas korpusā

www.korpuss.lv

Everita Andronova ([email protected]) Ilze Auziņa ([email protected])

Normunds Grūzītis ([email protected]) Gunta Nešpore ([email protected])

CLARIN seminārs 2010. gada 26. februārī