PL/SQL valodas procedūras file · Web viewPL/SQL valodas procedūras
Vara, nauda un fakti latviešu valodas korpusā
description
Transcript of Vara, nauda un fakti latviešu valodas korpusā
Vara, nauda un fakti
latviešu valodas korpusā Everita Andronova
Ilze AuziņaNormunds Grūzītis
Gunta Nešpore
LU Matemātikas un informātikas institūts
CLARIN seminārs 2010. gada 26. februārī
2
Atskats nesenā pagātnē
2003. g. VVK „Latvijas valodas politikas stratēģija (2003–2013)“ (LU MII priekšlikums – izveidot latviešu valodas korpusu (vismaz līdz 150 milj. vārdl.))
IZM „Valsts valodas politikas programmā 2006.–2010. g.“ 6.3. uzdevumā „Valsts valodas zinātniska izpēte, kopšana un attīstīšana“ paredzēts „Izveidot latviešu valodas tekstu un runas elektronisko korpusu, nodrošināt tā izveidošanai un uzturēšanai nepieciešamās programmatūras attīstību”
2005 — pēc VVA pasūtījuma LU MII tika sagatavota „Latviešu valodas korpusa koncepcija“, pamatojot korpusa nepieciešamību
2007–2008 — ar VVA atbalstu LU MII izveidots 1 milj. vārdlietojumu liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem
2009. g. oktobris — ar VVA atbalstu LU MII papildina korpusu ar 2,5 milj. vārdl.; pieejams 3,5 milj. vārdl. liels līdzsvarots mūsdienu latviešu valodas korpuss (1991–2008) ar metadatiem
CLARIN seminārs 2010. gada 26. februārī
3
Papildus piedāvātie latviešu valodas korpusi (izmantojot pārlūkprogrammu Bonito) miljons-2.0m — līdzsvarota mūsdienu latviešu valodas korpusa
morfoloģiski marķēta versija; ~3,5 milj. vārdl., atstātas visas sintaktiski pieļaujamās morfoloģiski daudznozīmīgās formas
ledus — morfoloģiski marķēts ~14 000 vārdl. liels paraugkorpuss (P. Bankovskis „Plāns ledus“, 1. nodaļa)
saeima-1.0 — Latvijas Republikas 5. Saeimas sēžu stenogrammas ar metadatiem; ~4,7 milj. vārdl.
saeima-2.0 — Latvijas Republikas 5.–9. Saeimas sēžu stenogrammas ar metadatiem; 22,5 milj. vārdl.
timeklis-1.0 — ~97 milj. vārdl. liels latviešu valodas tīmekļa korpuss (ar SemTi-Kamols gramatisko analizatoru 100% automātiski nomarķēti ~60 000 vārdlietojumu)
CLARIN seminārs 2010. gada 26. februārī
4
Korpusa izmantošana
Gramatikas un citu valodniecības jautājumu izpētē Leksikogrāfijā Terminoloģijas izstrādē Valodas mācīšanā Tulkošanas studijās un tulku apmācībā, mašīntulkošanā
Dabiskās valodas apstrādē (statistika un varbūtības), informācijas izguvē, precedenta mašīnmācīšanās
Psiholingvistikā, sociolingvistikā, tiesu ekspertīzēs Humanitārajās un sociālajās zinātnēs
CLARIN seminārs 2010. gada 26. februārī
5
Cik sen mēs pazīstam ķibeles? 5. Saeimas sēdēs — 2×
(kaut kādas ķibeles ar balsošanas ierīcēm; nevajadzētu baidīties no tā, ka notiks visādas ķibeles)
6. Saeimas sēdēs — 5× (pacelties virs ikdienas ķibelēm; vēl visādas ķibeles; milzīga ķibele; jaunām ķibelēm; ar mani šāda ķibele notiek ne jau pirmo reizi)
7. Saeimas sēdēs — 1× (rodas visādas nelaimes un ķibeles) 8. Saeimas sēdēs — 1× (visādas ķibeles ar to) 9. Saeimas sēdēs — 2× (visās mūsu ķibelēs vainojama esot
Eiropas Savienība; gadās viena ķibele pēc otras) dižķibele sastopama vien 9. Saeimas laikā (3×), to 2× lietojis Jānis
Urbanovičs (pārciestu ne tikai šo dižķibeli, bet varbūt arī vēl nākamās; tie vecie ļauži, viņi nekādā ziņā nav vainīgi pie tās dižķibeles, kura Latvijā ir lielāka nekā visur citur pasaulē)
CLARIN seminārs 2010. gada 26. februārī
6
Korpusa izmantošana sabiedrisko norišu izpētē
CLARIN seminārs 2010. gada 26. februārī
saeima-2.0 sastopam 2189 lietojumus ar krīzi
7
Korpusa izmantošana sabiedrisko norišu izpētē ..raksturojot situāciju, tiek lietoti daudzi vārdi, un viens no tiem ir
krīze (5. Saeima, Indulis Bērziņš) Mēs bieži televīzijā dzirdam nopietnu cilvēku uzstāšanos par to,
ka mūsu valstī ir krīze un ka neviens nav pateicis krīzes formulējumu (7. Saeima, Oskars Grīgs)
Nu ir atkal krīze (7. Saeima, Modris Lujāns)
Kas ir krīze? finansu krīze jeb budžeta situācija (nav) lielas krīzes jeb liela sabrukuma tā saucamajam negatīvajam scenārijam jeb krīzes scenārijam ar krīzi es domāju gan inflāciju, gan masveida emigrāciju, gan to,
kas notiek.. finanšu krīze īsumā nozīmē to, ka naudas ir mazāk...
CLARIN seminārs 2010. gada 26. februārī
8
Kādas krīzes satrauc parlamentāriešus? banku krīze (155×), krīze banku sistēmā (1×), bankas „Baltija“
krīze (36×), komercbanku krīze (3×), banku un banku sistēmas krīze (1×), „Parex“ bankas krīze (1×)
ekonomiskā krīze (145×), ekonomijas krīze (17×) finansu (finanšu kopš 8. Saeimas laikiem) krīze (80×), finansiālā krīze
(13×) politiskā krīze (42×), arī politikas krīze (1×) valdības krīze (42×) Krievijas krīze (37×) budžeta krīze (36×) demogrāfiskā (arī demogrāfijas) krīze (29×) veselības aprūpes krīze, krīze veselības aprūpē (arī aizsardzībā) (18×) uzticības krīze (16×) globālā krīze (14×) kāda krīze (9×), kaut kāda krīze (5×) pašreizējā krīze (14×)
CLARIN seminārs 2010. gada 26. februārī
9
Kādas krīzes satrauc parlamentāriešus?
saimnieciskā krīze (9×) morālā krīze (8×) konstitucionāla krīze (8×) Irākas krīze (8×) pasaules krīze (8×) parlamentāra (6×), parlamenta krīze
(1×) enerģijas (arī enerģētiskā) krīze (6×) tautsaimniecības (arī
tautsaimnieciska) krīze (5×) tiesiskuma krīze (4×) iekšējā krīze (4×) lokāla krīze (4×) sociālā krīze (4×)
CLARIN seminārs 2010. gada 26. februārī
izglītības krīze (3×), krīze izglītībā (2×)
zināma krīze (4×) valsts krīze (3×) parlamentārās demokrātijas
(arī demokrātiskā) krīze (3×)
vērtību krīze (3×) starptautiska krīze (3×) kredītu krīze (3×) naftas krīze (3×) ekoloģiskā krīze (2×)
10
Kāda mēdz būt krīze?
dramatiska (3×) drausmīga (2×) dziļa (11×), tik dziļa (1×), diezgan dziļa (1×), ļoti dziļa (3×),
daudz dziļāka (1×), arvien dziļāka (1×), vēl dziļāka (4×), visdziļākā (5×) grūta (4×) liela (9×), ļoti liela (2×), vēl lielāka (2×), pati lielākā (1×) līdzīga (6×) nopietna (7×), ļoti nopietna (6×), dziļi nopietna (1×), visnopietnākā (1×) pilnīga (5×) reāla (3×) smaga (8×), ļoti smaga (2×), ārkārtīgi smaga (3×), daudz smagāka (1×),
vissmagākā (1×) totāla (4×) tāda (11×)
CLARIN seminārs 2010. gada 26. februārī
11
Par ko runā Saeimā?
krīzes apturēšana (2×) krīzes programma (2×) krīzes analīze (3×) krīzes problēmas (3×) krīzes saasināšanās (3×) krīzes simptomi (3×) krīzes norise (4×) krīzes pazīmes (4×) krīzes sekas (5×) krīzes iemesli (6×) krīzes periods (7×)
CLARIN seminārs 2010. gada 26. februārī
krīzes ietekme (10×) krīzes rezultāts (10×) krīzes risināšana (arī risinājums)
(10×) krīzes likvidēšana (arī likvidācija)
(11×) kad tā izbeigsies (3×), beigsies (8×) krīze veselības aprūpē
(arī aizsardzībā) (13×)
12
Par ko runā Saeimā?
krīzes sākums (arī sākties) (14×)
krīzes novēršana (arī novērst) (20×)
krīzes attīstība (21×) krīzes stāvoklis (21×) krīzes cēloņi (33×), (visvairāk
skatīti tieši bankas „Baltija” krīzes cēloņi (18×))
krīze valstī (26×)
CLARIN seminārs 2010. gada 26. februārī
krīzes iztikas minimums (50×) krīzes pārvarēšana (arī
pārvarēt) (62×) kas notiek krīzes apstākļos
(72×) krīzes situācijā (211×)
13
Kā runā Saeimā?
Novērojumi un ticējumi: Ja politiķis saka, ka krīzes nav, tad valsts patiesībā ir dziļā krīzē
(5. Saeima, Aivars Kreituss) 24 kredītu izzagšanas un banku krīzes rēgs klīst apkārt
(6. Saeima, Aivars Kreituss) Un tas, ka vienā valstī krīze parādās ātrāk, otrā vēlāk — tas ir
tikai laika jautājums (9. Saeima, Ainārs Šlesers) Jūs nevarēsiet pārpeldēt krīzes upi, jo nemākat to darīt
(9. Saeima, Aleksandrs Mirskis) Un tagad ir jautājums — vai mēs esam krīzē vai neesam?
(9. Saeima, Ivars Godmanis) Krīze atnāca, krīze aizies, bet bērni paliks (9. Saeima, Jakovs
Pliners)
CLARIN seminārs 2010. gada 26. februārī
14
Kā runā Saeimā?
Tautasdziesmas: Visu gadu krīze nāca,
Nu atnāca šovasar.Dod, Dieviņ, tādu prātu,Lai birst lati budžetā.
(9. Saeima, Anna Seile) Mācība par krīzi:
šo krīzi valstī esam izraisījuši mēs paši (7. Saeima, Jānis Jurkāns)
iziet no šīs finanšu krīzes var tikai kopā (9. Saeima, Ivars Godmanis)
katra krīze var kļūt par soli pareizajā virzienā (7. Saeima, Valdis Birkavs)
CLARIN seminārs 2010. gada 26. februārī
15
Korpusa izmantošana leksikas izpētē (vēsturiski)
Latviešu valodas seno tekstu korpusā (1 milj. vārdl., 16.–18. gs.) sastopam 50 vārdformas (208 vārdl.) ar komponentu ‘nauda’:
dominē nominālas vārdkopas, kur nauda ir galvenais komponents, bieži vien vārdkopām ir termina nozīme, piem., asins nauda ‘nauda, ko saņem par asins grēku’, dzeramnauda, kroņa nauda ‘pūra nauda; pabalsts’, kūmu / pādes / zobu nauda, mesla nauda, mēness nauda ‘mēnešalga’, nomas nauda, pusvērša nauda, sudraba nauda, tīruma nauda u. c.
sastopam arī vārdkopas, kur nauda ģenitīvā ir vārdkopas atkarīgais komponents, piem., naudas aizdevējs, naudas gabals (arī gabaliņš), naudas kaša (naudas
kasis), naudas mains ‘maiņas punkts’, naudas maiss, naudas maks, naudas mijēji (arī maininieki), naudas sargs, (pasaules kaķes un) naudas žurkas
pavisam nedaudz korpusā sastopam darbību nosaukumus, piem., precēšana ar naudu ‘tirgošanās’, nemaksāt ar naudu, palaist par lētu naudu,
pārdot par nieka naudu
CLARIN seminārs 2010. gada 26. februārī
16
Mūsdienās vārdi nauda un naudiņa (arī salikteņi ar sakni naud-)ieņem daudz lielāku īpatsvaru tekstā (vārdlietojumu skaits :: relatīvais biežums)
1 milj. korpusā — 619 vārdl. :: 0,0557 3,5 milj. korpusā — 2696 vārdl. :: 0,0661 5. Saeimas sēžu stenogrammās — 3422 vārdl. :: 0,0728 5.–9. Saeimas sēžu stenogrammās — 16 956 vārdl. :: 0,0753 tīmekļa korpusā — 43 678 vārdl. :: 0,0356
CLARIN seminārs 2010. gada 26. februārī
Korpusa izmantošana leksikas izpētē (mūsdienas)
17
Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā
ES nauda (9×), Eiropas nauda (8×), Eiropas līdzfinansējuma nauda (1), Briseles nauda (1×)
skaidra nauda (11×) soda nauda (10×) rokas nauda (6×), rokas naudas
līgums (4×) (sociālā, valsts) budžeta nauda (5×) valsts nauda (5×)
CLARIN seminārs 2010. gada 26. februārī
naudas sods (arī naudassods) (23×)
(brīvie, esošie, izņemtie) naudas līdzekļi (22×)
krimināllietās (arī kratīšanā) izņemtie naudas līdzekļi (7×)
naudas summa (19×) naudas plūsma (6×) naudas daudzums (5×)
naudas paveidi balta nauda (par gāzi jāmaksā balta nauda) nederīga nauda (padomju rublis ar sirpi un āmuru) baigā nauda, traka nauda vs. smiekla nauda vecā nauda (3×)
18
Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā Kam trūkst naudas?
valstij nav tik daudz naudas daudz krietnu, prasmīgu cilvēku, kuriem nav daudz naudas visbiežākais kavēklis arī ļoti labām idejām ir naudas trūkums naudas trūkuma dēļ esmu atteicies no fermas celtniecības kolektoru skalošanai nepietiek naudas Izdomājām, ka mums būs T krekli. Taču pietrūka naudas. Pašvaldībām nereti pietrūkst naudas Eiropas Savienības struktūrfondu
projektu finansēšanai Daudziem var pietrūkt naudas mājas celtniecībai Studentiem trūkst naudas. trūkst naudas arī citas spēkbarības iepirkšanai Tramvajiem trūkst naudas.
CLARIN seminārs 2010. gada 26. februārī
19
Korpusa izmantošana leksikas izpētē (mūsdienas) nauda miljons-1.0 korpusā Lai gan parasti nauda ir sastopama vienskaitļa formā, korpusā mēs
sastopam arī daudzskaitļa formu: naudas (4×) un naudiņas (4×): Tagad jau baigās naudas maksā, ja ir sīkais. (daiļlit.) iespēja nākotnē pārtikt no pacientu aplokšņu naudām.. (public.) ieskaitot mārketinga naudas, atlaides, bonusus un citus labumus.. (public.) solot (..) kaut kādas milzīgas, dabā neeksistējošas naudas! (stenogr.)
noņēma viņai no acīm naudiņas, kuras tur rūpīgi bija uzlicis Pēteris. (daiļlit.) Helēna aplūkoja naudiņas - cara laika pusrublis un sudraba vienlatnieks.
(daiļlit.) būtu tev tās naudiņas, tu taču nespēlētu teātri..(daiļlit.) Lilija to bieži lietoja pamazināmā formā un daudzskaitlī - naudiņas. (daiļlit.)
CLARIN seminārs 2010. gada 26. februārī
20
Korpusa izmantošana dabiskās valodas apstrādē
lingvistiskās intuīcijas pārbaude tekstos, uzlabojot formālo gramatiku rakstīšanu
mašīnmācīšanās rezultātā uzlabojas programmrīku kvalitāte programmrīku testēšana korpusā
CLARIN seminārs 2010. gada 26. februārī
21
Lingvistiskās intuīcijas pārbaude tekstos izstrādājot SemTi-Kamols gramatisko analizatoru, jārisina vairāki
teorētiski latviešu valodas gramatikas jautājumi, piem., tādu darbības vārdu kā gribēt, sākt, beigt u. tml. statuss (vai tekstos lielākoties tie sastopami patstāvīgā nozīmē vai kā semantiskie modificētāji)
izmantojot tīmekļa un morfoloģiski anotēta korpusa datus, tika pārbaudīti lietojumi ar šiem verbiem
pēc korpusā sastapto lietojumu analīzes gramatikā iestrādāta likumsakarība, ka šie darbības vārdi ir semantiskie modificētāji es gribu saldējumu = es gribu (ēst, pirkt…) saldējumu es gribu uz mājām = es gribu (braukt, iet, doties…) uz mājām
CLARIN seminārs 2010. gada 26. februārī
22
Mašīnmācīšanās morfoloģiski marķētā korpusā Marķētāja apmācīšanai tika izmantoti cilvēka marķēti teksti
(vairāk nekā 60 000 vārdl.), kurā ir daļa „Latvijas Vēstneša“ tekstu no 1 milj. korpusa marķētais „ledus“ korpuss ES juridiskie teksti
Marķētāja izvērtēšanai izveidots testa korpuss (3881 vārdl., 200 teikumi)
Pašlaik marķētāja kvalitāte svārstās no 70% līdz 90%, to ietekmē: marķējamā teksta līdzība ar tekstiem apmācības korpusā reti lietotu īpašvārdu un citu neatpazītu vārdu biežums tekstā vai jānosaka tikai vārdšķira (augsta kvalitāte), vai jāveic pilns
marķējums (kvalitāte krītas)
CLARIN seminārs 2010. gada 26. februārī
23
Automātiski marķēta teikuma piemērs
Snigšanas/nfsg un/c lietus/nmsn laikā/nmsl būtiski/r samazinās/v3si--p redzamība/nfsn un/c uz/ssa brauktuvēm/nfpd veidojas/v3si--p piebraukta/v-spfn sniega/nmsg kārta/nfsn ,/zc atkala/nfsn un/c apledojums/nmsn ./zs
CLARIN seminārs 2010. gada 26. februārī
24
Programmrīku testēšana korpusā SemTi-Kamols gramatiskais analizators izmanto leksikonu, kurā
ir 50 000 vārdu analizators tiek testēts 3,5 miljonu vārdlietojumu korpusā un
tīmekļa korpusā, lai noskaidrotu, cik daudz vārdu ir atpazīti, kāds ir vidējais teikuma fragmenta garums, ko atpazīst
analizators; iegūtā informācija ļauj izvērtēt gramatiski izanalizēto gadījumu
pārklājumu korpusā un papildināt gramatiku ar jauniem likumiem
CLARIN seminārs 2010. gada 26. februārī
25
Teikuma fragmentu atpazīšana 1 milj. vārdlietojumu korpusā (2009)
CLARIN seminārs 2010. gada 26. februārī
Rezultāts Teikumu skaits Komentāri
Pilnībā atpazīts 7019 (7,7%) viennozīmīga fragmenta atpazīšana
Visi vārdi atpazīti 26524 (29,1%) atpazīti visi vārdi, bet tos nav izdevies izanalizēt kā vienotu fragmentu / teikumu
Daļēji atpazīts 40664 (44,7%) vismaz 1 vārds teikumā nav atpazīts, piem., datumi, īpašvārdi
Daudznozīmīgi 9718 (10,7%) vairāki sintaktiski iespējami analīzes varianti
Pārsniegts laiks 7082 (7,8%) bez rezultāta, jo tiek pārsniegts analīzes laika ierobežojums
Kopā 91007 (100%)
26
Teikuma fragmentu atpazīšana 3,5 milj. vārdlietojumu korpusā (2010)
CLARIN seminārs 2010. gada 26. februārī
27
Korpusa izmantošana gramatikas jautājumu izpētē simtām (Blinkena, 1976; Holvoet,
Judžentis 2003) miljons-1.0: — miljons-2.0: simtām reižu (1×) saeima-1.0: — saeima-2.0: simtām reižu (3×) timeklis-1.0: simtām reižu (10×),
un es nezinu starp zemēm simtām (2×), dega simtām ēku (1×), nobraukt simtām verstīm (1×), simtām fašistu koncentrācijas nometnēs (1×), zvana negaisu no simtu simtām balsīm kā draudu atbalstu (1×)
CLARIN seminārs 2010. gada 26. februārī
-iem -ām
miljons-1.0 desmit-simt-
2×
miljons-2.0 desmit-simt-
5×2×
1×1×
saeima-1.0 desmit-simt-
2×1×
5×
saeima-2.0 desmit-simt-
32×11×
18×3×
timeklis-1.0 desmit-simt-
36×56×
9×10×
savienojumā ar reižu
28
Latviešu valodas korpusu izmantošana
CLARIN seminārs 2010. gada 26. februārī
www.korpuss.lv
Everita Andronova ([email protected]) Ilze Auziņa ([email protected])
Normunds Grūzītis ([email protected]) Gunta Nešpore ([email protected])
CLARIN seminārs 2010. gada 26. februārī