KL3

12
Korpusová lingvistika 3 InterCorp = paralelní korpus (= originály a příslušné překlady, zarovnané na úrovni vět) - jeden z korpusů Ústavu Českého národního korpusu www.korpus.cz/intercorp Projekt zahájen v r. 2005, první verze zpřístupněna v r. 2008 (19 jazyků) Jazyky: v současné době 38 jazyků (ar be bg ca (katalánština) da de el en es et fi fr hi hr hu it lt lv mk mt (maltština) nl no pl pt ro ru sk sl sr (srbština) sv uk etc., katalánština) + cs ; přibyla turečtina, vietnamština aj. a pracuje se na čínštině http://ucnk.ff.cuni.cz/intercorp/?req=page:info – zastoupení jednotlivých jazyků, složení korpusu a značkování a lemmatizace největší projekt tohoto typu na světě; jazyky zastoupeny v různé míře (záleží na dostupnosti textů a/nebo na aktivitě jednotlivých sekcí; koordinátory jsou většinou zástupci z jednotlivých jazykových kateder – FF UK, ale i Masarykova univerzita v Brně aj.) cs vždy zastoupena („pivotní jazyk“); tj. všechny texty alignovány (zarovnány) vůči čj Ne všechny texty mají protějšky v dalších jazycích Vymezení korpusu: velikost – složení – stáří textů – rozhraní/anotace 1. Složení korpusu: a) jádro – „literární jádro“ – ALE obsahuje různé texty, i odborné, Saussure, Foucault, Bourdieu, popularizační příručky pro děti o Alexandru Velikém aj. a taky 5 dílů Astérixe - korektura, manuálně kontrolovaný align (zarovnání) - InterText 1

description

korpusova lingviustika

Transcript of KL3

vod do romnsk korpusov lingvistiky kurz 2

InterCorp= paraleln korpus (= originly a pslun peklady, zarovnan na rovni vt)- jeden zkorpus stavu eskho nrodnho korpusuwww.korpus.cz/intercorpProjekt zahjen vr. 2005, prvn verze zpstupnna vr. 2008 (19 jazyk)Jazyky: vsouasn dob 38 jazyk (ar be bg ca (katalntina) da de el en es et fi fr hi hr hu it lt lv mk mt (malttina) nl no pl pt ro ru sk sl sr (srbtina) sv uk etc., katalntina) + cs ; pibyla turetina, vietnamtina aj. a pracuje se na ntinhttp://ucnk.ff.cuni.cz/intercorp/?req=page:info zastoupen jednotlivch jazyk, sloen korpusu a znakovn a lemmatizace nejvt projekt tohoto typu na svt; jazyky zastoupeny vrzn me (zle na dostupnosti text a/nebo na aktivit jednotlivch sekc; koordintory jsou vtinou zstupci zjednotlivch jazykovch kateder FF UK, ale i Masarykova univerzita vBrn aj.)

cs vdy zastoupena (pivotn jazyk); tj. vechny texty alignovny (zarovnny) vi jNe vechny texty maj protjky vdalch jazycch Vymezen korpusu: velikost sloen st text rozhran/anotace1. Sloen korpusu:a) jdro literrn jdro ALE obsahuje rzn texty, i odborn, Saussure, Foucault, Bourdieu, popularizan pruky pro dti oAlexandru Velikm aj. a taky 5 dl Astrixe- korektura, manuln kontrolovan align (zarovnn) - InterText b) kolekce - soubory automaticky staench a zarovnanch text, nevhoda vtinou nelze identifikovat smr pekladu- Acquis communautaire prvnick texty (vechny jazyky EU), specifick tematicky i jazykov- EuroParl zpisy zjednn Evropskho parlamentu zlet 2007-2011 (opt jazyky lenskch stt EU)- Syndicate (www.project-syndicate.org - it ru cs de en es fr) a Presseurop (www.presseurop.eu cs pl de en it ro es fr nl pt) publicistick servery- nov OpenSubtitles titulky ja (japontina) uk lv lt vi is mk et da it sv fi he sl hr sq (albntina) sr tr (tur.) hu el (etina) fr pl nl ms(malajtina) ro (rumuntina) es pt sk cs en ru de

2. Rozsah celkem (bude nov verze vdubnu 2015) 1555530000 (total) Jdro : 250 346000 slov Kolekce publicistickch text (PressEurop + SYNDICATE) 37 673000 slov Acquis communautaire : 450 498000 slov Europarl : 277 952000 slov Subtitles: 539 061 000 slovpozor pi nerozlien sloen korpusu vyhledvte vedvou tetinch ppad na Acquis a titulcch!!

3. st text synchronn (1950), ale i star texty (apek, portugaltina, Cline)pokrt rzn nry, zachovat vyvenost ve smru pekladuNejvce zastoupen texty: https://trnka.ff.cuni.cz/ucnk/intercorp/files/IntercorpTop200 PRAVIDLO - pi definovn subkorpusu vdy ovit, co tam skuten mte! dvat pozor tak na varietu jazyka (plnuje se rozlien a monost definice korpusu podle tohoto kritria), pp. na idiolekt nebo specifick nr apod.

4. Pstupstejn heslo jako do NK a dalch korpus NKhttp://wiki.korpus.cz/doku.php/cnk:uvod specializovan korpusy Jerome, kovsk, LINK atd. korpusy mluvenho jazyka, diachronn korpusy cizojazyn korpusy Aranea srovnateln (comparable) - (de, en, fr, nl, pl, ru, sk) (maius 1 mld / minor 10% vzorek) Wacky corpora deWac, frWac (1,3 mld. slov), itWac (1,6 mld. slov), ukWac Est rpublicain (FR) 120 milion slov

5. Korpusov rozhran a anotace- nejnovj KonText https://kontext.korpus.cz/- na bzi NoSketchEngineAnotace vechny romnsk jazyky morfologicky oznakovny alemmatizovny

Vyhledvn vKonTextu:1. definice subkorpusupozor default VE! tj. i kolekce

Metadata v korpusu InterCorp (vbr)

AtributVznamHodnoty

div.ididentifikace textupjmen_autora-zkrcen_nzev_textu | _ACQUIS | _EUROPARL | _PRESSEUROP | _SYNDICATE

div.grouprozdlen na: jdro | kolekce

div.wordcountpoet slov textuslo

div.authorautor textu pjmen, jmno

div.titlepln nzev textutext

div.publishervydavateltext

div.pubplacemsto vydntext

div.pubyearrok vydnletopoet

div.txtypetyp textudrama | literatura faktu | poezie | prvn texty | prza | publicistika - komente | publicistika - zprvy | rzn | zpis debaty

div.originalje text originlem?ANO | NE

div.srclangjazyk originlubg | ca | cs | da | de | el | en | es | et | fi | fr | ga | hr | hu | it | lt | lv | mt | nl | no | pl | pt | ro | ru | sk | sl | sv | un

div.translatorpekladatel textu pjmen, jmno

div.transsexpohlav pekladateleF | M

div.authsexpohlav autora: F | M

zkladn vyhledvn koka

zmna subkorpusuprnik cs, en, fi, it, fr, es ? koka

Je mon definovat a uloit subkorpus2. zadvn dotazu (KonText)pozor prvn pole mus bt vdy obsazeno; mohou bt obsazena ob- zkladn - case-insensitive- frze hled pesn dan etzec slov (ern koka, by jste)pozor na tokenizaci, nap. dit-il?- slovn tvar pesn dan slovn tvar, nap. vendendo nebo nejneobhospodaovvatelnjmi- lemma je mon upesnit slovn druh a pout regulrn vrazy- CQL (corpus query language korpusov dotazovac jazyk) lemmata, regulrn vrazy a morfologick znaky (tagy)umouje nejpesnj dotazovn a kombinaci rznch kritri (nap. hledn citoslovc vjazyce konkrtnho autora: [tag="I.*"] within )Syntax:[lemma="koka"] POZOR nastaven se vrac kzkladnmu vyhledvn!EX koka ve vaem jazyce, jako lemma; mono upesnit kontext (zkladn informace o konkordanci)

1) Regulrn vrazy zstupn symbolyZADN vdy vhranatch zvorkch a nsledn s (anglickmi rovnmi!) uvozovkami, nap. [word="kok."] [lemma="kok."] nebo [tag="VER.*"] teka (.) - pedstavuje jeden libovoln znak, kok. (koky, koka, ale nap. ne kokou protoe to jsou dva znaky, viz ne hvzdika) hvzdika (*) pedstavuje libovoln poet (0 a vce) opakovn pedchozho znaku nebo vrazu, kok.* (kokou, kokami, kokovat)

dobr pro hledn suffix a prefix nap. ve fr. .*esse, .*ette (deminutiva) ; .*vst (rozvst, dovst, vyvst [lemma=".*vst"]

? [word=".*vst"] = _____________________

EX 1 jak rzn mnie? nebo ismy?

takto se hled i fr. grondif: [word="en"] [word=".*ant"] POZOR, VDY JE NUTN BRT VVAHU VECHNY VARIANTY DANHO TVARU nap. u grondivu je mon mezi en a -ant vloit negaci a/nebo osobn zjmena (en ne le lui donnant pas), to se pokryje vloenm przdnch pozic nap.:[word=en] []{0,3} [word=".*ant"] (viz ne interval)

interval ({n, k}) - pedstavuje n a k opakovn pedchozho znaku nebo vrazu; je-li k vynechno, odpovd intervalu nejmn n opakovn, pokud m interval tvar {n}, odpovd mu pesn n opakovn; przdn pozice []{0, 3}

plus (+) pedstavuje 1 nebo vce opakovn pedchozho znaku nebo vrazu, ra(ta)+, .+nst = ___________

EX - co vm najde dotaz [word="tuhle.+"]

otaznk (?) - pedstavuje dn nebo jeden vskyt pedchozho znaku nebo vrazu [lemma="(im)?possible"] a?politiques? najde slova: politique, politiques, apolitique a apolitiques. Nap. cinma(tograph(e|ique))?s? najde : ___________________________________________

EX co vm najde a?[nj]o ? (nap. vkorpusu oral2008)

seznam ([]) - pedstavuje alternativu - libovoln jeden znak z tch, kter jsou uvedeny v seznamu uvnit hranatch zvorek; [word="[Ii]nternet"]

svisl ra (|) - pedstavuje tak alternativu, ne ovem mezi jednotlivmi znaky, ale celmi etzci, koka + barvy [lemma="(ern|bl|mourovat)"] [lemma="koka"]

pokud je prvnm znakem seznamu stka (^), jde o negovan seznam a pedstavuje tedy libovoln jeden znak krom tch uvedench uvnit zvorek (stejn funguje taky vykink) : [word="or" & tag!="NOM"]

v rmci seznamu je mon pouvat tak pomlku (-) jako opertor rozsahu, nap.: libovoln sla skldajc se ze t nebo ty cifer: [0-9]{3,4} [word="[0-9]{3,4}"]

morfologick varianty slova smch (s vylouenm tvar odvozench od slov Smchov a smchat) : [Ss]mch[^oa].*|[Ss]mch

Klvesov zkratky vsystmu Windows na esk klvesnici:

| svisltko AltGr + Shift + pod Backspace nebo Alt + W

{} sloen zvorky AltGr + 9, AltGr + 0 nebo Alt + B, Alt + N

[] hranat zvorky Alt + F, Alt + G

^ stka Alt + (i 3)

\ zptn lomtko Ctrl + Alt + Q

Negaci vrazu zajiuje vykink nap. [word=".*ndo" & !word="quando"] nebo [word=".*ndo" & word!="quando"]Pklad komplikovanjho dotazu, nap. ve fr. vechny tvary imparfait, bez tvar mais (ale) a jamais (nikdy): [word=".*ai[st]" & word="ions|iez|aient" & !word="[Mm]ais" & !word="[Jj]amais"] ; sg [word=".*ai[st]" & !word="[Mm]ais" & !word="[Jj]amais"]

kulat zvorky - libovolnou st vrazu je mon seskupit do kulatch zvorek a ovlivnit tak prioritu jeho vyhodnocovn, viz ve cinma(tograph(e|ique))?s?

EX jak gerundium ve vaem jazyce?

pozor klitika mte nap. seznam vech monch italskch klitik po gerundiu:ce|ci|gli|glie|la|le|li|lo|me|mi|ne|se|si|te|ti|ve|vijak zadte dotaz, abyste nali kombinace gerundia sjednm nebo se dvma klitiky?

Lze jet zjednoduit?

zptn lomtko (\) - pokud nkter speciln znak pedchz zptn lomtko, ztrc tento znak svj zvltn vznam to se velmi hod, kdy nap. chcete studovat jevy na zatku nebo na konci vty a potebujete pout teku (.) vjejm pvodnm vznamu, ne jako regulrn vraz nap. [word="fatale"] [word="\."]Podobn vykink nebo otaznkEX najdte ti teky jakho vznamu nabvaj? (LZE I POMOC ZKLADN)

2) Morfologick znaky (tagy, sg. tag)- morfologicky oznakovan jsou vechny romnsk jazyky (a samozejm taky etina); kad ale jinm seznamem znaek (tag tzv. tagset)etina (viz tak NK - vod a pruka uivatele, str. 107-112), 1.pozice znaek uvd zkladn slovn druh:Korpusov lingvistika 3 2

A adjektivum (pdavn jmno)

C numerl (slovka, nebo seln vraz s slicemi)

D adverbium (pslovce)

I interjekce (citoslovce)

J konjunkce (spojka)

N substantivum (podstatn jmno)

P pronomen (zjmeno)

R prepozice (pedloka)

T partikule (stice)

V verbum (sloveso)

X neznm, neuren, neuriteln slovn druh

Z interpunkce, hranice vty

Dal pozice specifikuj dal informace, nap. pd u jmen, tento dotaz nap. vyhled vechna podst. jmna v akuzativu [tag="N...4.*"]TIP: na strnce http://utkl.ff.cuni.cz/~skoumal/morfo/?lang=cs mete najt tzv. kliktko, tj. aplikaci, kter vm umon snadno vytvoit dotaz, ani byste museli pracn hledat jednotliv znaky a pozice; vsledn dotaz pak sta zkoprovat.Pomoc morf. znaek mete najt nap. slovesn vazby suritmi slovy, nap. vj se slovem huba [tag="V.*"] []{0,3} [lemma="huba"]Tagsety pro jednotliv romnsk jazyky:fr: http://www.ims.uni-stuttgart.de/~schmid/french-tagset.html nap. mete najt grondivy: [word="en"] [tag="VER:ppre"], tj. jako kombinaci pedloky en a tvaru participe prsent; dal pklady:podstatn jmno, ktermu pedchzej ti adjektiva:

jmno, ktermu nepedchz bezprostedn determinant

POZOR! morfologick znakovn nen 100% spolehliv, protoe se dl automaticky programtoi si vtinou gratuluj, kdy je spolehlivost 95 % (tj.kad 20. slovo je patn). PRAVIDLO: je dobr vyhledvn podle morf. znaek ovovat a korigovat hlednm pomoc regulrnch vraz.Lze kombinovat morfologick znaky a regulrn vrazy, nap.mluvenostn stylizace vetin koncovka ej u adjektiv a jej ekvivalenty vdanm jazyce

Cvien najdte pomoc morfologickch znaek a pp. regulrnch vraz:1. imperativ2. podstatn jmna, kter se vyskytuj vbarv, kterou mte rdi3. citoslovce4. Vytkac konstrukce, nap. ve p. Fue Juan el que perdi las llaves5. sloeniny typu V-N (fr. sche-linge) nebo N-N6. kondicionl, ktermu pedchz spojka si (ve fr. nenormativn)7. minul infinitiv8. agentivn jmna (nap. it. sufix tore; ve fr. -deur; svylouenm umu adjektiv)9. pedloku na konci vty (tj. bez podstatnho jmna) cf. ve francouztin nenormativn il faut faire avec10. deminutiva nebo augmentativa svymezenm konkrtnho slovnho druhu (adjektiva nebo podstatnho jmna)11. kauzativn konstrukce je mon vloit njak element mezi sloveso dlat a infinitiv?12. gerundia, kter maj jako esk ekvivalent pechodnk13. panlsk, italsk, portugalsk ekvivalenty francouzskho zjmene on (veobecn podmt); omezit na ppady, kdy je eskm ekvivalentem lid14. sjakmi slovy si automatick tagger neporadil

9