2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 ·...
Transcript of 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 ·...
![Page 1: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/1.jpg)
Korpusznyelvészet2016. április 18., ELTE
Sass BálintMTA Nyelvtudományi Intézet
1/29
![Page 2: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/2.jpg)
http://nszt.nytud.hu/nszt.html
2/29
![Page 3: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/3.jpg)
Mi mindent kell csinálni ahhoz,hogy sima szövegbol ilyen korpuszlekérdezofelület legyen?Ezt fogjuk most megnézni lépésrol lépésre.
Példa:/ Ám de viſzont hallá, hogy majd a’ Trójai vérböl /
3/29
![Page 4: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/4.jpg)
1.Az Mtsz építése
4/29
![Page 5: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/5.jpg)
Karakterkódolás
1 karakter = 1 byte
kitûnõ és idõszerû
1 karakter > 1 byte: Unicode
helytakarékos kódolás: UTF-8
Hà c©tfÅ n találkozunk.
Megvan az egységes UTF-8 kódolású szövegünk.
é 3 o 3 ſ 3 ö 3
5/29
![Page 6: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/6.jpg)
XML
Kenjük a vajat
a késsel
a kenyérre.
6/29
![Page 7: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/7.jpg)
XML – tagek
<recept>
Kenjük a <hozzavalo>vajat</hozzavalo>
a <eszkoz>késsel</eszkoz>
a <hozzavalo>kenyérre</hozzavalo>.
</recept>
7/29
![Page 8: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/8.jpg)
XML – attribútumok
<recept nev="vajas kenyér">
Kenjük a <hozzavalo id="41">vajat</hozzavalo>
a <eszkoz id="5">késsel</eszkoz>
a <hozzavalo id="12">kenyérre</hozzavalo>.
</recept>
8/29
![Page 9: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/9.jpg)
Mtsz XML<section><head>
<id>7021030</id><author>Baróti Szabó Dávid</author><wdate>1808</wdate>... egyéb adatok
</head><text>
<page><p>18</p><par>
Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok
</par>... további bekezdések
</page>... további oldalak
</text></section>
9/29
![Page 10: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/10.jpg)
TEI„The Text Encoding Initiative (TEI) is a consortiumwhich collectively develops and maintains a standardfor the representation of texts in digital form.”
KorpuszkezeloNoSketchEngine (NoSkE)https://nlp.fi.muni.cz/trac/noske
10/29
![Page 11: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/11.jpg)
NoSkE XML
<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">
<par>Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok
</par>... további bekezdések
</oldal>... további oldalak
</doc>
11/29
![Page 12: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/12.jpg)
NoSkE XML← XSLT←Mtsz XML
<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">
<par>Ám de viſzont hallá, hogy majd a’ Trójai vérböl<br/>Nemzet ered, melly e’ várat valahára le-dönti;<br/>... további sorok
</par>... további bekezdések
</oldal>... további oldalak
</doc>
12/29
![Page 13: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/13.jpg)
Találatok idorendben
Hogy lehet a találatok ido szerinti rendezését megvalósítani?
1. Lekérdezés után az eredményt mindig rendezzük.2. Elore rendezzük és azt kérdezzük le.
Megoldás (erre is): XSLT
13/29
![Page 14: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/14.jpg)
„Tokenizálás”<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">
<par>Ámdeviſzonthallá<g/>,hogy...<br/>... további tokenek
</par>... további bekezdések
</oldal>... további oldalak
</doc>
14/29
![Page 15: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/15.jpg)
„XML+TAB” formátum<doc mtsz_id="7021030" author="Baróti Szabó Dávid" wdate="1808" ...><oldal oldalszam="18">
<par>Ám ám KOTde de KOTviſzont viſzont KOThallá hall V.Ipf.S3.Def<g/>, , WPUNCThogy hogy KOT...<br/>... további tokenek
</par>... további bekezdések
</oldal>... további oldalak
</doc>
15/29
![Page 16: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/16.jpg)
2.Az Mtsz használata
16/29
![Page 17: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/17.jpg)
Reguláris kifejezésekBizonyos tulajdonságú karaktersorozatok megadására.. tetszoleges karakter* a megelozo karakterbol 0 vagy több+ a megelozo karakterbol 1 vagy több? a megelozo karakterbol 0 vagy 1[ab] ’a’ vagy ’b’ karakter[ˆab] nem ’a’ és nem is ’b’ karakterr|s ’r’ vagy ’s’ reguláris kifejezés(..) egybefoglalás
Példák:1. alma 5. .*2. tejf.l 6. .*bb3. mentok? 7. alma|almá.*4. nélk[üuü]l 8. mondjá(to)?k
17/29
![Page 18: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/18.jpg)
CQL (Corpus Query Language)[..] egy tokenre vonatkozó megkötésekx="y" x attrib értéke legyen y – Mtsz: csak word attrib van
x!="y" x attrib értéke ne legyen y& és kapcsolat megkötések között
Példák:1. [] []2. [word="majd"]3. "majd"4. [word!="a.*"]5. []?6. [word="nem"] [word="kellett"] [word="volna"]? [word=".*ni"]
18/29
![Page 19: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/19.jpg)
Mtsz példalekérdezés
Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!
19/29
![Page 20: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/20.jpg)
Mtsz példalekérdezés
Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!
".*t" ".*..tt"
20/29
![Page 21: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/21.jpg)
Mtsz példalekérdezés
Feladat. Keressünk ilyet: tárgyesetu szó + múltideju E/3 ige!
".*t" ".*..tt"
[word=".*t"] [word=".*..tt" & word!="alatt" & word!="azelott"]
21/29
![Page 22: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/22.jpg)
Diakrón vizsgálat: nélkül helyesírása
22/29
![Page 23: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/23.jpg)
3.Korpuszok
23/29
![Page 24: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/24.jpg)
Korpuszok
MNSZ2 – elemzett, nagy méretu* körülültük, felszedegettük, elsimítottuk, végigcsináltuk
* forrásokban, fellegekben, falvakban, fejekben (bazi lassú)
* cél, csal, csaj, csel, dzsal
Mazsola – igék és bovítményekreprezentáció: A lány vállat vont→ ige=von alany=lány tárgy=váll
BUSZI – beszélt de írott... bizonyos dógokban � mmm tát, hogy ööö lustább annál, mint amilyennek elképzeltem, ...
Ómagyar korpusz – normalizálás, ómagyar morfológia
NKP (Nemzeti Korpuszportál)http://corpus.nytud.hu/nkp
24/29
![Page 25: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/25.jpg)
4.Korpuszvezérelt kutatás
25/29
![Page 26: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/26.jpg)
Korpuszalapú és korpuszvezérelt
„A korpusz segédeszköz, ami empirikus adataival támogatja az intuí-ciót, mérhetové teszi a nyelvi jelenségeket, meglévo elméleteket bizo-nyít/cáfol.”
„A korpusz maga szolgáltatja az «elméletet», a nyelvész minden fel-tevés és elvárás nélkül fordul az adatokhoz. Minden következtetéstkizárólag korpuszmegfigyelésekbol von le.”
serendipity principle:lényeges jelenség véletlen felfedezése
pl.: Tognini-Bonelli: Corpus Linguistics at Work (2001)
26/29
![Page 27: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/27.jpg)
Braille-rövidírás bovítése
ban/ben→ b (...
.
.
.
tt ...
.
.
.
t ...
.
.
.
tt tt→ ...
.
.
.
tt ) hoG→ h (...
.
.
.
tt t ...
.
.
.
tt t ...
.
.
.
t ttt→ ...
.
.
.
tt t )Alapötlet: a maximális rövidítési képességgel bíró ideális rövidírás a magyar nyelvkorpuszgyakorisági adatai alapján korpuszvezérelt módon, automatikusan kiala-kítható.Elv: a leheto leggyakoribb betukapcsolatokat kell a leheto legrövidebbre rövidíteni.
Eredmény: 33 új szabály
meg→mg (...
.
.
.
tt t ...
.
.
.
t t ...
.
.
.
tt tt→ ...
.
.
.
tt t ...
.
.
.
tt tt ) maGar→mG (...
.
.
.
tt t ...
.
.
.
t ...
.
.
.
t ttt ...
.
.
.
t ...
.
.
.
ttt t→ ...
.
.
.
tt t ...
.
.
.
t ttt )
Tanulság:A korpuszvezérelt módon létrehozott rendszer még úgy is kétszeres teljesítményreképes az intuíció illetve hagyomány talaján álló rendszerrel szemben, hogy máreleve jelentosen rövidített szövegen kell dolgoznia.
Ha valamit meglévo (korpuszgyakorisági) adatokból automatikusan származtatni tudunk,akkor nem érdemes intuitív megközelítést alkalmazni.
27/29
![Page 28: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/28.jpg)
Igei szerkezetek felfedezése
vet [15728]vet -nAk VÉG-t [1463] vessen véget az eroszaknakvet SZEM-A-rA -t [805] hasonló diszkriminációkat vetnekaz albán hatóságok szemérevet -rA PILLANTÁS-t [708] vess egy pillantást a térképrevet -t [703] vetem a magotvet -rA -t [380] a humanista könyveket máglyára vetettékvet PAPÍR-rA -t [377] vesse papírra az új problémákatvet SZÁM-t -vAl [297] ez rossz fényt vet az edzok nevelomunkájáravet -rA FÉNY-t [267] vessünk számot eddigi politikánkkalvet -bA -t [252] a tó vizébe vetette magát
csóvál [1078]csóvál FEJ-A-t [754] csóválta a fejét
28/29
![Page 29: 2016. április 18., ELTE Sass Bálint MTA Nyelvtudományi Intézet … · 2016-04-18 · Korpuszalapú és korpuszvezérelt „A korpusz segédeszköz, ami empirikus adataival támogatja](https://reader033.fdocuments.net/reader033/viewer/2022041519/5e2cf957b24ad41753493437/html5/thumbnails/29.jpg)
Korpusznyelvészet2016. április 18., ELTE
Sass BálintMTA Nyelvtudományi Intézet
29/29