Korpuszok és adatbázisok
description
Transcript of Korpuszok és adatbázisok
![Page 1: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/1.jpg)
Korpuszok és adatbázisok
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai – 2013. február 14.
![Page 2: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/2.jpg)
Alapfogalmak• Korpusz: speciális célokra
létrehozott, (gyakran tematikus) adatbázis – „szöveggyűjtemény”
• Annotáció: a szövegek nyelvi információval történő kézi jelölése (és kézi ellenőrzése)
![Page 3: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/3.jpg)
Korpusztípusok• Egynyelvű
• Többnyelvű – párhuzamos korpusz: ugyanazok az adatok egynél több nyelven
• Beszédkorpusz: hanganyagok
• Írott nyelvi korpusz: szövegek
![Page 4: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/4.jpg)
Korpuszépítés• Mi a cél?• Milyen szövegek kerüljenek bele?
– Tematika (jog, irodalom…)– Nyelvi regiszterek (hivatalos,
köznyelv…)– Homogén/heterogén
• Méret• Nyelv• Hozzáférhetőség (szerzői jogok)
![Page 5: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/5.jpg)
Annotáció• Szöveg/dokumentum szintje
– Levél spam/nem spam
• Mondat szintje– Bizonytalan/tényszerű információt tartalmaz-
e?
• Szó/frázis szintje – Morfológiai elemzés– Tulajdonnevek
• Annotáció nélkül– Szógyakoriság– Együtt előfordulás
![Page 6: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/6.jpg)
Az annotáció típusa• kézi• félig automatikus: gépi úton bejelölt annotáció
kézi javítása• automatikus• egyszeres: egy szövegen egy annotátor megy
végig– olcsóbb– gyorsabb
• többszörös: egyazon szövegen több annotátor is teljes egészében végigmegy, egymástól függetlenül– időigényesebb– drágább– egyetértési arány mérése
![Page 7: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/7.jpg)
Egyetértési arány• az annotátorok mennyire értettek egyet
(=mennyire jelöltek ugyanúgy) adott metrika szerint– Pontosság (accuracy)– F-mérték (pontosság – precision, fedés –
recall)– Kappa
• az annotátorok által egyformán jelölt esetek arányát a gépi alkalmazások által elérhető felső határnak szokták tekinteni
• a feladat nehézségi fokának jelzése• feladatfüggő!
![Page 8: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/8.jpg)
Az annotáció formái• Egy fájlban a szöveg és a jelölés
(általában XML)
• Külön fájlban a szöveg és a jelölés (standoff/standalone)
• Előnyök/hátrányok:– Eredeti szöveg visszanyerése– Új szövegek hozzáadása– Szövegek törlése
![Page 9: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/9.jpg)
<s id="Nepszava.24.2.1">Rövidtávú— féléves— kilátásaikat illetően a cégek egész évben októberben voltak a legoptimistábbak.
<choice><sic>
<w>Rövidtávú<ana>
<humor><lemma>Rövidtávú</lemma><mscat>[X]</mscat></humor><msd><lemma>Rövidtávú</lemma><mscat>[X]</mscat></msd>
</ana><anav>
<humor><lemma>Rövidtávú</lemma><mscat>[X]</mscat></humor><msd><lemma>Rövidtávú</lemma><mscat>[X]</mscat></msd>
</anav></w>
</sic><corr>
<w>rövid<ana>
<humor><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></msd>
</ana><anav>
<humor><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Afp-sn]</mscat></msd>
</anav><anav>
<humor><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></humor><msd><lemma>rövid</lemma><mscat>[Nc-sn]</mscat></msd>
</anav></w><w>távú
<ana><humor><lemma>távú</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>távú</lemma><mscat>[Afp-sn]</mscat></msd>
</ana><anav>
<humor><lemma>távú</lemma><mscat>[Afp-sn]</mscat></humor><msd><lemma>távú</lemma><mscat>[Afp-sn]</mscat></msd>
</anav></w>
</corr></choice>
![Page 10: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/10.jpg)
1 _ _ _ ELL ELL _ _ 0 0ROOT ROOT
2 Japánban Japán Japán N N SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none SubPOS=p|Num=s|Cas=2|NumP=none|PerP=none|NumPd=none 1 1 OBL
OBL3 , , , , , _ _ 1 1
PUNCT PUNCT4 ahol ahol ahol R R SubPOS=r|Deg=none|Num=none|Per=none
SubPOS=r|Deg=none|Num=none|Per=none 9 9 TLOCY TLOCY5 1960-ban 1960 1960 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|
PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 9 9OBL OBL
6 közel közel közel R R SubPOS=x|Deg=none|Num=none|Per=noneSubPOS=x|Deg=none|Num=none|Per=none 7 7 MODE MODE
7 félmillió félmillió félmillió M M SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=n|Form=l|NumP=none|PerP=none|NumPd=none 8 8
ATT ATT8 válást válás válás N N SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|
NumPd=none SubPOS=c|Num=s|Cas=a|NumP=none|PerP=none|NumPd=none 9 9 OBJOBJ
9 mondtak mond mond V V SubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=nSubPOS=m|Mood=i|Tense=s|Per=3|Num=p|Def=n 1 1 ATT ATT
10 ki ki ki R R SubPOS=p|Deg=none|Num=none|Per=noneSubPOS=p|Deg=none|Num=none|Per=none 9 9 PREVERB PREVERB
11 , , , , , _ _ 9 9PUNCT PUNCT
12 1990-ben 1990 1990 M M SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=2|Form=d|NumP=none|PerP=none|NumPd=none 1 1
OBL OBL13 már már már R R SubPOS=x|Deg=none|Num=none|Per=none
SubPOS=x|Deg=none|Num=none|Per=none 15 15 MODE MODE14 2,6 2,6 2,6 M M SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|
PerP=none|NumPd=none SubPOS=f|Num=s|Cas=n|Form=d|NumP=none|PerP=none|NumPd=none 15 15NUM NUM
15 milliót millió millió M M SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none SubPOS=c|Num=s|Cas=a|Form=l|NumP=none|PerP=none|NumPd=none 1 1
OBJ OBJ16 . . . . . _ _ 0 0
PUNCT PUNCT
![Page 11: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/11.jpg)
![Page 12: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/12.jpg)
Shadow_Riders.txt
The Shadow Riders, known as the in the original Japanese language version, are a fictional group of villains in the Yu-Gi-Oh! GX anime series, appearing between episodes 29-49.
Composed of seven duelists and their leader of varying origins and backgrounds who each have their own agendas, the Shadow Riders serve as the main antagonists of the series' first season, intent on resurrecting the Sacred Beasts.
However, one of them returns in the fourth and final season as the true mastermind behind the mysterious attacks that take place in Duel Academy and Domino City.
Shadow_Riders.txt.annotation
NE_ORG 4 17NE_MISC 48 56NE_MISC 116 128MWE_COMPOUND_NOUN 129 141SENT_BOUND 170 175NE_ORG 294 307NE_MISC 394 407NE_MISC_SB 401 407MWE_LVC 527 537MWE_LVC_VERB 527 531MWE_LVC_NOUN 532 537NE_LOC 541 553NE_LOC 558 569NE_LOC_SB 565 569NE_ORG 576 589NE_PER 626 638NE_PER_SB 634 638NE_PER 691 702SENT_BOUND 794 803MWE_COMPOUND_NOUN 814 825MWE_COMPOUND_NOUN 855 872NE_MISC 873 897SENT_BOUND 994 1002
![Page 13: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/13.jpg)
Annotációs eszköz előnyei
• Grafikus kezelői felület
• Ember számára értelmezhetőbb
• Átláthatóbb
• Kisebb a hibázási arány
![Page 14: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/14.jpg)
A korpuszépítés folyamata
1. Szövegek gyűjtése, gépi előkészítése
2. Kézi annotálás– kettős jelölés – egyetértés aránya– egyszeres jelölés
3. Az eltérések feloldása, ellenőrzés– a kétféle annotáció közti eltérések
egyértelműsítése
4. Záró munkálatok– a korpusz végső formába hozása, formai hibák
javítása, a korpusz publikálása
![Page 15: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/15.jpg)
A korpuszok felhasználhatósága
• Referencia
• Viszonyítási pont
• (Gépi tanuló) algoritmusok tanítása
• Algoritmusok tesztelése
• Nyelvészeti adatok gyűjtése
![Page 16: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/16.jpg)
Angol nyelvű korpuszok• British National Corpus (BNC)• Wall Street Journal (WSJ)• Reuters
– ~100 millió szövegszó– dokumentumok, bekezdések határai
• Gigaword korpusz– 2 milliárd szó
• Penn TreeBank– 5 millió szövegszó– szófaji kód– szintaktikai elemzés (konstituensfa)
• Feladatspecifikus korpuszok: CoNLL-2003 (tulajdonnevek), SemEval (szemantika)…– néhány százezer szövegszó
![Page 17: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/17.jpg)
Magyar Nemzeti Szövegtár (MNSZ)
• 187,6 millió szövegszó• Sajtó, szépirodalom, tudományos,
hivatalos, személyes szövegek• Határon túli nyelvváltozatok is• Automatikus szótövezés és szófaji
elemzés• Gigaword verzió (1 milliárd
szövegszó) hamarosan elérhető…• http:/corpus.nytud.hu/mnsz
![Page 18: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/18.jpg)
Szeged (Dependencia) Treebank• 82 000 mondat• 1,5 millió szövegszó• 230 000 írásjel• 6 domén
– iskolai fogalmazások– számítógépes szövegek– irodalom– jogi szövegek– újságcikkek– üzleti rövidhírek
• Kézzel ellenőrzött morfológiai és szintaktikai (konstituens és függőségi) elemzés, névelemek, félig kompozicionális szerkezetek
• http://www.inf.u-szeged.hu/rgai/SzegedTreebank
![Page 19: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/19.jpg)
Webkorpusz• több mint 1,48 milliárd szó
(szűretlenül, illetve 589 millió megszűrt szó)
• jelenleg a legnagyobb magyar nyelvű korpusz
• 18 millió weboldal (.hu)
• http://mokk.bme.hu/resources/webcorpus
![Page 20: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/20.jpg)
Párhuzamos korpuszok• olyan két- vagy többnyelvű
korpuszok, amelyben egy mű és annak egy vagy több nyelvre lefordított változatai szerepelnek
• Bekezdés-, mondat- vagy szószinten párhuzamosított szövegek
• Alkalmazási lehetőségek: fordítástudomány, kontrasztív nyelvészet, gépi fordítás…
![Page 21: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/21.jpg)
Néhány párhuzamos korpusz
• Hansard: angol-francia
• 1984: közép- és kelet-európai nyelvek
• Hunglish: magyar-angol
• SzegedParalell: magyar-angol
• HunOr: magyar-orosz
![Page 22: Korpuszok és adatbázisok](https://reader035.fdocuments.net/reader035/viewer/2022062314/568146b9550346895db3e471/html5/thumbnails/22.jpg)
Szegedi korpuszok• Szeged Treebank• Szeged Dependencia Treebank• Magyar WordNet• Bizonytalanságra annotált korpuszok• Tulajdonnévkorpuszok• Lemmatizált tulajdonnevek• Többszavas kifejezések korpuszai• Jelentés-egyértelműsített korpusz• Kutatói adatok HTML korpusza• SzegedParalell• HunOr• Véleménydetekciós korpusz• Kulcsszókinyerési korpuszok• HunLearner
http://www.inf.u-szeged.hu/rgai/nlp_download