Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja
description
Transcript of Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja
![Page 1: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/1.jpg)
Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus
ja võimalusi automaatseks märgendamiseks
Evely Vutt
![Page 2: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/2.jpg)
Märgendamisjuhend
kirjeldab süsteemi eesmärki
kirjeldab valdkonda, milles seda süsteemi kasutatakse
annab juhtnöörid ning näited dialoogiaktide märgendamiseks
![Page 3: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/3.jpg)
Märgendamisjuhendi usaldusväärsust mõõdetakse κ – väärtusega, mille arvutamiseks kasutatakse järgnevat valemit:
)(1
)()(
EP
EPAP
P(A) - tõenäosus kordadest, kui märgendajad määravad akti ühtemoodi
P(E) - tõenäosus kordadest, kui märgendajad määravad juhuslikult akti ühtemoodi
![Page 4: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/4.jpg)
P(E) arvutamiseks kasutatakse järgnevat valemit:
n
iipEP
1
2)(
pi on märgendite esinemise tõenäosus andmetes (arvutatakse iga dialoogiakti jaoks eraldi välja)
![Page 5: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/5.jpg)
pi arvutamiseks kasutatakse järgnevat valemit:
cnN
np i
i
ni on ühtemoodi märgendatud aktide arvN on ühikute arv korpusescn on märgendajate arv
![Page 6: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/6.jpg)
Märgendamisjuhendi κ – väärtuse muutumine:november 2001 0,4600831
detsember 2001 0,5348573
veebruar 2002 0,5778555
MAPTASK (inglise) = 0,83
VERBMOBIL (saksa) = 0,84
SWBD-DAMSL (USA) 0,8<<0,84
![Page 7: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/7.jpg)
Projekti eesmärk - rajada dialoogsüsteem, mis annaks infot kohaliku transpordi sõiduplaanide kohta.
Korpus, koosnes 53 dokumenteeritud suulise kõne dialoogist kliendi ja firma agendi vahel.
Korpus oli transkribeeritud ja käsitsi segmentideks jaotatud ja varustatud dialoogiaktidega.
Kokku oli 2241 eraldi lausungit ja 16 dialoogiakti nimetust.
![Page 8: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/8.jpg)
Dialoogiakt Sagedus %
statement (avaldus) 527 23,5
acknowledgement (kättesaamisteade) 389 17,4
question (küsimus) 237 10,6
answer (vastus) 213 9,5
confirmation (kinnitus) 162 7,2
opening (avamine) 158 7,0
check (kontroll) 123 5,5
thanking (tänamine) 112 5,0
![Page 9: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/9.jpg)
Dialoogiakt Sagedus %
repetition (kordamine) 107 4,8
ending (lõpetamine) 100 4,5
call_to_continue (jätkaja) 45 2,0
wait (oota) 23 1,0
correction (parandus) 19 0,8
completion (täitmine) 10 0,4
request_to_repeat (palve korrata) 10 0,4
sign (nt. oh dear.) 6 0,2
![Page 10: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/10.jpg)
Kõne osade kategooriate võrdlemisel kasutatakse 5 tunnusjoont:
küsisõna olemasolu lausesküsimuse morfeem –kotinglikud vormideitavad vormidpööratud verbide vormid
![Page 11: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/11.jpg)
Dialoogiaktide äratundmiseks lausungis leiduvate sõnade abil kasutati
•LVQ-klassifikatsiooni
•Ise-korraldavaid (organiseeruvaid) kaarte (SOM - self-organizing maps)
![Page 12: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/12.jpg)
Ise-korraldavad kaardid (self-organizing maps SOM)
• mittejuhitava tehis-närvivõrgu mudel
•mudeli sisendandmed kirjeldatakse vektori kujul
•erinevus juhitavatest õppimismeetoditest ei vaja välist õpetajat õppimisfaasis
![Page 13: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/13.jpg)
Sõna kaal w arvutatakse järgneva valemiga:
)/log( nNsagedusw
sagedus on sõna sagedus eraldiseisvas klassis
N on klasside arv
n klasside arv, milles sõna esineb
![Page 14: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/14.jpg)
Sõnade tasku
•meetod kaalub lausungis esinevaid sõnu vastavalt nende tähtsusele iga dialoogiakti tüübi jaoks
• iga sõna on seotud vektoriga, mille pikkus on 16, omades väärtusena kaalumisi iga dialoogiakti klassiga
• lausungi vektor (pikkusega 16) saadakse korrutades sõnade vektoreid; dialoogiaktiks valitakse suurim väärtus lausungi vektorist
![Page 15: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/15.jpg)
LVQ
•iga sõna leksikonist seotakse juhusliku vektoriga pikkusega 90
•iga lausungit vaadeldakse kui ühte dokumenti
•lausungi vektorid moodustatakse liites kõik juhuslikud sõnade vektorid, mis esinevad lausung
•loodi kaks lausungi vektorite hulka: hulk 1 sisaldas sisu omavaid sõnu, hulk 2 kõiki sõnu
![Page 16: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/16.jpg)
Tulemused
sõnade tasku
Dialoogiakt Täpsus%
statement (avaldus) 95,25
acknowledgement (kättesaamisteade) 83,24
question (küsimus) 24,61
answer (vastus) 2,52
confirmation (kinnitus) 0,00
opening (avamine) 76,97
![Page 17: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/17.jpg)
check (kontroll) 0,77
thanking (tänamine) 97,60
repetition (kordamine) 2,00
ending (lõpetamine) 94,86
call_to_continue (jätkaja) 0,00
wait (oota) 25,00
correction (parandus) 0,00
completion (?täitmine) 0,00
request_to_repeat (palve korrata) 50,00
sign (nt. oh dear.) 0,00
Keskmine 62,00
![Page 18: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/18.jpg)
Märgendatud Määratud Arv
opening ending 27
call_to_continue acknowledgement 35
correction statement 17
question statement 125
wait statement 16
repetition answer 15
repetition statement 55
confirmation statement 91
confirmation acknowledgement 68
check statement 104
![Page 19: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/19.jpg)
LVQ
Hulk 1 Hulk 2Dialoogiakt Täpsus % Täpsus %
statement (avaldus) 95,03 96,02
acknowledgement 91,89 94,62
(kättesaamisteade)
question (küsimus) 83,81 95,73
answer (vastus) 73,48 92,04
confirmation (kinnitus) 66,67 98,76
opening (avamine) 94,44 98,09
check (kontroll) 73,91 89,28
![Page 20: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/20.jpg)
thanking (tänamine) 95,58 94,55
repetition (kordamine) 67,65 76,71
ending (lõpetamine) 100
call_to_continue (jätkaja) 33,33 93,75
wait (oota) 91,3 95,45
correction (parandus) 78,57 100
completion (täitmine) 0 16,67
request_to_repeat
(täitmine) 70 72,73
sign (nt. oh dear.) 0 0
Keskmine 86,55 94,23
![Page 21: Eestikeelsete dialoogide märgendamisjuhendi usaldusväärsus ja](https://reader036.fdocuments.net/reader036/viewer/2022081420/568146ce550346895db406a9/html5/thumbnails/21.jpg)