Prezentacja programu PowerPoint - portal.uw.edu.pl · twarz, co wkrótce zniknie i pozostawi po...
-
Upload
trinhxuyen -
Category
Documents
-
view
216 -
download
0
Transcript of Prezentacja programu PowerPoint - portal.uw.edu.pl · twarz, co wkrótce zniknie i pozostawi po...
Elżbieta Kaczmarska
Institute of Western and Southern
Slavic Studies
University of Warsaw
Corpus-based Analysis of Czech Units Expressing Mental States and
Their Polish Equivalents
Motivation
Czech – Polish language contact –difficulties with understanding some type of words especially psych verbs and nouns denominating emotions and feeling, e.g.
být líto
mít rád
mrzet
postrádat
toužit
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 3
být líto, mít rád, mrzet, postrádat, toužit What makes their translation into
Polish (so) difficult?
- their polysemy, the absence of such a concept in Polish (Kaczmarska & Rosen: in print)
Do they really represent polysemous verbs?
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 4
A Czech-Polish dictionary – Siatkowski & Basaj 2002 - mít rád – lubić, kochać
- mrzet – gniewać, złościć, mierzić, martwić, żałować, być przykro, nie mieć ochoty
- toužit – tęsknić, pragnąć, marzyć.
Consequently we are not able to translate them into Polish properly.
Context (for an avowal)
– Mám Tě rád... (???)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 5
mít rád For Polish-speaking person – at least
two quite different meanings
kochać (to love) lubić (to like)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 6
The goal
attempt to find a suitable equivalent for a given unit (psych verbs)
consequently → attempt to build an algorithm for selecting equivalents for verbs
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 7
What we will do… a few steps At each stage, we find the best equivalent – depending on the verb
Czech – Polish pairs of equivalents extracted from the parallel corpus InterCorp
Valency analysis
- how many arguments the given verb bounds
- how the arguments are bound (grammatical case, prepositions, infinitive, relative clause)
- what they are (if it is e.g. a noun – what it is like – a real one or an abstract one, naming a human being)
Case Grammar
- if the candidates for equivalents (in the aligned segments) represent the same categories of semantic roles (Experiencer and what else?)
Pattern Grammar
- ”If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example.”(Hunston & Francis 2000: 20)
Cognitive Grammar – view meaning in terms of conceptualization
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 8
VERB Valence analysis
Case Grammar
Pattern Grammar
Cognitive Grammar
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 9
equivalent equivalent equivalent equivalent
Step one – Valence analysis
Assumption - in cases concerning some
meanings the equivalent could be
established on the basis of the
convergence of the valence requirements
(Levin 1993)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 10
toužit – study case (a pilot survey – Kaczmarska & Rosen 2013)
Automatic extraction of pairs of
equivalents from the parallel corpus
InterCorp – “dictionary”
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 11
toužit 673 toužit equivalent
304 toužit pragnąć
107 toužit chcieć
82 toužit tęsknić
70 toužit marzyć
40 toužit pożądać
24 toužit ochota
9 toužit zapragnąć
8 toužit pragnienie
8 toužit tęsknota
8 toužit zależeć
7 toužit spragniony
6 toužit życzyć
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 12
valence analysis – toužit
Number of arguments
The way how the arguments are bound (grammatical case, prepositions, infinitive, relative clause)
Type of arguments (if it is e.g. a noun – what it is like – a real one or an abstract one, naming a human being, a sentence, infinitive…)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 13
toužit
toužit po Oabstr
toužit po Ohum
toužit po / do OR
toužit + inf → pragnąć + inf
toužit + S (aby… / po tom, aby…)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 14
toužit + inf → pragnąć + inf
toužit inf equivalent
być pragnieniem inf 1
chcieć inf 20
chętnie + S 1
marzyć o Oabstr 4
mieć marzenie inf 1
mieć ochotę inf 1
pragnąć inf 44
pragnąć + S 1
pragnąć Oabstr 3
tęsknić za (+S) 1
zachciewać się Oabstr 1
other 2
80
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 15
toužit po + Object
toužit po Oabstr equivalent
chcieć inf 1
dążyć do Oabstr 2
marzyć o Oabstr 20
marzyć o Ohum 1
myśleć o Oabstr 1
pożądać Oabstr 5
pragnąć + S 1
pragnąć inf 4
pragnąć Oabstr 29
pragnienie Oabstr 1
tęsknić do Oabstr 11
tęsknić za Oabstr 7
tęskno za Oabstr 1
upragniony Oabstr 1
zapragnąć inf 1
żądni Oabstr 1
other 7
94
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 16
toužit po Ohum equivalent
marzyć o Ohum 2
mieć ochotę + inf 1
pożądać Ohum 5
pożądany Ohum 1
pragnąć X 1
pragnąć + inf 1
pragnąć Oabstr 1
pragnąć Ohum 12
tęsknić X 1
tęsknić do + S 1
tęsknić do Oabstr 1
tęsknić do Ohum 5
tęsknić za Ohum 2
zapragnąć Oabstr 1
zatęsknić za Ohum 1
other 1
37
toužit po OR equivalent
chcieć + inf 1
marzyć + S 1
marzyć o OR 5
obiekt pożądania 1
pragnąć + inf 1
pragnąć OR 3
tęsknić za OR 2
14
toužit do OR tęsknić do OR 1
Necessity for a deeper analysis of objects
toužit po velké lásce / exotické cestě
Śnić o wielkiej miłości / egzotycznej podróży
Marzyć o wielkiej miłości / egzotycznej podróży
Tęsknić za wielką miłością / egzotyczną podróżą (???)
Pragnąć wielkiej miłości / egzotycznej podróży (?)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 17
Step two – Case Grammar
toužit
Subject of toužit is always Experiencer
Object of toužit is a kind of Source / Stimulus
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 18
Stál jsem i nyní stále kus od ní, kdežto ona naopak toužila po rychlém příchodu teplých doteků, které by přikryly tělo vystavené chladnosti pohledu.
I teraz stałem nieco z dala od niej, podczas gdy ona, przeciwnie niż ja, tęskniła za szybkim dotknięciem ciepłych ramion, które osłoniły by jej ciało wystawione na chłód spojrzeń.
Toužil po polibku, závěrečném, posledním polibku, do kterého by zachytil jako do čeřenu její tvář, která brzy zmizí a z níž mu zůstane jen vzpomínka.
Pragnął pocałunku, ostatniego pocałunku, kończącego pocałunku, który pozwolił by mu pochwycić niczym w sieć tę twarz, co wkrótce zniknie i pozostawi po sobie jedynie wspomnienie.
Mladý muž touží po vlastním divadle.
Młody mężczyzna marzył o własnym teatrze.
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 19
In case of other verbs we can identify
roles as: Agent, Beneficiary, Location,
Time, Instrument, Substance, Object
(itself)…
The analysis of the surface realization
of the cases should be conducted.
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 20
Step three – Patterns Grammar
If a word has several senses, and is used in several patterns, each pattern will occur more frequently with one of the senses than the others, such that the patterning of an individual example will indicate the most likely sense of the word in that example. (Hunston & Francis 2000: 20)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 21
A pattern can be identified if a combination of words occurs relatively frequently, if it is dependent on a particular word choice, and if there is a clear meaning associated with it. (Hunston & Francis 2000: 37)
We will check if there is a repeatability of a given object in the corpus occurrences.
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 22
být líto
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 23
Jak mi ho bylo líto! Pak mi je líto.
Jakże mi go było żal! Wobec tego, przykro mi!
Je mi ho samozřejmě líto. Potom nám to bylo oběma líto.
Jest mi go oczywiście żal… Potem nam obu było przykro.
Přišlo mi jí prostě líto. …nabídne mi sisinku a já si vezmu, protože by mu bylo líto, kdybych si nevzala…
Po prostu zrobiło mi się jej żal. ...zaprasza mnie na cuksa i ja biorę, bo było by mu przykro, gdybym nie wzięła…
být líto + NP DAT + NPGEN = żal být líto + NP DAT + to / Ø = (być) przykro
The possibility of using a universal tool
Word Skeches
We will check if there is a repeatability of a given object in the corpus occurrences.
A universal tool (in a way) for pattern grammar, case grammar, valency
Word Sketches – an automatic method
InterCorp – Czech-Polish part
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 24
INFINITIV
toužit inf-X pragnąć inf * marzyć inf * tęsknić inf
post_inf 17 405 post_inf 6 800
mít 926 podziękować 805
stát 864 podkreślić 598
poznat 382 pogratulować 379
vidět 346 wyrazić 391
vrátit 333 zwrócić 319
hrát 333 przypomnieć 165
získat 332 powiedzieć 386
dostat 311 zauważyć 97
vyhrát 285 rozpocząć 73
žít 177 poruszyć 58
jít 176 powtórzyć 51
najít 152 skorzystać 70
udělat 143 powitać 43
spatřit 132 dodać 70
uspět 124 zaznaczyć 40
dělat 105 przyłączyć 33
napravit 101 wezwać 39
zůstat 99 zapytać 43
pracovat 96 poinformować 46
podívat 92 pochwalić 26 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 25
toužit po pragnąć marzyć o tęsknić za tęsknić do
post_po 23 752 has_gen_obj 809 verb_o_noun 296 verb_za_noun 94 verb_do_noun 59
dítě 697 co 76 to 70 dom 6 spokój 3
láska 599 to 52 Europa 14 to 5 dom 3
návrat 555 Europa 34 powrót 10 junior 2 świat 3
úspěch 493 zachęcić 26 demokracja 5 mąż 2 słońce 2
vítězství 457 strona 16 wolność 4 żona 2 ciało 2
změna 455 coś 15 utopia 3 powrót 2 rzecz 2
život 361 powód 14 zemsta 3 ojciec 2
medaile 316 region 14 domek 3 coś 2
pomsta 287 śmierć 13 kariera 3 człowiek 2
klid 282 demokracja 12 miłość 3 czas 2
vztah 271 debata 12 nic 3 praca 2
moc 267 grupa 12 śmierć 3
postup 266 zmiana 12 rozmowa 3
kariéra 263 parlament 11 coś 3
titul 263 pokój 10 majestat 2
rodina 246 rozwój 10 posada 2
svoboda 218 okazja 9 teatr 2
výhra 189 wolność 8 ucieczka 2
bod 174 rezolucja 7 niepodległość 2
dobrodružství 171 prezydencja 6 hotel 2
odveta 156 współpraca 6 rewolucja 2
domov 155 kontynuacja 5 członkostwo 2
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 26
Kolokator – NKJP (PELCRA) experimental research
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 27
Word Sketches
(InterCorp)
pragnąć
has_gen_obj 809
co 76
to 52
Europa 34
zachęcić 26
strona 16
coś 15
powód 14
region 14
śmierć 13
demokracja 12
debata 12
grupa 12
zmiana 12
parlament 11
pokój 10
rozwój 10
okazja 9
wolność 8
PELCRA (NKJP)
pragnąć + Gen
on 1460
człowiek 163
ty 143
życie 110
coś 107
bóg 63
kobieta 60
dziecko 57
świat 50
nic 47
miłość 43
śmierć 42
zmiana 42
dobro 37
mężczyzna 35
ojciec 34
pokój 31
kontakt 30
powrót 29
Word
Sketches
(CNK)
toužit po
post_po 23 752
dítě 697
láska 599
návrat 555
úspěch 493
vítězství 457
změna 455
život 361
medaile 316
pomsta 287
klid 282
vztah 271
moc 267
postup 266
kariéra 263
titul 263
rodina 246
svoboda 218
výhra 189
bod 174
toužit pragnąć tęsknić marzyć
hodně 1099 bardzo 136 bardzo 34 jedynie 6
moc 1085 gorąco 40 ogromnie 3 często 5
tak 783 jedynie 19 niesamowicie 2 bardzo 5
už 778 jednocześnie 16 okropnie 2 próżno 4
tolik 773 rozpaczliwie 15 straszliwie 2 długo 4
vždycky 751 rzeczywiście 13 strasznie 2 dobrze 3
stále 543 szczerze 12 szczególnie 2 niejasno 2
dlouho 501 mocno 8 naturalnie 2
vždy 479 wyraźnie 8 nieustannie 2
také 468 dużo 7 stale 2
ani 444 obecnie 6 trudno 2
nikdy 433 ponownie 5 głośno 2
zoufale 401 oczywiście 5 pewno 2
velmi 399 wyłącznie 5 dużo 2
teď 394 dobrze 5 późno 2
marně 374 daleko 2
strašně 335
nijak 318
jen 301
opravdu 298
přesto 267
zase 252
prý 245
vůbec 235 2014-11-21 PALC 2014 - Elżbieta Kaczmarska 28
Step four – Cognitive grammar
the meaning in terms of
conceptualization
→ mít rád
kochać, lubić, przepadać (to love, to like, to be
found) – (Siatkowski and Basaj 2002)
lubić, kochać, podobać się, uwielbiać, polubić,
pokochać, w naszym guście – InterCorp
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 29
(cs) Mám tě strašně rád, řekl. (Kundera-Valcik_na_rozl)
(pl) Strasznie cię kocham – rzekł. (Kundera-Valcik_na_rozl)
(cs) Kdybys mě měla ráda, nemohla by ses opičit s tím pitomým
jménem. (Grusa-Dotaznik)
(pl) Gdybyś mnie naprawdę lubiła, nie wygłupiała byś się z tym
kretyńskim imieniem. (Grusa-Dotaznik)
(cs) Máš-li mne jen trošku rád, shoď mne z třetího patra, dej mně tu
poslední outěchu. (Hasek-OsudyDobrehoVvSV)
(pl) Jeśli masz dla mnie choć troszkę przyjaźni, zrzuć mnie z trzeciego
piętra, udziel mi tej ostatniej pociechy. (Hasek-OsudyDobrehoVvSV)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 30
mít rád
mít rád
milovat
kochać (to love) lubić (to like)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 31
mít rád in InterCorp (2799)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 32
lubić (przyjaźń,sympatia, polubić) TOLIKE (66%)
kochać (miłość,zakochać się) TO LOVE(18%)
inne (cieszyć się, woleć)OTHER (16%)
Cognitive methods – survey in Liberec
mít rád / milovat
Attemps to discover the meaning of mít rád on the basis of the opposition with milovat.
What are the objects we combine with the verbs?
If there are any differences between the two verbs?
30 respondents (19 – 57 year old)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 33
milovat mít rád
arguments
person, activity,
food, pets…
person, food,
drinks, music,
activity, beer,
nature, parents,
girl friend, life, pets
definition
the highest level of love, "mít rád" but intensely,
to be in a deep relationship, to feel 'love’,
something more than "mít rád",
strong positive emotions
to like someone or something,
positive emotions
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 34
but also the Czechs are not quite sure Ovšem mít rád – to člověk může mít knihu, kamaráda, psa... v tom není nic erotického.
http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/archiv/0/
Vidím to přesně jako Arnika. Pro mě byly hranice teda vždy jasný. Zamilovaná jsem byla ze začátku do současného přítele. Už jsme spolu několik let, ale pořád ho miluju. Ráda mám třeba ex, se kterým jsme se rozešli už před 5 lety, ale v dobrém. Takže asi takhle – zamilovanost zezačátku, miluju někoho potom, co prvotní zamilovanost přešla. A ráda mám kamarády, blízké atd
http://diskuse.doktorka.cz/mit-rad-zamilovat-se-milovat/
Ono mít ráda můžu i rajskou nebo svoje hady, ale milovat... je prostě něco jiného
http://www.poradte.cz/spolecnost/21684-milovat-nebo-mit-rad.html
Miluji tě – má jistý sexuální náboj. Milenci po setkání odhazují oblečení, cesta vede směrem k ložnici. Je v tom touha, láska, zamilovanost a chtíč. Pro dnešek, zítřek, rok, snad dva. Méně citu a porozumění. Mám tě rád – je v tom všechno: cit, porozumění, láska, podpora. Že se jeden na druhého může spolehnout, budou spolu, až jim bude ouvej. Nebudou nikdy sami. Je to jako v němém filmu, kdy není třeba slov, protože hovoří oči, činy. V nich se zobrazuje láska, něha, starost. Mám tě rád už není jen o slovech. Je to o životě
http://janajerabkova.blog.idnes.cz/c/194377/Milovat-nebo-mit-rad.html
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 35
“Is it really possible to tell someone else
what one feels?”
Leo Tolstoy, Anna Karenina
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 36
Conclusions and perspectives
Corpora make possible the definition of the clusters of equivalents (parallel corpus)
Confrontative research – difficulties with often incompatible tools
Word Sketches – promising tool – prepared for the Polish part of InterCorp (not for Czech part); not available for external users
Word Sketches available for SYN (Czech National Corpus). For the Polish language, a comparable corpus is NKJP (National Corpus of Polish), but we cannot use Word Sketches for NKJP.
Czech and Polish corpora have different statistical functions.
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 37
Other methods:
Disappointing results of the research based on Case Grammar
A deeper cognitive analysis needed
Problem of ”nonexistence” of a concept in the other language – an arbitrary decision of translator
Experimental trials of stochastic modeling of the choice of an equivalent on the basis of the context (Kaczmarska, Rosen, Hana 2014)
WSD – Word Sense Disambiguation – Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014).
Algorithms using different linguistic ideas (Han et al. 2013)
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 38
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 39
WSD – Word Sense Disambiguation – Tian et al. 2014; Młodzki at al. 2012; Tian et al. 2010; Han et al. 2013; Kędzia et al. 2014).
Algorithms using different linguistic ideas (Han et al. 2013
o Han, A. L., Lu, Y., Wong, D.F., Chao, L.S., He, L., Junwen, X. (2013). Quality Estimation for
Machine Translation Using the Joint Method of Evaluation Criteria and Statistical Modeling. W:
Proceedings of the Eighth Workshop on Statistical Machine Translation, 365-372. Association for
Computational Linguistics.
o Kędzia, P., Piasecki, M., Kocoń, J., Indyka-Piasecka, A. (2014). Distributionally Extended Network-
Based Word Sense Disambiguation in Semantic Clustering of Polish Texts. W: IERI Procedia
(International Conference on Future Information Engineering) 10, 38-44. DOI: 10.1016/j.jeri.2014.09.073
o Młodzki, R., Kopeć, M. Przepiórkowski, A. (2012). Word Sense Disambiguation in the National
Corpus Of Polish. Philological Studies (Prace Filologiczne) LXIII: 155-166.
o Tian, L., Wong, D. F., Chao, L. S., Oliveira, F. (2014). A Relationship: Word Alignment, Phrase Table,
and Translation Quality. The Scientific World Journal. Hindawi Publishing Corporation. Dostęp z:
http://dx.doi.org/10.1155/2014/438106
o Tian, L., Wong, F., Chao, S. (2010). An Improvement of Translation Quality with Adding Key-
Words in Parallel Corpus. W: Machine Learning and Cybernetics (ICMLC) Vol. 3, 1273 – 1278. DOI:
10.1109/ICMLC.2010.5580888
2014-11-21 PALC 2014 - Elżbieta Kaczmarska 40