Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3....
Transcript of Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3....
![Page 1: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/1.jpg)
Govor
in spletna slovenščina
Ana Zwitter VitezFHŠ Univerza na Primorskem FF Univerza v Ljubljani
Špela Arhar HoldtFF Univerza v Ljubljani ZUS Trojina
Ljubljana 27 8 2015
O čem bomo govorili
bull specifike govorjenega jezika
bull odnos med govorom pisno in spletno slovenščino
bull kaj lahko besedilo pove o značilnostih avtorja
Od jutra do večera hellip
1 stereotip pišemo standardno govorimo nestandardno
-obsegmilijon besed (112 ur posnetkov)
-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah
-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 2: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/2.jpg)
O čem bomo govorili
bull specifike govorjenega jezika
bull odnos med govorom pisno in spletno slovenščino
bull kaj lahko besedilo pove o značilnostih avtorja
Od jutra do večera hellip
1 stereotip pišemo standardno govorimo nestandardno
-obsegmilijon besed (112 ur posnetkov)
-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah
-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 3: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/3.jpg)
Od jutra do večera hellip
1 stereotip pišemo standardno govorimo nestandardno
-obsegmilijon besed (112 ur posnetkov)
-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah
-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 4: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/4.jpg)
1 stereotip pišemo standardno govorimo nestandardno
-obsegmilijon besed (112 ur posnetkov)
-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah
-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 5: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/5.jpg)
-obsegmilijon besed (112 ur posnetkov)
-vzorecdemografsko reprezentativen vzorec govorcev v najpogostejših govornih situacijah
-sestava60 javni diskurz mediji predavanja šolski pouk40 nejavni diskurz zasebni pogovori delovni sestanki
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 6: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/6.jpg)
ma tu si lohko duol čez rit
potjegneš
a velikokrat ne ostane le pri tem
kar smo se lahko prepričali tudi
med našim snemanjem
Antigona se je kljub temu odločila da
Polinejka pokoplje
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 7: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/7.jpg)
Pišemo standardno govorimo pa nestandardno
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 8: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/8.jpg)
Pa vendar specifike govora
Sprotno tvorjenje besedil
eem eem eee bom eee hitro povedal eee jz eee znam nardit a masažu
Izgovorjava
tu je blo ko truebla brez konca
Interakcija s sogovorcem
ja hvala lepa jst eee eee [1 delno] se seveda strinjam eee v veliki meri
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 9: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/9.jpg)
2 stereotip na spletu pišemo kot govorimo
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 10: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/10.jpg)
Preseganje stereotipov empirične raziskave
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 11: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/11.jpg)
Preseganje stereotipov empirične raziskave
Korpus Gos
Korpus Kres
Korpus Janes
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 12: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/12.jpg)
Kako primerjamo korpuse med seboj
gtgt najbolj tipične
besede enega
korpusa
Ključne besede
- v opazovanem
korpusu so pogoste
- v primerjanem
korpusu ni veliko
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 13: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/13.jpg)
Metapodatki v korpusu Gos
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 14: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/14.jpg)
3 stereotip uporabnost jezikoslovnih raziskav
plagiatorstvo
K T Guttenberg K Markež
anonimne grožnje
G Bush K Kresal Z Jelinčič J in U Janša
literarne vede
Eva Pacher (Čudoviti Klon) David Benjamin (Sedem)
kadrovanje
ldquoljudje kot kapital in potencial podjetijrdquo (Jackson 1999)
profiliranje strank in njihovih kupnih navad
strategije ponudbe in oglaševanja (Shaw idr 2001)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 15: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/15.jpg)
Ugotavljanje avtorstva besedil ldquoVolivci v trenirkahrdquo
uradna spletna stran parlamentarne stranke
psevdonim
vznemirjena javnost
1 ldquovolivci s tujim naglasomrdquo
2 ldquovolivci v športnih oblačilih (trenirkah)
3 ldquos kemičnim svinčnikom napisana številka ki jo morajo obkrožiti na glasovnicirdquo
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 16: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/16.jpg)
Hipoteza in zajem besedil
Če je avtor besedilo anonimno objavil na uradni spletni strani stranke je verjetno na isti spletni strani objavil še kakšno besedilo pod drugimpravim imenom
Kriterij za zajem- tri mesece pred in tri mesece po objavi spornega besedila
Korpus- 75 besedil 21 avtorjev- 55000 pojavnic (650 do 9000 pojavnic na avtorja)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 17: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/17.jpg)
Priprava besedil
pretvorba v format txt
anonimizacija besedil in tvorjenje glav dokumentov
oblikoslovno označevanje (Grčar idr 2012)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 18: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/18.jpg)
Izračun značilk
Leksikalne značilke
- raznolikost besedišča (lexical density)
- Brunetova formula (Brunet 1988)
- hapax legomena (Holmes 1992)
- Honoreacutejeva statistika (Honoreacute 1979)
Berljivostne značilke
- Flesh-Kincaid
- Coleman-Liau
- Automated Readability Index
- Gunning Fog
httpwwwusingenglishcommemberstext-analysishelpreadabilityhtmlhttpnlijssiisjt14proceedingsisjt2014_23pdf
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 19: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/19.jpg)
Rezultati analize
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 20: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/20.jpg)
Razlikovalna moč značilk
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 21: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/21.jpg)
Podobnost avtorjev z anonimnim besedilom
0
5
10
15
20
25
30
G A H O D
Avtorji z najmanjšo povprečno absolutno razliko glede na anonimno besedilo
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 22: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/22.jpg)
Omejitve raziskave
križno preverjanjeprisotnost dejanskega avtorja besedila
Odprta vprašanja
dolžnosti raziskovalcadružbene posledice
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 23: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/23.jpg)
Prihodnost jezikovnih tehnologij
Povej mi s kom se družiš in povem ti kdo siPovej mi kaj bereš in povem ti kdo siPovej mi kaj voziš in povem ti kdo siPovej mi kaj ješ in povem ti kdo siPovej mi kako se znojiš in povem ti kdo si
Povej mi kar koli in povem ti kdo si
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila
![Page 24: Govor - IJSnl.ijs.si/janes/wp-content/uploads/2015/03/Janes-Govor... · 2020. 7. 17. · 3. stereotip: uporabnost jezikoslovnih raziskav plagiatorstvo K. T. Guttenberg, K. Markež](https://reader033.fdocuments.net/reader033/viewer/2022053117/609994953e870b245100d892/html5/thumbnails/24.jpg)
Kaj bomo delali
Kako govorimo
Ali na spletu pišemo kot govorimo
Kaj lahko na podlagi podatkov iz korpusov povemo o avtorju besedila