Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti
description
Transcript of Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti
Luščenje terminologije iz korpusov: od osnov do umazanih podrobnosti
Pregled predavanja Namen luščenja terminologije
Statistične metode
Metoda z vzorci
Dvojezično luščenje
Primeri
Razprava
Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)
Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.
Zunanji ponudnik storitev
Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.
Sistemi za zaščito, reševanje in pomoč (služba za nujno pomoč)
Ta terminator naj bi predstavljal sisteme, ki so zasnovani za nujne službe in jih le te tudi uporabljajo kot del svojih postopkov. V tem kontekstu izraz "nujne službe," vsebuje organizacije kot so gasilci, policija, reševalci ter pomoč na cesti. Sistem nujne pomoči naj bi bil sposoben koordinirati aktivnosti posameznih služb. Razporejal in nadzoroval naj bi aktivnosti in delovanje vozil ter osebja posameznih služb, kadar le te intervenirajo, to je nudijo pomoč v primeru nesreč. Sistem nujne pomoči naj bi prejemal informacije od sistema o nesrečah, ki jih je le ta zaznal. V zameno pa naj bi sistem nujne pomoči pošiljal poročila o napredku glede ukrepanja v primeru nesreč zaradi prilagajanja prometnih in potovalnih strategij. Sistem naj bi prav tako priskrbel podrobnosti o nujnih situacijah, ki so mu bile direktno sporočene in, ki vplivajo na cestni promet, kot na primer klic na pomoč preko naprave v vozilu.
Zunanji ponudnik storitev
Ta terminator naj bi predstavljal dva tipa aktivnih udeležencev, ki sodelujeta s sistemom. Odgovorna naj bi bila za zagotavljanje dveh različnih tipov informacij. Prvi tip aktivnega udeleženca naj bi obsegal oskrbovalce z informacijami ki jih uporablja sistem. Vseboval naj bi informacije pridobljene na zahtevo sistema.
Zakaj samodejno luščenje terminologije v svetu elektronskih besedil so termini “fižol v informacijskem pasulju” iskanje podatkov terminološke aplikacije v službi medjezikovnega posredovanja podpora slovarskemu delu osnova za semantično bogate aplikacije
odgovarjanje na vprašanja (QA) strojno prevajanje in tolmačenje (MT) rudarjenje znanja (DM, KE) semantični splet (SW)
“Nepravo” luščenje terminov iskanje podatkov (IR) – indeksiranje dokumentov
namen: poiskati besede, ki naredijo dokument najbolj prepoznaven v
množici in po katerih se najbolj razlikuje od vseh dokumentov v
množici
tf-idf (Term Frequency – Inverse Document Frequncy, Salton & Yang 1973)
w i , j tf i , j log Nn i
“Pravo” luščenje terminov iskanje vseh enot, ki se v specializiranem besedilu nanašajo na točno določeni
pojem, oziroma se njihova raba razlikuje od rabe v nespecializiranih besedilih
obravnava eno- in večbesednih enot
samodejnost (sistem poišče terminološke kandidate brez vnaprej podanih terminoloških slovarjev)
Statistične metode “ključnost” (keyness)(Ahmad 1992, Scott 1998) – primerjava relativne pogostosti med specialnim in
referenčnim korpusom
Primer: SK RK f(gnojenje) 11 27
N 10.000 100.000 rf = 4,07
“terminološkost” (termhood)(Ananiadou 1994, Heid 1999) – termini vsebujejo material, ki ga splošne besede ne (prevzeti termini iz klasičnih jezikov, izlastnoimenski termini, akronimi, izbrana ločila)Primer: ab-, auf-, ent-, anti-, bi-, mega-, mikro-, multi-, radial-, semi-, ad-, ex-, in-, ko-, pro-; -grad, -heit, -nis, -schaft, -tum, -ial, -gramm, -graph, -id, -ik, -tion, -taet, -um, -ator,...
Večbesedni termini: statistika asociacij
2 (Manning & Schütze 1999)
Statistika asociacij II medsebojna informacija (MI) (Church & Hanks 1990)
logaritem razmerij verjetja (LLR) (Dunning 1993)
Luščenje na podlagi oblikoskladenjskih vzorcev večbesedni termini sledijo ustaljenim oblikoskladenjskim vzorcem (P+S, S+Sg,
P+P+S,...)
razvrščanje terminoloških kandidatov glede na ključnost (rf) njihovih sestavnih delov
Primer:
center za krizno upravljanje = (0.149 + 0.06 + 0.66 + 0.15) / 4
slabost: poudarek na samostalniških frazah Bourigault (1992), Justeson&Katz (1995), Daille, Gaussier & Lange (1994), ...
Luščenje dvojezičnega slovarja iz vzporednega korpusa fosilni program Twente (Hiemstra 1998)
temelji na algoritmu Iterative Proportional Fitting Procedure (IPFP),
prevodni model ena-na-ena
za vsako besedo predlaga eno ali več prevodnih ustreznic skupaj s
statistično verjetnostjo
izboljšave: lematizacija, odstranjevanje praznih besed
Primer izluščenega leksikona
sprejeti sprejetje sprememba spremeniti------------------ ------------------ ------------------ ------------------adopted 0.45 adoption 0.94 amendments 0.54 amended 0.38approved 0.33 responsibilit 0.06 changes 0.21 will 0.17adoption 0.11 amendment 0.14 Health 0.16approval 0.10 Act 0.03 amending 0.03 Harmonized 0.02 evidence 0.03 devices 0.02 supplementing 0.03 medical 0.02 short 0.03 responsibilit 0.01 awaiting 0.03
spremljajocx spremljanje spricxevalo sprostiti------------------ ------------------ ------------------ ------------------accompanying 0.47 monitoring 1.00 referral 0.16 adapted 0.27responsibilit 0.16 issue 0.11 equestrian 0.27Institutions 0.16 attached 0.11 events 0.27800 0.07 changed 0.11 there 0.18regulates 0.05 veterinarians 0.11 free 0.01cost 0.03 attestations 0.11work 0.03 appointed 0.11begin 0.02 emergency 0.08
Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz
leksikona
jedrska elektrarna Černobil
nuclear 1.00 power 0.50plant 0.50
Chernobyl 1.00
Iskanje prevoda – “ustreznice v žaklju” za vsako besedo v večbesednem terminu se poišče vse možne prevodne ustreznice iz
leksikona
jedrska elektrarna Černobil
nuclear 1.00 power 0.50plant 0.50
Chernobyl 1.00
Nuclear power plant 2.00Power plant 1.00Chernobyl nuclear power plant 3.00
Dvojezični kandidatiSlovensko Angleško Ustreznost
doznih mej dose limits 1.49
nadzorovane jedrske fuzije controlled nuclear fusion 1.89
varstvo pred sevanjem radiation protection 2.00
mednarodnega termonuklearnega poskusnega
International thermonuclear experimental
2.49
poskusnega reaktorja experimental reactor 1.49
študenti in pripravniki Students and apprentices 1.50
izpostavljenost ionizirajočemu sevanju
emitting ionizing radiation 1.99
zdravstvenimi službami approved medical practitioners
0.75
izpostavljenih delavcev exposed workers 1.78
države članice Member states require 1.49
Težave
v slovenščini isti termini večkrat izluščeni v različnih sklonih neuspešno razlikovanje med “splošnimi” in “specifičnimi” termini
(enaka oblika, enaka pogostost!) slabši priklic za slovenščino interdisciplinarnost besedil
Dvojezično luščenje pri projektu Voicetran namen:
izboljšava prevajalnika in razpoznavalnika govora podpora terminografskemu delu na FDV
korpusi: mali vzporedni vojaški korpus (ca. 120.000 besed) malo večji enojezični korpus (NO, SV, RZ; 5,5 M besed)
oblikoskladenjsko označevanje in lematizacija: Erjavec IJS luščenje z oblikoskladenjskimi vzorci:
A N 2N Ng 1...
terminološkost: rf (primerjava s Fido)
Dvojezični leksikonair ### zračen 0.56 letalski 0.29 zrak 0.07 (null) 0.03 protioklepen 0.02 zagotavljanje 0.01 air-base ### polkoven 0.38 letalski 0.25 dodaten 0.23 vtp 0.14 air-conditioning ### klimatski 0.87 naprava 0.13 air-defence ### rkb-obramba 0.55 namenski 0.45 air-raid ### zatuliti 0.50 oznanjati 0.50 air-space ### zračen 0.68 prostor 0.32 airbase ### letališče 0.82 zagotovljen 0.18 airborne ### letalski 0.83 enota 0.17 airbus ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 aircraft ### letalo 0.91 letalstvo 0.05 teritorialec 0.05
airfield ### gradnja 0.50 letališki 0.50 airlift ### zračnotransp 0.50 cougar 0.50 airline ### prevoznik 0.21 airbus 0.21 popolnoma 0.21 letalo 0.20 zgoreti 0.18 airplane ### kobilarna 0.13 lipica 0.13 najem 0.13 počastitev 0.13 letalo 0.13 prerazporedit 0.13 obnova 0.11 kritje 0.11airport ### letališče 1.00 airspace ### zračen 1.00
Iskanje prevodnih ustreznic “ustreznice v žaklju” možno dvojezično luščenje iz nevzporednih (primerljivih) korpusov
dvojezični leksikon
kandidati L1
kandidati L2
dvojezični kandidati