Nástroje pro paralelní korpusy
description
Transcript of Nástroje pro paralelní korpusy
![Page 1: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/1.jpg)
1/47
Nástroje pro paralelní korpusy
Alexandr RosenÚstav teoretické a komputační lingvistiky
Filosofická fakulta University Karlovy v Praze
[email protected]://utkl.ff.cuni.cz/~rosen
Jazykovedný ústav Ľudovíta Štúra, Bratislava, 16. 6. 2003
![Page 2: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/2.jpg)
2/47
Osnova
1. K čemu jsou paralelní korpusy
2. Jak vytvořit paralelní korpus
3. Hledání v paralelních korpusech
4. Další využití paralelních korpusů
5. Projekt paralelních korpusů na FF UK
![Page 3: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/3.jpg)
3/47
1. K čemu jsou paralelní korpusy
pro lexikografy
pro překladatele
pro učitele a studenty cizích jazyků
pro translatology, literární vědce, dialektology
k vyhledávání informací ve více jazycích (cross-language information retrieval)
ke zjednoznačnění textu v jednom jazyce
![Page 4: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/4.jpg)
4/47
pro lexikografy
paralelní konkordance
identifikace kolokací a jejich ekvivalentů
extrakce ekvivalentů
![Page 5: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/5.jpg)
5/47
pro překladatele
paralelní konkordance
překladová paměť (Translation Memory)
překlad podle příkladů (Example-Based Machine Translation)
statistický překlad
kontrola překladu
automatická písařka pro překladatele (doplňování dalšího textu, psaní podle diktátu)
![Page 6: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/6.jpg)
6/47
Nevýhody paralelních korpusů
texty nejsou autentické, většinou jen překlady
texty nejsou reprezentativní, paralelně lze získat jen některé typy textů
předpokladem je spolehlivé párování alespoň po větách – automaticky provedené párování je třeba ručně opravovat
je obtížné získat nástroje, které mají požadované funkce a přitom nevyžadují speciální znalosti
![Page 7: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/7.jpg)
7/47
2. Jak vytvořit paralelní korpus
Jak získat paralelní texty
Jak je upravit do vhodného formátu
Jak je segmentovat a párovat
![Page 8: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/8.jpg)
8/47
Jak získat paralelní texty
existující paralelní korpusy
pro češtinu a slovenštinu zatím málohttp://www.phil.muni.cz/angl/kacenka/kachna.html
http://shadow.ms.mff.cuni.cz/pdt/Corpora/Czech-English/index.html
http://nl.ijs.si/ME/
elektronicky čitelné texty ve více jazycích http://www.isi.edu/~koehn/publications/europarl/
http://www.unhchr.ch/udhr/index.htm
beletrie, zákony EU, www stránky
Resnik & Smith (2002) The web as a parallel corpus http://www.umiacs.umd.edu/~resnik/pubs.html
skenováním
![Page 9: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/9.jpg)
9/47
Jak získat paralelní texty II.
právnické problémy:
citovat se smí bez souhlasu autora
ALE: elektronický text někomu patří
více jazyků – jiná země, jiné zákony
![Page 10: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/10.jpg)
10/47
Jak texty upravit do vhodného formátu
kódování znaků
ISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode → ?
kódování formátu
→ SGML/TEI, XML, …
lingvistické značkování?
![Page 11: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/11.jpg)
11/47
Jak texty segmentovat a párovat
segmentace na věty
párování (alignment)
ruční
automatické
kombinace ručního a automatického
![Page 12: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/12.jpg)
12/47
Nástroje pro poloautomatické párování
jako součást programového balíku pro podporu překladatele (CAT) – provádí i konverzi a segmentaci, např.:
Trados – „inteligentní“ párování, ale $$$ http://www.trados.com
Déjà Vu 3 – funkční součást demoverze, jen základní funkce http://www.atril.com
CypreSoft TRANS Suite 2000 Align – freeware, základní funkce i párování bez ohledu na pořadí segmentů http://www.cypresoft.com
SDLX http://www.sdlintl.com, Star Transit http://www.star-ag.ch,
makra do MS Wordu: WordFast – freeware, http://www.wordfast.org, WordFisher http://www.wordfisher.com
![Page 13: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/13.jpg)
13/47
Obvyklé funkce nástrojů pro poloautomatické párování
Konverze formátů pouze text
textové editory Word, RTF, WordPerfect, OpenOffice
prezentace PowerPoint
tabulkové procesory Excel
databáze Access
DTP FrameMaker, PageMaker, QuarkXPress, InDesign
značkované texty HTML, SGML/XML, TMX
lokalizace SW Interleaf, soubory nápovědy, C, Java, GNU Gettext
formáty CAT Trados, TMX, IBM TM
Konverze kódování znakůISO 8859-2 (ISO Latin 2), CP 1250 (MS Windows), Mac CE, Unicode
![Page 14: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/14.jpg)
14/47
Obvyklé funkce nástrojů pro poloautomatické párování II.
Segmentace
na věty, nadpisy, položky seznamu, popisky obrázků
podle odstavců (¶) nebo již provedené částečné segmentace
podle typických zakončení věty <interpunkce><mezera>
![Page 15: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/15.jpg)
15/47
![Page 16: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/16.jpg)
16/47
Obvyklé funkce nástrojů pro poloautomatické párování III.
Automatické párování sekvenčně podle segmentů
podle nadpisů
podle formátování
podle délky segmentů
podle pravděpodobných ekvivalentů – „anchor points“ (čísla, podobné řetězce, překlady slov podle slovníku)
Výsledektabulka se dvěma sloupci
![Page 17: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/17.jpg)
17/47
Obvyklé funkce nástrojů pro poloautomatické párování IV.
Ruční párování paralelní prohlížení
spojování po sobě jdoucích segmentů
rozdělování segmentů
mazání segmentů
změna pořadí segmentů
„párování“ segmentů 1:n, n:1, n:n
párování segmentů křížem
![Page 18: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/18.jpg)
18/47
Párování v programu Déjà Vu 3
![Page 19: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/19.jpg)
19/47
Párování v programu WordFast/+Tools
![Page 20: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/20.jpg)
20/47
Párování v programu WordFast/+Tools II
![Page 21: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/21.jpg)
21/47
Párování v programu CypreSoft Align
![Page 22: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/22.jpg)
22/47
Nástroje pro poloautomatické párování – pokr.
jako součást programového balíku pro zpracování paralelních textů
Logiterm (Terminotix, Inc.) http://www.terminotix.com
MultiTrans http://www.multicorpora.com
ParaConc http://www.ruf.rice.edu/~barlow/parac.html
![Page 23: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/23.jpg)
23/47
Párování v programu ParaConc
![Page 24: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/24.jpg)
24/47
Párování v programu ParaConc II
![Page 25: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/25.jpg)
25/47
Párování v programu ParaConc III
![Page 26: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/26.jpg)
26/47
Nástroje pro automatické párování
podle délky segmentů ve znacích
Gale&Church 1991 → Vanilla Aligner http://www.research.att.com/~kwc/publications.html, http://nl.ijs.si/telri/Vanilla/, http://www.issco.unige.ch/tools/, http://spraakbanken.gu.se/lb/downloads.html, mailto:[email protected] (EasyAlign - součást IMS CWB)
podle délky segmentů ve slovech
Brown et al. 1991
podle „anchor points“
distribuce ekvivalentů Kay&Röscheisen 1993
čísla, formátování, podobné řetězce
dvoujazyčný slovník Melamed 1996 http://www.cs.nyu.edu/~melamed/GMA/docs/README.htm
![Page 27: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/27.jpg)
27/47
3. Hledání v paralelních korpusech
– korpusové manažery
● ParaConc http://www.ruf.rice.edu/~barlow/parac.html
● Uplug http://stp.ling.uu.se/~joerg/uplug/
● COMPARA http://www.linguateca.pt/COMPARA/Welcome.html,
IMS CWB http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/
● MultiLingual Concordancer in Java http://www.lancs.ac.uk/staff/piaosl/research/download/download.htm
![Page 28: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/28.jpg)
28/47
Obvyklé vyhledávací funkce
dotaz na libovolný jazyk nebo více jazyků zároveň (paralelní hledání)
zadání dotazu regulárním výrazem
hledání podle značek
omezení prohledávaných textů:
bibliografické údaje
originál nebo překlad
jazyková varianta (britská/americká angličtina)
![Page 29: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/29.jpg)
29/47
Obvyklé vyhledávací funkce II.zobrazení výsledku dotazu:
kontext: segment nebo KWiCzadání/zjištění ekvivalentů KW → BiKWiCtřídění podle KW, kontextuzobrazení/potlačení značekzobrazení kolokacíúdaje o párovánípoznámky překladateledistribuce foremdistribuce zdrojů
![Page 30: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/30.jpg)
30/47
Obvyklé vyhledávací funkce III.
statistiky:
frekvence tvarů
kolokace
frekvence kolokací
![Page 31: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/31.jpg)
31/47
Hledání programem ParaConc
asi nejlepší program pro dvoujazyčné konkordance na PC
snadné ovládání, párování (modifikovaný Church-Gale), řada vyhledávacích funkcí, zobrazení BiKWiC, asijské jazyky, …
stále se vyvíjí
![Page 32: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/32.jpg)
32/47
![Page 33: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/33.jpg)
33/47
![Page 34: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/34.jpg)
34/47
![Page 35: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/35.jpg)
35/47
![Page 36: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/36.jpg)
36/47
![Page 37: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/37.jpg)
37/47
Hledání v korpusu COMPARA
portugalsko/anglický, beletrie, volně přístupný
IMS CQP, DISPARA web interface
1 129 000 slov celkem
bohaté možnosti vyhledávání, pečlivě připravená data
![Page 38: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/38.jpg)
38/47
![Page 39: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/39.jpg)
39/47
![Page 40: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/40.jpg)
40/47
![Page 41: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/41.jpg)
41/47
![Page 42: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/42.jpg)
42/47
![Page 43: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/43.jpg)
43/47
4. Další využití paralelních korpusů
Překlad s využitím paralelního korpusu (překladová paměť, překlad podle příkladů, statistický překlad)
Extrakce dvoujazyčného slovníku (párování slov, víceslovných výrazů) Uplug
…
![Page 44: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/44.jpg)
44/47
5. Paralelní korpus FF UK
součást projektu připravovaného na léta 2005-2009: Český národní korpus a korpusy dalších jazyků II.
soubor paralelních textů pro potřeby jazykových kateder a ústavů FF UK i jiných zájemců
každá část korpusu (subkorpus): spárované texty ve dvou i více jazycích nebo verzích
![Page 45: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/45.jpg)
45/47
Výchozí stav a první fáze
katedry/ústavy připravují, uchovávají a využívají své subkorpusy lokálně, s podporou koordinátora projektu
přitom využívají software pro PC:
konverzní programy,
nástroje pro automatické a ruční párování,
paralelní prohlížeče - např. ParaConc
![Page 46: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/46.jpg)
46/47
Cílový stav
subkorpusy jsou uloženy v jednotném formátu na jednom místě
pro údržbu a využívání korpusu slouží jedna sada programového vybavení:
konvertory do jednotného formátu
nástroje pro ruční a automatické párování
korpusový manažer
korpus se využívá převážně po síti (TCP/IP)
distribuovaná příprava a údržba textů
![Page 47: Nástroje pro paralelní korpusy](https://reader035.fdocuments.net/reader035/viewer/2022062321/56813e3e550346895da82233/html5/thumbnails/47.jpg)
47/47
Cílový stav (pokračování)
neregistrovaní uživatelé s omezenými právy (vyhledávání v části korpusu)
registrovaní uživatelé s většími právy na vyhledávání
privilegovaní uživatelé s právem měnit obsah některého subkorpusu:
přidávat nové texty,
párovat je automaticky nebo ručně,
opravovat výsledky automatického párování