XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte...
-
Upload
victor-rivas-agueero -
Category
Documents
-
view
221 -
download
0
Transcript of XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte...
![Page 1: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/1.jpg)
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
El projecte RESTADEines per al buidatge automatitzat
de corpus textuals
![Page 2: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/2.jpg)
2
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Índex
Participants Objectius Tipus d’eines Processos
Obtenció de memòries de traducció Obtenció de terminologia (bilingüe)
Explotació
![Page 3: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/3.jpg)
3
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Participants
Serveis lingüístics universitaris Universitat Autònoma de Barcelona Universitat de Girona Universitat Oberta de Catalunya Universitat Politècnica de Catalunya
Institucions públiques DURSI (Departament d’Universitats, Recerca i Societat de la Informació)
![Page 4: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/4.jpg)
4
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Objectius
Disposar de materials multilingües Desenvolupar recursos que facilitin i millorin la traducció automatitzada
al català dels documents docents. Facilitar que l’alumnat universitari pugui disposar dels materials docents
almenys en català.Automatitzar els processos de treball Homogeneïtzar i automatitzar els processos de treball fent servir les
mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia).
Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic.
Disposar de recursos gratuïts Distribuir gratuïtament eines i recursos a totes les universitats,
institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.
![Page 5: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/5.jpg)
5
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Tipus d’eines
Eines bàsiques de buidatge Alineador automàtic de textos Extractor de terminologia
Utilitats: portabilitat (comunicació entre programes) Base de dades terminològica => Lèxic sistema TA Corpus paral·lel => Memòria de traducció Creació de formats estàndard: text tabulat => TMX/TBX
![Page 6: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/6.jpg)
6
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Flux de buidatge
![Page 7: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/7.jpg)
7
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Article 80.
Competències
1. Són competències del secretari
general:
- Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords.
Eina d’alineació: AlinUOC
Artículo 80.
Competencias
1. Son competencias del secretario
general:
- Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.
![Page 8: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/8.jpg)
8
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Alineació de documents DOC
Articles català
Articles anglès
Articles espanyol
doc2txt
Articles català
Articles anglès
Articles espanyol
Articles cat-ang alineats
Articles cat-esp alineats
AlinUOC
DOC TXT
![Page 9: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/9.jpg)
9
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Alineació de documents HTML
Articles català
Articles anglès
Articles espanyol
html2txt
Articles català
Articles anglès
Articles espanyol
Articles cat-ang alineats
Articles cat-esp alineats
AlinUOC
HTML TXT
![Page 10: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/10.jpg)
10
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Alineació de documents PDF
PDF TXT
Articles català
Articles anglès
Articles espanyol
Pdf2txt
Articles català
Articles anglès
Articles espanyol
Resums cat-ang alineats
Resums cat-esp alineats
AlinUOC
Resums català
Resums anglès
Resums espanyol
![Page 11: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/11.jpg)
11
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Tractament de documents PDF
Problemes per a tractar documents PDF Recuperar paraules tallades per un salt de línia amb guionet. Ajuntar línies separades per peus de pàgina, encapçalaments,
peus de figura, etc.
![Page 12: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/12.jpg)
12
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Tractament de documents PDF
![Page 13: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/13.jpg)
13
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Tractament de documents PDF
![Page 14: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/14.jpg)
14
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Creació de memòries de traducció
Corpus paral·lel
(Text tabulat)txt2tmx MT
(TMX)
DéjàVu
ForeignDesk
(Frog Translator)MT
Access
![Page 15: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/15.jpg)
15
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Què és un candidat a terme?
El cinema digital i la televisió són el futur.
Una paraula (cinema) Dues paraules consecutives (cinema digital) Tres paraules consecutives (cinema digital i) … N-grams (subseqüència d’n paraules
consecutives)
![Page 16: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/16.jpg)
16
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Extracció de candidats a terme
Elaboració d’una llista de candidats a terme “Morim d’èxit!”
Filtratge de la llista de candidats Automàtic Manual
Cerca d’equivalents en altres llengües
![Page 17: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/17.jpg)
17
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Elaboració de la llista d’n-grams
Corpus paral·lel
(Text tabulat)
StemTES
n-grams
Llista
n-grams
![Page 18: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/18.jpg)
18
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Selecció dels n-gram
![Page 19: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/19.jpg)
19
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Filtratge de candidats a terme
De manera implícita ja hem explotat el corpus paral·lel Aplicació de coneixement lingüístic
Eliminar unigrams per freqüència ‘podem’, ‘anys’
Eliminar unigrans emprant patrons morfosintàctics ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP))
Filtratge amb cerques a Internet Cerques a Internet
net art + medicina + esports => nombre de pàgines Directori de dominis
![Page 20: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/20.jpg)
20
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Propostes de termes i equivalents de traducció
Corpus paral·lel
(Text tabulat)
StemTES
n-grams
Llista
n-grams
filtrats
Llista n-grams
Amb propostes d’equivalències
![Page 21: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/21.jpg)
21
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Propostes d’equivalents a terme: TOND
![Page 22: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/22.jpg)
22
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Un cas pràctic
Espai en xarxa: Artnodes Volum de text:
Unes 26.000 paraules
Nombre de candidats a terme sense filtratge previ 2.884
Nombre de candidats finals amb filtratge 998
![Page 23: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/23.jpg)
23
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
![Page 24: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/24.jpg)
24
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Gràcies per la vostra atenció
Gracias por vuestra atención
Eskerrik asko zuen arretagatik
Grazas pola vosa atención
Thanks for your atention
Merci pour votre attention
![Page 25: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/25.jpg)
25
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Explotació
![Page 26: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/26.jpg)
26
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Base de dades terminològica en una eina TAO
![Page 27: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/27.jpg)
27
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Entrada lèxica sistema de TA Entrada transfer
![Page 28: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/28.jpg)
28
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Entrada lèxica llengua origen
![Page 29: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/29.jpg)
29
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Entrada lèxica llengua destí
![Page 30: XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.](https://reader035.fdocuments.net/reader035/viewer/2022070416/5665b49b1a28abb57c9298c1/html5/thumbnails/30.jpg)
30
XV Trobada de Serveis Lingüístics UniversitarisBarcelona, 1 i 2 de juny de 2006
Creació automàtica de glossaris
Suport electrònic o paper
Requeriments Format XML (TBX) Eina de conversió text tabulat a TBX