Busca de Informação Multilingue
description
Transcript of Busca de Informação Multilingue
![Page 1: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/1.jpg)
Busca de Busca de Informação Multilingue Informação Multilingue
Bibliotecas DigitaisEngenharia BiomédicaUniversidade do Minho
![Page 2: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/2.jpg)
Sumário
Introdução Processamento de Texto multilingue Busca de texto multilingue Busca de voz em várias línguas Avaliação de Sistemas Algumas aplicações Futuras direcções
![Page 3: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/3.jpg)
O problema
Pressão crescente para aceder à informação sem as barreiras tradicionais da cultura e da língua, implica a necessidade de ser capaz de : Encontrar informação em língua estrangeira Ler e interpretar essa informação Juntá-la com informação noutras línguas
É necessário o Acesso a Informação Multilingue
![Page 4: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/4.jpg)
Acesso a Informação Multilingue
Ocupa-se da investigação para o armazenamento, acesso, busca e apresentação de informação em qualquer língua falada no mundo.
Duas áreas de interesse principais: Acesso, navegação, visualização Busca e descoberta de informação em várias
línguas
![Page 5: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/5.jpg)
Processamento de texto em várias línguas
A tecnologia de base
Codificação de caracteres Requisitos específicos de cada língua Localização e apresentação
![Page 6: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/6.jpg)
Busca de Informação Multilingue
Cruzar a fronteira da língua …
Interrogar uma colecção multilingue numa língua e buscar documentos relevantes noutras línguas
Filtrar seleccionar e pontuar os documentos devolvidos
![Page 7: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/7.jpg)
BIM é multidisciplinar
Envolve investigadores das seguintes áreas:
Recuperação de Informação (IR), Processamento de Linguagem Natural, Tradução automática, Sumarização, Processamento de Voz, interpretação de imagens, Interacção H/M
Recursos de língua como dicionánrios, thesauri, corpora e colecções de teste.
![Page 8: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/8.jpg)
Porquê que o BIM é importante?
Internacionalização– Países multilingues(Suiça, Canadá)– Áreas de Cooperação Económica (EU, EFTA, NAFTA)
Globalização da economia– multinacionais– Empregados falam línguas diferentes– Clientes falam línguas diferentes– Documentos precisam de ser acedidos em várias línguas
![Page 9: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/9.jpg)
Sociedade de Informação Global
Larga gama de aplicações em que a informação tem que estar disponível aos utilizadores indepentemente da língua:
– Comércio electrónico– Entretimento– Educação
![Page 10: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/10.jpg)
Sociedade de Informação Global
WWW como plataforma para disseminação do conhecimento
– Ensino à distância – Bibliotecas Digitais…..
Fornecedores e consumidores de informação devem ter igualdade de oportunidade Preservação das línguas nacionais…
![Page 11: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/11.jpg)
WWW e Internet
A Internet ja não está só em Inglês e
O perfil dos utilizadores está mudar drasticamente – Usada inicialmente só por académicos, agora está
ser para publicidade, divertimento, educação, etc....
![Page 12: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/12.jpg)
WWWe Internet
Internacionalização da Internet
– O grupo das pessoas que não falam inglês é o que regista maior crescimento como novos utilizadores da Internet
Em1997, 8.1 milhões utilizadores de língua espanhola
Em 2000, 37 milhões……..
![Page 13: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/13.jpg)
83M Utilizadores da Internet de língua não inglesa
Japonês 17.4%
Espanhol17.1%
Alemão16.8%
Francês10%
Chinês 7.7%
Holandês 5.3%
Sueco 4.3%
Coreano 4.4%
Italiano 4%
Português 2.2%
![Page 14: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/14.jpg)
Mudanças na Internet
Em 2005, 68% dos utilizadores falarão uma língua diferente do inglês
Total dos utilizadores passará de 171 milhões para 345 milhões em 2005
Portanto … 270 milhões não falantes de inglês (dos 83M actuais)
![Page 15: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/15.jpg)
Inglês
12%
6%
4%
8%
2%5%5%
40%
68% não falantes de inglês em 20058%
2%6%2%
Espanhol Japonês Alemão Francês
Chinês Escandinavo Italiano Holandês
Coreano Português Outros Inglês
![Page 16: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/16.jpg)
Línguas Mais Faladas
0
200
400
600
800
Nº
de
Pes
soas
(M
ilh
ões)
Ch
inês
Ingl
ês
Hin
di-
Urd
u
Esp
anho
l
Por
tugu
ês
Ben
gali
Ru
sso
Ára
be
Japa
nês
Fonte: http://www.g11n.com/ faq .html
![Page 17: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/17.jpg)
Tamanho do Web: Crescimento Exponensial
0
1
10
100
1.000
10.000O
ut-
96
Ou
t-9
7
Ou
t-9
8
Ou
t-9
9
Ou
t-0
0
Ou
t-0
1
Ou
t-0
2
Ou
t-0
3
Ou
t-0
4
Ou
t-0
5
Bil
hõ
es
de
pa
lav
ras
Inglês Outras Europeias
Fonte: Extrapolado de Grefenstette e Nioche, RIAO 2000
![Page 18: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/18.jpg)
História: objectivos
1978: ISO Standard 5964 thesauri multilingue disponível. Versão revista em 1985
1991: Publicada a norma Unicode, Versão 1.0 1993: ISO/IEC 10646 publicado como
"Universal Multiple-Octet Coded Character Set” (UCS).
![Page 19: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/19.jpg)
História: objectivos
1995: TANGO um web browser multilingue
Netscape/Explorer suportam UNICODE e fontes para outras línguas
![Page 20: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/20.jpg)
História: primeiras abordagens
1970: thesaurus (Salton)
1991-94: Projecto EMIR –1º projecto BIM na CE - busca de texto em inglês, francês, alemão
1994: 1ª tese de doutoramento em BIM por Khaled Radwan (França)
![Page 21: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/21.jpg)
História: primeiras abordagens
1996 Busca baseada em dicionário (Umass & XEROX Grenoble)
1996 Abordagem baseada em Corpus (ETH Zurich)
1997 Modelo do Espaço Vectorial Generalizado (CMU)
![Page 22: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/22.jpg)
História: Objectivos da Comunidade de I&D
1996: 1st Workshop on “Cross-Lingual Information Retrieval” no SIGIR ’96. A comunidade começa a ser identificada à volta desta área.
1997: AAAI Spring Symposium on Cross-Language Text and Speech Retrieval
![Page 23: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/23.jpg)
AAAI – O grande desafio
• Dada uma interrogação em qualquer media e língua, selecionar itens relevantes duma colecção multimedia e multilingue, e apresentá-los ao utilizador da forma mais adequada, com os objectos idênticos ou bastante parecidos nos diferentes média ou língua identificados convenientemente.
[AAAI Stanford Symposium 1997]
![Page 24: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/24.jpg)
História: Objectivos da Comunidade de I&D
1997: EU-NSF Working Group em Acesso a Informação Multilingue (Multilingual Information Access).
1999: Disponível Relatório NSF/EC/DARPA em Gestão de Informação Multilingue.
Cursos/Workshops em MLIA/CLIR comuns em Conferências de Information Retrieval, Computational Linguistics e Digital Libraries em vários pontos do mundo.
![Page 25: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/25.jpg)
História: Objectivos de Avaliação
1997: 1st Cross-Language IR track no TREC (Text REtrieval Conferences)
1998-99: Amaryllis inclui avaliação multilingue em inglês e francês
1999: 1º Workshop Japonês em IR inclui linha em CLIR (BIM)
![Page 26: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/26.jpg)
História: Objectivos de Avaliação
1999: começa nos EUA o projecto TIDES (Translingual Information Detection, Extraction, and Summarization).
2000: é iniciado CLEF – Cross-Language Evaluation Forum for European Languages
![Page 27: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/27.jpg)
Desafios
Suportar o acesso à informação multilingue em vários média (texto, voz e video)
Indexar informação em língua estrangeira Buscar informação em várias línguas com uma
única interrogação Permitir a navegação na informação devolvida
na língua do utilizador
![Page 28: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/28.jpg)
Processamento de texto multilingue
Codificação de caracteres Detecção da língua Extracção de palavras Remoção de palavras muito frequentes Radicalização (Stemming) Etiquetagem POS Identificação de frases
![Page 29: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/29.jpg)
Processamento de texto multilingue
A representação do texto implica: Conversão de caracteres Extracção de palavras (tokenization) Remoção de palavras comuns Radicalização de palavras
Necessidade de conhecimento específico da língua
![Page 30: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/30.jpg)
Codificação de caracteres
Representação binária do alfabeto da língua Texto normalmente codificado numa forma
dependente da língua Codificação em um ou dois bytes Norma UNICODE standard para representação
de todas as línguas Suportar os códigos nativos ou transformar em
UNICODE para processamento ou busca?
![Page 31: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/31.jpg)
Codificação de caracteres
Codificação específica da língua (alfabeto) :– Chinês GB, Big5, – Europa Ocidental ISO-8859-1 (Latin1)– Russo KOI-8, ISO-8859-5, CP-1251
UNICODE (ISO/IEC 10646)– UTF-8 comprimento variável em bytes– UTF-16, UCS-2 comprimento fixo de 2 bytes
![Page 32: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/32.jpg)
UNICODE / ISO 10646
Codificação de 16-bit (2-byte) concebida para contemplar todas línguas escritas
16 bits permitem à volta de 65,000 characteres UNICODE especifica actualmente 38,887 characters Cobre línguas das Americas, Europa, Médio Oriente,
Africa, India, Asia Há espaco para novos caracteres ou caracteres
específicos para aplicações
![Page 33: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/33.jpg)
O WorldWide Web multilingue
Codificação dos caracteres especificado no campo do cabeçalho HTTP Content-Type – “Content-type: text/html; charset=iso-2022-JP”
Atributo HTML “Lang” pode ser incluído na maioria dos elementos HTML – <TEXT Lang=es>
![Page 34: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/34.jpg)
O WorldWide Web multilingue
Outros aspectos – Texto Bidirectional – onde se mistura
texto lido da direita para esquerda e lido da esquerda para a direita
– Formatos e unidades usados para mostar tempos, datas, pesos, etc.
![Page 35: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/35.jpg)
O WorldWide Web multilingue
Visualização de material em língua estrangeira… Utilização de um browser multilingue como TANGO… Instalar as fontes localmente na máquina usada… Download fontes para o Browser WWW… Os browsers estão a tentar suportar de forma nativa
fontes para todas as línguas (Explorer) Problemas na composição de texto noutras línguas…
![Page 36: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/36.jpg)
Identificação de língua
Definição do problema I: Dado um documento
monolingue duma colecção multilingue
identificar a língua em que está escrito
Definição do Problema II: Dado um documento
multilingue identificar a língua de cada
parágrafo ou frase
![Page 37: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/37.jpg)
Identificação de língua
Baseado na codificação específica da língua
Usa modelos estatísticos de N-Gramas ou palavras
Reconhece caracteres específicos da língua
Usa listas de stopwords
Usar a língua do último parágrafo ou uma por defeito
![Page 38: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/38.jpg)
Extracção de palavras
Pontuação separada das palavras.
“The train stopped.” “The”, “train”, “stopped”, “.”
Palavras separadas em unidades léxicas - incl. Segmentação(Chinese) e separação de formas compostas (Alemão)
![Page 39: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/39.jpg)
Segmentação do Chinês
![Page 40: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/40.jpg)
Estratégias de Segmentação
Escolher um modelo – Strings únicas , strings plausíveis , interpretações
palusíveis
Combinar evidências– Lexicons, corpora, algoritmos, conhecimento do
utilizador
Escolher um critério de preferência– String mais longa, detecção de nomes próprios, etc.
![Page 41: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/41.jpg)
Segmentação do Alemão
Palavras compostas sem restrição– Abendnachrichtensendungsblock
Usar análise de composição conjuntamente com o dicionário alemão CELEX (360,000 palavras)
– Treuhandanstalt { treuhand, anstalt }– Washington { * was, hing, ton }
É crucial a manutenção do dicionário
![Page 42: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/42.jpg)
Remoção de Stop Words
stop words frequentes (ex.. “o”, “um”, …) não-stop words frequentes (ex. “medicina” em
informação médica) stop words não frequentes (ex. “todavia”) stop Words dependentes e não dependentes
do domínio (ex. “computer science” na colecção do ACM)
![Page 43: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/43.jpg)
Normalização dos índices
Radicalização baseada em regras (e.g. Porter)
Análise morfológica (e.g. InXight)
![Page 44: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/44.jpg)
Algoritmo de Stemming de Porter
Remoção de sufixos baseada em regras 65 regras aplicadas em 5 iterações Correcção linguística dos radicais não é
necessária 36% redução do índices (Inglês) Versões escritas para muitas línguas
![Page 45: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/45.jpg)
Porter Stemming
Regra Exemplo
(True)IES I
(m > 0)IVITI IVE
(m > 1)IVE
sensitivities
sensitiviti
sensitive
sensit
![Page 46: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/46.jpg)
Stemming Francês (ETH)
84 regras de sufixo em 8 grupos
RegraGrupo sufixo Exemplo
er(s), ère(s)
teur(s), trice(s)
(*)ère er
(*)trice teur
dernière dernier
éducatrice éducateur
![Page 47: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/47.jpg)
Stemming Italiano (ETH)
220 regras (plural singular, género, tempos e formas verbais)
Regra Stemming Exemplo
(*c)e ia
(*l)cissim[aeio] ce
(*e)sse re
province provincia
dolcissima dolce
volesse volere
![Page 48: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/48.jpg)
Análise Morfológica
Analisador Inxight LinguistX produz lemas em vez de stems (ao contrário do algoritmo de Porter)
Morfologia: flexionar (concordância sem diferença semântica) versus Derivar (pode haver modificação semântica)
As decisões para análise morfológica ou stemming é dependente da língua
![Page 49: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/49.jpg)
Part-of-Speech Tagging (Etiquetagem da Fala)
Atribuir etiquetas POS de um conjunto normalizado– comprimisso entre # de etiquetas e complexidade
Inglês – conjunto de etiquetas típica 50 Francês – conjunto grande 264 pequeno 56
– AFS adjectivo feminino singular – NFS nome feminino singular– V1SPI verbo 1ª pessoa singular presente indicativo
Reduzir o conjunto por truncagem da direita para a esquerda
![Page 50: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/50.jpg)
Etiquetagem da Fala
Estatísticas - Church 1988 Baseadas em Regras
– Manuais (Voutilainen 1993)– Aprendizagem (Brill 1992)
Combinações - Bell Labs, Xerox- Grenoble
Para acesso a informação multilingue, etiquetagem robusta reduz ambiguidade
![Page 51: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/51.jpg)
Identificação de Frases
Frases não decomponíveis – o significado não é apenas a soma dos significados
das componentes) – “Fast food” “comida rápida”
Eficácia da busca é aumentada com uma identificação efectiva das frases
O recurso de tradução deve incluir traduções correctas para frases não decomponíveis
![Page 52: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/52.jpg)
Identificação de frases
Métodos estatísticos – Eliminar stopwords– Aglomerar por contexto e frequência– Pares de palavras que co-ocorrem >25 vezes
Métodos simbólicos – Etiquetar texto como POS– Utilização de regras para identificação
![Page 53: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/53.jpg)
Reconhecimento de Nomes de Entidades
Um caso particular de reconhecimento de frases Os termos para nomeação de entidades são bastante
produtivos Técnicas de processamento precisas não podem
depender dum dicionário de termos estável Reconhecimento baseado em regras gramaticais e interpretação
![Page 54: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/54.jpg)
Classificação de Nomes de Entidade
![Page 55: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/55.jpg)
3. Busca de Texto Multilingue
Abordagens
Dificuldades
Recursos
![Page 56: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/56.jpg)
O problema
Como podem conceitos representados na interrogação numa dada língua ser unificados com a informação contida em documentos noutras línguas?
![Page 57: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/57.jpg)
O problema
Interrogação Documento
Barreira da língua
Representação da interrogação
Representação do documento
![Page 58: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/58.jpg)
CLIR - Abordagens
Tradução AutomáticaThesauri multilingueDicionário bilingueCorpora Paralelos/ComparáveisConceptual Interlingua
![Page 59: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/59.jpg)
Tradução automática
Traduzir todos documentos para cada um das possíveis línguas de interrogaçãoNão viável para colecções grandes Não viável para muitas línguas de
interrogação
É uma abordagem muito redundante e dispendiosa para o BIM(CLIR)
![Page 60: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/60.jpg)
Tradução automática
Traduzir a interrogação para a língua do conteúdo que se procura Nao há contexto para uma tradução precisaO sistema selecciona o termo preferido
A tradução de interrogações é inadequada para o CLIR
![Page 61: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/61.jpg)
Utilização de Thesauri
Busca com vocabulário controlado Definição dum conjunto de conceitos para
indexação e busca representados por conjuntos de termos em cada língua
Eliminação de ambiguidade Alguns resultados garantidos
![Page 62: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/62.jpg)
Utilização de Thesauri
Problemas Os thesauri são difíceis de construir e manter Atribuir manualmente termos a documentos é
dispendioso Estabelecer correspondência entre thesauri em
línguas diferentes é complicado! Os utilizadores têm dificuldade em utilizar
dicionários na busca de informação
![Page 63: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/63.jpg)
Utilização de Dicionários
Dicionários em computador bilingues (feitos à medida ou comerciais)
Busca dos termos da interrogação e substituir pela sua tradução na língua dos documentos
– Tradução automática da interrogação tem 50% da precisão da busca monolingue
– Expansão automática da interrogação reduzem a ambiguidade e aumentam a cobertura
![Page 64: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/64.jpg)
Utilização de Dicionários
ProblemasAmbiguidadeMuitos termos nao constam do dicionárioFalta de termos com várias palavrasIdentificação de frases É necessário um dicionário bilingue para
cada par de língua interrogação/documento
![Page 65: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/65.jpg)
Utilização Corpora
Disponibilizar equivalências léxicas em várias línguas
Corpora Paralelo – Equivalência transacional– Exemplo: Corpus ONU em francês, inglês e alemão.
Corpora Comparável – Similar para tópico,tempo, etc...– Exemplo: Notícias da Lusa em inglês e português
![Page 66: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/66.jpg)
Utilização Corpora
Tradução de interrogações usando Corpora Paralelo– Alinhar textos usando informação estatística
ou dicionários bilingue– Encontrar correspondências entre palavras
na língua fonte e na língua objecto– Extrair informação para traduzir a
interrogação para busca na língua objecto
![Page 67: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/67.jpg)
Utilização Corpora
Tradução de interrogações usando corpora paralelo– Alinha documentos relacionados através de
datas, palavras chave , nomes próprios
– Constrói um léxico de co-ocorrências– Termos em línguas diferentes relacionados com o
mesmo tópico co-ocorrem no mesmo documento– Usa a correspondência para pseudo-traduzir
interrogações
![Page 68: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/68.jpg)
Abordagens baseadas em Copora
Modelo do Espaço Vectorial Generalizado (GVSM) – Usa um corpus bilingue de treino para construir matrizes de
documentos & termos ponderados em cada língua– Usa um copora paralelo para cada par de línguas
Latent Semantic Indexing – reduz ainda mais o GVSM– requer corpura comparável ou paralelo– dispendioso computacionalmente
![Page 69: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/69.jpg)
Abordagens baseadas em Copora
Thesauri de similaridade– Extrai termos equivalentes dum copora
multilingue alinhado– Regista equivalências num thesauri externo– Qualidade dependente da qualidade do
corpora
![Page 70: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/70.jpg)
Documentosem alemão
Documentos em francês
Construção do ThesaurusMultilingue de Similaridade
Alinhar documentos comparáveis
Documentos bilingues Francês /Alemão
Nordirland
irland irlandais ulster protestant
Thesaurus de Similaridade
![Page 71: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/71.jpg)
Utilização de Corpora
Problemas– corpora apropriado é difícil de obter – O corpora de treino tem que ser bastante
grande– O corpora tende a ser dependente do
domínio e da aplicação
![Page 72: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/72.jpg)
Conceptual Interlingua
Termos e frases de várias línguas que referenciam o mesmo conceito são colocados em correspondência num esquema independente da língua
Permite a unificação de termos equivalentes e sinónimos em todas as línguas
![Page 73: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/73.jpg)
Conceptual Interlingua
Espaço de conceitosVocabulário 1
Francês
Vocabulário 2
Espanhol
Vocabulário 3
PortuguêsConceitos genéricos da línguaConceitos genéricos da língua
![Page 74: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/74.jpg)
Vantagens
BIM para qualquer combinação de línguas – não apenas bidireccional (Exemplo Português-Japonês)
Busca independente da língua baseado em conceitos da linguagem natural
Povoar com terminologia um ambiente de conceitos Ambiente bem compreendido para eliminar a
ambiguidade do sentido das palavras
![Page 75: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/75.jpg)
Desvantagens
Dispendiosos de construir
Problemas de cobertura do vocabulário
Conceitos dependentes da linguagem
![Page 76: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/76.jpg)
Mestrado em Sistemas de Informação
Busca de Informação MultilingueBusca de Informação Multilingue
Estado da Arte
Tradução automática80% eficácia monolingue em domínio genérico
• Técnicas baseadas em dicionário 80% eficácia monolingue em domínio genérico
Técnicas baseadas em Corpus Comparável e Paralelo 80% eficácia monolingue em domínio genérico
90% monolingue em domínio específico
![Page 77: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/77.jpg)
Principais dificuldades da BIM (I)
Tradução– ambiguidade– Tradução errada– Identificaçção de frases
![Page 78: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/78.jpg)
Reduzir Ambiguidade
Pré-processamento sintático Análise estatística
– Co-ocorrência de termosTermos relacionados tendem a o ocorrer em
conjunto Desambiguar as traduções usando as
estatísticas de co-ocorrência Realimentação do utilizador Pseudo-Realimentação de relevância
![Page 79: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/79.jpg)
Pseudo-Realimentação de Relevância
Colocar a interrogação na língua fonte Num corpus paralelo ou comparável , fazer a
busca para encontrar documentos na língua Usar os documentos equivalentes aos
devolvidos para derivar a interrogação na língua objecto
Usar a interrogação para obter documentos na língua objecto
![Page 80: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/80.jpg)
q q’
Língua A
Língua B
Pseudo Realimentação de Relevância
![Page 81: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/81.jpg)
Principais Dificuldades na BIM (II)
Recursos Sistemas de Acesso a Informação Multilingue
necessitam de recursos bem concebidos e – Ferramentas de Processamento da Língua– Recursos da Língua
Os recursos são bastante caros de adquirir manter actualizar
![Page 82: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/82.jpg)
Recursos – Principais problemas
disponibilidade extensibilitdade custo cobertura qualidade normas
![Page 83: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/83.jpg)
Ferramentas de Processamento da Língua
Ferramentas de identificação da línguaConversão de conjuntos de caracteresExtracção e segmentação de palavrasFerramentas de radicalização/análise
morfológica
Ver ACL Natural language Software Registryhttp://registry/dfki/de/
![Page 84: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/84.jpg)
Recursos de língua
DicionáriosCorporaLéxicos e terminologiaThesauri e ontologias
Ver ELRA - European Language Resources Association - http://www.icp.grenet.f/ELRA/
Ver LDC - Linguistic Data Consortium http://www.ldc.upenn.edu
![Page 85: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/85.jpg)
4. Busca de Fala Multilingue
Pouco trabalho realizado
Estado bastante experimental
![Page 86: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/86.jpg)
Processamento da Fala Multilingue
Reconhecedores de voz são normalmente treinados muitas horas usando um corpus de voz etiquetado
– Reconhecimento de voz visto como uma caixa preta com saídas fonémica ou léxica
– Saída usada como entrada na indexação- o objectivo é indexar o melhor possível documentos falados
– Investigação actual principalmente em inglês, com algum trabalho em chinês, japonês e algumas línguas europeias (alemão, francês, italiano, holandês)
![Page 87: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/87.jpg)
Busca da Fala Multilingue
Uma experiência no ETH-Zurich Buscar documentos falados em alemão a partir de
interrogações escritas em francês (ETH) Construir uma thesaurus de similaridade Francês-
Alemão usando um corpus de notícias da Agência Suíça de Notícias
Indexar notícias de rádio em alemão como trigramas de fonemas a partir duma saída de reconhecimento da Fala
![Page 88: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/88.jpg)
Busca de Fala Multilingue
Aceita uma interrogação escrita em francês pelo utilizador
Utiliza um thesaurus de similaridade para pseudo-traduzir a interrogação para alemão
Usa um dicionário de fonemas para converter o texto na fala correspondente
Unifica a interrogação falada com uma coleção de notícias faladas em alemão
Devolve os documentos faladosDesempenho ~50% do monolingue
![Page 89: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/89.jpg)
Direcções Actuais
Workshop Johns Hopkins Busca da Fala em várias línguas, verão 2000
Programa DARPA Automatic Content Extraction deve envolver fala em várias línguas
Grupo de Trabalho EU-NSF Working Group para estudar o arquivo e busca de documentos falados
Grupo de Trabalho DELOS WG para avaliar sistemas de documentos falados em várias línguas
![Page 90: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/90.jpg)
Avaliação de Sistemas BIM
Porque é importante a avaliação de sistemas
O que é que a avaliação implica
Programas da avaliação
Um Exemplo
![Page 91: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/91.jpg)
Porque necessitamos da avaliação?
A avaliação implica a compreensão de requisitos e objectivos
A avaliação permite que as hipóteses sejam validades e progressos confirmados
A avaliação permite a análise de diferentes abordagens e tecnologias
![Page 92: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/92.jpg)
A avaliação de sistemas é complexa!
Os sistemas BIM consistem na integração de componentes e tecnologias
Precisa de se avaliar componentes singulares
Precisa de se avaliar o desempenho global do sistema
![Page 93: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/93.jpg)
A avaliação de sistemas é complexa!
Necessidade de distinguir aspectos metodológicas de aspectos de conhecimento da língua
Idealmente, um protocolo de avaliação requer a distinção entre a arquitectura, programa e dados linguísticos
![Page 94: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/94.jpg)
Avaliação da Tecnologia e da Usabilidade
Avaliação da utilidade: Mostrar o valor da tecnologia para o utilizador Determinar os níveis de tecnologia indispensáveis
para uma utilização específica Disponibilizar direcções para escolha de critérios
para avaliação da tecnologia
Influência da língua e cultura na usabilidade das tecnologias precisa de ser compreendido
![Page 95: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/95.jpg)
Organização duma actividade de avaliação
Selecionar as tarefas de controlo Disponibilizar dados para testar a afinar os sistemas Definir protocolo e métricas a usar na validação dos
resultados
O objectivo é uma comparação objectiva entre sistemas e abordagens
![Page 96: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/96.jpg)
Principais projectos de avaliação em BIM
TIDES: patrocinadores TREC (Text REtrieval Conferences) e TDT (Topic Detection and Tracking) – linha Chinês-Inglês em 2000; TREC focará em Inglês/Frnacês - Árabe in 2001
NTCIR: Nat.Inst. for Informatics, Tokyo. Chinês-Inglês ; Japonês-Inglês C-L tracks
AMARYLLIS: focagem em Francês; 2da campanha 98-99 inclui linha BIM ; 3ªa campanha início Set 2001.
CLEF: Cross Language Evaluation Forum – Avaliação BIM para línguas europeias
![Page 97: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/97.jpg)
Cross-Language Evaluation Forum (CLEF)
Fundada pela DELOS Network of Excellence for Digital Libraries e US National Institute for Standards and Technology (NIST)
Extensão da linha BIM no TREC (1997-1999)
Coordenação distribuída – sites nacionais para cada língua na colecção multilingue
![Page 98: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/98.jpg)
CLEF – Principais objectivos
Promove a investigação, disponibilizando uma infra-estrutura para:
Avaliação, teste e afinação de sistemas BIMComparação e discussão de resultados Construção de plataformas de teste para
desenvolvimento de sistemas
![Page 99: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/99.jpg)
CLEF 2001 – Descrição da Tarefa
4 linhas principais de avaliação no CLEF 2001: Busca de informação multilingue Busca de informação bilingue Busca de informação monolingue(sem ser Inglês) Busca de informação em domínios específicos
Linha experimental para sistemas multilingue interactivos
![Page 100: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/100.jpg)
CLEF 2001 – Colecção de Dados
Corpus Multilingue comparável com documentos de jornais e agências de notícias para 6 línguas (DE,EN,FR,IT,NL,SP). Acima de um milhão de documentos
Conjunto de 50 tópicos comuns (dos quais são extraídas as interrogações) criados em 9 línguas europeias (DE,EN,FR,IT,NL,SP+FI,RU,SV)
e 3 línguas asiáticas (JP,TH,ZH)
![Page 101: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/101.jpg)
Tópicos em DE,EN,FR,IT FI,NL,SP,SV,RU,ZH,JP,TH
Inglês Alemão Francês Italiano
Sistema de BIM dos participantes
Documentos em
CLEF 2001 – Busca de Informação Multilingue
Uma lista de documentos em DE, EN, FR,IT e SP ordenados por ordem
decrescente de relevância estimada
Espanhol
![Page 102: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/102.jpg)
CLEF 2001 – Busca de Informação Bilingue
Tarefa:interrogar colecções em Inglês ou Alemão
Objectivo: encontrar documentos na língua objecto, apresentando os resultados por ordem de relevância
Tarefa simples para principiantes !
![Page 103: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/103.jpg)
CLEF 2001 – Busca de Informação Monolingue
Tarefa: interrogar colecções de documentos em FR|DE|IT|NL|SP
Objectivo: compreender melhor os problemas da busca de informação dependentes da língua
Línguas diferentes apresentam problemas diferentes
Aspectos envolvidos incluem a ordem das palavras, morfologia, caracteres diacríticos, variantes da língua
![Page 104: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/104.jpg)
CLEF 2001 - Domain-Specific IR
Tarefa: interrogar uma base de dados estruturada dum domínio vertical (ciências sociais) em alemão
Thesaurus Alemão/Inglês /Russo e tradução para inglês dos títulos dos documentos
Tarefa monolingue ou multilingue
Objectivo: compreender as implicações de interrogar em domínios específicos
![Page 105: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/105.jpg)
CLEF 2001 – BIM Interactivo
Tarefa: selecção interactiva de documento numa língua “desconhecida”
Objectivo: avaliação da apresentação dos resultados em vez do desempenho do sistema
![Page 106: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/106.jpg)
CLEF2000 - Abordagens
Sistemas de Tradução Comercial (Systran, Lernout e Hauspie Power Translator)
Consulta de dicionários bilingue Corpora paralelo alinhado (derivado do Web) Thesaurus de similaridade(usando corpora comparável)
Experimentadas diferentes abordagens para expansão de interrogações e fusão de resultados
![Page 107: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/107.jpg)
CLEF2000 – Técnicas Testadas
Testes de avaliação parcial Dicionário de termos derivado de copora paralelo
versus tradução automática Utilização de métodos de PLN, isto é identificação
de frases, processamento de formas compostas e análise morfológica e sintática
Técnicas de radicalização independentes da língua Desambiguar termos de interrogação interactiva Triangulação léxica (Ballestreros)
![Page 108: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/108.jpg)
Síntese da Avaliação
Não é uma competição para descobrir o melhor Cria a oportunidade para testar, afinar e
comparar abordagens no sentido de aumentar o desempenho dos sistemas
Uma campanha de avaliação cria uma comunidade interessada em avaliar os mesmos aspectos e comparar ideias e experiências.
![Page 109: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/109.jpg)
6. Aplicações
Sistemas que foram construídos para experiências em IR (TREC, CLEF, NTCIR)
– Suportam indexação de documentos em larga escala– Suportam processamento em batch de interrogações longas
Sistemas que foram construídos para uso comercial– Disponibilizam resposta rápida às interrogações do utilizador– Suportam actualização dinâmica do conteúdo
![Page 110: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/110.jpg)
![Page 111: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/111.jpg)
![Page 112: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/112.jpg)
![Page 113: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/113.jpg)
![Page 114: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/114.jpg)
![Page 115: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/115.jpg)
CINDOR
Aceita a interrogação em linguagem natural na língua nativa do utilizador
Faz as correspondências da interrogação usando o Conceptual Interlingua
Disponibiliza uma lista de documentos ordenados por ranking, agrupados por língua
Traduz opcionalmente os documentos em língua estrangeira para a língua nativa do utilizador
![Page 116: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/116.jpg)
I would like information
about the possible
employment of
NATO
ground troops
in the Kosovo
conflict.
possible (E)conceivable (E)
possible (F)concevable (F)imaginable (F)
factible (S)concebible (S)posibilidad (S)
ground troups (E)ground forces (E)
armées de terre (F)troupes (F)
fuerzas terrestres (S)tropas terrestres (S)
soldados (S)tropas (S)
ejército (S)
Kosovo (E)Kosovo (F)Kosovo (S)
conflict (E)discord (E)conflit (F)
désaccord (F)dissension (F)conflicto (S)discordia (S)
enfrentamiento (S)crisis (S)
employment (E)engagement (E)
commissioning (E)engagement (F)
envoyé (F)empleo (S)
uso (S)envío (S)
NATO (E)North Atlantic Treaty
Organization (E)OTAN (F)
Organisation du Traité de l’Atlantique Nord (F)
OTAN (S)Organizacion del Tratado del Atlantico Norte (S)
English Document Excerpt:
WASHINGTON, March 29 (AFP) -
The United States and Britain beefed
up NATO forces as the bombing
campaign against Yugoslavia entered a
24-hour phase and US officials warned
ground troups in Kosovo were “no
magic bullet.”
French Document Excerpt:
PARIS, 30 mars (AFP) - 25 MARS: Le
président américain Bill Clinton
déclare ne pas avoir l’intention “d’
envoyer de troupes.”
Spanish document Excerpt:
BRUSELAS, Mar 28 (AFP) - De
enviarse tropas terrestres,
posibilidad que decartan actualmente
todos los países de la organización, las
pérdidas serían considerables, según
los estrategas de la OTAN.
Interrogação em Inglês Conceptual Interlingua Documents Multilingue
![Page 117: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/117.jpg)
Demo… Introdução da Interrogação
![Page 118: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/118.jpg)
Demo… Ver resultados
![Page 119: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/119.jpg)
Demo… Traduzir para inglês
![Page 120: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/120.jpg)
Demo… Ver documento
![Page 121: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/121.jpg)
![Page 122: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/122.jpg)
![Page 123: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/123.jpg)
![Page 124: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/124.jpg)
![Page 125: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/125.jpg)
![Page 126: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/126.jpg)
Aplicações em Biliotecas Digitais (DL)
Não muitas a reportar Maior focagem no processamento de texto
multilingue em vez de funcionalidades multilingue.
![Page 127: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/127.jpg)
Projectos de DL em Pisa
ETRDL
SCHOLNET
ECHO
![Page 128: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/128.jpg)
ETRDL
Interfaces Multilingue (6 languages)– Escolha da língua da interface– Seleccionar a língua da colecção de documentos
processamento de texto multilingue
![Page 129: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/129.jpg)
Acesso a Informação Multilingue
![Page 130: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/130.jpg)
SCHOLNET
ETRDL mais a funcionalidade BIM
Thesaurus multilingue– Mecanismos para manutenção e actualização do
thesaurus
Busca em texto livre (abstracts) via pseudo-realimentação de relevância
![Page 131: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/131.jpg)
ECHO
Arquivos de filmes em 4 línguas– Busca Multilingue através dum vocabulário
controlado– Experiências numa abordagem baseada em
corpus para reconhecimento de voz
![Page 132: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/132.jpg)
9. Alguns URLs úteis
W3C - WINTER - http://www.w3.org/International/ Cross-Language Information Retrieval -
http://www.clis.umd.edu/dlrg/clir/ Cross-Language Evaluation Forum -
http://www.iei.pi.cnr.it/DELOS/CLEF Multilingual Metadata -
http://purl.org/DC/groups/languages.htm EC - Multilingual Information Society -
http://www2.echo.lu/mlis/ DARPA - Translingual Information Detection, Extraction and
Summarization - http://www.darpa.mil/ito/research/tides/
![Page 133: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/133.jpg)
Mestrado em Sistemas de Informação
Busca de Informação MultilingueBusca de Informação Multilingue
Créditos
Esta apresentação é baseada numa realizada pela Carol Peters na Escola de Verão em Bibliotecas Digitais em Pisa, Julho de 2001
![Page 134: Busca de Informação Multilingue](https://reader035.fdocuments.net/reader035/viewer/2022081513/56815467550346895dc28075/html5/thumbnails/134.jpg)
Referências
Peters, C., Sheridan, P. (2001). "Multilingual Information Access". In M. Agosti, F. Crestani, G. Pasi (eds.) "Lectures on Information Retrieval", Lecture Notes in Computer Science 1980, Springer Verlag, pp51-80