Visão do futuro do HAREM
description
Transcript of Visão do futuro do HAREM
![Page 1: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/1.jpg)
1Information and Communication Technologies
Visão do futuro do HAREM
Diana Santos
Linguateca
Encontro HAREM, 15 de Julho de 2006
![Page 2: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/2.jpg)
2Information and Communication Technologies
Estrutura
Visão de conjunto gregos e troianos contexto1 e contexto2
Questões por determinar uso dos recursos: a questão do género, das abordagens, dos recursos a questão de gregos e troianos: conseguimos agradar a todos?
Futuro Mais do mesmo, com algumas melhorias Novos desafios (um harém de HAREMs?)
![Page 3: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/3.jpg)
3Information and Communication Technologies
REM, reconhecimento de entidades mencionadas
Identificação e classificação de nomes próprios (e expressões numéricas) em texto -- em português
![Page 4: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/4.jpg)
4Information and Communication Technologies
Simples, né?
A Mona Lisa foi roubada do Louvre e encontrada ao pé da Torre Eiffel, junto com Picassos e Braques, no cais de Orsay. O Libération já anunciou a detenção do “ruivo de Lyon”, que vai voltar ao célebre D76 da prisão de Vincennes. Belém emitiu um comunicado de solidariedade oferecendo o SMI, depois de Tony Blair ter colocado a Scotland Yard à disposição da França.
Metonímia, metáfora, comparação, falta de precisão...
Este “artigo” é sobre quê? roubo de obras de arte em França colaboração entre polícias europeias
![Page 5: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/5.jpg)
5Information and Communication Technologies
O que é?
É uma espécie de primeira passagem num texto para ter ideia do seu conteúdo...
Semântica “light” Um pré-processamento dos textos com informação que os “agarra” ao
mundo Uma ajuda a toda e qualquer tarefa de PLN...
![Page 6: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/6.jpg)
6Information and Communication Technologies
Para que serve? Aplicações em que dá jeito:
IR: indexar e buscar, visualizar TA: traduzir como deve ser
Rio de Janeiro Prestes
Análise sintáctica ela foi a Lisboa de TGV lá foi a Maria de Adidas para a festa
Síntese e reconhecimento de fala PUCi, TAP, IPO, Universidade de Aveiro
Sumarização
![Page 7: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/7.jpg)
7Information and Communication Technologies
O nosso problema: pouca massa crítica
Conjunto de grupos com ambições e problemas diferentes detecção de localizações na Web análise sintáctica de cobertura larga anotação de entrevistas no Museu da Pessoa
Generalizámos a tarefa de forma a abranger todas as tarefas, mas reduzimos a sua dificuldade (sem co-referência, sem interpretação final)
Aumentámos a quantidade de mini-problemas (vários tipos de texto) identificação vários sentidos (objectivos) possíveis
![Page 8: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/8.jpg)
8Information and Communication Technologies
As categorias contempladas pelo HAREM
PESSOA ORGANIZACAO LOCAL TEMPO OBRA ABSTRACCAO ACONTECIMENTO COISA QUANTIDADE VARIADO
![Page 9: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/9.jpg)
9Information and Communication Technologies
Os tipos: subcategorias com motivação linguística
PESSOA
OBRA
ABSTRACCAO
(PRODUTO) ARTE
GRUPOIND GRUPOCARGO GRUPOMEMBRO
PUBLICACAO REPRODUZIDA
INDIVIDUAL CARGO MEMBRO
MARCA PLANO IDEIA NOME
DISCIPLINA ESTADO ESCOLA OBRA ESTADO
![Page 10: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/10.jpg)
10Information and Communication Technologies
Os tipos: subcategorias com motivação linguística
LOCAL
ORGANIZACAO
COISA
ACONTECIMENTO
INSTITUICAO EMPRESA
VIRTUAL CORREIO
ADMINISTRACAO SUB
GEOGRAFICO ADMINISTRATIVO ALARGADO
SUBSTANCIA OBJECTO CLASSE
EFEMERIDE ORGANIZADO
EVENTO
![Page 11: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/11.jpg)
11Information and Communication Technologies
Os tipos: subcategorias com motivação linguística
TEMPO
VALOR
VARIADO
MOEDA CLASSIFICACAO
PERIODO CICLICO
QUANTIDADE
DATA HORA
OUTRO
![Page 12: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/12.jpg)
12Information and Communication Technologies
A noção de contexto
Ficar-se pelos tipos: um país é sempre um país Ir ao significado no contexto: conforme o significado da própria frase,
a categoria varia... de duas maneiras previsível e sistemática (qualia): faz parte do significado de um país poder ser
visto de várias maneiras imprevisível (tb afecta o de cima)
O segundo caso é mais difícil... mas mais útil
![Page 13: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/13.jpg)
13Information and Communication Technologies
Avaliação conjunta: o ideal
Concordar numa tarefa e discutir os pormenores em conjunto Criar um cenário de avaliação
medidas recursos procedimento
Comparar o desempenho dos vários sistemas, obtendo o estado da arte Tornar públicos os recursos, programas e as saídas dos sistemas para
validação externa pesquisa tanto sobre a tarefa como sobre a metodologia de avaliação organização de avaliações conjuntas futuras treino de novos actores/participantes
![Page 14: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/14.jpg)
14Information and Communication Technologies
Avaliação conjunta: na prática...
As pessoas confiam na organização Não testam os programas Não analisam as directivas Não seguem as normas Quando instadas a sugerir medidas, até recusam...
Na prática, a organização tem muito mais responsabilidade do que na teoria
![Page 15: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/15.jpg)
15Information and Communication Technologies
Vantagens de uma avaliação conjunta
Acordo sobre detalhes que geralmente tornam as medidas individuais de avaliação incomensuráveis
Aumentar a visibilidade de uma tarefa particular, dos seus problemas e soluções: construção de comunidade vários novos sistemas nasceram com o HAREM
Produzir muita documentação que de outra forma nunca seria produzida directivas do HAREM; discussão de problemas morfológicos; discussão sobre
questões de RAP no CLEF
Pode dar origem a “baselines” (mínimos garantidos) e recursos (sistemas, almanaques) para trabalho futuro
![Page 16: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/16.jpg)
16Information and Communication Technologies
Desvantagens de uma avaliação conjunta
Torcer demasiado o que se quer avaliar de forma a agradar a todos Preocupar-se com um conjunto de detalhes irrelevantes aos outros Depender do conjunto de sistemas
![Page 17: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/17.jpg)
17Information and Communication Technologies
Problemas do I HAREM
Inconsistência em relação ao tratamento das categorias e dos tipos Entropia dos tipos considerada, não das categorias Categorias abertas (VARIADO), tipos fechados (sem OUTRO)
Inconsistência em relação à relação entre a identificação e a classificação semântica para algumas categorias, a identificação depende da classificação (VALOR,
COISA), donde a identificação conceptualmente podia ser medida depois
A questão do contexto não foi levada aos seus últimos limites A dona da barraquinha das farturas da Feira Popular é uma PESSOA!
independentemente da Feira Popular ser um LOCAL A prisão de Vincennes pode ser um LOCAL em Vincennes (outro LOCAL)
![Page 18: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/18.jpg)
18Information and Communication Technologies
Coisas que podiam ser melhoradas
Premiar subpartes que fazem sentido; penalizar o inverso Reunião da Comissão Política do PC do B de Minas Gerais Outubro de 1999
Premiar a identificação de grandes EMs ou de EMs teoricamente ambíguas Santos e Silva
Pesar os sucessos pelo seu peso relativo Tratar da entropia a nível das várias categorias Usar uma matriz de proximidade ou de risco
Resultado: programas de avaliação ainda mais complicados, mas mais justos
![Page 19: Visão do futuro do HAREM](https://reader035.fdocuments.net/reader035/viewer/2022071711/5681399d550346895da137ab/html5/thumbnails/19.jpg)
19Information and Communication Technologies
Futuro: duas opções
prosseguir afinando o armamento possibilidade de usar aprendizagem automática possibilidade de crítica e refinamento das directivas e CDs possibilidade de ir mais a fundo em alguns casos possibilidade de fazer validação estatística
mudar de rumo e experimentar outras coisas uma tarefa muito mais concreta: um tipo de textos, um tipo de problema uma tarefa que use REM: RAP, indexação, ...
fazer ambas... neste caso, precisamos decididamente de mais apoio da comunidade...