PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf ·...

21
27/08/2010 1 1 Introdução ao Processamento de Línguas Naturais SCC5869 Tópicos em Processamento de Língua Natural Thiago A. S. Pardo PLN e áreas correlatas Limites entre PLN e outras áreas: como percebem isso? Recuperação de informação Extração de informação Inteligência artificial Banco de dados Interação humano-computador Tradução automática Tradução Mineração de textos Lingüística de córpus 2

Transcript of PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf ·...

Page 1: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

1

1

Introdução ao Processamento de Línguas Naturais

SCC5869 Tópicos em Processamento de Língua Natural

Thiago A. S. Pardo

PLN e áreas correlatas

� Limites entre PLN e outras áreas: como percebem isso?

� Recuperação de informação

� Extração de informação

� Inteligência artificial

� Banco de dados

� Interação humano-computador

� Tradução automática

� Tradução

� Mineração de textos

� Lingüística de córpus 2

Page 2: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

2

3

Exemplos

� Revisão ortográfica� Tokenizador� Léxico� Regras para

ordenar sugestões

4

Exemplos

� Revisão gramatical� Tokenizador� Segmentador

sentencial� Etiquetador

morfossintático� Analisador sintático� Léxico� Regras gramaticais

Page 3: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

3

5

Exemplos

� Revisão estilística� Tokenizador� Regras

estilísticas� ...

6

Exemplos

� Análisesintática� Léxico� Regras

sintáticas� ...

Page 4: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

4

7

8

Exemplos

� Sumarização automática� Métodos

profundos e superficiais

� ...

Page 5: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

5

9

Exemplos

� Auxílio à escrita de textos científicos� Regras de estruturação textual� Exemplos da estruturas de outros textos� Crítica de cada parte do texto

10

Page 6: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

6

11

12

Page 7: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

7

13

Exemplos

� WordNet� Base de dados lexicais e conceituais� Relações entre palavras

� Sinonímia� Antonímia� Acarretamento� Etc.

� Relações ontológicas

14

Page 8: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

8

15

PLN

� Conhecimento lingüístico é a base para muitos sistemas que manipulam língua natural� Extração de conhecimento de córpus

� Regras gramaticais, sintáticas e discursivas� Estrutura textual� Regras de tradução� Critérios para resumir

16

Page 9: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

9

17

Conhecimento de mundo

18

Senso comum

Page 10: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

10

19

PLN no Brasil

� Poucos grupos de pesquisa no país� São Carlos� Porto Alegre� Rio de Janeiro� Outros?

20

Recentemente

� A área de PLN tem crescido no Brasil� Tecnologia da Informação�

� Comissão especial da SBC� Eventos científicos próprios melhores e maiores

a cada ano� Além dos eventos típicos de IA

� Nascimento de uma revista nacional� Iniciativas internacionais importantes

Page 11: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

11

21

Comissão Especial de PLN

� Composição� Thiago A. S. Pardo (USP) - presidente� Renata Vieira (PUC-RS)� Helena Caseli (UFSCar)� Aline Villavicencio (UFRGS)� Caroline Gasperin

� www.sbc.org.br/ce-pln� Aproximadamente 200 membros na lista de discussão� Não precisa ser membro da SBC

22

Page 12: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

12

23

24

Page 13: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

13

25

26

Outras iniciativas� ACL (aclweb.org)

� ACL anthology, listas de discussão, wiki� Registry of Latin American Researchers in Natural Language

Processing and Computational Linguistics

� Linguateca (www.linguateca.pt)� Oficialmente finalizado

� forum-lp

� Eventos correlatos� Encontro de Lingüística de Córpus� Workshop de Descrição do Português

� Junto ao STIL

� Toolkits� GATE, NLTK, Giza++ e Moses, AntMover, etc.

Page 14: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

14

27

Dilemas no Brasil

� Como lidar com a interdisciplinaridade� Linda no papel, complicada na prática

� Carta de Búzios� Lingüística é área afim da Computação?

� Qualis� Relativamente confortável para a

Lingüística� Árduo para a Computação

28

Dilemas no Brasil

� Como atrair áreas correlatas? Na contramão do que se exige em Computação?� Ciência da Informação

� Processamos o português e publicamos em inglês para estrangeiros?� Aceitação nem sempre fácil em conferências

internacionais� Valorização do trabalho com o português

Page 15: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

15

29

Dilemas no Brasil

� Texto vs. fala

� Comunidades separadas, mas tentando conversar

� Texto: cientistas da computação, lingüistas

� Fala: engenheiros elétricos

30

Tendências no mundo

� Aplicações cross-language

� Apesar de limitações de PLN

� Robustez, escalabilidade eindependência de língua� “Deve funcionar para qualquer coisa

retornada pelo Google”

Page 16: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

16

31

Tendências no mundo

� Atenção aos minoritários� Desafio científico & (ou versus?) trabalho

social

� Conferências de avaliação conjunta� NIST, TREC, MUC, DUC/TAC, CLEF,

HAREM, etc.� Roadmaps

32

PLN: onde encontrar

� De âmbito internacional� ACL, NAACL, EACL, HLT, COLING, EMNLP,

Interspeech, PROPOR, CICLING, CoNLL, EAMT, IJCNLP, LAW, LREC, RANLP, Corpus Linguistics, ...

� Computational Linguistics, Natural Language Engineering, Machine Translation, Linguamática, ...

� De âmbito nacional� STIL, ELC, ...� Intelligent Computing, ...

Page 17: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

17

PLN no Brasil

� Como sentem?� Vai bem?� Principais áreas de pesquisa?

33

34

Área de formação

1

93

1

5

1

2

43

4

1

0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100

Ciência da Informação

Computação

Direito

Engenharia Elétrica

Engenharia Mecânica

Fisica

Letras/Lingüística

Matemática

Pesquisa Operacional

Áre

a

Quantidade

PLN no Brasil Pardo et al. (2009)

Page 18: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

18

PLN no Brasil

35

Distribuição de pesquisadores por estado

1

2

2

1

1

2

1

4

1

4

1

1

1

12

11

27

4

71

0,68%

1,36%

1,36%

0,68%

0,68%

1,36%

0,68%

2,72%

0,68%

2,72%

0,68%

0,68%

0,68%

2,72%

8,16%

7,48%

18,37%

48,30%

0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75

AM

BA

CE

DF

ES

GO

MA

MG

MS

MT

PA

PB

PE

PR

RJ

RS

SC

SP

Est

ados

Quantidade

Pardo et al. (2009)

36

PLN no Brasil Pardo et al. (2009)

Page 19: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

19

3737

Temas de pesquisa

05

101520253035404550556065

Qu

anti

dad

e

Interpretação de língua natural Geração de língua natural Processamento de fala

Fonética e fonologia Morfologia Sintaxe

Semântica Discurso Pragmática

Lexicologia e lexicografia Terminologia Ontologias e taxonomias

Formalismos gramaticais Esquemas de marcação e anotação de dados Criação de recursos lingüístico-computacionais

Representação e modelagem de conhecimento Tagging Parsing

Reconhecimento de entidades nomeadas/mencionadas Modelagem e/ou análise semântica Modelagem e/ou análise discursiva

Resolução de anáforas e correferências Ferramentas de auxílio à escrita Sumarização

Tradução automática Simplificação textual Categorização de textos

Perguntas e respostas Extração de informação Recuperação de informação

Mineração de textos Mineração de web Gerenciamento de conteúdo e de documentos

Web semântica Bibliotecas digitais Lingüística de corpus

Psicolingüística Interfaces em língua natural Aplicações

Avaliação Outro

SemânticaOntologias e taxonomias

Criação de recursos

Extração e recuperação de

informação

Lingüística de córpus

PLN no Brasil Pardo et al. (2009)

3838

Outros temas de pesquisa

0

2

4

6

8

10

12

Qua

ntid

ade

Agentes Algoritmos evolutivosAprendizado de máquina Aquisição de linguagemAvaliação computadorizada Banco de dadosBioinformática Computação afetivaComputação móvel Educação à distânciaEngenharia de software Ferramentas de auxílio ao ensino de computaçãoFísica FonéticaGrafos HipermídiaIA IHCInformática na educação JogosLéxico LingüísticaLingüística de córpus LiteraturaMineração de dados Mineração de textosMultimídia OntologiasProcessamento de imagens Processametno de sinaisProgramação por restrições Raciocínio baseado em casosReconhecimento de padrões Recuperação de informaçãoRedes neurais RobóticaSegurança SemânticaSintaxe Sistemas de recomendaçãoSistemas inteligentes Sistemas operacionaisTecnologia da informação TerminologiaTradução Vida artificialVisualização Web

Eng. Software IA

Mineração de Dados

Tradução

PLN no Brasil Pardo et al. (2009)

Page 20: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

20

39

Fontes de financiamento

02468

101214

CAPESCNPq

FAPEAM

FAPEMAT

FAPEMIG

FAPERGS

FAPERJ

FAPESB

FAPESP

FINEP

Funda

ção A

rauc

áriaQ

uant

idad

e de

pro

jeto

sPLN no Brasil Pardo et al. (2009)

40

PLN no Brasil

Desafios refinados % Nro.Financiamento de projetos 14,2% 19Ausência de recursos básicos de qualidade para o português (córpus, um bom parser, WN, REM) 11,9% 16Dificuldade em atrair e formar alunos e pesquisadores 6,7% 9Criação e refinamento de modelos de descrição e análise lingüística 5,2% 7Montagem e coordenação de esforços multidisciplinares 4,5% 6Pouca interação entre universidade e empresa nessa área de pesquisa 4,5% 6Criação de ontologias 3,7% 5Escassez no país de material de pesquisa relevante (por exemplo, livros de autores renomados da área) 3,7% 5Interação multidisciplinar 3,7% 5Anotação de córpus 3,0% 4Certa marginalização da área tanto na Computação quanto na Lingüística 3,0% 4Falta de formação computacional básica para lingüistas 3,0% 4Metodologia de avaliação robusta de recursos, ferramentas e aplicações 2,2% 3Realizar pesquisa em conjunto com as demais atividades que as universidades demandam 2,2% 3Divulgação da área e das ferramentas criadas 2,2% 3Sistematização e automatização das práticas da lexicografia e terminologia 1,5% 2Resultados insatisfatórios na extração automática de termos 1,5% 2Maior e melhor interface e interatividade dos sistemas de PLN 1,5% 2Acesso a bases de dados nacionais e internacionais 1,5% 2Produção de material de pesquisa em português 1,5% 2Falta de cooperação entre grupos nacionais 1,5% 2

Pardo et al. (2009)

Page 21: PLN e áreas correlatas - wiki.icmc.usp.brwiki.icmc.usp.br/images/5/5e/IntroducaoPLN-parte3.pdf · Linguateca ( ) Oficialmente finalizado forum-lp Eventos correlatos ... Maior e melhor

27/08/2010

21

41

PLN no Brasil

Pouca integração entre os grupos de pesquisa nacionais e internacionais 0,7% 1Desenvolvimento de sistemas para aplicações reais e de alto desempenho 0,7% 1Falta de ações da SBC para favorecer pesquisas multidisciplinares 0,7% 1Pulverização da pesquisa em subáreas distintas 0,7% 1Trabalhar com língua portuguesa e ter inserção internacional 0,7% 1Falta de modelos de processamento integrado dos vários níveis de conhecimento lingüístico 0,7% 1Desequilíbrio na distribuição de financiamento (grupos estabelecidos conseguem mais) 0,7% 1Criação de um glossário eletrônico 0,7% 1Lacunas lexicais, culturais e pragmáticas entre inglês e português 0,7% 1Editor que permita armazenar e manipular os resultados de pesquisas lingüísticas 0,7% 1Busca de padrões em textos criptografados 0,7% 1Alinhamento semântico entre línguas naturais 0,7% 1Resultados insatisfatórios em extração de informação 0,7% 1Incorporar conhecimento da Lingüística Computacional para construção da web semântica 0,7% 1Direitos autorais para construção de córpus 0,7% 1Equipamento computacional ultrapassado 0,7% 1Poucas pesquisas em Geração de Língua Natural 0,7% 1Resultados insatisfatórios em recuperação de informação 0,7% 1Criação de recursos que permitam avanços nas pesquisas em tradução automática 0,7% 1Poucos avanços recentes na área de tradução automática 0,7% 1Desenvolvimento de técnicas para anotação automática de dados 0,7% 1Desenvolvimento de sistemas sem a necessidade de dados anotados 0,7% 1Pouco desenvolvimento da área de pesquisa 0,7% 1

Pardo et al. (2009)

� PLN& IA(até2008)

42

PLN IA Proporção

Artigos em periódicos 809 1307 0,62

Livros 110 179 0,61

Capítulos de livros 264 473 0,56

Trabalhos em anais 1603 6264 0,26

Resumos expandidos em anais 197 506 0,39

Resumos em anais 975 1695 0,58

Doutorados finalizados 102 225 0,45

Mestrados finalizados 455 1267 0,36

ICs finalizadas 418 983 0,43

Doutorados em andamento 45 143 0,31

Mestrados em andamento 184 335 0,55

ICs em andamento 42 220 0,19

PLN no Brasil Pardo et al. (2009)