Seminário IN1099 Information Retrieval & Text Mining
description
Transcript of Seminário IN1099 Information Retrieval & Text Mining
![Page 1: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/1.jpg)
Seminário IN1099Information Retrieval & Text Mining
Luciano de Souza CabralCIn-UFPE
![Page 2: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/2.jpg)
Roteiro Introdução Motivação Recuperação de Informação Mineração de Textos
Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining
Conclusão Referências
![Page 3: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/3.jpg)
Introdução
Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)
Crescimento exponencial da World Wide Web
Novas técnicas de recuperação de informações (IR)
+
![Page 4: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/4.jpg)
Motivação
O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.
“Estamos morrendo ignorantes num mar de informações.” (Desconhecido)
![Page 5: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/5.jpg)
Recuperação da Informação
Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação.
Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.
![Page 6: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/6.jpg)
Conceito de Recuperação da Informação A Recuperação da Informação trata dos
aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]
![Page 7: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/7.jpg)
Modelos de Recuperação da InformaçãoEficiência de um sistema depende
principalmentedo modelo que o mesmo utiliza:
Modelos quantitativos Modelos dinâmicos Linguagem natural Ambiente Web - Web Semântica
![Page 8: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/8.jpg)
Abordagens de RI
Busca automática baseada em palavra-chave
Técnicas de Indexação Manual e Automática
Técnicas de Classificação Conceitos importantes
“ranking” “stemming” “tesaurus”
![Page 9: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/9.jpg)
Critérios utilizados em RI Revocação
Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes
Precisão Mede o sucesso da filtragem: número de
documentos relevantes recuperados em relação ao total de documentos recuperados
Cobertura: volume de informações disponíveis Formato de saída Tempo de resposta Atualidade
![Page 10: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/10.jpg)
Problemas de RI Ausência Contexto Problemas Lingüísticos Necessidade de Intervenção Humana
![Page 11: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/11.jpg)
Extração do Conhecimento
Por definição, “A extração de conhecimento em bases de dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].
[Cabral & Siebra, 06]
![Page 12: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/12.jpg)
Extração do Conhecimento Etapas do processo
* Adaptado de [TERRA, 2000].
[Cabral & Siebra, 06]
![Page 13: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/13.jpg)
Mineração de Dados Data Mining
“...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia]
Aplica-se dados categóricos e numéricos. Restrito a bases de dados relacionais e variações.
![Page 14: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/14.jpg)
Mineração de Dados Text Mining
“...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia]
Aplica-se a textos. Abrange textos em formato livre ou semi-
estruturados.
![Page 15: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/15.jpg)
Data Mining versus Text Mining
* Adaptado de [WOHL, 1998].
[Cabral & Siebra, 06]
![Page 16: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/16.jpg)
Abordagens e Áreas envolvidas Computacional
Aprendizagem de máquina; Lógica Fuzzy; Estatística; Recuperação da Informação.
Simbólica Processamento de Linguagem Natural; Raciocínio baseado em casos e simbólico
Ambas abordagens podem ser combinadas.
[Freitas, 07]
![Page 17: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/17.jpg)
Abordagens da Mineração de TextoPrós e Contras Computacional
Bom para maioria das tarefas;
De implementação rápida, baseada em aprendizagem;
Não recomendado para argumentação e dedução de informações.
Baseado em Conhecimento Melhor no tratamento
de contextos Ontologias!
Combina melhor com técnicas PLN Pergunta-Resposta Análise e
Argumentação Textual Extração de
Informação Pouquíssimo utilizado
na articulação de conceitos
[Freitas, 07]
Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)
![Page 18: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/18.jpg)
KDT - Knowledge Discovery from Texts
Técnicas KDT Extração de Informação Categorização de textos Análise das características Análise lingüística Sumarização de textos Associação entre textos Clustering (Agrupamento)
![Page 19: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/19.jpg)
Ontologias Definições
“Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998];
“Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].
![Page 20: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/20.jpg)
Vantagens Discussões na área de Mineração de Textos é
se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual.
Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário.
Entretanto é notório que algum tipo de intervenção humana é necessária e útil.
![Page 21: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/21.jpg)
Tendências Necessidade de integrar cada vez mais
as abordagens de BD, HM e RI com ontologias Busca de maior “semântica” associada às
informações
Abordagens apresentam funcionalidades complementares
Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer
Crescente necessidade de uso de Taxonomias e Ontologias
![Page 22: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/22.jpg)
Aplicações de RI com Ontologias OntoSeek M&M MASTER-Web AGATHE* KIM Platform WSMO Studio ambiente para modelagem de SWS OWLIM repositório semântico de escala industrial Wsmo4j API e referências para construção de SWS PROTON um pequeno construtor/editor de
ontologias de propósito geral. ORDI um framework para representação de
ontologias e integração de dados via middleware.
![Page 23: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/23.jpg)
OntoSeek
Desenvolvido para recuperar informações de páginas-amarelas e catálogo de produtos.
Ontologia na interface do usuário; Trata ambiguidade, polisemia, sinonímia e relações parte todo
usando WordNet [Miller, 95]
[Guarino et al., 99]
![Page 24: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/24.jpg)
M&M
M&M query system, por Natasha Noy. Apresenta conceitos de RI como sistema de
Pergunta-Resposta sobre o domínio de Microbiologia.
Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo.
Performance muito boa.
[Noy, 99]
![Page 25: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/25.jpg)
Master-WEB[Freitas & Bittencourt, 2003]
• Multi-Agent System for Text Extraction, Retrieval and classification over the WEB.
• Testes com ontologias de domínios diferentes, com resultados expressivos.
• Sem grandes alterações no projeto.
![Page 26: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/26.jpg)
KIM Platform Plataforma de Gerenciamento de Informação e
Conhecimento. Indexa, Armazena, Recupera, Consulta, análise de
linha de tempo das anotações semânticas.
![Page 27: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/27.jpg)
Evolução: Recursos na Web
Futuro: Web Semântica
Não apenas informações e aplicativos, mas
recursos em geral!
![Page 28: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/28.jpg)
O que é Web Semântica? É uma extensão da Web atual que visa dar
significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]
![Page 29: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/29.jpg)
Web Semântica: Visão da W3C “A Web Semântica é uma visão: é a idéia de
se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]
![Page 30: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/30.jpg)
XML e a Web Semântica Convergência de diversas tendências
Uso de padrões Busca de flexibilidade, conviver com
heterogeneidade Maior automatização Melhoria dos mecanismos de busca Melhoria dos descritores associados aos
recursos Maior suporte à integração de recursos
Serviços Web + Ontologias
![Page 31: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/31.jpg)
Conclusões A Recuperação da Informação sozinha apresenta
alguns problemas não triviais de serem tratados. A utilização de Mineração de Textos combinada
com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado.
Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados.
Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.
![Page 32: Seminário IN1099 Information Retrieval & Text Mining](https://reader036.fdocuments.net/reader036/viewer/2022062500/56814f95550346895dbd51bf/html5/thumbnails/32.jpg)
Referências TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio. São Paulo: Negócio Editora, 2000.
TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007.
MICTHELL, Tom. Machine Learning, McGraw Hill, 1997.
WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA: 1998.
STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2, 1998.
LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos . INTEXT: Porto Alegre, Dezembro, 2004.
CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006.
FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007.
WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>.
RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999.
W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso em: 30/09/2007.
GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3), 70--80, (May 1999).
KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and Retrieval Extended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005.
POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information Extraction and Retrieval. Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.