Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web
description
Transcript of Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web
![Page 1: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/1.jpg)
Aplicações dos Modelos de Aplicações dos Modelos de Recuperação da Informação na Recuperação da Informação na Extração de Conteúdos na WebExtração de Conteúdos na Web
Metodologia de Ciência da ComputaçãoProfessora: Odette Mestrinho Passos
Alunos:André PortoLetícia SantosMarcelo Henrique
![Page 2: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/2.jpg)
WEBWEB
• Grande quantidade de informação não-
estruturada.
• Necessidade do usuário filtrar informações
relevantes.
• Bancos de Dados para várias funções.
![Page 3: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/3.jpg)
• Importância dos sistemas
• IETS
• CRF (estado-da-arte)
WEBWEB
![Page 4: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/4.jpg)
Fundamentação teóricaFundamentação teórica
DefiniçãoSistemas que lidam com representação,
armazenamento,organização e acesso as informações.
ObjetivoEncontrar objetos de diferentes tipos de
estruturas que satisfacam um conjunto de informações dentro de uma grande coleção.
![Page 5: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/5.jpg)
ModelosModelos
VetorialBooleano
Probabilístico
![Page 6: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/6.jpg)
Modelo vetorialModelo vetorial
• Representação como vetores de termos
• A cada termo é possível associar um peso:• TF : caracterisitcas em comum• IDF : distinguir
• O termo cos(q) determina a proximidade da ocorrência.
• Similar: mesma região
![Page 7: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/7.jpg)
Modelo booleanoModelo booleano
• Baseado na teoria dos conjuntos
• Cada documento está associado a um conjunto de palavras-
chave
• Cada consulta é na forma de uma expressão booleana.
• Termos de índice na combinação especificada pela
consulta.
![Page 8: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/8.jpg)
Modelo probabilísticoModelo probabilístico
• Probabilidade de relevância ou incerteza
• Pesar dinamicamente os termos da consulta em relação ao
documento
• Termos relevantes já obtidos recebem peso maior dos que
não apareceram nos documentos relevantes.
![Page 9: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/9.jpg)
AplicaçõesAplicações
Web semântica
![Page 10: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/10.jpg)
AplicaçõesAplicações
ONDUXOn Demand Unsupervised Extraction
![Page 11: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/11.jpg)
• Método baseado em Recuparação de Informação para realizar tarefas de EIST.
• Sem fase de treinamento ajustada por usuários.
• Possibilidade de criação de modelos não específicos.
• Obteve resultados iguais ou melhores.
ONDUX
![Page 12: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/12.jpg)
Três fases principais:
ONDUX
![Page 13: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/13.jpg)
ONDUX
Coroado R$100,900 1010 Novo Lar.;
3 quartos 2 Banheiros 8199-7654
Coroado R$100,000
1010 Rua Novo Lar.; 3 quartos;
2 banheiros.
8199-7654
Blocking
![Page 14: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/14.jpg)
ONDUX
B0
Matching
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ??? Rua
Qtos. Banh. Telefone
B1 B2 B3 B4
B5 B6 B7
![Page 15: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/15.jpg)
ONDUX
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Rua Preço No. ???? Rua
Qtos. Banh. Telefone
Reinforcement
Coroado R$100,00 1010 Novo Lar
3 Quartos 2 Banheiros 8199-7654
Bairro Preço No Rua
Qtos. Banh. Telefone
![Page 16: Aplicações dos Modelos de Recuperação da Informação na Extração de Conteúdos na Web](https://reader035.fdocuments.net/reader035/viewer/2022062518/56813fe7550346895daad4a1/html5/thumbnails/16.jpg)
Dúvidas?Dúvidas?
Obrigado!