Gestão e Recuperação de Informação

Post on 05-Jan-2016

40 views 0 download

description

Gestão e Recuperação de Informação. Recuperação de Informação na Web. José Borbinha – DEI/IST. Recuperação de Informação na Web. O problema A Web superficial A Web profunda Outros assuntos. Recuperação de Informação na Web: O Problema. Quantos objectos? Quantas páginas? Como achar algo?. - PowerPoint PPT Presentation

Transcript of Gestão e Recuperação de Informação

Gestão e Recuperação de Informação

Recuperação de Informação na Web

José Borbinha – DEI/IST

2

• O problema

• A Web superficial

• A Web profunda

• Outros assuntos

Recuperação de Informação na Web

3

Recuperação de Informação na Web: O Problema

http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html

Quantos objectos?Quantas páginas?Como achar algo?

4

O “cyberespaço” em 1995

http://robot-club.com/lti/pub/lycos-websize-9510.html

5

O “cyberespaço” indexado pelo Lycos em 1995(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully

downloaded at least one file from 15,858 unique HTTP servers...”)

http://robot-club.com/lti/pub/lycos-websize-9510.html

6

A “Web” em 1999...(“By analyzing the overlap between engines we estimated a lower bound on the size of the "publicly indexable Web" at 320 million pages (see below for more details). The "publicly

indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages behind search forms or authorization requirements. The following figure shows the estimated

coverage of six major Web search engines compared to the estimated size of the Web.”)

http://www.cs.biu.ac.il/home/search/studies/lawrence.htm

7

Como achar algo na Web... ainda por cima quando nem tudo é estático...???

Web Superficial

Web Profunda

8

• O problema

• A Web superficial– Directórios e Catálogos

– Search Engines

• A Web profunda

• Outros assuntos

Recuperação de Informação na Web

9

No princípio: Directórios e Catálogos

– Yahoo, SAPO, ...

– Subject Gateways (Renardus, ...)

– ...

10

Yahoo, SAPO, ...: Indexar a web “à mão”...

11

“Subject Gateways”Renardus – Classificação de recursos de qualidade da web... “à mão”!!!

12

Renardus “mapping tool”...

ddc: Sistema de classificação decimal de

Dewey

13

A “raposa” não resistiu...

14

Mas ainda restam alguns persistentes...

15

Search Engines

– Altavista, Google, A9, tumba!...

– Anatomia de uma search engine

16

Altavista...

                                  Yahoo!

                                  AltaVista

17

1998: Google!!!

18

A9.com

19

20

21

tumba! (Temos Um Motor de Busca Alternativo!)

• Motor de busca para sites “portugueses” (de Portugal)

• Suporte ao Arquivo da “Web Portuguesa”

22

WebWeb

Anatomia de uma “Search Engine”

Cra

wle

rs

Re

po

sito

ry

Ind

ex

ing

En

gin

e

Ra

nki

ng

En

gin

e

Pre

sen

tati

on

En

gin

e

23

Uma nova área de negócio: ajudar clientes a ter os seus sites melhor “classificados” nos motores de busca...

Caso: “big feet” e Google (Financial Times – UK, September 16, 2005)

[http://www.ufppc.org/content/view/3416/36/]...

24

btw, Caso da Semana...

25

• O problema

• A Web superficial

• A Web profunda– Pesquisa distribuída

– Partilha de Metadados

• Outros assuntos

Recuperação de Informação na Web

26

A Web profunda

• Pesquisa Distribuída– Z39.50 / SRU (relembrar aula 5)

27

Servidores Z39.50 em bibliotecas Portuguesas:

28

b-on

29

Metalib (suporte à b-on...)

http://www.emeraldinsight.com/fig/0721040101001.png

Z39.50HTTP/HTML

...

30

A Web profunda

• Partilha de Metadados– OAI-PMH, Syndication (RSS, ATOM, ...)

31

OAI-PMHProtocol for Metadata Harvesting

(http://www.oaforum.org/tutorial/image/structure-model.gif)

Web-Services segundo o modelo

REST...

32

TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50

33

TEL Portal...

TELcentral index

SRUZ39.50

SRU

Z39.50

OAI-PMH

Search and Retrieval in TEL: Actual Scenario

34

Search and Retrieval in TEL: A Desired Scenario (project TELplus...)

“intelligent” TEL Portal...

TELcentral index

SRU

OAI-PMHOAI-PMH

Z39.50

35

Scholar Google: interoperabilidade com a “Web Profunda”

36

Scholar Google: interoperabilidade com a “Web Profunda”

37

“link” para a “Web

Profunda”...

38

Google News

Feeds em RSS

(RDF) e ATOM (XML)

39

• O problema

• A Web superficial

• A Web profunda

• Outros assuntos– A Web Semântica

– Preservação da Web

Recuperação de Informação na Web

40

A Web Semântica...

41

Preservação da Web

Dinâmica

Estática

Superficial

Profunda

42

Preservação da Web: Internet Archive

43

Preservação da Web: waybackmachine

44

Preservação Digital...

45

Perguntas?