Extensiones a un Buscador Web

23
1 Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similar research.phillips.com/generalinfo/special/audiofp.as Curso: Recuperación de Información – 2002/1 -- ChaTo

TAGS:

description

 

Transcript of Extensiones a un Buscador Web

Page 1: Extensiones a un Buscador Web

1

Extensiones a BuscadoresReferencias:

Cap. 11 Modern Information Retrievalswish-e.orgalexa.com

copernic.comclr.research.compaq.com/vision/multimedia/similarity/default.htmresearch.phillips.com/generalinfo/special/audiofp.asp

Curso: Recuperación de Información – 2002/1

-- ChaTo

Page 2: Extensiones a un Buscador Web

2

Agenda

Otros Buscadores

– Para un sitio

– Verticales

– Metabuscadores

Búsqueda multimedia

Page 3: Extensiones a un Buscador Web

3

Buscadores para un sitio

Buscadores de colección pequeña

– Glimpse

– HT:Dig

– SwishE

– Excite Search

– MyWeb

Actualización automática

Indexación inteligente

– Datos estructurados y textos, XML

Page 4: Extensiones a un Buscador Web

4

Simple Web Indexing System for Humans – Enhanced

Archivo swish-e.conf

IndexDir ~/public_www/docs/

IndexFile ~/docs.idx

IndexOnly .txt .html

Crear indice (crontab)

0 0 * * * swish-e -c ~/swishe-e.conf

Page 5: Extensiones a un Buscador Web

5

Swish­E

Buscar

swish-e -w “casa” -f ~/docs.idx

swish-e -w “casa” -p “keywords” -f ..

Resultado:

# Search words: casa

# Number of hits: 3

1000 ~/public_www/docs/home.html 251

731 ~/public_www/docs/svc.html 193

124 ~/public_www/docs/abt.html 913

Page 6: Extensiones a un Buscador Web

6

Swish­E

Otras opciones

MetaNames author (afecta resultados)

PropertyNames keywords

MinWordLimit 4 (abc no indexado)

WordCharacters a-zA-Z0-9

IgnoreLimits 30 100 (30% min 100 doc)

IgnoreWords a ante bajo cabe ...

Page 7: Extensiones a un Buscador Web

7

Buscadores Verticales

ccTLD País + Sitios conocidos del país

Mayor cobertura, > 95%

– De la web pública indexable

Contexto controlado

– Posibilidad de lidiar con particularidades idiomáticas

– Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades)

Restricción a un contexto regional

– Mejor precisión en las búsquedas

Page 8: Extensiones a un Buscador Web

8

Búsqueda de noticias

Periodismo, valoración de una noticia

– Actualidad: debe ser nueva

– Cercanía o localidad.

– Prominencia de los actores/fechas/lugares

Valores cualitativos del contenido

– Suspenso o incógnita

– Conflicto

– Curiosidad

– Emoción

Page 9: Extensiones a un Buscador Web

9

Búsqueda de noticias (2)Actualidad

– Crawl frecuente

– Detectar fecha de primer cuasi-duplicado

Cercanía o localidad

– Colecciones de sitios controladas

– Colecciones de secciones controladas

– e.j.: diarios españoles, diarios de informática, etc.

Prominencia

– Número de cuasi-duplicados

– Elegir cuál cuasi-duplicado mostrar

Page 10: Extensiones a un Buscador Web

10

Ejemplo: newsmap

Page 11: Extensiones a un Buscador Web

11

Metabuscadores

Conección directa del cliente

– Alexa

– Copérnico

Conección indirecta

– Dogpile/Metasearch

– Timeout por cada buscador

Problema:

– Mezclar los rankings

Page 12: Extensiones a un Buscador Web

12

Copernic agent basic

Page 13: Extensiones a un Buscador Web

13

Combinar rankings

Ej.: gimnasia

– 5 jueces

– Se elimina el peor y el mejor

– Se toma el promedio de los otros tres

{máxima, mínima} relevancia

Modelo lineal: promedio ponderado por fiabilidad

– En la práctica no es mejor que promedio simple

Modelo no lineal: red neuronal

Page 14: Extensiones a un Buscador Web

14

Búsqueda Multimedia

Distinto de “búsqueda de multimedios”

– Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos

Características Especiales

– Objetos complejos

– Búsqueda casi siempre por similaridad => ranking

Espacios métricos.

– Maldición de la dimensionalidad.

Page 15: Extensiones a un Buscador Web

15

Almacenamiento

Modelo de datos

– Datos conocidos sobre el elemento multimedia

Automatización

– Detección automática de razgos

– Razgos + Certeza

Page 16: Extensiones a un Buscador Web

16

Lenguajes

3 tipos de predicado

Atributos

– filesize>2Kb

Estructura

– 3e compás 2o movimiento

Semántica

– mi la sol do ..., color, forma, textura, etc.

– Nunca dan match exacto.

Page 17: Extensiones a un Buscador Web

17

Google

Texto alrededor, ALT, nombre archivo

Page 18: Extensiones a un Buscador Web

18

All The Web

Page 19: Extensiones a un Buscador Web

19

Audio FingerPrint

Extraer razgos únicos

Buscar inteligentemente

Desafíos:

– Samples breves (3seg.)

– Samples con ruido

– Fingerprint pequeños

Usos

– Como un servicio para usuarios comunes

– Commercial verification

Page 20: Extensiones a un Buscador Web

20

FingerPrint

Hashing criptográfico:cambia demasiado

Perceptual hash o hashing robusto

Similaridad con humanos

Page 21: Extensiones a un Buscador Web

21

Similaridad imágenes

Extracción de razgos

– Bitmaped

– Vectoriales

Resistencia a transformaciones

– Escala, Rotación, Skew

Solución general

– Búsqueda espacios k-dimensionales

– Lenta

Page 22: Extensiones a un Buscador Web

22

Similaridad imágenes

Page 23: Extensiones a un Buscador Web

23

Similaridad imágenes

Consulta: proceso inverso

– Generar vector de descriptores y comparar