Vyhledávání informací a multimediální aplikace

23
1 / 12 Petr Chmelař UIFS FIT VUT PDB IR & MM Apps Teorie! Modely Taxonomie Experiment. Realita? Vyhledávání informací a multimediální aplikace Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.h tml ]

description

Vyhledávání informací a multimediální aplikace. Information Retrieval and Multimedia Applications [ http://www.fit.vutbr.cz/~chmelarp/pdb/ ] [ http://www.dcs.gla.ac.uk/ssms07/material.html ]. Vědecké paradigma. psaní. myšlení. čtení. Teorie. Top-down approach. Věda. Experiment. - PowerPoint PPT Presentation

Transcript of Vyhledávání informací a multimediální aplikace

Page 1: Vyhledávání informací a multimediální aplikace

1 / 12

Petr Chmelař

UIFS FIT VUT

PDB

IR & MM Apps

Teorie!

Modely

Taxonomie

Experiment.

Realita?

Vyhledávání informací

a multimediální aplikaceInformation Retrieval

and Multimedia Applications

[ http://www.fit.vutbr.cz/~chmelarp/pdb/ ]

[ http://www.dcs.gla.ac.uk/ssms07/material.html ]

Page 2: Vyhledávání informací a multimediální aplikace

2

Vědecké paradigma

Teorie

Experiment

Realita

Top-down approach

Bottom-up approach

Věda

čtení

myš

lení

psaní

Page 3: Vyhledávání informací a multimediální aplikace

3

Konceptuální úroveň

Geometrická

logická úroveň

Obraz

fyzická úroveň

Reprezentace

Vnímání

Semantic

Gap

Vidění

Binární reprezentace

Page 4: Vyhledávání informací a multimediální aplikace

4 / 12

Petr Chmelař

UIFS FIT VUT

PDB

IR & MM Apps

Teorie!

Modely

Taxonomie

Experiment.

Realita?

Teorie!

Vyhledávání informací je činnost, jejímž cílem je

identifikace relevantních dokumentů nebo informací v

informačních zdrojích (např. fulltextových databázích),

souvisí s reprezentací, skladováním, organizací a

přístupem k informacím.

IR je vyhledávání v nestrukturovaných datech.

[ TDKIV, Keith, RBY-MIR ]

Page 5: Vyhledávání informací a multimediální aplikace

5

Objekt IR

Vstupy / výstupy

Dokument

Novinové články, web…

Fotografie

Řeč a zvuk

Video

Dotaz

Cokoliv ▲

Relevance?

za následující odbočkou …

Database

DocumentsQue

ries Output

Fee

dba

ck

Page 6: Vyhledávání informací a multimediální aplikace

6

Pozadí

Data

Strukturovaná

Čísla

Písmena

Slova

Informace

Rozdíl? ▲

Relevance?

Dotazování IR

potřeba

data

shodná

informace

relevantní

dotaz

strukturovaný

kompletní

přirozený

nekompletní

odvození

dedukce indukce

shoda

přesná nejlepší možná

model

deterministický pravděpodobnostní

přisoudíme významsmysl v daný okamžik

Page 7: Vyhledávání informací a multimediální aplikace

7

Modely

Modely IR odpovídají na otázky relevance dotazu k dokumentům v DB:

Jaké dokumenty mají být výsledkem dotazu?

Jaké bude jejich uspořádání pro prezentaci uživateli?

Klasické modely

Booleovský model

Pravděpodobnostní modely

Vektorové modely

Alternativní modely… Fuzzy set, neural network, belief network, SVM, latent

semantic indexing, hypertext model, …

QueryDocumentEvaluation

Model

Page 8: Vyhledávání informací a multimediální aplikace

8

Klasický booleovský model

Klasický model předpokládá, že dokument d je popsán množinou

reprezentativních klíčových slov – indexační termíny k.

Termy jsou obvykle podstatná jména (bez některých vybraných).

Binární rozhodovací kritérium je založené na přítomnosti, resp. absenci daného

klíčového slova a neuvažuje jeho váhu (pravdivost, dokazatelnost).

Dotazy jsou tvořeny termy a logickými spojkami and, or, not a závorkami.

Striktní formalizmus, efektivní (index „invertovaný soubor“), používá se pro

dotazování; výsledkem příliš (málo) dokumentů, neřeší uspořádání…

Binární porovnávání

Jednoduché

Jaccardovo

)(notand)and( 321 kkkq

21 ddM Diceovo

Kosinové

21

21

dd

ddM

21

21

dd

ddM

21

21

dd

ddM

Page 9: Vyhledávání informací a multimediální aplikace

9

Teorie informace

Term frequency

četnost výskytu klíčového slova

nebo jiné lingvistické jednotky

v … dokumentu

váha termínu - důležitost

Inverse document frequency

inverzní log četnosti

dokumentů, ve kterých

se tem vyskytuje

informační hodnota termínu

[ Shannon, Keith ]

t

iii kkkH

12 )p(log)p()(

ijiji D

ndkw 2, log),f(

Page 10: Vyhledávání informací a multimediální aplikace

10

Vektorový model

Váhový vektor přiřazen dotazu q i dokumentům dj …

pak vzdálenost (kosinová) je

ale může být i Eukleidovská, nebo dokonce Manhattan.

O vzdálenosti platí:

dist(x, y) ≥ 0

dist(x, x) = 0

dist(x, y) = dist(y, x)

dist(x, y) ≤ dist(x, z) + dist(z, y)

→ navazující přednáška

qtq wwq ,,1 ,, jtjj wwd ,,1 ,,

t

iji

t

iqi

t

i jiqi

j

jj

ww

ww

dq

dqdq

1,

2

1,

2

1 ,,,dist

q

dj

Page 11: Vyhledávání informací a multimediální aplikace

11

Pravděpodobnostní model

Relevance v IR nejistá → pravděpodobnost a teorie rozhodování!

Idea: Pokud se na daný dotaz podaří vrátit dokumenty v pořadí s klesající

pravděpodobností relevance, bude efektivita systému nejlepší možná.

Řešení: Bayesem

)()|P()P()()|P( apabbabpba )P(

)P()|P(

b

baba

)P(

)P()|P()|P(

b

aabba marginal probability

AP(B | ai)P(ai)

likehood prior informationposterior probability

Page 12: Vyhledávání informací a multimediální aplikace

12

Probability ranking principlePrincip ohodnocení dle pravděpodobnosti

Potřebujeme zjistit relevanci (True / False) daného dokumentu P(T | d):

Základem je, že minimalizujeme průměrnou (celkovou) chybu:

)P(

)P()|P()|P(

d

TTddT

)P(

)P()|P()|P(

d

FFddF

pravď. že při získání nerelevantního

dokumentu to bude d.

je relevantní

)P()|P(maxarg)|P(maxarg)(* TTddTddd

Tdecideweif

Fdecideweif

dFp

dTpderror

)|(

)|()|P(

D

dderrorerror )P()|P()P(

Page 13: Vyhledávání informací a multimediální aplikace

13

Taxonomie

Úplnost

Přesnost

)|P( PTP

TPPrecision

round ruthRelevant (g t )

True False

Info

rmat

ion

Req

uest

Po

sitiv

e

Ne

ga

tive

Data Collection

TruePositive

TrueNegative

FalsePositive

FalseNegative

)|P( TPT

TPRecall

)|P( FPF

FPFallout

Page 14: Vyhledávání informací a multimediální aplikace

14 / 12

Petr Chmelař

UIFS FIT VUT

PDB

IR & MM Apps

Teorie!

Modely

Taxonomie

Experiment.

Realita?

Experiment.

Funguje teorie?

Text

TREC evaluace a porovnání … relevance systémů

WWW

Google, Yahoo, Altavista, Jyxo, Seznam, …

Multimedia?

TRECvid…

PETS Performance Evaluation of Tracking and Surveillance

CLEAR, VACE, ETISEO, … http://pets2007.net/

http://www.clear-evaluation.org/

http://trec.nist.gov/tracks.html

Page 15: Vyhledávání informací a multimediální aplikace

15

Fulltextové databáze

Fulltextové vyhledávací funkce v databázích

Oracle

create index docs_index on docs(text) indextype is ctxsys.context;

select id, title, text, ctxsys.score(1) score from docs

where ctxsys.contains(text, ‘inrmation retrieval’, 1) > 0

order by ctxsys.score(1) desc;

MySQL

ALTER TABLE Clanky ADD FULLTEXT (nazev, anotace, text);

SELECT * FROM Clanky WHERE MATCH(nazev, anotace, text)

AGAINST (‘vyhledávání informací’ IN BOOLEAN MODE);

http://en.wikipedia.org/wiki/Special:Search?search=information+retrieval&fulltext=Search

Page 16: Vyhledávání informací a multimediální aplikace

16

TRECVid

Video data

100h (2007) + 156h (2006) + 140h (2005) + 150 (předtím)

Shot detection, ASR, MT, … Annotations

Tasks

Shot boundary detection

Detecting semantic concepts / features (39) [ Alan Smeaton ]

Searching based on topics

Automatic

Manual

Interactive

Automatic summarization

LSCOM Large Scale Concept Ontology for Mm http://www.lscom.org/

http://www-nlpir.nist.gov/projects/tv2007/tv2007.html#2.3

Page 17: Vyhledávání informací a multimediální aplikace

17

Koncepty [ Cees Noek ]

Page 18: Vyhledávání informací a multimediální aplikace

18

MultimodalitaKombinace více způsobů…

[ Alex Hauptmann ]

Page 19: Vyhledávání informací a multimediální aplikace

19

Demonstrace

Přísně tajné, neveřejné, …

CuVid Columbia Video Search System

http://apollo.ee.columbia.edu/cuvidsearch/

MediaMillhttp://mediamill.nl/

Informedia (dočasně nefunkční demo)

http://www.informedia.cs.cmu.edu/

ESP Gamehttp://www.espgame.org/

Flickr & Tiltomo http://flickr.com/ & http://www.tiltomo.com/

MultimediaN N9C Eculture projecthttp://e-culture.multimedian.nl/

LTU Visual Search on Royalty-Free imageshttp://corbis.ltutech.com/

Page 20: Vyhledávání informací a multimediální aplikace

20

Software

Finding Out Abouthttp://www.cse.ucsd.edu/~rik/foa/

BRISC Image Retrieval System

http://sourceforge.net/projects/brisc

Octagon - content based image retrieval softwarehttp://octagon.viitala.eu/

Chuckwalla (MediaWay)http://www.chuckwallainc.com/

IBM DB2 AIV Extenders

http://www-306.ibm.com/software/data/db2/extenders/aiv/

interMediahttp://www.oracle.com/technology/

Váš projekt :)

Page 21: Vyhledávání informací a multimediální aplikace

21 / 12

Petr Chmelař

UIFS FIT VUT

PDB

IR & MM Apps

Teorie!

Modely

Taxonomie

Experiment.

Realita?

Praxe?

Experimenty prokázaly, že teorie nefunguje

a že nic lepšího neexistuje.

[ Churchill ]

Multimodální?

Sémantické?

Page 22: Vyhledávání informací a multimediální aplikace

22

Literatura

CHMELAŘ, Petr. Multimediální databáze. 2006. http://

www.fit.vutbr.cz/~chmelarp/pdb/

Teaching Material @ SSMS 2007

http://www.dcs.gla.ac.uk/ssms07/material.html

Rijsbergen, van C.J., Keith. Information Retrieval. 1999.

http://www.dcs.gla.ac.uk/ssms07/teaching-material/ir/index.htm

Baeza-Yates, R. - Ribeiro-Neto, B. Modern information retrieval. New

York : ACM Press, 1999. 513 s. ISBN 978-0-201-39829-8.

TDKIV - Česká terminologická databáze z oblasti knihovnictví a informační vědy

http://www.nkp.cz/o_knihovnach/Slovnik/index.htm

Page 23: Vyhledávání informací a multimediální aplikace

23 / 12

Petr Chmelař

UIFS FIT VUT

PDB

IR & MM Apps

Teorie!

Modely

Taxonomie

Experiment.

Realita?

Díky

Otázky?