Úvod do vyhľadávania informácií, základné problémy a pojmy

19
Vyhľadávanie informácií 04.10.2007 1 Úvod do vyhľadávania informácií, Úvod do vyhľadávania informácií, základné problémy a pojmy základné problémy a pojmy Vyhľadávanie informácií Vyhľadávanie informácií Michal Laclavík

description

Úvod do vyhľadávania informácií, základné problémy a pojmy. Vyhľadávanie informácií Michal Laclav ík. Podmienky. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov: odovzdanie a odprezentovanie praktických projektových zadaní (30 bodov) - PowerPoint PPT Presentation

Transcript of Úvod do vyhľadávania informácií, základné problémy a pojmy

Page 1: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 1

Úvod do vyhľadávania informácií, základné Úvod do vyhľadávania informácií, základné problémy a pojmyproblémy a pojmy

Vyhľadávanie informáciíVyhľadávanie informácií

Michal Laclavík

Page 2: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 2

Podmienky

1. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:

– odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov)

– priebežná práca = aktívne konzultovanie projektov aspoň 3 krát za semester v rámci cvičení (20 bodov)

2. Vykonanie záverečnej skúšky(50 bodov)

3. Získanie aspoň 56% celkového hodnotenia (56 bodov).

Page 3: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 3

Témy

• 04.10.2007, Laclavík:Úvod do vyhľadávania informácií, základné problémy a pojmy

• 11.10.2007, Laclavík:Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov

• 18.10.2007, Laclavík: Textové operácie

• 25.10.2007, Šeleng: Indexovanie

• 08.11.2007, Šeleng: Vyhľadávanie a usporiadanie (PageRank, ...)

• (treba preložiť na iný termín) 15.11.2007, Šeleng: Hodnotenie úspešnosti (Precesion, Recall, ...)

• 22.11.2007, Šeleng: Problém spracovania veľkého množstva dát (MapReduce, ...)

• 29.11.2007, Laclavík: Softvérové knižnice a systémy (Lucene, lematizátory, ...)

• 06.12.2007, Laclavík: Regulárne výrazy a ich použitie pri spracovaní textu

• 13.12.2007, Laclavík: Úvod - Spracovanie informácií pomocou sémantiky (RDF, OWL, ...)

• (Pondelok) 17.12.2007, Laclavík: Dopytovacie jazyky (SPARQL, ...)

Page 4: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 4

Literatúra

• Michal Laclavík, Martin Šeleng, Marek Ciglan: Vyhľadávanie informácií, máj 2007 • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to

Information Retrieval, Cambridge University Press. 2008 • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison

Wesley, ACM, 1999 • Otis Gospodnetic, Erik Hatcher: Lucene In Action; Manning Publications, December

2004 • Apache Lucene - Java based indexing and search library • Nutch - web search software • Hadoop - Proceesing vast amount of data

– Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004

– HadoopMapReduce – Hadoop Distributed File System

• Jena RDF tutorial • Jena SPARQL tutorial

Page 5: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 5

Všetky informácie o predmete

http://ikt.ui.sav.sk/vi/

Page 6: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 6

História

• Knižnice– Knihy– Tvorba indexov– Hierarchické zoznamy– Prvé IR systémy fungovali v knižniciach

• Internet– Katalogizácia, hierarchia (DMoz.org)– Indexovanie web stránok– PageRank– Špecializácia na domény (sémantika)

Page 7: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 7

História (2)

• 1992, Text REtrieval Conference (TREC)

• Rôzne tracky na rôzne problémy nielen z webu– Spam– Blog– Video– ...

Page 8: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 8

Internet – nové výzvy

• Informácie sú dostupné za oveľa nižšiu cenu• informačné zdroje sú distribuované a dostupné

veľmi rýchlo a za pár sekúnd• sloboda zverejniť akúkoľvek informáciu

kýmkoľvek je dostupná prvý krát v histórii

Page 9: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 9

Information Retrieval (1) Ciele

• Reprezentácia• Uchovávanie• Organizácia• dostupnosť informácií

Page 10: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 10

Information Retrieval (2)

• Dáta: 20• Informácia: 20 oC• Znalosť: izbová teplota

• Informácia – Keď dáta majú

sémantiku (význam)

• IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží

Characters

Data

Information

Knowledge

Actions

Syntax

Semantics

Pragmatics

Reasoning

(Bergman, 2002, Experience Management)

Page 11: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 11

Information Retrieval (3)

• Informácia– Text, dokument– Obrázky– Video

• V rámci predmetu VI– Text (dokumenty)– Linky ako ukazovateľ na iné objekty

Page 12: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 12

Information Retrieval

• Klasický prístup– Prehľadávanie každého dokumentu a hľadanie

reťazcov– Časovo náročné – Nie nezmyselné – Grep, regulárne výrazy

• Veľké množstvo dokumentov– Potreba indexácie– kľúčové slová (prípadne aj všetky slová dokumentu)– Termy

Page 13: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 13

Architektúra

získavanie informácií• stiahnutie dokumentov• textové operácie• indexovanie• spracovanie odkazovVyhľadávanie• formulácia dopytu a

operácie na dopyte• spracovanie dopytu• vrátenie výsledku na

používateľské rozhranie• spätná väzba od

používateľa

Spracovanie odkazov

Indexovač

Usporiadanie

Vyhľadávač

Bázadokumentov

Odkazy

Index dokumentov

Sťahovač

Textové operácie

Otázka

Užívateľ

Zoznam dokumentov

Internet

Page 14: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 14

Pojmy

• Dokumenty– vlastnosti

• Textové operácie– Tokenizácia– Lematizácia, stemming

• Termy• Odkazy• Indexy

• Hodnotenie– Experimentálne overenie– Recall – pokrytie– Precision – presnosť

• Zoraďovanie– URLs, termy, normalizácia

Page 15: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 15

Modely

• Booleovský – AND, OR, NOT, term sa vyskytuje alebo nie – Riedka matica

• Vektorový– Vector space model– X dimenzionálny priestor, každý term jedna dimenzia– Kosínusová miera, medzi 0-1, 1 pre rovnaké

dokumenty– Podobnosť medzi query a dokumentom

• Pravdepodobnostný

Page 16: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 16

Pojmy (2)algoritmické, implementačné

• Vector space model• Invertovaný index• PageRank• MapReduce

• Lucene• Nutch• Hadoop

Page 17: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 17

Regulárne výrazy

• Spracovanie textu• Find• Replace• Split

Page 18: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 18

Sémantický web

• The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction)

• RDF• OWL, logika aplikácie

• SPQRQL

Page 19: Úvod do vyhľadávania informácií, základné problémy a pojmy

Vyhľadávanie informácií 04.10.2007 19

Projektové zadania

1. Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer.

2. Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.

3. Implementácia PageRank na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov.

4. Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.

5. Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy

6. Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.

7. Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.

8. Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie.

9. MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop.

10. Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho