Úvod do vyhľadávania informácií, základné problémy a pojmy
description
Transcript of Úvod do vyhľadávania informácií, základné problémy a pojmy
Vyhľadávanie informácií 04.10.2007 1
Úvod do vyhľadávania informácií, základné Úvod do vyhľadávania informácií, základné problémy a pojmyproblémy a pojmy
Vyhľadávanie informáciíVyhľadávanie informácií
Michal Laclavík
Vyhľadávanie informácií 04.10.2007 2
Podmienky
1. Získanie zápočtu = získanie minimálne 30 bodov počas semetra z 50 bodov:
– odovzdanie a odprezentovanie praktických projektových zadaní(30 bodov)
– priebežná práca = aktívne konzultovanie projektov aspoň 3 krát za semester v rámci cvičení (20 bodov)
2. Vykonanie záverečnej skúšky(50 bodov)
3. Získanie aspoň 56% celkového hodnotenia (56 bodov).
Vyhľadávanie informácií 04.10.2007 3
Témy
• 04.10.2007, Laclavík:Úvod do vyhľadávania informácií, základné problémy a pojmy
• 11.10.2007, Laclavík:Sťahovanie dokumentov, spracovanie odkazov, tovrba bázy dokumentov
• 18.10.2007, Laclavík: Textové operácie
• 25.10.2007, Šeleng: Indexovanie
• 08.11.2007, Šeleng: Vyhľadávanie a usporiadanie (PageRank, ...)
• (treba preložiť na iný termín) 15.11.2007, Šeleng: Hodnotenie úspešnosti (Precesion, Recall, ...)
• 22.11.2007, Šeleng: Problém spracovania veľkého množstva dát (MapReduce, ...)
• 29.11.2007, Laclavík: Softvérové knižnice a systémy (Lucene, lematizátory, ...)
• 06.12.2007, Laclavík: Regulárne výrazy a ich použitie pri spracovaní textu
• 13.12.2007, Laclavík: Úvod - Spracovanie informácií pomocou sémantiky (RDF, OWL, ...)
• (Pondelok) 17.12.2007, Laclavík: Dopytovacie jazyky (SPARQL, ...)
Vyhľadávanie informácií 04.10.2007 4
Literatúra
• Michal Laclavík, Martin Šeleng, Marek Ciglan: Vyhľadávanie informácií, máj 2007 • Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze: Introduction to
Information Retrieval, Cambridge University Press. 2008 • Ricardo Baeza-Yates, Berthier Ribeiro-Neto: Modern Information Retrieval. Addison
Wesley, ACM, 1999 • Otis Gospodnetic, Erik Hatcher: Lucene In Action; Manning Publications, December
2004 • Apache Lucene - Java based indexing and search library • Nutch - web search software • Hadoop - Proceesing vast amount of data
– Jeffrey Dean, Sanjay Ghemawat: MapReduce: Simplified Data Processing on Large Clusters, Google, Inc. OSDI'04, San Francisco, CA, December, 2004
– HadoopMapReduce – Hadoop Distributed File System
• Jena RDF tutorial • Jena SPARQL tutorial
Vyhľadávanie informácií 04.10.2007 5
Všetky informácie o predmete
http://ikt.ui.sav.sk/vi/
Vyhľadávanie informácií 04.10.2007 6
História
• Knižnice– Knihy– Tvorba indexov– Hierarchické zoznamy– Prvé IR systémy fungovali v knižniciach
• Internet– Katalogizácia, hierarchia (DMoz.org)– Indexovanie web stránok– PageRank– Špecializácia na domény (sémantika)
Vyhľadávanie informácií 04.10.2007 7
História (2)
• 1992, Text REtrieval Conference (TREC)
• Rôzne tracky na rôzne problémy nielen z webu– Spam– Blog– Video– ...
Vyhľadávanie informácií 04.10.2007 8
Internet – nové výzvy
• Informácie sú dostupné za oveľa nižšiu cenu• informačné zdroje sú distribuované a dostupné
veľmi rýchlo a za pár sekúnd• sloboda zverejniť akúkoľvek informáciu
kýmkoľvek je dostupná prvý krát v histórii
Vyhľadávanie informácií 04.10.2007 9
Information Retrieval (1) Ciele
• Reprezentácia• Uchovávanie• Organizácia• dostupnosť informácií
Vyhľadávanie informácií 04.10.2007 10
Information Retrieval (2)
• Dáta: 20• Informácia: 20 oC• Znalosť: izbová teplota
• Informácia – Keď dáta majú
sémantiku (význam)
• IR systém nemusí rozumieť sémantike ale je dobré keď sa o to snaží
Characters
Data
Information
Knowledge
Actions
Syntax
Semantics
Pragmatics
Reasoning
(Bergman, 2002, Experience Management)
Vyhľadávanie informácií 04.10.2007 11
Information Retrieval (3)
• Informácia– Text, dokument– Obrázky– Video
• V rámci predmetu VI– Text (dokumenty)– Linky ako ukazovateľ na iné objekty
Vyhľadávanie informácií 04.10.2007 12
Information Retrieval
• Klasický prístup– Prehľadávanie každého dokumentu a hľadanie
reťazcov– Časovo náročné – Nie nezmyselné – Grep, regulárne výrazy
• Veľké množstvo dokumentov– Potreba indexácie– kľúčové slová (prípadne aj všetky slová dokumentu)– Termy
Vyhľadávanie informácií 04.10.2007 13
Architektúra
získavanie informácií• stiahnutie dokumentov• textové operácie• indexovanie• spracovanie odkazovVyhľadávanie• formulácia dopytu a
operácie na dopyte• spracovanie dopytu• vrátenie výsledku na
používateľské rozhranie• spätná väzba od
používateľa
Spracovanie odkazov
Indexovač
Usporiadanie
Vyhľadávač
Bázadokumentov
Odkazy
Index dokumentov
Sťahovač
Textové operácie
Otázka
Užívateľ
Zoznam dokumentov
Internet
Vyhľadávanie informácií 04.10.2007 14
Pojmy
• Dokumenty– vlastnosti
• Textové operácie– Tokenizácia– Lematizácia, stemming
• Termy• Odkazy• Indexy
• Hodnotenie– Experimentálne overenie– Recall – pokrytie– Precision – presnosť
• Zoraďovanie– URLs, termy, normalizácia
Vyhľadávanie informácií 04.10.2007 15
Modely
• Booleovský – AND, OR, NOT, term sa vyskytuje alebo nie – Riedka matica
• Vektorový– Vector space model– X dimenzionálny priestor, každý term jedna dimenzia– Kosínusová miera, medzi 0-1, 1 pre rovnaké
dokumenty– Podobnosť medzi query a dokumentom
• Pravdepodobnostný
Vyhľadávanie informácií 04.10.2007 16
Pojmy (2)algoritmické, implementačné
• Vector space model• Invertovaný index• PageRank• MapReduce
• Lucene• Nutch• Hadoop
Vyhľadávanie informácií 04.10.2007 17
Regulárne výrazy
• Spracovanie textu• Find• Replace• Split
Vyhľadávanie informácií 04.10.2007 18
Sémantický web
• The Semantic Web is a mesh of information linked up in such a way as to be easily processable by machines, on a global scale. You can think of it as being an efficient way of representing data on the World Wide Web, or as a globally linked database.(Source: http://infomesh.net/2001/swintro/ - The Semantic Web: An Introduction)
• RDF• OWL, logika aplikácie
• SPQRQL
Vyhľadávanie informácií 04.10.2007 19
Projektové zadania
1. Tokenizátor (Analyzer) slovenského textu: Vytvoriť analyzator ktorý upraví slovenský text na termy v základnom tvare (lemy) slov alebo korene slov (stemy). Je možné použiť existujúci nástroj Tvaroslovník alebo iný lematizátor. Tokenizátor môže byť urobený ako samostatný program alebo ako rozšírenie Lucene Analyzer.
2. Odkazový vyhľadávač Vytvoriť vyhľadávací stroj ktorý spracuje vybranú skupinu stránok a umožní vyhľadávanie na základe textov odkazov na stranky a nie samotného textu stránky. Možné riešiť ako úplnú implementáciu alebo prispôsobenie systému Nutch. V prípade použitia Nutch vytvoriť aj porovnanie výsledkov vyhľadávania cez klasický a zvolený prístup.
3. Implementácia PageRank na vybranej skupine webstránok ako úplná implementácia alebo pomocou Nutch. Porovnanie výsledkov.
4. Distance Search Spracovanie vybranej skupiny stránok pomocou ontológie miest a obcí Slovenska obsahujúcej zemepisnú šírku a dĺžku. Vyhľadávanie na základe vzdialenosti od referenčného miesta a kľúčových slov.
5. Mail serach Indexovanie emailov pomocou Lucene a následné vyhľadávanie. Možnosť viacerých prístupov: textové súbory, mbox, maildir, mailing listy
6. Indexovanie PDF a Word dokumentov (na disku ale aj z web stránok) pomocou Nutch a Lucene alebo mnoGoSearch. Možná aj úplná implementácia spolu so zohľadnením textu odkazu z webu.
7. Triedenie a zoraďovanie Vytvorenie vlastného algoritmu na hodnotenie a zoraďovanie stránok, zdôvodnenie, vyhodnotenie. Implementácia pomcou Nutch alebo vlastnej implementácie.
8. Slovenský stemmer Tvorba algoritmického stemeru pre slovenčinu na napr. podobne ako stempel alebo pomocou iného prístupu. Nemusí končiť úplnou implementáciou. Stačí návrh a čiastočné overenie.
9. MapReduce Využitie MapReduce prístupu na vybranom probléme z information retrieval. Napríklad aplikácia regulárnych výrazov na dokumentoch. Implementácia pomocou Hadoop.
10. Vlastný projekt podľa výberu študenta po odsúhlasení cvičiaceho