Εισαγωγή στην Ανάκτηση Πληροφορίας και στις Εφαρμογές
της
Εισαγωγικά
ΑΠ: αναπαράσταση, αποθήκευση, οργάνωση και προσπέλαση σε αντικείμενα πληροφορίας
Επίκεντρο η πληροφοριακή ανάγκη του χρήστη Πληροφοριακή ανάγκη χρήστη:– Εντόπισε όλα τα κείμενα με πληροφορίες
σχετικά με φοιτητές που (1) φοιτούν σε κάποια σχολή πληροφορικής, (2) συμμετέχουν σε κάποιο αθλητικό σύλλογο
– Έμφαση δίνεται στην ανάκτηση πληροφορίας και όχι δεδομένων
Ανάκτηση Δεδομένων– Ποια κείμενα περιέχουν ένα σύνολο keywords?– Καλά ορισμένη σημασιολογία (semantics)– Ελάχιστα λανθασμένη απάντηση συνιστά
αποτυχία! Ανάκτηση Πληροφορίας
– Το ερώτημα είναι ασαφές– Η σημασιολογία είναι συχνά ελλιπής– Μικρά λάθη είναι ανεκτά
Σύστημα ΑΠ:– Ερμηνεύει περιεχόμενα αντικειμένων
πληροφορίας– Παράγει μία κατάταξη που αναπαριστά
σχετικότητα– Έννοια σχετικότητας πιο σημαντική από
ακριβές ταίριασμα
Εισαγωγικά
Εισαγωγικά ΑΠ τα τελευταία 30 χρόνια:
• Ταξινόμηση (classification) και κατηγοριοποίηση (categorization) Κειμένων
• Συστήματα Βιβλιοθήκης και γλώσσες• Διεπαφή χρηστών και οπτικοποίηση
– Εντούτοις η περιοχή θεωρείτο στενού ενδιαφέροντος
– Με την έλευση του Διαδικτύου:• Παγκόσμια αποθήκη γνώσης • Ελεύθερη (χαμηλού κόστους)
προσπέλαση• Πολλά προβλήματα : ΑΠ προσφέρει
λύσεις
Πεδία Εφαρμογής
Web Search Engines Ψηφιακές Βιβλιοθήκες (Digital Libraries)Ανάκτηση Στοιχείων σε Peer to Peer ΠεριβάλλονταWeb ServicesΒιοπληροφορικήΣυστήματα Προσαρμοστικών Πολυμέσων/Υπερμέσων
Γειτονικές Περιοχές
Βάσεις ΔεδομένωνΣυστήματα ΠολυμέσωνΤεχνητή Νοημοσύνη /Επεξεργασία Φυσικής ΓλώσσαςΕξόρυξη Δεδομένων (Data Mining)Τεχνικές ΜοντελοποίησηςΔομές ΔεδομένωνΣυμπίεση Κειμένων Συμπίεση Δομών Δεδομένων
Ανάκτηση Πληροφορίας
Τα τελευταία 50-60 χρόνια ως επιστημονικό πεδίο
1945: Vannenar Bush’s “As we may think”1960+: Gerald Salton1978: Πρώτο ACM SIGIR συνέδριο1992: Πρώτο TREC συνέδριο
Unstructured (text) vs. structured (database) data in 1996
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
Unstructured (text) vs. structured (database) data in 2006
0
20
40
60
80
100
120
140
160
Data volume Market Cap
UnstructuredStructured
Μέθοδοι Προσέγγισης
Computer Centered View (Ανάκτηση Πληροφορίας)- Κτίσιμο δομών δεικτοδότησης- Γρήγορη Επεξεργασία Ερωτημάτων- Ποιοτικοί αλγόριθμοι κατάταξης
Human Centered View (Βιβλιοθηκονομία και Επιστήμη Πληροφορήσης)
- Μελέτη βασικών αναγκών του χρήστη- Καταγραφή συμπεριφοράς χρήστη
Βασικές Έννοιες
Η Διεργασία του Χρήστη
– Ανάκτηση (Retrieval)– Φυλλομέτρηση (Browsing)– Συνδυασμός (Hidden web)
Α νάκτησ η
Φ υλλομ έτρησ η
ΒάσηΔεδομένων
Επεξεργασία Κειμένων Σε τι format είναι;
– pdf/word/excel/html? Σε τι γλώσσα είναι; Ποιο σύνολο χαρακτήρων χρησιμοποιεί;
Τα κείμενα μπορεί να περιέχουν όρους από διαφορετικές λέξεις
Τι είναι ένα μοναδιαίο κείμενο;– ένα αρχείο;– ένα e-mail;– ένα email με επισυνάψεις;– oμάδα αρχείων;
Λογική Όψη Κειμένων
Κ είμ ενο
Α να γνώ ρ ισηΔ ομ ή ς
τόνοι, κ ενάκ λπ .
κείμενο
κείμενο+
δομή
δομή
κ οινέςλέξε ις
πλήρεςκείμενο
ομ ά δ εςου σ ια στικ ώ ν
α π ομ ά κ ρ υ νσ ηκ α τα λή ξεω ν
α υ τόμ α τη ήχε ιρ οκ ίνη τη
δ ε ικ τοδ ότη ση
όροιδεικτοδό-
τησης
Η αναπαράσταση των κειμένων (λογική όψη) μπορεί να πάρει διάφορες μορφές σε μία συνέχεια αναπαραστάσεων
Διεργασία Ανάκτησης
Τυπικός Ορισμός Μοντέλων Α.Π.
Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)]
όπου:1) - D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της συλλογής2) - Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις καλούνται ερωτήματα3) - F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους
- R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει
έναν πραγματικό αριθμό με ένα ερώτημα qi Q και μια αναπαράσταση
κειμένου dj D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα
κείμενα πάντα με βάση το ερώτημα. q i.
Μοντέλα Α.Π.Δι
αδικ
ασία
Χρή
στη
Α νά κ τη ση :A d -h ocΦ ιλτρ ά ρ ισμ α
Φ υ λλομ έτρ η ση
B ooleanV ector sp aceΠ ιθα νοτικ ό
Κ λα σσ ικά Μ οντέλα
Μ η επ ικ α λυ π τόμ ενες λ ίστεςΚ οντινοί κ όμ βοι
Δ ομ η μ ένα Μ οντέλα
Ε π ίπ εδ ηΚ α θοδ η γού μ ενη α π ό δ ομ ήΥ π ερ κ ε ιμ ένου
Φ υ λλομ έτρ η ση
Δ ίκτυα Ε ξαγ . Συμ περάσ μ ατοςΔ ίκτυα Π εποίθησ ης
Π ιθα νοτικ ό
Γ ενικευμ ένο V ector SpaceΛ ανθ. Σημ ασ . Δ ε ικτοδότησ ηΝ ευρω νικά Δ ίκτυα
Α λγεβρ ικ ό
Α σ αφ ές (Fuzzy)Ε πεκτεταμ ένο Boolean
Σ υ νολοθεω ρ η τικό
17
Ανεστραμμένα Αρχεία
Inverted file : Structure for the efficient location of the occurrences of a term inside a text collection.
Structure : Set of inverted lists, that are stored inside a file in a disk.
Inverted list:
a list that contains the occurrences of a term inside the texts of a collection
Structure of an inverted list[3]
<1,2><2,1><4,3>
number of documents in the inverted list that contain the specific term
pair <d,fd,t> : the term appears in the document 1, twice
Depending on the requirements of the application an inverted list record can contain various kinds of information (e.g. number of the paragraph where the term appears etc.)
18
[3]<d1,1><d2,1><d3,2>[3]<d1,1><d2,1><d3,2>[2]<d1,1><d2,1>[2]<d1,1><d3,2>[2]<d1,1><d2,1>
Inverted file
Ανεστραμμένα Αρχεία
t1 t2 t3
t4 t5
t2 t1
t3 t5
t4 t2
t1 t4
t2 t1
Algorithm for Inverted File creation
d1
d2
d3
t1
Mapping terms toInverted lists
t2
t3
t4
t5
Document Collection
Παγκόσμιος Ιστός
WWWWWW
url
καταλόγους(π.χ. Yahoo)
Μηχανές Αναζήτησης
τεράστιος, μη ομογενής
επικοινωνιακό κόστος
μεταβάλλεται ραγδαία
• Τεράστιο μέγεθος– 2-10B στατικές σελίδες, διπλασιαζόμενες κάθε 8-12 μήνες– Μέγεθος Λεξικού: 10-100άδες εκατομμύρια λέξεις
http://www.netcraft.com/Survey
Παγκόσμιος Ιστός
• Γλώσσες/Κωδικοποιήσεις:– Εκατοντάδες γλώσσες, W3C κωδικοποιήσεις: 55 – Σελίδες : Αγγλικές 82%, Επόμενες 15: 13%
• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Ανομοιογένεια στη μορφή:
– Εκατομμύρια άνθρωποι δημιουργούν σελίδες με τη δικιά τους γραμματική, λεξικό, στυλ
– Πολλές φορές οι σελίδες εξυπηρετούν εμπορικούς σκοπούς (marketing)
• Μεγάλος Ρυθμός Αλλαγής στις Σελίδες• Επανάληψη της ίδιας πληροφορίας
– Συντακτική επανάληψη (30-40% πανομοιότυπες)– Σημασιολογική ομοιότητα?
• Υψηλή Συνεκτικότητα– Κατά μέσο όρο ~8 σύνδεσμοι/σελίδα
• Πολύπλοκη τοπολογία γράφου– Bow-tie τοπολογία
Παγκόσμιος Ιστός
• Συλλογή:Οι προσπελάσιμες σελίδες στον παγκόσμιο ιστό: στατικές + δυναμικές
• Στόχος: Ανάκτηση υψηλής ποιότητας αποτελεσμάτων που να είναι σχετικά με τις ανάγκες του χρήστη
• Ανάγκη– Πληροφοριακή – ενημέρωση για κάποια πληροφορία (~40%)
– Απλής διαπέρασης – μετακίνηση σε μία σελίδα (~25%)
– Transactional – πραγματοποίηση μίας συναλλαγής (web-mediated) (~35%)
• Προσπέλαση υπηρεσίας
• Κατέβασμα πληροφορίας
• Αγορά– Υβριδικό
• Εύρεση καλού hub• Διερευνητικό ψάξιμο “see what’s there”
Παγκόσμιος Ιστός
– Στατικές σελίδες • κείμενο (html, xml), mp3, images, video, ...
– Δυναμικές σελίδες = παράγονται κατ’απαίτηση • data base access• “the invisible web”• proprietary content, etc.
Παγκόσμιος Ιστός
• Κακώς σχηματισμένες ερωτήσεις– μικρές σε πλήθος όρων– ανακριβείς όροι– μη βέλτιστη σύνταξη (80% ερωτήματα χωρίς τελεστή)– χαμηλή προσπάθεια
• Μεγάλη απόκλιση σε– ανάγκες– επίπεδα αναμονής– γνώση– bandwidth
• Τυπική συμπεριφορά– Εστίαση στην πρώτη οθόνη, όχι feedback, ακολούθηση
υπερδεσμών
Παγκόσμιος Ιστός
•Το σχετικό μέγεθος των μηχανών αναζήτησης – προβλήματα
• επέκταση κειμένων: π.χ. το Google δεικτοδοτεί σελίδες που δεν έχουν γίνει crawl δεικτοδοτώντας anchor-text.
• περιορισμός στα κείμενα: Μερικές μηχανές περιορίζουν το τι δεικτοδοτείται (πρώτες n λέξεις, μόνο σχετικές λέξεις κ.λ.π.)
•Η κάλυψη μίας μηχανής σε σχέση με κάποια άλλη διεργασία crawling.
Ποσότητες που μπορούν να μετρηθούν
Παγκόσμιος Ιστός
Τεχνικές Εκτίμησης Μεγέθους
• Ιδανική στρατηγική: παρήγαγε ένα τυχαίο URL και έλεγξε αν εμπεριέχεται στις διάφορες δομές δεικτοδότησης.
• Πρόβλημα: τυχαία URLs δεν βρίσκονται εύκολα
• Πάρε δείγμα URLs τυχαία από κάθε μηχανή– 20,000 τυχαία URLs από κάθε μηχανή
• Διατύπωσε random conjunctive query με <200 αποτελέσματα
• Επέλεξε ένα τυχαίοURL από τα κορυφαία 200 αποτελέσματα
• Έλεγξε αν είναι παρόντα σε άλλες μηχανές – Query with 8 rarest words. Look for URL match
• Υπολόγισε μέγεθος τομής
• Choose random searches extracted from a local log or build “random searches” – Use only queries with small results sets. – Count normalized URLs in result sets.– Use ratio statistics
• Advantage:– Might be a good reflection of the human perception of
coverage
Τεχνικές Εκτίμησης Μεγέθους
www.ibm.comwww.ibm.com……//~newbie/~newbie/
/…/…/leaf.htm/…/…/leaf.htm
Η Δομή του Παγκόσμιου Ιστού
• Για τυχαίες σελίδες p1,p2:
– Pr[p1 να προσπελαύνεται από p2] ~ 1/4
• Μέγιστη απόσταση μεταξύ 2 SCC κόμβων: >28
• Μέση κατευθυνόμενη απόσταση μεταξύ 2 κόμβων: ~16
• Μέση μη κατευθυνόμενη απόσταση: ~7
Η Δομή του Παγκόσμιου Ιστού
Power Laws - Γενικά
• Δύο ποσότητες x και y συνδέονται με έναν power law όταν
y x-c log y = -c*log x
y
x
log y
log x
Ένας γνωστός power law
• Κατανομή Zipf
y : συχνότητα λέξης σε κείμενο
x : o x-οστός πιο συχνός όρος
Power law για c=1
y 1/x
Power laws και στο Web?
• Broder et. al. 1999
x = #links που εισέρχονται σε σελίδα i
y = #σελίδων με x εισερχόμενα links
y x-2.09
Power laws και στο Web?
(συνέχεια)
x = #links που εξέρχονται από σελίδα i
y = #σελίδων με x εξερχόμενα links
y x-2.72
Χρησιμότητα Παρατήρησης
– Βοηθάει στην κατανόηση και πρόβλεψη της εξέλιξης του Web
– Βοηθάει στην κατασκευή νέων αλγορίθμων ταξινόμησης
– Εκτέλεση προσομοιώσεων σε σχέση με το Web– Μοντελοποίηση του Web
Μοντελοποίηση Γραφήματος του Web
• Kumar et. al. Stochastic models for the Web Graph, FOCS 2000
v
t+1
Οι πρώτοι t κόμβοι του Web
Μοντελοποίηση Γραφήματος του Web
• Για τον t+1 φτιάξε d συνδέσμους d>1• Πως επιλέγεται ο ι-στος σύνδεσμος?
v
t+1
Πιθανότητα α μια τυχαία σελίδα
Πιθανότητα 1-α ο i-στός σύνδεσμος του v
Μοντελοποίηση Γραφήματος του Web
• Όταν δημιουργείται μια σελίδα αυτή ανήκει σε ένα θέμα.
– Μας ενδιαφέρει να αντιγράψουμε τους συνδέσμους μίας άλλης σελίδας στο θέμα
– Ή να εισάγουμε νέες ιδέες
• Το μοντέλο ακολουθεί Power laws!
– To μέσο πλήθος των σελίδων με βαθμό d είναι:
)1/()2( d
Επεκτάσεις
• Εμπορικά πιο σημαντικές εφαρμογές:– Enterprise search – Peer-2-Peer (P2P) search
Peer-to-Peer Δίκτυα
• Όχι κεντρικός δεικτοδοτητής• Κάθε κόμβος στο διαδίκτυο κτίζει και διαχειρίζεται το
δικό του δείκτη
Παραδείγματα• Gnutella• Kazaa• Bearshare• Aimster• Grokster• Morpheus
Μηχανές Αναζήτησης
• Πρώτη γενιά - χρήση μόνο “on page” δεδομένων κειμένου– Συχνότητα λέξεων, γλώσσα
• Δεύτερη γενιά -- χρήση off-page, web-specific δεδομένων– Link (ή connectivity) ανάλυση– Click-through δεδομένα (σε ποια αποτελέσματα γίνεται click on)– Anchor-text (πως οι άνθρωποι αναφέρονται σε δεδομένα)
• Τρίτη γενιά “καταγραφή ανάγκης πίσω από ερώτημα”– Σημασιολογική ανάλυση – σε τι αναφέρεται?– Εστίαση σε ανάγκες χρηστών και όχι ερωτήματα– Προσδιορισμός context– Βοήθεια στο χρήστη– Ολοκλήρωση ψαξίματος και ανάλυσης κειμένου
Μηχανές Πρώτης Γενιάς
• Μοντέλο διανυσματικού χώρου και Επεκταμένο Boolean μοντέλο – Ταιριάσματα: exact, prefix, phrase,…– Τελεστές: AND, OR, AND NOT, NEAR, …– Πεδία: TITLE:, URL:, HOST:,…– Συνήθως ο τελεστής AND υλοποιείται πιο εύκολα, και
πιθανώς να είναι προτιμητέα ως η εκ των προτέρων επιλογή για μικρά ερωτήματα
• Διάταξη– TF παράγοντες: TF, άμεσα keywords, λέξεις σε τίτλους,
άμεση έμφαση (headers), κ.λ.π. – IDF παράγοντες: IDF, συνολικός αριθμός λέξεων στο
corpus, συχνότητα στο query log, συχνότητα στη γλώσσα
Μηχανές Δεύτερης Γενιάς
• Κατάταξη - χρήση off-page, web-specific δεδομένων
- Link (ή connectivity) ανάλυση - Click-through δεδομένα (σε ποια αποτελέσματα οι άνθρωποι
εστιάζουν) - Anchor-text (πως οι άνθρωποι αναφέρονται σε μία σελίδα)
• Crawling- Αλγόριθμοι δημιουργίας του καλύτερου δυνατού corpus
Μηχανές Τρίτης Γενιάς
•Query language determination and different ranking•Integration of Search and Text Analysis
•Context determination – spatial (user location/target location)– query stream (previous queries)– personal (user profile)
•Context use– Result restriction– Ranking modulation
Μηχανές Αναζήτησης
Διαπερνώντας το διαδίκτυο (Crawling)
• ποιες σελίδες πρέπει να προσπελαστούν ;
• τι γίνεται όταν το περιεχόμενο των σελίδων μεταβάλλεται ; (refresh policy)
• πως ελαχιστοποιείται ο φόρτος ;
• πως η διαδικασία διαπέρασης γίνεται παράλληλα ;
• Κλασσικός Crawler – επισκέπτεται ολόκληρο το παγκόσμιο ιστό και αντικαθιστά τη δομή δεικτοδότησης.
• Περιοδικός Crawler – επισκέπτεται τμήματα του παγκοσμίου ιστού και ενημερώνει υποσύνολο δομής δεικτοδότησης
• Αυξητικός Crawler – επιλεκτικά ψάχνει το παγκόσμιο Ιστό και αυξητικά μεταβάλλει τη δομή δεικτοδότησης.
• Εστιασμένος Crawler – επισκέπτεται σελίδες που σχετίζονται με ένα συγκεκριμένο θέμα.
Είδη Crawlers (Crawling)
Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας
Interest Driven
Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας
Interest Driven & Ομοιότητα Κειμένων
“A new approach to topic-specific web resource discovery” Chakrabarti et al. 8th WWW conference 1999
If Q is the user interest then:
Crawling - Επιλογή Σελίδων – Μετρικές Σπουδαιότητας
Popularity Driven
Location Driven
• Context Graph:– Context graph created for each seed document .– Root is the seed document.– Nodes at each level show documents with links to
documents at next higher level. – Updated during crawl itself .
• Approach:1. Construct context graph and classifiers using seed
documents as training data.2. Perform crawling using classifiers and context graph
created.
Context Graph Crawling
Context Graph Crawling
Crawling - Ανανέωση Σελίδων
• f (συχνότητα επισκεψιμότητας) =σταθερή
• f=F(λi)
Crawling - Ανανέωση Σελίδων
P1
P2
Crawling - Ανανέωση Σελίδων
“Synchronizing a database to improve freshness.”Cho, Molina. In Pro-ceedings of the International Conference on Management of Data, 2000.
Αποθήκευση – Page Repository
Αποθήκευση – Page Repository
• Κατανεμημένο και αυξομειώσιμο
…
• Φυσική Οργάνωση : αποδοτικό RPA και Streaming Access
Log Hash Hash-LogStreaming Access
+! -! +
RPA ~ +! ~Page Addition
+! -! ~
Αποθήκευση – Page Repository
• conflicts vs. freshness
… ……
• obsolete pages : μηχανισμός διαγραφής
Δημιουργία Ευρετηρίων – Indexing
Δημιουργία Ευρετηρίων – Indexing
text index
• inverted files • suffix arrays • signature files
structure (link) index
: link: site
utility index
• κατανεμημένο• συμπιεσμένο
Ranking and Link Analysis
O τρόπος διασύνδεσης των σελίδων μπορεί να μας δώσει σημαντική επιπλέον πληροφορία !
• PageRank : “The pagerank citation ranking:Bringing order to the web”. Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. Technical report, Computer Science Department, Stanford University,1998. (Google)
• HITS: ”Authoritative sources in a hyperlinked environment”. Jon Kleinberg. Journal of the ACM, 46(5):604-632, November 1999. (Clever – IBM, πρόδρομος της Teoma).
PageRank
• Κάθε σελίδα λαμβάνει μία βαθμολογία που εκφράζει την «σημαντικότητα» της.
www.upatras.gr#in_links=760
www.stanford.edu
#in_links=33600
www.upatras.gr
www.stanford.edu
PageRank
strongly connected graph
PageRank
• random surfer model• strongly connected assumption• problem: rank leak, rank sink
PageRank
• random surfer model
Λεπτομέρειες Υπολογισμού (1)
• Μία αλυσίδα Markov αποτελείται από n καταστάσεις, και ένα nn πιθανοτικό πίνακα μεταβάσεων P.
• Σε κάθε βήμα, είμαστε σε μία μόνο από τις καταστάσεις.
• Για 1 i,j n, το στοιχείο Pij μας δίνει τη πιθανότητα το j να βρίσκεται στην επόμενη κατάσταση, υποθέτοντας ότι βρισκόμαστε στην κατάσταση i.
• Μία Markov chain είναι εργοδική εάν– Υπάρχει μονοπάτι από κάθε κατάσταση σε άλλη– Μπορούμε να βρισκόμαστε σε κάθε κατάσταση κάθε στιγμή
με μη μηδενική πιθανότητα.
Λεπτομέρειες Υπολογισμού (2)
• Για κάθε εργοδική Markov αλυσίδα, υπάρχει μία Steady-state distribution.
• Έστω a = (a1, … an) το row vector με τις steady-state πιθανότητες.
• Εάν η τρέχουσα θέση περιγράφεται με a, τότε η επόμενη περιγράφεται με aP.
• Άρα a=aP, και συνεπώς– το a είναι το (αριστερό) ιδιοδιάνυσμα του P.– (αντιστοιχεί στο “βασικό” ιδιοδιάνυσμα του P με τη
μεγαλύτερη ιδιοτιμή.)
Hypertext Induced Topic Search (HITS)
• Χρησιμοποιεί μηχανισμό αξιολόγησης που εξαρτάται από ένα ερώτημα Q.
authority hub
Q=“greek university”
Authority : www.upatras.gr www.auth.gr
Hub: www.gunet.grUniversities Worldwide
http://geowww.uibk.ac.at/univ/world.html
Hypertext Induced Topic Search (HITS)
Απάντηση στο Q
RS: root set (~103)
S: focused subgraph (all the outgoing, a restricted number of the incoming)
max{d}
Hypertext Induced Topic Search (HITS)
Hypertext Induced Topic Search (HITS)
Hypertext Induced Topic Search (HITS)
Hypertext Induced Topic Search (HITS)
Πολλαπλά σύνολα • jaguar• randomized algorithms • abortion
Tag/position heuristics
• Αύξησε βάρη όρων – σε τίτλους – σε tags– Κοντά στην αρχή του κειμένου, στα κεφάλαια και
sections
Χρήσεις του Anchor Text
• Όταν δεικτοδοτείται μία σελίδα, να δεικτοδοτείται επίσης και το anchor text των υπερδεσμών που δείχνουν σε αυτή.
• Για να δίνονται κατάλληλα βάρη στον αλγόριθμο hubs/authorities.
• Το Anchor text συνήθως είναι ένα παράθυρο μεγέθους 6-8 λέξεων, γύρω από ένα link anchor.
yx
yaxh
)()(
xy
yhxa
)()( )(),()(
)(),()(
yhyxwxa
yayxwxh
xy
yx
Web sites, όχι σελίδες
• Οι σελίδες σε ένα site δίνουν πληροφορίας για παραλλαγές ίδιου θέματος
Web Mining Taxonomy
Web Content Mining
KeywordKeyword
Term AssociationTerm Association
Similarity SearchSimilarity Search
ClassificationClassification ClusteringClustering
Natural Language ProcessingNatural Language Processing
Web Usage Mining
OrderingOrdering DuplicatesDuplicates ConsecutivConsecutivee
MaximalMaximal SupportSupport
Association Association RulesRules
NN NN NN NN Freq(X)/Freq(X)/#transactions#transactions
EpisodesEpisodes YY NN NN NN Freq(X)/Freq(X)/#timewindows#timewindows
Sequential Sequential patternspatterns
YY NN NN YY Freq(X)/#customersFreq(X)/#customers
Forward Forward sequencessequences
YY NN YY YY Freq(X)/#forward Freq(X)/#forward sequencessequences
Maximal Maximal forward forward sequencessequences
YY YY YY YY Freq(X)/#clicksFreq(X)/#clicks
Βιβλιογραφία
R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999.
Christofer Manning, Pradhakar Raghavan, Hunrich Schutze, Introduction to Information Retrieval, Cambridge University Press, 2008.
(http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html) Ι. Witten, A. Moffat, T. Bell, Managing Gigabytes: Compressing and Indexing
Documents and Images, Morgan Kaufmann Publishers, 1999. G. Salton, M. McGill, An Introduction to Modern Information Retrieval, New York:
McGraw-Hill, 1983. Van Reijsbergen, Information Retrieval, London: Butterworths, 1979 Van Reijsbergen, The Geometry of Information Retrieval, Cambridge University
Press, 2005 W.B. Frakes, R. Baeza-Yates, Information Retrieval: Data Structures and
Algorithms, Prentice Hall, EngleWood Cliffs, NJ. USA 1992. Σημειώσεις : http://mmlab.ceid.upatras.gr/ir
B. Allen, Information Tasks: Towards a User-Centered Approach to Information Systems. Academic Press, San Diego, CA, 1996.
M. Attalah ed., “Algorithms and Theory of Computation Handbook” CRC Press 1999.
D. Gusfield, “Algorithms on Strings, Trees and Sequences”, Cambridge University Press, 1997.
V.S. Subrahmanian. “Principles of Multimedia Database Systems”, Morgan Kaufmann, 1998.
Ian H. Witten, Alistair Moffat, and Timothy C. Bell, Managing Gigabytes: “Compressing and Indexing Documents and Images”, Morgan Kaufmann, 1999.
S. Abiteboul, P. Buneman, D. Suciu, “Data on the Web: From Relations to Semistructured Data and XML”, Morgan Kaufmann, 1999
Top Related