~----
1---
f-·
l ~- ~
"--.
1---4
•
•
•
Céline Van Damme
Structuur
-~ Vrije Universiteit Brussel
Informatie overload op het web
Informatie zoeken op het web
Vergelijking huidige classificatietechn ieken documenta 1 ist
il1forum2tJ07 CeUne Van Damme l5Mû4--tJJ Pag,L
"-""""'*""~ ~ ~"" ~.-c~d ~= ~ "~ ~ ~ 0 __,_~ ~
1
l.Informatie overload op het web (1)
• Statische web pagina's • Altijd aanspreekbaar en beschikbaar • Indexeerbaar door meeste zoekmachines • Vormen het visible web
• Dynamische web pagina's • Pagina's worden gecreëerd bij opvraging (uit database) en
verdwijnen daarna (vb. Online Vandale Woordenboek) • Niet indexeerbaar door meeste zoekmachines • Vormen het dark web
l.Informatie overload op het web(2)
• Visible Web • 200 mîljoen pagina's (1997)l 1l
• 800 miljoen pagina's (1998) l1l
• 11,5 miljard pagina's (januari 2005)l1l
• Dark Web • 500 keer visible web (2003) f2 l
2
1~ Informatie overload op het web(3)
Grote invloed social software of Web 2.0 tools
• Lage kost en lage technologiebarrière
• Internetgebruiker: geëvolueerd van een informatieconsument naar een informatiecreator
• Enkele voorbeelden: • Wiki 7 Wikipedia: meer dan 5.300.000 web pagina's [3]
• Blogs: meer dan 71.000.000 blogs geregisteerà bij Technorati[4]
2. Informatie zoeken op het web
• Directories
• Zoekmachines & Ontologies
• Folksonomies
3
2~ Informatie zoeken op het web
• Di recto ries • Zoekmachines & Ontologies • Folksonomies
Definitie
• Taxonomies
• Classificeren van websites in hiërarchische categorieën
• Groep experten
• Navigeren via drill dawn
• Vb. Yahoo Directories, Open Directory Project
4
Voorbeeld
Arta & Hum•nftin ~tlr:liiliCt,.~.
BuaJnna & Econamy m.~~ilill!
Compoblra & Jnœmet ~tœflm.~
"'Y.AHoO!
C::~~r----------~ Entertainment ~~WliJI;,!11:œQ::..
Gowmment .f!ar;;l;;m.l.!bl:. lm. !Sm.
~ ~Uu/n.e::o..~
News&Medl! ~·~~
Recreation & SPOrt! ~!!ml-~~
Referen~ fl!;mfr,;a:Q ~~
R!Clional ~~.~
~
' Bf"QW!!b!R•g\on(168)
• DvCul!!.!ot91'Çmp!J0.1)
•~I!IT~;
;.dijldOIIal.Catf~
• ,.tg9ml<; CD!!!p!tttion• {~)
·~m
• Butfn!utoB\tf.\ntn4" , Cp!t!rl!!!dV!!(;;;It!o!!!IJJQ.I;
• Clmsmdl'oruln•!Zll
·~ml ··~ • E!rtJChllifloodEduc.!tkm/11~~
• pisbnnL•am!ta~•~ilT"'~
• &11j5.4.:-UJ
• lob ;one! l!mploym!f!t Rtt;O!,!t!;!!@'
·~(JI!
• L.tll!!!!!!o!!O'I • IJt!Ba!DI
·~~ 'Onpniutlons(U36}
• fœlll:m! fll!)
-~~\
• Sf!opp,lng and Sm!ç!!S
tmra.~~ @ -7 Subcategorie ook komt voor in andere categorieën
2. Informatie zoeken op het web
• Directories • Zoekmachines & Ontologies • Folksonomies
5
Werking Zoekmachine (1)
• Web crawlers doorzoeken het web
• Lijstje van URLs
• Kopiëren en indexeren web pagina
• Afhankelijk soort zoekmachine
• Data bewaren in database
Werking Zoekmachine (2)
• Zoekopdracht gebruiker toetsen aan database
• Genereren van een resultatenlijst
6
Problemen
Intemet community
~ /
/ /~
Betekenis 2
• Zoekopdracht wordt verkeerd geïnterpreteerd
• Web pagina's worden geïndexeerd ais
Opfossing
• Meta data in web pagina plaatsen via - XML: <tite!> abc </titel>
• MAAR <tite!> kan verschillende betekenissen hebben: titel van een boek, film, paper ...
7
Definitie ontology
• beschrîjft de natuurlijke taal van een domein
• bevat concepten en attributen (instances)
• beschrijft hun onderlinge relaties
• beschrijft hun regels
• geschreven in een forme le taal: een taal begrijpbaar voor machines (RDF, OWL)
Een vergelijking ....
• Controlled vocabulary
• Taxonomy = controlled vocabulary + hiërarchische relaties
• Thesaurus = taxonomie met horizontaal gerelateerde terminologie (synoniemen, antoniemen, meroniemen etc,) vb. Wordnet
• Ontology =uitgebreider dan thesaurus
8
Voorbeeld
<rdfs:Ciass rdf:about="&mv;MotorVehicle"> <rdfs:subCiassOf
rdf:resource="&rdfs;Resource"l> </rdfs:Ciass> <rdfs:Ciass rdf:about="&mv;PassengerVehlcle">
<rdfs:subCiassOf rdf:resource="&mv;MotorVehicle"l> </rdfs:Ciass> <rdfs:Ciass rdf:about="&mv;Person">
<rdfs:subCiassOf rdf:resource="&rdfs;Resource"l> </rdfs:Ciass>
Semantische Web
• Belangrijke technologie voorde ontwikkeling van het semantische web web waar alle informatie begrijpbaar en interpreteerbaar is
voor machines
Rijker dan een taxonomie: meer relaties worden blootgelegd zoals meroniem vb. hand is deel van een arm
Bevordert het opzoeken van informatie: zoekmachines zullen veel betere resultaten kunnen genereren aan de gebruikers
9
Problemen
• Ontwikkeling en onderhoud duur en arbeidsintensief
• Groep experts <----> Effectieve gebruikers
• Formele taal schrikt gebruikers af om te participeren in ontwikkeling
2. Informatie zoeken op het web
• Directories
• Zoekmachines & Ontologies
• Folksonomies
'
10
Definitie folksonomy (1)
• Sociaal Classificatiesysteem
• Ontwikkelaars = gebruikers
• Gebruikers mogen hun eigen keywords of tags gebruiken voor het omsclirijven van content: - volgens Amerikaanse studie: 28°/o internet
gebruikers heeft reeds content getagd[sJ
• Vergelijkbaar met keywords toegevoegd door auteur(s) aan een paper
• Het aggregeren van alle tags = vlakke bottom-up taxonomy
• Folksonomy = folk + taxonomy (Thomas Vander Wal[6J)
• Sociale navigatie: informatie vinden via personen met gelijke interesse.
11
Enkele voorbeelden ... ., :
'W' slidAshare
• del.icio.us "" (Gonnotea Youiimi:J • V'
flickr~ dteulike BibSonomy
~ Technoratï En vele andere ...
~ del.icio.us
• Beheren van favoriete websites of bookmarks • Tags worden gebruikt voor het omschrijven van
bookmarks • Tags kunnen door de gebruiker worden geclusterd in
bundels • Feedback • Eike gebruiker heeft zijn ei~en account
• Op basis van tags of bookmarks kunnen personen met gelijke interesses elkaar terugvinden
• Knoppen in browser
',
12
Del..icio.us (2)
Feedback
J:ül slideshar~ u.-a.~::c -;:u :h"l<.<::.. ~"-" (!w!J", ;, !a.<., eorn..:l i". :t llb::. <.f:'.u"M"'
~J~;;>!j..nl':'JW....:!.~"''
y,._.,. _ _,,._~~ Y"<>n·op-,;!' ~<H-1.-';~~ ·~···· ..., ......... l:.t_Ciont __ = .... - ..... ._
-J
... :c~~-·7···--... --~~.,-·.,..···.,..···-,-"" ... ..,..,.....-_, .. -.... -... ~--------= ::.:-1:3
reUIIIIIIIIWinlt~lill
umn·~ dH>;:T• ~!>:llo• l:o' '""~
liiiiï~o ~Hl'Ut*l~--- ....
13
Del..lcio.us (4)
J:Hl slidesharf? isa neal"H'afto9nre & ~-v:;r~s
U;;,:,ro,.~t·~-~~~~uu'l'd!l;,;.,.,<:rltni•l:.tt:h..cdh:...Nl"
~~=..t<.JIDT'm<~.li.l~n.Jl
lou_"" __ ,._~~ ,.,~"''l-t"'~l.'ll.~ . .~::t--.,, Mt<oloonobtb'- a..~ .. ••:4.t.ll':w,_O'I!•o
_,
DeLicio.us (5)
:n~t<~t.·.~r~d!~ t~ctc~-<"" '~' _,_.,...,. ~l',;~o'~t"<<--{<- ".Y>::>'
~a..~bylcpoe··'' ""'· "o\:o-:,o\.t>! ..,.->; ~ ~' ~~,--;.-
~,'~~~~~~/~.ol WC~'1~.
~.,:._~s_.~_:''"·'""' JROXCŒJ~~-~~-~~:; w<\1''1''~:- ~""""'· ë·-...,.,--.r~ -rr,;-3"
'~ ·~
~= ·-"'" ~==--. ~=~=-~:E:.. ~=
~~~~~: ~~ f'lllrntA:ttrG.il..dl;lea•Grtli.CI~~~olf1:.-..k"~· 11ft'
~~2~~~ '·~-~v~~ _·r-r~~~~--. -~~Fn:r:_~~~~f?
14
DeLicio.us (6)
.,. ... oui6QIH .. ___ .,.,.,,.,....
;;_;,;:";;;r.;,."~·"'~~ .. r ~li'"' ""'J'fMI
...... ,._ ·-~= "~Üift
~ =-·-ls. ~~ ~= ·-;:.':..-
·-"·~~.tfi_ ... _ i: ~~.:"'- ~. ~,.._~., ... IObv!llllotl1lm'loi,_,I_•....-,I<..,..._.,I~"'I.1::13Jo•U•,.. .. ~ .... -·
~.-·--·--~·-.--"·2:.::.:~·=-:.~.:~::-=:~=--~::-:.~==r:~~~:~.,.·.~
Del. ici o. us (7)
-YMIUI- ......... b]lPM~t.
!Wo~~htU~~~!'JWrl· 1-r::::. , '" -, .· ...,., ~ .. ,... ;· '"''"" ' . "
Tagcloud
15
•
• del.icio.us Cloud (popular tags) • Thl:sks•IRVdowl-ebtolk9f1'o'tolnlsaerellettl~ty
~~~L~1':1?'1:
aov-ernsmg ajax apple archltectur~ art artcle artJ:Ie-$ auoo blog blCÇQinQ blogs books business ~~r c~ITI\c~
community co-rnputer cookmg c~X.I mh CSS culture t~ataease design development dr/ download educallon emai:
entertamment eJ"Mronmeot fa!hicn fic film 11nance riô'efOlol nash fonts food free rreeware fun funny galttry games google
grapllcs grun gta hardwarE heaHh hlstOfY home housl! howto hlml humor 111u~I:Tatlon Images imported rr.lormaJroo
inspiration internet java javascript JOb! luming lllm:l!)' lttenackS linux mac rrnii!!Uine marketJnQ media mobile mcney
mavies mp3 mUSÎC myspace r:et....'Otl neWS On!Jne OpeOSOUfCe OSX phcto photography photOS pl"loto,t;cp l.)~1p
poocast polttics portroiiD productJY~t;' programming 11~to falls r~i?e reclpes reference re~lon rBsear:::h resources
ruby rucyoor3ib: SCiBOCB Search S8CUrity Se1l !gil ShOp ShOpping Sla!l'l SOCial SOftware spOOs teetl techfloJogy tipS
tools ''"••o travel tutorial uocio~ tv -·' typag"""" ubuntu Video "'"' web web2,0 webdesign n-ebdev wM<1 windows lollorapres.s wt:~rk ~'mhfl\1 youtube
Enkele nadelen
•
•
•
•
•
Homoniemen
Synonîemen
Idiosyncratisch taggen
Meervouden
Schrijf-en tikfouten
• Algemene versus gespecialiseerde termen
16
•
Meervouden
Homoniemen
"' '""'' ""'"' '""'"·" "''"r"'"' arch~ecture art .,,, australia ""'"''· baby borceicno beach berlin irthday black bi>ol<"<ll'•:N~<l!e blue ucoron bw
californie cameraphone ""'"'''Il canada 8•rtÉaÏ~chicago china chnstmas ct:uch city èlouœ oolN concert d'O """"" d~and europe
Id iosynCïatisch taaaen ""'family festival n1rn nond• ower flowers ood france friends fun ~ ~ garden geotagged germany QJn \Il"'"" en halloween h""m!Ï ''"'' holiday
Synoniemen m"" hone,mcon "'"'"""'' house india ~reiano "'"'' ital japan Mi tod0ake
lorîdSC'8pt? ~Qht I!Jré london l<'l$til'9SIU. macro marc me mexiCO mc:xrt;ur: !TIOIJIU~m·1 museum mUSiC n8ÎUf8 ne ne\\.'Y0f """""'~m ne>Heoiand night nikon
flickr~
~ o:e>n paris park party people portrait red ""'" ""''""' rt<:k """" son sanfrancisco scctlar>J sea seattle show sky snow spain spring street
summer ""' sunset syoney taiwan te;as thailand tokyo t·oronto traveltree
0"605 trip Uk "'""" U5a vacation vorlWN"' ''•BsilJnC:c,n water wedding white winter yrJ!!m yr~n. zoo
• Stem ming algoritmes
• Clustering
• Facets
• Folksonomies + Ontologies
17
•
•
• Lage kost • Lage cognitieve overhead • Gebruikers = ontwikkelaars • Nieuwe woorden worden direct opgenomen • Gebruikers vinden hun content zeer snel terug • Tags gecreëerd door mensen sluiten veel beter
aan dan deze gecreëerd door automatische creatier7J
•
3~ Vergelijking hui'dige classificatietechnieken documentalist
• Hiërarchisch - opsommend: v b. DDC
• Analytisch-synthetisch: vb. Colon classificatie 1
Bliss Bibliographie classification
18
Il
Dewey Decimal CJassificatie (DDC}
• Melvil Dewey
• In 200.000 bibliotheken
• 10 hoofdklasses
• 1 hoofdklasse heeft 10 subklasses
• 1 subclasse heeft 10 sectîes
• Arabîsche getallen
• Updates op regelmatîge basîs
DDC <----> Classificatietechnieken Web
• Parallellismen met de dîrectories op www, aileen zijn het aantal categorieën veel kleîner (Open Directory Project 500.000 [SJ)
• Enkel hiërarchîsche relaties
• Een boek kan maar op 1 plaats voorkomen
• Het wordt ge-update door een commîssîe: mist flexibiliteit van folksonomies: gebruikers hebben geen înspraak
l
19
'
Il
Colon Classiftcatie (CC)
• S.R. Ranganathan
• Reactie op beperking van hiërarchische en opsommende classificatietechnieken
• Facet classificatie: alle aspecten van een domein worden verzameld in een soort clusters of facets. De facets worden gebruikt om de boeken te beschrijven
• Personality Matter Energy Space Time
• Bouwt verder op werk Ranganathan
• Facets: - Thing
- Kind
- Part
- Property
- Materiai
- Process
Operation
-· Patient
- Product
- By product
- Agent
- Space
- Time
20
•
Facets zijn voorafbepaald
Opportuniteit folksonomies
Creatîe van facets = doelstelling FaceTag
Referenties
[1] A. Gulli and A. Slgnorini. (2005) The indexable Web is more than 11.5 billion pages. In Poster proceedings of the 14th international conference on World Wide Web, pages 902-903, Chiba, Japan, ACM Press. [2] P. Lyman,H. R. Varian,K. Searingen,P. Charles, N. Good, L. L. Jordan, and J. Pal. (2003) How much information? Onllne beschlkbaar
[3] Wlkipedia Foundatlon: About Wikipedia. 2007 Onllne beschikbaar op
[5] PEW internet & american Llfe Project (2005) Online News and User-generated Content Dec.2005 [6] Vander Wal, T. (2004). Folksonomy. ·c.
[7] AI-Khallfa, H. S. and Davis, H. C. (2007) Exploring The Value Of Folksonomies For Creating Semantlc l'-1etadata. International Journal on Semantic Web and Information Systems (DSWIS) 3(1) pp. 13-39 [8] SIEVERTS, Eric. (2004). Inhoudelijk toegankelljk maken van hybride blbllotheekcollecties. Paper Konlnklljke bibliotheek Den Haag. 50 p .
21
Top Related