Digi talna knjižnica 1
description
Transcript of Digi talna knjižnica 1
Digitalna knjižnica 1
Osnovni tehnični pogoji za delovanje d-knjižnice,
načini organizacije dokumentov na spletu.
D-knjižnica
Zbirka (lokalnih (?)) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja.
Dokumenti so namenjeni rabi preko omrežja. Deluje po načelu virtualnosti: dokumenti
dostopni brez prostorskih in časovnih omejitev. Internet ni d-knjižnica.
D-knjižnica
Običajno je vsebinsko omejena (podobne funkcije, kot
specialna ali deloma visokošolska knjižnica), ni omejena glede tipov dokumentov in tipov
podatkov v dokumentih, vključuje le zaupanja vredne in stabilne
dokumente, uporablja dobra iskalna in prikazovalna orodja.
D-knjižnica Prednost organiziranja dokumentov v d-
knjižnici je tudi možnost storitev z dodano vrednostjo: lažje iskanje dokumentov in konkretnih mest v
dokumentih, ki opisujejo želeno tematiko, personalizacija – poznavanje uporabnikovih
zahtev (t.i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici,
možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu...
Tehnični pogoji za gradnjo d-knjižnice
Internet logična infrastruktura za uporabo funkcij d-knjižnice.
Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW).
Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.
Tehnični pogoji za gradnjo d-knjižnice
Zaradi odločitve za splet Ni potreben razvoj specializirane programske
opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici.
Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi.
Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.
Tehnični pogoji za gradnjo d-knjižnice
Vse te naloge so že razrešene v spletu. Osnovna spletna programska oprema in
aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti.
Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.
Tehnični pogoji za gradnjo d-knjižnice
Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov.
Naslavljanje dokumentov: prevladujoč standard je URL (Uniform Resource
Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta,
URL primeren le za osnovne funkcije rabe stabilnih dokumentov.
Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo.
Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).
Tehnični pogoji za gradnjo d-knjižnice
Standardni transportni protokol HTTP ustrezen za dostop do dokumentov in njihov
transport na uporabnikov računalnik, manj ustrezen za delovanje iskalnikov - otežkoča
implementacijo iskalne seanse in iskalne strategije.
Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij d-knjižnice.
Organizacija dokumentov na Internetu
Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov.
Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.
Organizacija dokumentov na Internetu
Dokument je vsak samostojno dostopen informacijski objekt: članek, monografija, domača stran osebe ali inštitucije, seznam kazalcev na dokumente, rezultati poizvedbe…
Organizacija dokumentov na Internetu
Dokument je najmanj ena samostojna datoteka.
Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka.
Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave.
Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.
Organizacija dokumentov na Internetu
Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov.
Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.
Organizacija dokumentov na Internetu
V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju.
V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.
Organizacija dokumentov na Internetu
Dva prevladujoča načina organizacije dokumentov na Internetu: seznami kazalcev na dokumente, zbirke kazalcev na dokumente.
Dva izpeljana načina organizacije: spletni portali in (kooperativni) spletni katalogi.
Seznami kazalcev na dokumente
Kriteriji urejanja kazalcev: kronološki, abecedni, geografski, glede na hierarhijo pojmov v stroki...
Seznami kazalcev na dokumente
Prednosti seznamov kazalcev: dokumenti urejeni po nekem kriteriju, npr.
vsebinskih kategorijah, kar olajšuje iskanje, večinoma vsebujejo netrivialne dokumente, manjša možnost multiplikatov…
Pomanjkljivosti seznamov kazalcev: velik vložek intelektualnega dela, neažurnost... skratka, podobne pomanjkljivosti, kot jih ima
intelektualno indeksiranje.
Seznami kazalcev na dokumente
Nekateri seznami: DMOZ
http://dmoz.org Yahoo
http://www.yahoo.com Google Directory
http://directory.google.com/ Best of the Web
http://botw.org/
Struktura direktorijev je podobna pri vseh seznamih kazalcev.
Večina seznamov je usmerjenih v zabavo.
Zanimiv primer je DMOZ, http://dmoz.org s kolektivnim in prostovoljnim urejanjem.
Zbirke kazalcev in iskalniki
Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem.
Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne.
Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.
Zbirke kazalcev in iskalniki
Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine.
Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.
Zbirke kazalcev in iskalniki
Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR.
Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene.
Dober povzetek lastnosti iskalnikov:
http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki
Ocena velikosti spleta, februar 2000:1 milijarda dokumentov
Izjava iskalnika Google, februar 2002:Searching 2,073,418,204 web pages
Izjava iskalnika Google, februar 2003: Searching 3,083,324,652 web pages
Izjava iskalnika Google, februar 2004: Searching 4,285,199,774 web pages
Izjava iskalnika Google, januar 2005Searching 8,058,044,651 web pages
Zbirke kazalcev in iskalniki: feb. 2000
Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:
http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki: jun. 2001
Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.
Po:
http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki: sep. 2003
Legenda:GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista . P
o:
http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki
Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:
http://searchenginewatch.com/reports/sizes.html
Zbirke kazalcev in iskalniki
Legenda:GG=Google, ATW=AllTheWeb, AV=AltaVista, INK=Inktomi, TMA=Teoma Po:
http://searchenginewatch.com/reports/sizes.html
Milijarde indeksiranih dokumentov(december 1995 – september 2003)
Zbirke kazalcev in iskalniki
Uspešna plat - gradnja zbirke: zbiranje podatkov o obstoječih dokumentih z
avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…),
avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).
Delovanje avtonomnih programskih agentov
Agent 1. pregleda dokument,
2. shrani vse kazalce na druge dokumente v seznam,
3. če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira,
4. prikliče naslednji dokument iz seznama in opravi korake 1 - 3.
Zbirko stalno polni več agentov. Zaradi eksponentne rasti števila dokumentov,
splet nikoli ne more biti indeksiran v celoti.
Delovanje avtonomnih programskih agentov
Gradnja zbirk z avtonomnimi prog. agenti
Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov.
Višje povedne moči dobijo krni iz naslova, krni iz hipertekstnih kazalcev, krni z vrhnjih delov strani, krni iz poudarjenih delov dokumenta (mastni,
poševni tisk)...
Gradnja zbirk z avtonomnimi prog. agenti
Posebno učinkovit dodaten faktor računanja relevantnosti je PageRank (Google): Če avtor v svojem spletnem dokumentu postavi
kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober.
Dokumenti, na katere kaže mnogo kazalcev, dobijo visok PageRank (podobnost s citatnimi zbirkami – SCI).
PageRank dokumenta se še poveča, če nanj kažejo dokumenti z visokim PageRank-om.
Zbirke kazalcev in iskalniki
Analiza prekrivanja rezultatov iskanja (l. 1998):iskalna zahteva št. skupnih
kazalcev multilingual AND (information OR document OR text) AND retrieval AND (slovene OR slovenian)
3 / 80
latent AND semantic AND indexing 13 / 80
Analizirani iskalniki: AltaVista, Excite,
Infoseek, Lycos. Preverjeno po 20 najvišje uvrščenih kazalcev. Prešteto število kazalcev, ki se pojavljajo pri
več kot enem iskalniku.
Zbirke kazalcev in iskalniki
Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi.
Priporočilo: poskusi oblikovati čim bolj specifično iskalno
zahtevo, uporabi čimvečje število ključnih besed pri slabše
definiranih informacijskih potrebah.