Digi talna knjižnica 1

41
Digitalna knjižnica 1 Osnovni tehnični pogoji za delovanje d-knjižnice, načini organizacije dokumentov na spletu.

description

Digi talna knjižnica 1. Osnovni t ehnični pogoji za delovanje d-knjižnice , načini organizacije dokumentov na spletu. D-knjižnica. Zbirka ( lokalnih (?)) e-dokumentov, kazalcev na e -dokumente in institucija, ki jih ureja. Dokumenti so namenjeni rabi preko omrežja. - PowerPoint PPT Presentation

Transcript of Digi talna knjižnica 1

Page 1: Digi talna knjižnica 1

Digitalna knjižnica 1

Osnovni tehnični pogoji za delovanje d-knjižnice,

načini organizacije dokumentov na spletu.

Page 2: Digi talna knjižnica 1

D-knjižnica

Zbirka (lokalnih (?)) e-dokumentov, kazalcev na e-dokumente in institucija, ki jih ureja.

Dokumenti so namenjeni rabi preko omrežja. Deluje po načelu virtualnosti: dokumenti

dostopni brez prostorskih in časovnih omejitev. Internet ni d-knjižnica.

Page 3: Digi talna knjižnica 1

D-knjižnica

Običajno je vsebinsko omejena (podobne funkcije, kot

specialna ali deloma visokošolska knjižnica), ni omejena glede tipov dokumentov in tipov

podatkov v dokumentih, vključuje le zaupanja vredne in stabilne

dokumente, uporablja dobra iskalna in prikazovalna orodja.

Page 4: Digi talna knjižnica 1

D-knjižnica Prednost organiziranja dokumentov v d-

knjižnici je tudi možnost storitev z dodano vrednostjo: lažje iskanje dokumentov in konkretnih mest v

dokumentih, ki opisujejo želeno tematiko, personalizacija – poznavanje uporabnikovih

zahtev (t.i. uporabniški profil) omogoča avtomatsko oblikovanje podmnožice dokumentov v d-knjižnici,

možnost avtomatskega obveščanja o novih dokumentih, ki ustrezajo uporabniškemu profilu...

Page 5: Digi talna knjižnica 1

Tehnični pogoji za gradnjo d-knjižnice

Internet logična infrastruktura za uporabo funkcij d-knjižnice.

Od javnih aplikacij na Internetu najbolj ustreza Svetovni splet (WWW).

Z odločitvijo za splet vnaprej razrešeni nekateri najpomembnejši tehnični pogoji.

Page 6: Digi talna knjižnica 1

Tehnični pogoji za gradnjo d-knjižnice

Zaradi odločitve za splet Ni potreben razvoj specializirane programske

opreme za delovanje strežnikov dokumentov in pregledovalnikov dokumentov v d-knjižnici.

Ni potreben razvoj protokolov za komunikacijo med strežniki in odjemalci ter transport ukazov in dokumentov med njimi.

Storitve d-knjižnice so globalno dostopne neglede na uporabnikovo strojno opremo in operacijski sistem.

Page 7: Digi talna knjižnica 1

Tehnični pogoji za gradnjo d-knjižnice

Vse te naloge so že razrešene v spletu. Osnovna spletna programska oprema in

aplikacije so stabilne, za razvoj pa skrbi večji del internetne skupnosti.

Programska oprema, nujna za delovanje spleta in spletnih aplikacij je lahko dostopna in poceni.

Page 8: Digi talna knjižnica 1

Tehnični pogoji za gradnjo d-knjižnice

Širjenje in posodobitev omrežne infrastrukture približno sledi rasti količine prenesenih podatkov.

Naslavljanje dokumentov: prevladujoč standard je URL (Uniform Resource

Locator), ki samo deloma ustreza, ker opisuje pozicijo in ne identiteto dokumenta,

URL primeren le za osnovne funkcije rabe stabilnih dokumentov.

Izvorno splet predvideva URI (Uniform Resource Identifier) – identifikator, ki bi bil lastno ime dokumenta in veljal vso njegovo življenjsko dobo.

Primera URI: DOI (Digital Object Identifier) in PURL (Persistent URL).

Page 9: Digi talna knjižnica 1

Tehnični pogoji za gradnjo d-knjižnice

Standardni transportni protokol HTTP ustrezen za dostop do dokumentov in njihov

transport na uporabnikov računalnik, manj ustrezen za delovanje iskalnikov - otežkoča

implementacijo iskalne seanse in iskalne strategije.

Sklep: splošni tehnični pogoji na spletu ustrezajo za delovanje osnovnih funkcij d-knjižnice.

Page 10: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

Internet in še posebej WWW omogoča ponudbo in uporabo zelo različnih podatkovnih tipov.

Nosilec informacij, s katerim se ukvarja d-knjižnica je dokument in ne njegov bibliografski nadomestek.

Page 11: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

Dokument je vsak samostojno dostopen informacijski objekt: članek, monografija, domača stran osebe ali inštitucije, seznam kazalcev na dokumente, rezultati poizvedbe…

Page 12: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

Dokument je najmanj ena samostojna datoteka.

Vsak nebesedilni element multimedijskega dokumenta je samostojna datoteka.

Besedilna osnova multimedijskega dokumenta vsebuje hipertekstne reference na datoteke nebesedilne narave.

Datoteke, ki sestavljajo dokument, so lahko nameščene na medsebojno zelo oddaljenih strežnikih in se sestavijo šele na uporabnikovem računalniku.

Page 13: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

Organiziranje dostopa do dokumentov večinoma ne predvideva zbiranja dokumentov na enem mestu - v zbirki dokumentov.

Organiziranje dostopa do dokumentov večinoma pomeni zbiranje kazalcev na dokumente.

Page 14: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

V omrežnem okolju je kazalec na dokument informacija o imenu dokumenta in njegovi namestitvi v sistemu direktorijev nekega konkretnega strežnika v omrežju.

V interaktivnem omrežnem okolju (WWW) pomeni aktivacija kazalca (klik z miško) priklic dokumenta, na katerega kaže kazalec.

Page 15: Digi talna knjižnica 1

Organizacija dokumentov na Internetu

Dva prevladujoča načina organizacije dokumentov na Internetu: seznami kazalcev na dokumente, zbirke kazalcev na dokumente.

Dva izpeljana načina organizacije: spletni portali in (kooperativni) spletni katalogi.

Page 16: Digi talna knjižnica 1

Seznami kazalcev na dokumente

Kriteriji urejanja kazalcev: kronološki, abecedni, geografski, glede na hierarhijo pojmov v stroki...

Page 17: Digi talna knjižnica 1

Seznami kazalcev na dokumente

Prednosti seznamov kazalcev: dokumenti urejeni po nekem kriteriju, npr.

vsebinskih kategorijah, kar olajšuje iskanje, večinoma vsebujejo netrivialne dokumente, manjša možnost multiplikatov…

Pomanjkljivosti seznamov kazalcev: velik vložek intelektualnega dela, neažurnost... skratka, podobne pomanjkljivosti, kot jih ima

intelektualno indeksiranje.

Page 18: Digi talna knjižnica 1

Seznami kazalcev na dokumente

Nekateri seznami: DMOZ

http://dmoz.org Yahoo

http://www.yahoo.com Google Directory

http://directory.google.com/ Best of the Web

http://botw.org/

Page 19: Digi talna knjižnica 1

Struktura direktorijev je podobna pri vseh seznamih kazalcev.

Večina seznamov je usmerjenih v zabavo.

Page 20: Digi talna knjižnica 1
Page 21: Digi talna knjižnica 1
Page 22: Digi talna knjižnica 1
Page 23: Digi talna knjižnica 1
Page 24: Digi talna knjižnica 1
Page 25: Digi talna knjižnica 1

Zanimiv primer je DMOZ, http://dmoz.org s kolektivnim in prostovoljnim urejanjem.

Page 26: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Seznami kazalcev postanejo preveliki za odkrivanje dokumentov izključno z listanjem.

Začnejo vključevati iskalnike, najprej le za dokumente v svojih seznamih, kasneje splošne.

Gre za prave sodobne IR sisteme z vsebinskimi opisi dokumentov nastalimi z avtomatskim indeksiranjem.

Page 27: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Število spletnih dokumentov in njegova eksponentna rast onemogočata intelektualno indeksiranje dokumentov v iskalnikih, usmerjenih v splošne vsebine.

Na Internetu prevladujejo avtomatski in polavtomatski postopki opisovanja vsebine, celo pri klasifikaciji (gradnja seznamov) in deloma pri katalogizaciji.

Page 28: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Velikost zbirk, ki jih uporabljajo internetski iskalniki, daleč presega merila, ki smo jih navajeni v klasičnem IR.

Velikost pojavov na Internetu je na splošno zelo težko meriti, pri iskalnikih smo omejeni na njihove lastne ocene.

Dober povzetek lastnosti iskalnikov:

http://searchenginewatch.com/reports/sizes.html

Page 29: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Ocena velikosti spleta, februar 2000:1 milijarda dokumentov

Izjava iskalnika Google, februar 2002:Searching 2,073,418,204 web pages

Izjava iskalnika Google, februar 2003: Searching 3,083,324,652 web pages

Izjava iskalnika Google, februar 2004: Searching 4,285,199,774 web pages

Izjava iskalnika Google, januar 2005Searching 8,058,044,651 web pages

Page 30: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki: feb. 2000

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:

http://searchenginewatch.com/reports/sizes.html

Page 31: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki: jun. 2001

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos.

Po:

http://searchenginewatch.com/reports/sizes.html

Page 32: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki: sep. 2003

Legenda:GG=Google, ATW=AllTheWeb, INK=Inktomi, TMA=Teoma, AV=AltaVista . P

o:

http://searchenginewatch.com/reports/sizes.html

Page 33: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Legenda:FAST=FAST, AV=AltaVista, EX=Excite, NL=Northern Light, GG=Google, INK=Inktomi, Go=Go (Infoseek), LY=Lycos. Po:

http://searchenginewatch.com/reports/sizes.html

Page 34: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Legenda:GG=Google, ATW=AllTheWeb, AV=AltaVista, INK=Inktomi, TMA=Teoma Po:

http://searchenginewatch.com/reports/sizes.html

Milijarde indeksiranih dokumentov(december 1995 – september 2003)

Page 35: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Uspešna plat - gradnja zbirke: zbiranje podatkov o obstoječih dokumentih z

avtonomnimi programskimi agenti (robots, spiders, crawlers, worms…),

avtomatsko indeksiranje - večinoma klasične metode statističnega pristopa (blokiranje, krnjenje, frekvenčne analize).

Page 36: Digi talna knjižnica 1

Delovanje avtonomnih programskih agentov

Agent 1. pregleda dokument,

2. shrani vse kazalce na druge dokumente v seznam,

3. če dokument še ni indeksiran, ali če je spremenjen od zadnjega pregleda, ga indeksira,

4. prikliče naslednji dokument iz seznama in opravi korake 1 - 3.

Zbirko stalno polni več agentov. Zaradi eksponentne rasti števila dokumentov,

splet nikoli ne more biti indeksiran v celoti.

Page 37: Digi talna knjižnica 1

Delovanje avtonomnih programskih agentov

Page 38: Digi talna knjižnica 1

Gradnja zbirk z avtonomnimi prog. agenti

Razen frekvenčnih porazdelitev besednih krnov uporabljajo iskalniki še nekatere dodatne informacije za računanje relevantnosti dokumentov.

Višje povedne moči dobijo krni iz naslova, krni iz hipertekstnih kazalcev, krni z vrhnjih delov strani, krni iz poudarjenih delov dokumenta (mastni,

poševni tisk)...

Page 39: Digi talna knjižnica 1

Gradnja zbirk z avtonomnimi prog. agenti

Posebno učinkovit dodaten faktor računanja relevantnosti je PageRank (Google): Če avtor v svojem spletnem dokumentu postavi

kazalec na nek drug dokument, to običajno pomeni, da se mu zdi ta dokument dober.

Dokumenti, na katere kaže mnogo kazalcev, dobijo visok PageRank (podobnost s citatnimi zbirkami – SCI).

PageRank dokumenta se še poveča, če nanj kažejo dokumenti z visokim PageRank-om.

Page 40: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Analiza prekrivanja rezultatov iskanja (l. 1998):iskalna zahteva št. skupnih

kazalcev multilingual AND (information OR document OR text) AND retrieval AND (slovene OR slovenian)

3 / 80

latent AND semantic AND indexing 13 / 80

Analizirani iskalniki: AltaVista, Excite,

Infoseek, Lycos. Preverjeno po 20 najvišje uvrščenih kazalcev. Prešteto število kazalcev, ki se pojavljajo pri

več kot enem iskalniku.

Page 41: Digi talna knjižnica 1

Zbirke kazalcev in iskalniki

Analiza kaže zelo majhno prekrivanje rezultatov, verjetno zaradi slabega rangiranja, vendar boljše prekrivanje pri 2. iskalni zahtevi.

Priporočilo: poskusi oblikovati čim bolj specifično iskalno

zahtevo, uporabi čimvečje število ključnih besed pri slabše

definiranih informacijskih potrebah.