Webarchiv CZ
-
Upload
jaroslav-kvasnica -
Category
Technology
-
view
159 -
download
0
Transcript of Webarchiv CZ
![Page 1: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/1.jpg)
Webarchivpamátník českého internetu, více
![Page 2: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/2.jpg)
Historie
• 2000 - začátek (jako projekt NK ČR, MZK a MU ČR)
• 2001 - první archivované webové stránky
• 2005 - pravidelné sklízení obsahu
• 2007 - vstup do IIPC
![Page 3: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/3.jpg)
Dnes
• z projektu se stalo Oddělení archivace webu
• hlavní financování z rozpočtu knihovny
• 1 vedoucí + 2,5 kurátorů + 0,5 IT podpora
![Page 4: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/4.jpg)
![Page 5: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/5.jpg)
Profil archivu
• stáří archivu: 3. 9. 2001
• ~ 200 TB
• frekvence sklízení: 1x - 1x|2x|6x|12x/year
• hloubka sklízení: 5000 - 15 000 objects
• přístupnost: in house/online access
![Page 6: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/6.jpg)
Rozložení domén
![Page 7: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/7.jpg)
Tempo růstu
![Page 8: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/8.jpg)
![Page 9: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/9.jpg)
• robot.txt nerespektujeme
• velké dilema pro webové archivy
• rozhodnutí má zásadní dopady na archiv
• “V současnosti standardně soubory robots.txt nezohledňujeme, jelikož věříme, že historie webu by se měla uchovat v takové podobě, v jaké ho vidí lidé a ne vyhledávače.”
![Page 10: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/10.jpg)
Designated community
• koncový uživatelé, kteří by měli být schopni porozumět konkrétní množině informací (OAIS)
• definice uživatelů určuje obsah i jeho formu
1. individuální uživatelé2. institucionální uživatelé3. výzkumníci a vědci
![Page 11: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/11.jpg)
Typy sklizní
• Celoplošné: celý “český web”
• Výběrové: reprezentativní vzorek “českého webu”
• Tematické: události s dopadem v prostředí internetu
![Page 12: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/12.jpg)
“český web”?• bohemikální charakter zdroje (definice v collection policy)
• Území – zdroje publikované na území ČR
• Jazyk – všechny zdroje v češtině (bez ohledu na místo vydání)
• Autorství – všechny zdroje českých autorů (bez ohledu na místo vydání)
• Předmět/obsah – všechny zdroje, jejichž obsah se týká České republiky nebo českého národa (bez ohledu na místo vydání)
![Page 13: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/13.jpg)
Další kriteria“Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu.”
• nechceme firemní prezentace, eshopy apod. komerční zdroje (?)• nechceme velké deníky (??)• intranety (?)• katalogy, portály se sekundárním obsahem• rozhlasové a televizní vysílání
• neděláme/neumíme sklízet zabezpečené webové zdroje (databáze, sekce pro registrované uživatele)
![Page 14: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/14.jpg)
Technické překážky
• Flash, Ajax, JavaScript …
• technických překážek je mnoho, řešení?
• univerzální řešení neexistuje
• technické sklizně => “someday”
![Page 15: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/15.jpg)
Zpřístupnění
• Wayback Machine (zobrazování)
• Vyhledávání:
• primárně WWW
• katalog Aleph
• WM
![Page 16: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/16.jpg)
Akvizice domén
• CZ NIC
• návrhy uživatelů, vydavatelů
• ISSN agentura
• kurátoři -> konspekt
![Page 17: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/17.jpg)
Licence
• výhradní (smlouva)
• na doménu
• bianco
• creative commons
![Page 18: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/18.jpg)
Role kurátora
• komunikace s vydavateli
• “plnění” konspektu
• správa webových zdrojů vč. hodnocení
• katalogizace
• quality assurance
![Page 19: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/19.jpg)
Kuratorství ve světě
• Technicky vyřešeno
• Důraz na kolekce
• IIPC collaborative collections
• Sociální sítě
![Page 20: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/20.jpg)
![Page 21: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/21.jpg)
![Page 22: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/22.jpg)
Jak to děláme my?
• Tematické sklizně
• Plníme konspekt
• Kontinuální tematické sklizně?
• Zapojení dalších institucí?
![Page 23: Webarchiv CZ](https://reader031.fdocuments.net/reader031/viewer/2022030304/587745d51a28ab84388b468d/html5/thumbnails/23.jpg)