Tematické kolekce jako měřítko kvality webových archivů

17
Tematické kolekce jako měřítko kvality webových archivů?

Transcript of Tematické kolekce jako měřítko kvality webových archivů

Tematické kolekcejako měřítko kvality webových archivů?

Webová archivace

“Web archiving is the process of collecting portions of the World Wide Web to ensure the information is preserved in

an archive for future researchers, historians, and the public.”

“Je snazší nalézt exemplář filmu z roku 1924, než webové stránky z roku 1994.”

M.S. Ankerson. “Writing web histories with an eye on the analog past.” 2012. http://nms.sagepub.com/content/14/3/384.full.pdf+html

Co stojí za to archivovat?

“more is more, less is less”

vs.

“hoarding is not a strategy”

Co stojí za to archivovat?

• V dnešní době můžeme jen hádat.

• Lidstvo nikdy nedokáže kategorizovat všechna data na světě.

Základní typologie akvizice

celoplošné sklízení

kvantita > kvalita

výběrové sklízení

kvalita > kvantita

Celoplošné sklízení

1. všechno, celý web (Internet Archive)2. předem definovaná část webu (národní web, TLD)

• semínka nevybírají kurátoři • důraz na kvantitu -> co nejvíc, co nejrychleji a hlavně

automatizovaně• nutnost definovat výsek, který chceme sklízet (všichni

nemůžou být IA)

Výběrové sklízení

• semínka připravují kurátoři

• důraz na kvalitu: obsahovou, technickou (QA)

• monotematické: obor, událost, instituce…

• důležité: jednoznačně definovat kritéria akvizice

Webarchiv - český webový archiv

• od roku 2001

• ~ 250 TB dat

• méně než 1 % zdrojů zpřístupněných online

• celý archiv dostupný pouze v Klementinu

Výběrové sklizně

• manuální práce kurátorů

• “standardní” výběrová sklizeň -> konspekt

• tématické sklizně -> aktuální událost

• kolekce -> společné téma, obor, instituce…

Kolekce

První naše kolekce: Spolupráce s Karlovou univerzitou (cuni.cz)

IIPC collaborative collection:

• World War I; Europan Refugee Crisis

• https://archive-it.org/home/IIPC