Digitális archiválás
Transcript of Digitális archiválás
BME VIK TMIT
Motiváció
A világ legsúlyosabb adatvesztései:
• 30-40 ezer (korábban 150 ezerre becsült) gmailfelhasználó vesztette el átmenetileg a leveleit 2011 február végén
• 46 ezer brit ügyfél: Zurich Insurance gondatlansága folytán közúti szállítás közben eltűnt egy, az adatokat titkosítatlanul tároló mágnesszalag 2008-ban.
• 25 millió: 2007-ben brit kormány elvesztette 25 millió ember, a népesség felének adatait (név, szül. dátum, bankszámlaszám, tb. azonosító) egy adathordozón.
• 50 millió: 2007-ben 50 millió japán nyugdíjas adata tűnt el egy társ. biztosító hanyag könyvelési gyakorlata miatt, a kormányfő lemondott.
• 92 millió: ennyi e-mail üzenetet oroztak el az American Online-tól 2004-ben.
BME VIK TMIT
Adatok keletkezése
• Kutatók becslése szerint a világ információfogyasztása
meghaladta az évi 9,57 zettabájtot.
• A kutatók szerint a szervereken áramló adatmennyiség
kétévente duplázódik.
BME VIK TMIT
Adatok csoportosítása relevanciájuk szerint
Vállalati környezetben az alábbi kategóriákat különböztetik
meg:
– Érvényes adatok: az üzletmenet szempontjából fontos adatok,
ezeket védeni, hozzáférhetőségüket biztosítani kell.
– Rendszerfájlok: nem nyúlnak hozzájuk.
– Beragadt, árva adatok: már nem érvényes adatok, de még
szükség lehet rájuk, ezért archiválásuk fontos, ezt követően a
produkciós rendszerből törlendőek.
– Redundáns alkalmazás adatok, log fájlok, dump fájlok, átmeneti
fájlok: periodikus tisztításuk szükséges.
– Duplikált adatok: a redundáns adatokat törölni, az egyetlen
megmaradt példányt pedig meg kell osztani, hozzáférhetővé kell
tenni.
– Nem üzleti fájlok: törlésük szükséges, ezzel tárterület
szabadítható fel.
BME VIK TMIT
Adatok életciklusa
Rekordok esetén az adatok életciklusa:
– Létrehozás vagy beérkezés: az adat megjelenése a vállalati
adattárolásban. Ez történhet azáltal, hogy egy belső dolgozó
létrehozza az adott tartalmat, de az adat forrása lehet akár egy
iktatásra kerülő nyomtatvány vagy egy beérkező e-mail is.
– Elosztás, terjesztés: az adat vállalaton belüli kezelése, az
illetékesek számára hozzáférhetővé tétele.
– Használat: például üzleti döntések meghozatalakor, további
tartalmak létrehozásához, vagy bármilyen más funkcióban.
– Gondozás: szükség esetén a tartalom frissítése, az adat vállalati
előírásoknak megfelelő iktatása, a hozzáférési jogosultságok
szabályozása, stb.
– Eltávolítás, megszüntetés: az adatok többnyire nem kerülnek
valóban megsemmisítésre, de az elérhetőségük megszűnik,
kikerülnek a produkciós környezetből.
BME VIK TMIT
Az archiválás feladata
Adatok felosztása a használat szempontjából:
– Aktív adatok: gyakran használt, a mindennapi üzletmenetben
módosított állományok, például egy alkalmazás adatbázisa, vagy
egy fejlesztés alatt álló szoftver forráskód raktára.
– Referencia adatok: publikált, azaz többé már nem módosított
állományok, például e-mail-ek, jelentések.
– Passzív adatok: a produkciós környezetben nem jelenlévő, nem
használt, de archívumokból előkereshető tartalmak.
Az archiválás feladata, hogy az üzletmenethez
szükséges adatok nem reguláris körülmények között is
hozzáférhetőek legyenek, illetve, hogy a produkciós
környezetből kikerült tartalmak is szükség esetén elérhetők
maradjanak.
BME VIK TMIT
Archiválási média lehetőségek
• merevlemez
• mágnesszalag
• optikai lemez
• szilárdtest memória (Solid State Device)
BME VIK TMIT
A merevlemez előretörése
• Régen az új adatok merevlemezre kerültek, és
archiváláskor kerültek át szalagos tárolóra.
• A merevlemezek kapacitásának exponenciális
növekedésével és az áruk zuhanásával lehetségessé vált,
hogy az archivált tartalom is HDD-n legyen elérhető.
• Egy HDD tányérra jutó adatmennyiség egyre nő.
• Merevlemezek változása:
– Párhuzamosság. (SCSI, SATA)
– Egyes technológiák (pl. RAID) a hardver redundancia rendszerbe
illesztésével hibatűrést biztosítanak.
– Egy MByte ára, lemez illetve rendszer szinten egyre csökken.
BME VIK TMIT
Mágnesszalag
• Olcsó tárkapacitás (kazetták fajlagos ára jóval
kedvezőbb volt)
• Könnyű szállíthatóság
• Évtizedekben mérhető adatmegőrzési idő
• LTO Ultrium (2007-es) szabványa 800 GigaByte-os
kazettákat és 120 MegaByte/s-os átviteli sebességet ír
elő.
• Az átlagos pozícionálási idő 75 mp.
• PL. az IBM TS 3500-as szalagkönyvtár-rendszere akár
10 PetaByte adatot is képes tárolni
BME VIK TMIT
Optikai lemez
• Fő előny: olcsó
• Elterjedt: szériatartozéknak minősül valamennyi újonnan
eladott PC-ben
• CD/DVD
• Blu-ray, HD DVD
BME VIK TMIT
Szilárdtest memória (Solid State Device)
flash memória
• PC-k hagyományos merevlemezként ismerik fel
• Nem tartalmaznak mozgó alkatrészt, így energia-
felvételük alacsonyabb.
• Rázkódásból adódó fizikai igénybevételt is sokkal jobban
állják.
• Gyors az adatelérési sebességük, hiszen közvetlen
elérésű memóriát tartalmaznak.
• Mobil számítógépek piacán versenyképesek.
BME VIK TMIT
Távoli mentési szolgáltatás
Lényege, hogy szélessávú internet-kapcsolat segítségével
egy távoli helyszínre másolhatóak a replikálni kívánt
adatok.
• Költség megtakarítás a hardver beszerzés és
üzemeltetés kiiktatásával.
• Másik előnye, hogy ha a vállalat telephelyét bármilyen
katasztrófa éri, a mentett adatok biztonságban vannak.
• Hátrány: a bizalmas adatok harmadik fél kezébe
kerülhetnek és a sávszélesség is korlátozó tényező.
Mentési stratégiák
BME VIK TMIT
Másolatok biztonsága és hozzáférhetősége
• On-line
• Near-line
• Off-line
• Off-site vault
• Disaster Recovery Site
BME VIK TMIT
On-line hozzáférhetőség
• A rendszerhez szorosan csatolt, folyamatosan működő
tárolók használata. A visszaállítás késedelem nélkül
megkezdhető. Pl. az archiválásra használt belső
merevlemezek. Tipikus példák továbbá a SAN és a NAS
rendszerek.
– SAN (Storage Area Network) egy olyan architektúra, ahol távoli
tároló eszközöket (pl. merevlemez tömböket,
szalagkönyvtárakat) úgy csatlakoztatnak szerverekhez, hogy a
szerverek azokat lokálisan csatoltnak lássák.
– NAS azaz Network-Attached Storage ezzel szemben inkább úgy
viselkedik, mint egy hagyományos fájlszerver.
• Az on-line rendszerek használata gyors és kényelmes.
• Hátrányuk, hogy drágák és veszélyeztetettek a véletlen
vagy szándékos törlésektől (vírus), felülírásoktól.
BME VIK TMIT
Near-line hozzáférhetőség
• A near-line rendszerek elnevezése a near-online, azaz
majdnem on-line szavak összevonásából született.
• Azokat az architektúrákat nevezi így, melyek nem
teljesítik az on-line rendszerek szigorú időzítési
feltételeit, de emberi beavatkozás nélkül idővel
hozzáférhetővé tudják tenni a kívánt tartalmakat.
• Pl. a szalagkönyvtárak, melyek saját nyilvántartásukból
képesek kiválasztani a megfelelő kazettákat, és
mechanikus robotkarjaik segítségével betölteni azokat.
BME VIK TMIT
Off-line hozzáférhetőség
• Az archivált adatokat tároló hordozó csak emberi
közbeavatkozás segítségével érhető el.
• Gyakori megoldás például, hogy a mágnesszalagokat
egy tűzálló széfben helyezik el.
• Tekintve, hogy a hordozó fizikailag hozzáférhetetlen a
számítógép számára, ez a megoldás a korábbiaknál
magasabb biztonsági szintet képvisel.
BME VIK TMIT
Off-site vault hozzáférhetőség
• Az elnevezés a vállalat telephelyétől távol eső
helyszínen történő adathordozó tárolást fedi.
• Pl. a rendszeradminisztrátor a biztonsági mentéseket
egy másik telephelyen őrzi, de akár egy külön erre a
célra kialakított, katasztrófa védett, temperált
bunkerben történő elhelyezést is jelenthet.
BME VIK TMIT
Disaster Recovery Site
• Egy katasztrófa bekövetkezése esetén a biztonsági
mentések megléte önmagában nem biztosítja a rendszer
helyreállításához szükséges feltételeket.
• Ehhez elengedhetetlen a megfelelő hardver park és jól
konfigurált hálózat rendelkezésre állása. Természetesen
ez a redundancia nagyon komoly költségeket ró az ezt
igénylő vállalatokra.
BME VIK TMIT
0 szint
• 0. szint: Nincs off-site másolat
• Katasztrófa esetén a helyreállítás korlátlan ideig
eltarthat, sőt, az is előfordulhat, hogy a teljes
helyreállítás soha nem következik be.
BME VIK TMIT
1. szint
• 1. szint: Off-site biztonsági másolat tárolás
• A vállalatok többnyire mágnesszalagos mentéseket
használnak, és azokat a telephelyüktől távol tárolják.
• Attól függően, hogy az újabb másolatok létrehozására
milyen gyakorisággal kerül sor, az adatvesztés mértéke
több napos, akár hetes intervallumra is kiterjedhet.
BME VIK TMIT
2. szint
• 2. szint: Adatmegőrzés távoli meleg infrastruktúrával
(hotsite)
• A biztonsági másolatok az első szinthez hasonlóan
kerülnek tárolásra. Amennyiben az elsődleges
telephelyet valamilyen katasztrófa sújtja, akkor egy
másik helyszínen rendelkezésre álló számítógépes
infrastruktúra szolgál hardver platformként a
helyreállításhoz. Ehhez többnyire egy nap körüli
időtartam szükséges.
BME VIK TMIT
3. szint
• 3. szint: Adatmegőrzés kritikus adatok hálózati
replikálásával
• Az üzletmenet-folytonosság harmadik szintjén álló
vállalatok a második szint infrastruktúráját egészítik ki a
legkritikusabb adatok hálózati replikálásával. Az így
replikált adatok többnyire frissebbek, mint amit a
legutóbbi szalagos mentések tartalmaznak, ezzel az
adatvesztés mértéke csökkenthető.
BME VIK TMIT
4. szint
• 4. szint: Adatmegőrzés periodikus hálózati replikálással
• Többnyire már merevlemezes alapokra építkeznek.
• Szélessávú hálózati kapcsolat segítségével másolatot
készítenek a produkciós adatokról a távoli telephelyen
található tárolókra. (gyakoribb frissítés)
• A mágnesszalagok csak kiegészítő védelmet
biztosítanak.
• A reguláris üzletmenet egy napon belül helyreállítható.
BME VIK TMIT
5. szint
• 5. szint: Tranzakciós integritás
• Ez a megoldás az adatok tranzakciós integritását
biztosítja, azaz a vállalat két telephelyét fürtözve
csatolják, és a sikeresen lezajlott tranzakciók
replikálódnak egymásra.
• Két telephely alkalmazásszintű fürtözése
BME VIK TMIT
6. szint
• 6. szint: Zéró adatvesztés
• Azon cégek számára, melyek nem engedhetik meg
maguknak a legkisebb adtavesztést sem, az
alkalmazásszintű fürtözés sem kielégítő.
• Az ilyen esetekben a valós idejű adat- vagy
szervertükrözés jelenthet megoldást, melyet már nem
csupán az alkalmazásoknak, hanem az operációs
rendszernek is támogatnia kell.
• Visszaállítás néhány órán belül.
• Két telephelyes fürtözés
BME VIK TMIT
7. szint
• 7. szint: Magas fokon automatizált üzletfolytonosság
• A hetedik – legmagasabb – szintet megvalósító
vállalatok a helyreállítás teljes automatizálásával
egészítik ki a hatodik szint technológiáját.
• Az emberi közbeavatkozás szükségességének hiánya
nagymértékben meggyorsítja a helyreállítást, így a
rendes üzemmenet akár egy órán belül helyreállhat.
BME VIK TMIT
Rekord és rekordmenedzsment
• Rekord definíciója: „egy szervezet vagy egy személy
jogszerű kötelezettségének végrehajtása vagy egy üzleti
tranzakció lebonyolítása során létrehozott, iktatott és
karbantartott tényanyag”.
• Hagyományosan rekord alatt papír alapú
dokumentumokat értettek, de valójában bármilyen fizikai
(pl. videókazetta, fénykép, mikrofilm) vagy elektronikus
formában létezhetnek.
• Rekordok kezelése:
– Létrehozás
– Karbantartás
– Rendelkezés felettük (pl. archiválás)
BME VIK TMIT
Törvényi megfelelőség
• A rekordok egy folyamat valamely lépésének
eredményei, melyek bizonyítékként szolgálnak az
adott lépés végrehajtásáról.
• A bizonyíték jellegből fakad, hogy számtalan törvényi
előírás szabályozza a szervezetek
rekordmenedzsmenttel kapcsolatos tevékenységeit.
• Az ezeknek a törvényi előírásoknak történő megfelelést
angol terminológiával compliance-nek nevezik.
(rekordmenedzsmenttel foglalkozó termékek marketing
anyagában gyakran fordul elő ez a fogalom)
BME VIK TMIT
DIRKS
• DIRKS (Design and Implementation of Recordkeeping
Systems) módszertan az ISO szervezet 15489-es,
rekord menedzsmenttel foglalkozó szabványára épül.
• A metodika nyolc fő lépésre osztja a rekordkezelő
rendszerek tervezésének, implementálásának és
értékelésének teljes folyamatát.
BME VIK TMIT
Digitális tartalmak megőrzése
• Az elavulófélben lévő hordozók tartalmát modern
eszközökre kell átmenteni, a biztonságos
adatmegőrzési idő leteltét megelőzően.
• Minden adatot lehetőleg többszörözve kell tárolni,
hiszen ha egyetlen példány van csupán, akkor a hordozó
bármilyen sérülése esetén a tartalom elveszik.
• Biztosítani kell a hordozó beolvasásához szükséges
technológiát, így a hardvert és a hardver pontos
specifikációját.
BME VIK TMIT
Digitális tartalmak megőrzése 2.
• Biztosítani kell a beolvasott tartalom értelmezéséhez
szükséges eszközöket, így az adatformátum részletes
leírását és az adott formátum feldolgozásához alkalmas
szoftvert.
• Ha az adatformátum visszaszorulóban van, a tartalmat
alkalmas, a technológia pillanatnyi állása szerint elterjedt
formába kell konvertálni. Ezt migrációnak is nevezik.
• Amennyiben valamilyen speciális szoftverkomponens is
része a rendszernek, szükség lehet a futtató
hardverkörnyezetet emuláló szoftver kifejlesztésére
az újabb rendszerekre.
BME VIK TMIT
NAVA - Nemzeti Audiovizuális Archívum
• Nemzetközi minták: INA, BBC, Sound and Vision,
EBU (nemzetközi)
• magyar nemzeti műsorszolgáltatói kötelespéldány
archívum
• gyűjteményéhez online hozzáférést biztosít
• NAVA-pontokon megtekinthetők
• Archiválási munkafolyamat a NAVA-ban:
– Digitalizálás
– Darabolás
– Szelekció
– Transzkódolás
– Feldolgozás, meta adatok írása
BME VIK TMIT
Internet archívumok
Az Interneten fellelhető tartalmak archiválásával több szervezet is foglalkozik. Az archívum tervezési kérdéseinél felvetődő kérdések:
• Mely oldalakat érdemes archiválni? • A szerzői jogokat hogyan lehet tiszteletben tartani az
archiválás során? • Hogyan lehet összegyűjteni a menteni kívánt
tartalmakat? • Milyen rendszerrel oldható meg a hatalmas
adatmennyiség tárolása? • Hogyan biztosítható az archívumhoz való hozzáférés? • Hogyan lehet egy ilyen projektet finanszírozni?A legismertebb internetes archívum az Internet Archive:
http://www.archive.org/index.php. Ezen az oldalon könnyedén elérhető a legtöbb honlap számos korábbi változata 1996-ig visszamenőleg.
BME VIK TMIT
Gyűjtés
• Gyűjtő alrendszer:
dokumentumokat gyűjtünk azzal a céllal, hogy
megőrizzük az utókornak
- nem tudjuk mennyi ideig („akármeddig)
- nem tudjuk, kik lesznek a jövőbeli felhasználók (nem
ismerjük a felhasználás módját)
BME VIK TMIT
Formázott text nézet
•Key Technical Problems of Long-term Digital Archiving of Documents
•Dr. Gabor Magyar
•Budapest University of Technology and Economics
•Dept. of Telecommunications and Media Informatics
•Budapest, Hungary
•email: [email protected]
•Abstract
•The paper analysis the technical aspects of long-term archiving of digital documents, based on functionality and
fundamental categories. The long-term archiving of digital documents is a very challenging task, because of policy,
legal, intellectual property rights, metadata, semantic support and other issues. The variety and complexity of digital
documents as IT objects brings up a basic question: does it necessary to preserve the variety and complexity of the
original objects? (What is äoriginalö in the space of digital documents?) The answer in general ĺnoĺ, essential
attributes of a document are preserved when the document is transformed to different platforms. There are many
reasons to change the format of a document, crossing technological boundaries (eg. platforms, operating systems,
applications).
•The paper uses the categories of physical, logical, and conceptual layers in order to define generic properties that
are true of all digital documents. The paper overviews the basic requirements in all three layers of categories, than
describes the typical relationships among the properties of any object at these three layers. This approach gives an
overall framework for general preserving strategy managing technical obsolescence and semantic mutations.
BME VIK TMIT
Word file forrás
•\fs24\lang1038\langfe1038\cgrid\langnp1038\langfenp1038 {\b\fs32\insrsid15163865\charrsid15689867 Key Technical Problems of Long-term Digital Archiving of Documents
•\par }\pard \qc \li0\ri0\sb240\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865 Dr. Gabor Magyar
•\par }\pard \qc \li0\ri0\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865 Budapest University of Technology and Economics
•\par Dept. of Telecommunications and Media Informatics
•\par Budapest, Hungary
•\par }{\i\fs28\insrsid15163865 email: [email protected]
•\par }\pard \qc \li0\ri0\sb120\sl360\slmult1\nowidctlpar\faauto\rin0\lin0\itap0 {\fs28\insrsid15163865
•\par }\pard \qj \li0\ri0\sb120\sl360\slmult1\nowidctlpar\faauto\rin0\lin0\itap0 {\b\fs28\insrsid15163865\charrsid2762722 Abstract
•\par }{\fs28\insrsid15163865 The paper analysis the technical aspects of long-term archiving of digital documents, based on functionality and fundamental categories. The long-term
•archiving of digital documents is a very challenging task, because of policy, legal, intellectual property rights, metadata, semantic support and other issues. The variety and complexity of digital documents as IT objects brings up a basic question: does
•it necessary to preserve the variety and complexity of the original objects? (What is \'84original\'94 in the space of digital documents?) The answer in general \rquote no\rquote
•, essential attributes of a document are preserved when the document is transformed to different platforms. There are many reasons to change the format of a document, crossing technological boundaries (eg. platforms, operating systems, applications).
BME VIK TMIT
Mi az „eredetiség”?
a digitális dokumentumok terében?
Tökéletesen másolható – bit by bit.
Másolni kell a digitális dokumentumokat,
mert nem időtálló,
és változik a formátuma.
BME VIK TMIT
Meg kell őrizni
az eredeti objektum változatosságát?
Az alkalmazási céltól függ.
Általában autentikus dokumentumok megőrzése a cél.
Kommunikációs csatorna, ami információt továbbít
a jövőbe.
BME VIK TMIT
Hogy megőrizz
Őrizd jól.
Légy képes
előállítani a tárolt adatokat,
újraépíteni
komponenseiből,
interpretálni szintaktikáját.
fizikai
dokumen-
tumot
digitális dokumentumot
BME VIK TMIT
Hogy megőrizz
Őrizd jól.
biztosítsd
a képességet a
reprodukcióra
fizikai
dokumen-
tumot
digitális dokumentumot
BME VIK TMIT
Prof. Will Good
E-mail: will.good @goodwill.eu
URL: http://www.good.euPositions:
University of City 1990-
Dept. of Informatics
Senior lecturer
Education:
PhD in Informatics 1990
Thesis: Emerging Digital Archiving Systems
MSc. in Computer Science 1987
Thesis: Statistical Programming
Experienced in:
EIS, development methods and tools
Recently focusing on:
New Media Archives
Positions, memberships
összeállítási
info
BME VIK TMIT
OAI előzmények
• 1945 Vannevar Bush – Memex (Hypertext)
• 1989 Tim Bernes Lee – HyperText and CERN
• 1994 WWW Consortium (w3c.org)
• 1994 ERCIM Technical Reference Digital Library (EU)
• 1998 Networked Computer Science Tech. Ref. Library
• 1999 Universal Preprint Service
• 1999 Open Archives Initiative
• 2002 OAI Protocol for Metadata Harvesting 2.0
BME VIK TMIT
OAI elvek
• Eleinte: Tudományos publikációk közzététele, szabad
elérésének biztosítása (preprints - content)
• Később: Dokumentumok elérhetőségének,
megtalálhatóságának biztosítása (metadata harvesting)
• Data Provider – Service Provider elkülönülés
• Olcsó (low barrier), egyszerű technológia
BME VIK TMIT
Adatgazda - Data Provider (DP)
• Olyan intézmény, amely az általa őrzött valóságos vagy
digitális objektumokat leíró adatbázissal (katalógussal)
rendelkezik, és azt az OAI-PMH protokoll előírásainak
megfelelően azt szolgáltatni tudja és akarja.
BME VIK TMIT
Adatgazda architektúra
BackupMeta
szerver
Média
szerverURI
Digitalizáló állomás
OAI
szerver
Data provider (DP)
Tűzfa
l
BME VIK TMIT
Az adatgazdák feladatai
• Nyílt, mindenki számára elérhető adatszolgáltatás
(metaadatok) az az OAI-PMH protokoll szerint.
• Hagyományos archívumi (repository) funkciók ellátása
– Biztonságos tárolás
– Szükség esetén migráció
– Katalogizálás, feldolgozás
– Jogkezelés
BME VIK TMIT
Szolgáltatásgazda - Service Provider
• Olyan szolgáltató, amely az adatgazdáktól az OAI-PMH
protokoll segítségével begyűjtött adatok alapján
értéknövelt szolgáltatást, legegyszerűbb esetben közös
kereshetőséget biztosít.
BME VIK TMIT
Szolgáltatásgazda architektúra
Meta szerver
OAI
kliens
Service provider (SP)
Tűzfa
l
Alkalmazás
BME VIK TMIT
A szolgáltatásgazdák feladatai
• Közös kereshetőség biztosítása, azaz több DP
adatainak összefésülése, esetleg valamilyen specifikus
szempont szerinti szűrése, csoportosítása, keresőfelület
biztosítása.
• Tartalom kereskedelem/felhasználás elősegítése
• OAI-PMH interfész biztosítása (pl. Z39.50-ről)
• További metaadatok biztosítása
– Pl. Learning Object Metadata
– Automatikus tartalomelemzés
BME VIK TMIT
Protocol for Metadata Harvesting
• Kommunikációs protokoll: HTTP
– Egyszerű, támogatott, elterjedt, internet barát, tűzfal-tűrő
kommunikációs protokoll
• Szintaxis: XML, XML séma
– Elterjedt, a struktúra megadását, önleíró állomány készítését is
biztosító szintaxis
• Szemantika: DC, RDF, RDF séma
– Elfogadott szabvány/ajánlás a változatos tartalom szemantikai
egységességének biztosítására.