Automatisering av uttrekk fra bevarte databaser...Automatisering av uttrekk fra bevarte databaser...

Automatisering av uttrekk fra bevarte databaser

Arne-Kristian Groven,Fagdag om Noark5 og RDF,

Riksarkivet, Oslo, 17.06 2014

Om meg

• Har 20 års bakgrunn innen IT-forskning

• Snart 3 år i Riksarkivet

• Arbeider med:

– Innhenting av bevaringsverdig arkivmateriale (uttrekk/SIP generering)

– Innovasjoner/FoU/nye metoder og verktøy

Databasebevaring vs. uttrekk

• Det meste av det digitale materialet vi ønsker å bevare har en databasekomponent i seg

• 90 % av lagrede arkivpakker, AIPer, i det danske Rigsarkivets (nye) depotsystem er bevarte databaser

• I Norge har vi lang tradisjon for å transformere deler av databasene til standardiserte uttrekksformat: Noark-3, Noark-4 og Noark-5

• Pluss å spesiallage uttrekk fra spesifikke fagsystem

Noark-uttrekket

• Blir gjennomført av konsulenter

• Basert på manuelt arbeid i databasene, ofte klipp og lim…

• Tidkrevende…

• Dyrt…

• Varierende kvalitet…

• Har vi tillit til materialet som mottas?!

• Hvordan skal materialet tilgjengeliggjøres/vises?

Dagens situasjon i Norge

• Det flommer over av systemer der ute…

• Mye bevaringsverdig digitalt skapt arkivmateriale forsvinner fordi systemer dør

• Dette gjelder både Noark-godkjente system og fagsystem: Register, støttesystem...

• VI TRENGER (SNAREST) METODER OG VERKTØY SOM KAN BEVARE OG TILGJENGELIGGJØRE:– Effektivt, repeterbart og med høy kvalitet!

– Slik at tillit til materialet kan bevares inn i framtida!

Hvordan komme videre?...

• Mot målet: Effektiv, repeterbar, høykvalitets bevaring og tilgjengeliggjøring!

• Mitt forslag:

1. Speil databaser over i et velegnet bevaringsformat

2. Fyll opp med relevant tilleggsinformasjon

3. Lag transformasjoner (uttrekk) fra bevarte databaser til velegnede visnings- og gjenfinningsformat (eksempelvis RDF vokabular og ontologier)

Hvordan komme videre?

• Jeg vil i det følgende se litt på disse tre stegene:

1. Ved å presentere verktøyet og formatet SIARD, for databasebevaring

2. Ved å illustrere med et tilfeldig eksempel jeg fant på nettet, fra et web-basert fagsystem

3. Ved å diskutere mulighetene for automatiserte uttrekk fra Noark-4 godkjente system

Databasebevaring med SIARD

Illustrasjon: Save Your Databases! | Urs Meyer, SFA | ECA 2010, April 2010

SIARD oppsummert

• Veldefinert bevaringsformat, SIARD-formatet

• Veldefinerte transformasjoner – Normalisering fra ulike databaseplattformer

(Oracle, MS SQL Server, MySQL, MS Access, DB/2) til bevaringsformatet, SIARD formatet

– Fra SIARD-formatet til ulike databaseplattformer(på SQL:1999 formatet)

• Velfungerende verktøystøtte, Siard Suite– SiardFromDB, SiardToDB, SiardEdit (GUI)

Eksempel: Transformasjoner fra MySQL datatyper til SIARD datatyper

Om SIARD-formatet

• En SIARD fil er en ZIP fil, på samme måte somDOCX og ODT filer er ZIP filer– 64-bit på grunn av databasenes størrelse

– Bestående av XML filer

– Muligens også tekst og binærfiler, store objekter

– UTF-8 tegnsett på tekstfiler og XML filer

• Innholdet i SIARD-filen i henhold til SQL:1999 standarden– Ikke bare syntaktisk, men også I henhold til SQL:1999

sine konsistensregler

SIARD Formatet: Filenes struktur header

metadata.xsd

metadata.xml

content

schema1

table1

table1.xsd

table1.xml

lob1

record1.txt / record1.bin

lob2

record2.txt / record2.bin

table2

table2.xsd

table2.xml

schema2 …

…

File and folder names short, plain ASCII strings.

Dette tas vare på av SIARD

• Database– Schemas, Users, Roles

• Schemas– Tables, Views, Routines

• Tables– Columns, Rows, Keys (Primary, Foreign, Candidate)– Constraints

• Rows– data records containing primary data

• Views• Users, Roles

Metadata som tas vare på av SIARD

Schema level

name folder description tables views routines …

Table level name folder description columns primaryKey foreignKeys checkConstraints …

Column level

name folder description type typeOriginal defaultValue nullable …

Other Metadata

View level

Routine level

User level Role level

Privilege level

…

Erfaringer med SIARD

• Enkelt å generere SIARD-filene– Oppgir databasens adresse og en

databasebruker/passord (leseaksess)

• Databasepersonell hos arkivskapere kan gjøre jobben

• SIARD Suites GUI muliggjør rask inspeksjon/analyse av data

• Automatisert, veldokumentert transformasjon gir økt tillit

MEN: SIARD-filen er bare en del i arkivpakken

SIARD og arkivaren

• SIARD (Suite) gjør ikke arkivarens jobb

• Arkivarens jobb starter når SIARD har gjort sin, eller aller helst lenge før

• Arkivfaglige beskrivelser kan inkluderes på ulike nivå i SIARD-filen

• Datakataloger og annen dokumentasjon bør vedlegges SIARD-filen.

Dokumentasjon av databaser…

• Så over til dokumentasjon av databaser:

• Dokumentasjon burde være påkrevd for alle databaser med bevaringsverdig innhold!

• Hva slags informasjon bør være tilgjengelig?!...

Dokumentasjon av databaser…

• Jeg fant et illustrerende eksempel på nettet, for et system som heter Vigo Opplæring:

– http://www.vigoiks.no/systeminformasjon/informasjon-vigo-opplaering/dokumentbase/databasedokumentasjon

http://www.vigoiks.no/systeminformasjon/informasjon-vigo-opplaering/dokumentbase/databasedokumentasjon






Dokumentasjon av databaser

• Hver eneste tabell var i Vigo Opplæring dokumentert og publisert

• På følgende form:

SIARD anvendt på Noark-4 databaser

• Vi har det siste halve året ved hjelp av SIARD hentet inn databasene til ulike Noark-4 godkjente system

• Fire databaser tilknyttet en type system og fem databaser tilknyttet en annen type

• For en type system har vi funnet spørringer i ”views” som tilsvarer Noark-4 DTDene

Automatisert transformasjon (uttrekk) fra Noark-4 databaser til Noark-5 RDF

• Funnet av Noark-viewene formet ideene om å generere mest mulig automatiserte uttrekk fra Noark-4 databasene over i en eller flere formalismer

• For eksempel RDF som målformalisme• Hva gjelder Noark-4 godkjente systemer så er det

fem ulike typer systemer fra fire(?) forskjellige leverandører

• Etter å ha kikket ned i databasene til to av disse er det helt klare likheter innenfor hver type, noe som gir grunn til optimisme

Automatisert transformasjon (uttrekk) fra Noark-4 databaser til Noark-5 RDF• Optimisme, men arbeidsmengden som må til

for å være i stand til å mappe databasefelter over i et uttrekksformat vil være helt avhengig av:

• Tilgang på databasedokumentasjon

• Om det allerede finnes spørringer i databasene

Fagsystem vs. Noark-godkjente system

• Vi har i dag et klart skille mellom håndtering av bevaringsverdig informasjon fra fagsystem og Noark-godkjente system

• Det første tilfellet (alle mulige typer fagsystem) er som regel underspesifisert hva gjelder bevaringsformat

• Noark-uttrekket er på sin side strengt spesifisert

Semantiske teknologier/RDF og Noark 5

• Det kan selvsagt utvikles en eller flere Noark-5 vokabularer/ontologier

• Jeg vet at det finnes flere initiativer…

• … og håper disse vil konvergere

Semantiske teknologier/RDF og Noark 5

• Men, semantiske teknologier/RDF med dets mange etablerte vokabularer og ontologier kan også bidra til å finne ut om deler av Noark-5 kan uttrykkes i noe som allerede er veletablert!

• Dessuten, kanskje det kan bygges bro mellom bevaringsverdig informasjon fra fagsystem og Noark-godkjente system?!

• Dette er i mitt håp!

Hvorfor ta vare på databasen og deretter lage uttrekk?

• I dag har vi Noark-3 uttrekk, Noark-4 uttrekk og snart Noark-5 uttrekk

• Ved å ta vare på databaser og databasedokumentasjon vil man være på tryggere grunn hva gjelder autentisitet

• Ved å ta vare på databasene vil man til en hver tid inn i framtida kunne generere uttrekk tilpasset den til en hver tid gjeldende visningsomgivelsen

• En vil også sannsynligvis kunne få en mer ensartet håndtering av bevaringsverdig materiale fra både fagsystem og Noark-godkjente system

Automatisering av uttrekk fra bevarte databaser...Automatisering av uttrekk fra bevarte databaser...

Documents

Transcript of Automatisering av uttrekk fra bevarte databaser...Automatisering av uttrekk fra bevarte databaser...