Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne...

23
1 Fælles sprog for datakvalitet – Vejledning til deklaration af datasæt med kernedimensioner vers. 0.9.1 Indhold Introduktion....................................................................................................................................................... 2 Scope ......................................................................................................................................................... 2 Metode .............................................................................................................................................................. 3 Datakvalitetsdimensioner.................................................................................................................................. 6 Komplethed ................................................................................................................................................... 7 Korrekthed ..................................................................................................................................................... 9 Aktualitet ..................................................................................................................................................... 10 Genbrugelighed ........................................................................................................................................... 11 Bilagsoversigt ................................................................................................................................................... 14 Bilag A: Skabelon til deklaration af datakvalitet .............................................................................................. 15 Bilag B: Tjekliste til metadata .......................................................................................................................... 17 Bilag C: Eksempel på udfyldelse af skabelon ................................................................................................... 18 Bilag D: Dimensioner fra internationale standarder ....................................................................................... 20

Transcript of Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne...

Page 1: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

1

Fælles sprog for datakvalitet – Vejledning til deklaration af datasæt med kernedimensioner vers. 0.9.1

Indhold Introduktion ....................................................................................................................................................... 2

Scope ......................................................................................................................................................... 2

Metode .............................................................................................................................................................. 3

Datakvalitetsdimensioner.................................................................................................................................. 6

Komplethed ................................................................................................................................................... 7

Korrekthed ..................................................................................................................................................... 9

Aktualitet ..................................................................................................................................................... 10

Genbrugelighed ........................................................................................................................................... 11

Bilagsoversigt ................................................................................................................................................... 14

Bilag A: Skabelon til deklaration af datakvalitet .............................................................................................. 15

Bilag B: Tjekliste til metadata .......................................................................................................................... 17

Bilag C: Eksempel på udfyldelse af skabelon ................................................................................................... 18

Bilag D: Dimensioner fra internationale standarder ....................................................................................... 20

Page 2: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

2

Introduktion

Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet datasæt

med det formål at lette dialog mellem den dataansvarlige organisation og eksterne anvendere af

datasættet og gøre det lettere at vurdere om et datasæt er egnet til en givet (ny) anvendelse. Metoden er

udviklet til brug i dansk fællesoffentlig sammenhæng på baggrund af internationale standarder, nemlig

W3Cs Data on the Web Best Practices: Data Quality Vocabulary1 og ISO 25012 –– Data Quality Model2.

ISO 25012 definerer datakvalitet som ”I hvilken grad datas karakteristika tilfredsstiller udtrykte og

underforståede behov ved brug under specifikke omstændigheder”3. Selvom der findes mange andre

definitioner af datakvalitet, er der i disse gennemgående et fokus på datas egnethed i en bestemt

brugssituation – ’fitness for use’. Baggrunden for dette er at data der er velegnede til et formål, og derfor

vil blive anset som værende af høj kvalitet af anvendere der bruger dem til dette formål, kan være uegnet

til et andet formål, hvorfor andre anvendere vil anse de samme data for at være af lav kvalitet.

Ikke desto mindre kan det i forbindelse med deling og udstilling af datasæt være relevant at tale om

datakvalitet uden at kende den eller de helt præcise anvendelser eksterne anvendere bruger eller vil bruge

data til. W3C anbefaler at udstillede data forsynes med datakvalitetsoplysninger4. Her må den

dataansvarlige, ud fra sit kendskab til data og det faglige domæne de tilhører, vurdere hvad det især er

sandsynligt at eksterne anvendere allerede anvender eller vil ønske at anvende data til. Dette vil herefter

benævnes de væsentligste forventede anvendelser.

Scope

Den metode der er beskrevet i denne vejledning, og de deklarationer der resulterer fra den, er først og

fremmest beregnet til at facilitere dialog mellem den dataansvarlige organisation og (potentielle)

dataanvendere ved at anvise et fælles, entydigt sprog om datakvalitet.

Den er ikke beregnet til at være en metode til forbedring af datakvalitet, da metoder til dette varierer i

forhold til datas karakter, men deklarationerne og den dialog med anvendere der resulterer heraf kan være

et redskab til at identificere hvilke forbedringsindsatser der er behov for.

Ligeledes er metoden ikke beregnet til i sig selv at afgøre hvordan data kan anvendes i den offentlige

forvaltning, da der i denne vurdering indgår juridiske og forvaltningsmæssige aspekter som ikke behandles

her. Deklarationerne baseret på denne metode forventes dog at kunne indgå som input til en sådan

vurdering.

Metoden er primært beregnet til deklaration af udstillede datasæt, hvor vurderingen af datakvalitet netop

foretages i forhold til de væsentligste forventede anvendelser. Den forventes dog også at kunne anvendes

1 https://www.w3.org/TR/vocab-dqv

2 ISO 25012:2008 Software engineering – Software product Quality Requirements and Evaluation (SQuaRE) – Data

quality model 3 Oversat fra ”degree to which the characteristics of data satisfy stated and implied needs when used under specified

conditions” 4 W3C anbefaling Data on the Web Best Practices (31-01-2017)(https://www.w3.org/TR/dwbp/) – Best Practice 6

Page 3: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

3

til vurdering af data i forhold til en specifik beskrevet anvendelse, fx som svar på forespørgsel fra en

kommende anvender. Metoden som helhed er beregnet til beskrivelse og bedømmelse af datasæt, hvor

datasæt skal forstås som ”en samling af data der er udstillet eller organiseret af en enkelt kilde, og som

man kan få adgang til eller downloade i et eller flere formater.”5

I forhold til behov for beskrivelse af datakvalitet som denne vejledning ikke dækker, herunder

maskinlæsbar angivelse af kvalitetsinformation, henvises til W3Cs Data on the Web Best Practices: Data

Quality Vocabulary. Dansk oversættelse heraf samt vejledning til brug heraf med metrikkatalog er under

udarbejdelse.

Metode Datakvalitet kan beskrives i forhold til mange forskellige dimensioner som repræsenterer kriterier der er

relevante for at vurdere datakvalitet. Hver dimension har tilknyttet en eller (oftest) flere standardiserede

normer for hvordan man måler/beskriver datakvalitet i forhold til dimensionen.

Med baggrund i ISO 25012 og Linked Data Quality Dimensions (de to sæt af datakvalitetsdimensioner, der

er gengivet i W3Cs Data Quality Vocabulary)6 er der udvalgt fire kernedimensioner, der anses for at være

særligt væsentlige i forhold til at vurdere om det er muligt at anvende datasæt til nye formål:

Komplethed

Korrekthed

Aktualitet

Genbrugelighed

Disse dimensioner er valgt fordi de vurderes at have bred relevans i forbindelse med udveksling af data for

(stort set) alle typer af data og anvendelser, hvilket ses af at dimensioner med dette indhold er

gennemgående litteratur om datakvalitet. Desuden anses det for væsentligt at de er iboende egenskaber

for datasættet der vil være gældende for alle distributioner af datasættet og uanset hvordan det tilgås,

samt at dataansvarlig kan beskrive dimensionerne uden at indhente oplysninger fra anvendere om deres

holdning til datasættet7.

Det er anset for nødvendigt at begrænse antallet af dimensioner for at det ikke skal blive for stor en byrde

at deklarere et datasæt med datakvalitetsoplysninger. Der findes et betydeligt antal yderligere dimensioner

der kan være relevante for et givet datasæt eller en givet anvendelse, fx præcision, troværdighed eller

tilgængelighed. I så tilfælde kan man anvende dimensioner ISO 25012 eller Linked Data Quality Dimension

(oversigt ses i bilag D).

5Oversat fra definition af datasæt i W3C anbefalingen Data Catalog Vocabulary (https://www.w3.org/TR/vocab-

dcat/): “A collection of data, published or curated by a single source, and available for access or download in one or more formats” 6 Mapning mellem kernedimensionerne og ISO 25012 /Linked Data Quality Dimension findes I bilag D

7 Det kan dog anbefales at give anvendere mulighed for at give feedback om deres oplevelse af datakvaliteten,

jævnfør W3C anbefaling Data on the Web Best Practices (31-01-2017) – Best Practice 29

Page 4: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

4

I bilag A findes Skabelon til angivelse af datakvalitet. På skabelonen angives navnet på datasættet, det

formål det oprindeligt er indsamlet til, hvilken enhed eller person der er ansvarlig for vurderingen samt

dato for vurderingen. Desuden angives den/de væsentligste forventede anvendelser som datasættet er

vurderet i forhold til.

Den/de væsentligste forventede anvendelser kan være anvendelser man ved andre eksterne parter bruger

det til eller planlægger at bruge det til, mulige anvendelser der er begrundelsen for publicering af

datasættet, eller anvendelser som dataansvarlig ud fra sit kendskab til domænet ved kunne være

værdiskabende anvendelser af data. Som nævnt er datakvalitet afhængigt af det formål data skal anvendes

til.

Det er vigtigt som minimum at angive én forventet anvendelse, så den potentielle dataanvender kan afgøre

i hvor høj grad den/de anvendelser der har dannet grundlag for deklareringen svarer overens med

vedkommendes planlagte anvendelse.

Skabelonen har to felter for hver kvalitetsdimension: Målinger og beskrivelser og Bedømmelse.

I Målinger og beskrivelser angives objektive oplysninger der beskriver datasættet i forhold til den relevante

dimension. Det er intentionen at deklarationen skal kunne foretages på baggrund af den viden den

dataansvarlige allerede har om datasættet. Derfor kan både være tale om resultater af konkrete målinger

og (stikprøve)kontroller samt skøn, beregninger og tekstuelle beskrivelser. Det bør altid fremgå tydeligt om

der er tale om en måling af hele datasættet, en stikprøvekontrol eller et skøn.

I det følgende kapitel er der for hver dimension angivet hvilke målinger og beskrivelser, der er relevante for

den dimension, og i skabelonen er der angivet hjælpespørgsmål, der kan fungere som hints for hvordan

man beskriver hver dimension.

I Bedømmelse angives den dataansvarliges faglige vurdering af hvor god datasættets kvalitet er i forhold til

den relevante dimension når det vurderes i forhold til den/de væsentligste anvendelser. Her skal den

dataansvarlige i videst muligt omfang forsøge at sætte sig i dataanvenders sted og anslå hvor god

datakvaliteten er fra dennes synspunkt.

Tildelingen af stjerner foretages på baggrund af oplysningerne i Målinger og beskrivelser. Denne udgør

dermed begrundelsen for antallet af stjerner, der dog må anses som værende den dataansvarliges

subjektive bedømmelse, og dermed er det muligt for anvendere at være uenige heri, og denne uenighed

kan danne udgangspunkt for en dialog.

Bedømmelsesskala

Datasætte gives mellem 0 og 5 stjerner for hver dimension. Hvis forskellige forventede anvendelser giver

anledning til forskelligt antal stjerner kan dette anføres i skabelonen eller der kan udarbejdes to separate

deklarationer.

Page 5: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

5

Bedømmes uegnet til den givne anvendelse

Bedømmes til dårligt at kunne anvendes

Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater

Kan anvendes med forbehold for fejl/utilsigtede resultater

Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater

Kan anvendes umiddelbart og uden forbehold

Vurderingen kan til dels bero på hvor kritiske eventuelle fejl og mangler er i forhold datasættets formål og

anvendelser. Det er for eksempel væsentligt mere kritisk hvis et adresseregister mangler oplysninger om

postnumre end hvis det mangler oplysninger om det præcise tidspunkt på dagen hvor en flytning er

registreret, hvorimod det i et datasæt om meteorologiske observationer kan være mere kritisk hvis

tidspunktet for observationen mangler.

Ved eventuel vurdering af et datasæt i forhold til en specifik anvendelse, fx på baggrund af en forespørgsel

fra en potentiel kommende anvender tages hensyn til de krav denne dataanvender har specificeret .

Eksempel på bedømmelse

Et datasæt bestående af målingsresultater vil have en meget høj aktualitet, hvis resultater af målinger med

det samme registreres i det tilgængelige datasæt. Til nogle anvendelser vil aktualitet stadig kunne

betragtes som god hvis der går længere inden målingerne registreres.

Er der fx tale om et datasæt bestående af meteorologiske målinger, hvor den væsentligste forventede

anvendelse er planlægning af luft- og skibsfart, vil målingerne hurtigt blive irrelevante. En

opdateringsfrekvens på 6 måneder må bedømmes til 0 stjerner.

Er den væsentligste forventede anvendelse derimod klimaforskning må en opdateringsfrekvens på 6

måneder forventes at være glimrende og datasættet kunne gives 5 stjerner for aktualitet.

Hvis både planlægning af luft- og skibsfart og klimaforskning er angivet som væsentlige forventede

anvendelser kan disse bedømmelser angives således

Dimension Målinger og beskrivelser Bedømmelse

Aktualitet Der foretages målinger af de aktuelle forhold hvert 5. minut. Det publicerede datasæt opdateres hver 6. måned.

Planlægning af luft- og skibsfart Klimaforskning

Page 6: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

6

Datakvalitetsdimensioner

Datakvalitetsdimension Definition

Komplethed datakvalitetsdimension der indikerer i hvor høj grad datasættet

indeholder de dataelementer der er forventede i forhold til

datasættets specifikation

Korrekthed datakvalitetsdimension der indikerer i hvor høj grad dataværdier er

i overensstemmelse med faktiske værdier

Aktualitet datakvalitetsdimension der indikerer i hvor høj grad data er

tidsmæssigt aktuelle i forhold til den virkelighed de repræsenterer

Genbrugelighed datakvalitetsdimension der indikerer i hvor høj grad data er forståelige og uden vanskeligheder kan anvendes af andre

Page 7: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

7

Komplethed

Definition Datakvalitetsdimension der indikerer i hvor høj grad datasættet indeholder de dataelementer der er forventede i forhold til datasættets specifikation. Beskrivelse

Der er to aspekter af komplethed: Fuldstændighed og dækningsgrad. Et datasæt med fuld dækning

indeholder netop én forekomst/registrering for hvert individ/entitet i den population datasættet beskriver.

Når der for hver post desuden er registreret alle de forventede/krævede værdier og relationer er det også

fuldstændigt.

Med andre ord er fuldstændighed altså komplethed i forhold til de eksisterende forekomster og

dækningsgrad er komplethed i forhold til de ønskede informationer om forekomsterne.

Relevante målinger og beskrivelser

Fuldstændighed: For nogle datasæt vil det forventede antal af datasætindivider være kendt, fx hvis der er

tale om kommuner eller regioner. Her er fuldstændigheden simpel at udregne og kan angives som procent

af unikke individer der findes i datasættet i forhold til antal individer der burde findes.

For andre er antallet af individer datasættet bør indeholde ukendt og/eller foranderligt, fx i et datasæt om

observationer af en truet dyreart i naturen. Her må man lave en faglig vurdering af hvor stor en andel af de

observationer der faktisk er foretaget datasættet reelt indeholder, evt. angivet som et interval, fx ’ca. 75-85

% ‘. Desuden bør baggrunden for vurderingen, fx sammenligning med andre kilder for antallet,

matematiske modeller, stikprøvekontrol, eller feedback fra anvendere, beskrives.

Note: Det er datasættets specifikation der afgør hvad den forventede population er. At der eventuelt

eksisterer yderligere data som kunne ønskes inkluderet i datasættet, er ikke relevant hvis specifikationen

ikke inkluderer disse.

Dækningsgrad: Dækningsgrad af en egenskab (specifik type af information) angives med procentdelen

individer i datasættet der har en værdi registeret for egenskaben, fx hvor mange af en bestemt felttype der

er udfyldt. Et datasæts dækningsgrad kan angives som et gennemsnit af dækningsgraderne for de krævede

egenskaber. Egenskaber som er tydeligt indikeret som valgfri i datasættets specifikation indgår ikke i denne

vurdering.

Er der betydelig forskel på hvor væsentlige attributterne er i forhold til de væsentligste anvendelser kan

man vælge at angive dækningsgraden for de væsentligste attributter i stedet. Det skal være tydeligt hvilken

metode der er valgt, og hvilke attributter der er medtaget i vurderingen hvis det ikke er alle.

Page 8: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

8

Eksempler

Et datasæt om kommunale handlingsplaner på socialområdet skal indeholde data om alle kommuner, dvs.

om netop 98 kommuner/forekomster. Hvis det kun indeholder 96 kommuner er det ikke komplet, men har

en fuldstændighed på 97,96 %.

Hvis der for hver handlingsplan skal angives en ansvarlig enhed, men dette mangler for 4 ud af 96

handlingsplaner, har egenskaben en dækningsgrad på 95,83 %. Hvis andre krævede egenskaber har

dækningsgrader på henholdsvis 100 %, 98,43 %, 99 % og 74,50 %, er datasættes dækningsgrad

gennemsnittet af disse, nemlig 93,55 %.

Page 9: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

9

Korrekthed

Definition Datakvalitetsdimension der indikerer i hvor høj grad dataværdier er i overensstemmelse med faktiske værdier. Beskrivelse Værdier i datasættet skal være sande og korrekt repræsentere den virkelighed datasættet omhandler. Der er to aspekter, henholdsvis semantisk og syntaktisk korrekthed. Semantisk korrekthed betyder at der er overensstemmelse mellem indholdet af de data der er registreret og faktiske forhold. Syntaktisk korrekthed betyder at data overholder syntaktiske regler, dvs. regler for retstavning samt regler for anvendte strukturerede formater. Relevante målinger og beskrivelser

Korrekthed angives som andelen af dataværdier der korrekt repræsenterer den faktuelle værdi. I praksis vil

det som oftest være umuligt at tjekke korrektheden af alle dataværdier i et datasæt. Derfor vil man som

oftest angive et skøn (evt. angivet som interval). Dette skøn kan fx være baseret på stikprøvekontroller,

sammenligninger med andre datakilder, oplysninger fra dataleverandører eller hyppighed af

fejlrapportering. Grundlaget for skønnet angives.

Desuden kan andre forhold der har relevans for datas korrekthed beskrives kort, herunder om

data er underlagt valideringsprocedurer, enten inden det optages i datasættet eller løbende

der er procedurer der sikrer at fejl der opdages under brug rettes

der er foretaget stavekontrol

der – hvis data er angivet i strukturerede formater, herunder xml, html eller rdf - er foretaget validering

af at data overholder den/de relevante specifikation(er) (syntaks- og skemavalidering)

Eksempler

Semantisk korrekthed: En registrering af at en sportsfacilitet som værende en skøjtehal, hvis det i

virkeligheden er en svømmehal, eller hvis pågældende svømmehal er registreret som havende

handicapvenlige omklædningsfaciliteter uden at sådanne reelt findes, ville være eksempler på semantisk

ukorrekthed.

Syntaktisk korrekthed: ’svoemmehal’ følger ikke dansk retstavning og er dermed syntaktisk ukorrekt.

Page 10: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

10

Aktualitet

Definition Datakvalitetsdimension der indikerer i hvor høj grad data er tidmæssigt aktuelle i forhold til den virkelighed de repræsenterer. Beskrivelse

Et datasæt har høj aktualitet, når man (ved brug af nyeste tilgængelige version) kan være sikker på at det

repræsenterer det der faktisk aktuelt er sandt på brugstidspunktet. Aktualitet afhænger af datasættets

opdateringsfrekvens i forhold hvor ofte data ændrer sig.

Relevante målinger og beskrivelser

Nogle datasæt opdateres periodisk med faste intervaller, mens andre opdateres efter behov når der sker

ændringer i det som datasættet repræsenterer.

For periodisk opdaterede datasæt angives opdateringsfrekvensen, dvs. hvor lang tid der går mellem

opdateringer. Desuden beskrives hvor ofte data typisk ændrer sig. Jo sjældnere data ændrer sig, jo lavere

opdateringsfrekvens vil typisk være rimelig samtidig med, at aktualiteten stadig kan anses for at være høj.

Dette skal dog også vurderes i forhold til hvor kritisk det er for de væsentligste anvendelser at alle data i

datasættet er opdaterede.

Hvis datasættet opdateres efter behov, angives hvor lang tid der typisk går fra en ændring sker til denne er

blevet registreret og publiceret Man bør opgive tidsrummet så præcist som man kan, men samtidig med

den fleksibilitet der er nødvendig. Så 1 time, 3-7 dage, op til 14 dage og ca. 4 måneder er alle acceptable

angivelser af tidsrum.

Tidsrummet skal ideelt set beregnes fra ændringen faktisk sker til den er blevet registreret og publiceret.

Der kan dog være situationer, hvor tidsrummet mellem at en ændring sker i den virkelige verden og

ændringen indmeldes er for variabelt til at dette kan dokumenteres meningsfuldt. I så fald kan tidsrummet

beregnes fra informationen modtages og til den er blevet registreret og publiceret. Man skal så angive at

det er beregnet på denne måde.

Note: Skulle man have et datasæt bestående af data der ikke ændrer sig (inden for en relevant tidsramme),

fx visse geologiske data, angiver man at dette er tilfældet. Aktualiteten af sådanne data vil selvfølgelig

kunne vurderes til 5 stjerner.

Eksempler

Man kan fx angive at

der sker ændringer i data flere gange dagligt og den publicerede version af datasættet opdateres en

gang i døgnet

ændringer publiceres indenfor en uge fra indrapportering, og at 90% af dataleverandører

indrapporterer ugentligt, mens resten kun indrapporterer månedligt

der oftest går årevis mellem at dataværdier ændrer sig og at datasættet opdateres hver 3. måned

Page 11: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

11

Genbrugelighed

Definition Datakvalitetsdimension der indikerer i hvor høj grad data er forståelige og uden vanskeligheder kan anvendes af andre. Beskrivelse

Denne dimension beskriver de forhold der påvirker hvor egnet et datasæt er til at blive genbrugt til nye

formål og har med sammenhæng mellem data og beskrivelsen af disse data at gøre. Det er de forhold der

gør at man som menneske kan forstå data samt at en computer kan behandle data.

Genbrugelighed består af to aspekter: Forståelighed og konsistens. Et datasæt har en høj grad af

forståelighed når data er ensartet og læsevenligt præsenteret og forsynet med metadata der

dokumenterer datas betydning, struktur og oprindelse. Det har en høj grad af konsistens når det følger dets

specifikation/datamodel, er logisk sammenhængende og kan fortolkes utvetydigt.

Dette indebærer at

data er angivet i forståeligt og entydigt sprog og formater

der er en tilgængelig datamodel

data overholder datasættets datamodel/specifikation

der er anvendt ensartede og dokumenterede formater for dataværdier

data overholder relevante forretningsregler

datasættet ikke indeholder modstridende informationer

datasættet indeholder dokumentation af de enkelte dataelementers historik

der er tilstrækkelige metadata der beskriver data

Metadata om datasæt indeholder

beskrivelse af datasættet

oplysninger om datas proveniens (dvs. datas oprindelse og dets vej til optagelse i datasættet)

oplysninger om seneste opdateringsdato og opdateringsansvarlig

versionshistorik

oplysninger om fejlretningsprocedure/hvad man gør hvis man opdager fejl

specifikation af anvendte datatyper i forhold til format, anvendte enheder og nøjagtighedsniveau

angivelse af om datasættet overholder relevante love og standarder

oplysninger om hvorvidt datasættet indeholder personfølsomme eller fortrolige oplysninger

oplysninger om hvem der er ansvarlig for indsamling af data

licensoplysninger (hvem må bruge data til hvad)

kontaktpunkt til at give feedback og stille spørgsmål om datasættet

Page 12: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

12

Relevante målinger og beskrivelser

Der er en del forskellige forhold der kan påvirke et datasæts genbrugelighed. Nedenfor er angivet en række

spørgsmål om disse forhold. Disse spørgsmål er gengivet i skabelonen i bilag A, og man angiver sit svar for

hvert spørgsmål.

Spørgsmål om modellering

Er der en tilgængelig datamodel?

Er datamodellen maskinlæselig?

Overholder datasættet datamodellen?

Spørgsmål om metadata

Er datasættet forsynet med alle relevante metadata?

Bilag B indeholder en tjekliste over metadatatyper. Der kan være typer der ikke er relevante for alle

datasæt, ligesom der for nogle datatyper/domæner kan være yderligere metadata der er relevante, men

bilaget udgør et udgangspunkt for at afgøre om datasættet har de relevante metadata.

Spørgsmål om datatyper

Er datatyper, inkl. range, enheder og præcisionsniveau hvor relevant, dokumenteret?

Er datatypespecifikationerne overholdt?

Er data af samme type, fx datoer, angivet ensartet?

Spørgsmål om data

Er anvendte dataværdier entydige og forståelige?

Herunder: Er koder og forkortelser forklaret (eller erstattet med forståelig tekst)? Er tekstværdier på dansk

(eller evt. andet egnet sprog)? Er det tydeligt om 0/null betyder tallet ’0’, at værdien er ukendt, eller at

værdien ikke eksisterer? Er der anvendt standardiserede termer og måleenheder?

Er alle entiteter som refereres til af en fremmednøgle udfyldt med meningsfulde data?

Overholder data relevante forretningsregler?

Indeholder datasættet (hvor relevant) dokumentation af de enkelte dataelementers historik?

Kan man genskabe hvordan et givet dataelement har set ud på et givet tidspunkt og spore hvem der har

ændret det? Dette vil ofte gøres ved at dataelementerne har attributterne registreringstid, virkningstid og

registreringsaktør. Der kan være type af dataelementer hvor (alle) disse oplysninger ikke er relevante.

Er datasættet fri for modstridende informationer?

Modstridende informationer kan fx være at referere til den samme entitet på forskellige måder (brug af

synonymer eller både fulde navne og forkortelser) eller kan opstå hvis samme oplysning optræder flere

steder i datasættet og kan opdateres uafhængigt af hinanden.

Page 13: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

13

Eksempler:

Man kan ikke være sikker på at 10-11-12 betyder den 10. november 2012 med mindre måden datoer

angives på er dokumenteret, og alle datoangivelser følger specifikationen.

Hvis nogle værdier af samme type er angivet med en decimal og andre med to kan der opstå tvivl om 34,1

betyder præcis det samme som 34,10 eller der er tale om en afrunding eller en mindre præcis måling.

Hvis navne nogle steder er angivet ’fornavne’ ’efternavn’ og andre steder ’efternavn’, ’fornavne’ kan det

besværliggøre databehandling.

Hvis datatypen er angivet til ’integer’ skal en dataværdi angives som ’5’ ikke ’fem’, og ’5’ er stadig

problematisk hvis udfaldsrummet er angivet til ’1-4’

Lokalt definerede forkortelser, fx forkortelser for afdelingsnavne eller beliggenheder, vil næppe kunne

forstås af udenforstående og bør i stedet være skrevet ud eller som minimum forklaret.

Brug af numeriske landekoder gør det væsentligt sværere at læse og forstå data end hvis der er anvendt

anerkendte bogstavsforkortelser eller landenavnet er skrevet ud i sin helhed.

Eksempler på relevante forretningsregler kunne være at startdato på et planlagt projekt ikke må være efter

slutdato, eller i fortiden, eller at der skal være netop én ansvarlig enhed per projekt.

Hvis betegnelserne ’Erhvervsstyrelsen’ og ’ERST’ bruges i samme datasæt kan der opstå tvivl om hvorvidt

der er tale om den samme entitet.

Hvis en persons email er registreret to steder i samme datasæt, og kun opdateret det ene, er der tale om

modstridende informationer/inkonsistens.

Page 14: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

14

Bilagsoversigt

Bilag A: Skabelon til deklaration af datakvalitet

Bilag B: Tjekliste til angivelse af metadata

Bilag C: Eksempel på udfyldelse af skabelon

Bilag D: Dimensioner fra internationale standarder

Page 15: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

15

Bilag A: Skabelon til deklaration af datakvalitet

Datasættets navn:

Det formål datasættet er indsamlet til:

Væsentligste forventede anvendelser som datakvalitet er vurderet i forhold til:

Dato for vurdering:

Ansvarlig for datakvalitetsvurderingen:

Dimension Målinger og beskrivelser Beskriv datasættets kvalitet i forhold til hver dimension. (Slet gerne hjælpespørgsmålene.)

Bedømmelse Udfyld det relevante antal stjerner

Komplethed Hvor stor en andel af de individer datasættet skal beskrive ifølge dets specifikation er reelt repræsenteret i datasættet? Er dette et skøn? Hvor stor en procentdel af de forventede oplysninger om individerne er til stede? Dækker denne beregning alle egenskaber eller en specifik delmængde? Er der noget at bemærke om dækningsgraden af specifikke egenskaber?

Korrekthed Hvor stor en andel af dataværdierne i datasættet kan forventes at repræsentere den faktuelle værdi? Og hvordan er I kommet frem til det tal? Valideres data (løbende eller inden optagelse)? Er der en fejlretningsprocedure? Er der foretaget relevant syntaktisk validering, herunder stavekontrol?

Aktualitet Opdateres datasættet periodisk eller efter behov? Hvis periodisk: hvad er opdateringsfrekvensen? hvor ofte sker der ændringer i det data

repræsenterer (ift. opdateringsfrekvens)? Hvis efter behov: hvor længe går der inden ændringer er blevet

registreret og publiceret?

Genbrugelighed 1. Er der en tilgængelig datamodel? 2. Er datamodellen maskinlæselig? 3. Overholder datasættet datamodellen? 4. Er datasættet forsynet med relevante metadata? 5. Er datatyper, inkl. range, enheder og præcisionsniveau

hvor relevant, dokumenteret? 6. Er datatypespecifikationerne overholdt? 7. Er data af samme type, fx datoer, angivet ensartet? 8. Er anvendte dataværdier entydige og forståelige? 9. Er alle entiteter som refereres til af en fremmednøgle

Page 16: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

16

udfyldt med meningsfulde data? 10. Overholder data alle forretningsregler? 11. Indeholder datasættet oplysninger om dataelementers

historik? 12. Er datasættet fri for modstridende informationer?

Evt. yderligere relevant kvalitetsinformation:

Fx beskrivelse af kvalitetssikringsprocedurer eller af kendte problemstillinger der påvirker datas kvalitet

Bedømmelsesskala

Bedømmes uegnet til den givne anvendelse

Bedømmes til dårligt at kunne anvendes

Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater

Kan anvendes med forbehold for fejl/utilsigtede resultater

Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater

Kan anvendes umiddelbart og uden forbehold

Page 17: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

17

Bilag B: Tjekliste til metadata

Metadatatype Eventuel kommentar

Titel

Identifikator Entydig persistent identifikation af datasættet. Gerne i form af en http-URI.

Beskrivelse

Emne Henvisning til FORM, KLE eller domænespecifik emneklassifikation.

Skaber af datasættet Organisation eller person der har det primære ansvar for tilvejebringelse af datasættet.

Bidragsyder(e) Andre organisationer eller personer der har ydet væsentlige bidrag til datasættet.

Udgiver Organisation ansvarlig for publiceringen af datasættet.

Udgivelsesdato

Seneste opdateringsdato

Opdateringsansvarlig Organisation eller person der er ansvarlig for at datasættet bliver opdateret.

Version Se evt. semver.org.

Versionshistorik Beskrivelse af ændringer fra version til version.

Rettigheder Hvem har rettighederne til datasættet og under hvilken licens udbydes det?

Kontaktpunkt Kontaktinformation der gør det muligt at give feedback, stille spørgsmål om datasættet og indberette fejl.

Proveniens Datasættets historik, dvs. hvilke processer det har været genstand for, og hvem der har været ansvarlige for dem.

Persondatakategori angivelse af hvorvidt datasættet indeholder ingen personoplysninger, almindelige personoplysninger, følsomme personoplysninger eller oplysninger om strafbare forhold.

Fortrolighed Oplysning om hvorvidt datasættet indeholder fortrolige oplysninger.

Dækningsområde Relevant hvis data dækker et bestemt geografisk område.

Dækningsperiode Relevant hvis data beskriver en bestemt periode.

Love/Standarder Hvis der er love, direktiver, standarder eller lignende der er relevante for indsamling eller udformning af datasæt er det relevant at angive om datasættet overholder disse.

Sprog Især relevant hvis der er anvendt andre sprog end dansk.

Hjemmeside Relevant hvis der findes en hjemmeside med yderlige oplysninger der er relevante for datasættet eller dets brug.

Page 18: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

18

Bilag C: Eksempel på udfyldelse af skabelon

Datasættets navn: Forekomst af klassisk rabies samt flagermuserabies i vild-og tamdyr i Danmark

(Fuldstændigt imaginært datasæt - ikke reelt set i Danmark siden hhv. 1982 og 2009)

Det formål datasættet er indsamlet til: Planlægning af bekæmpelsesindsats

Hvad er den/de væsentligste forventede anvendelser som datakvalitet er vurderet i forhold til:

Vurdering af smittefare for landbrugsbesætninger, epidemikontrol

Dato for vurdering: 24 januar 2019

Ansvarlig for datakvalitetsvurderingen: Center for Teknologi og datastrategi, Digitaliseringsstyrelsen

Dimension Målinger og beskrivelser Beskriv datasættets kvalitet i forhold til hver dimension. (Slet gerne hjælpespørgsmålene.)

Bedømmelse Udfyld det relevante antal stjerner

Komplethed Ved stikprøvekontrol (se nedenfor) var 92% af de forekomster der var registreret hos dyrlægerne også registreret i datasættet. Alle registrerede forekomster har udfyldt alle attributter, da indtastning uden udfyldelse af alle attributter ikke er mulig.

Korrekthed Ved stikprøvekontrol (se nedenfor) blev der identificeret enkelte stavefejl, primært i navne på anmeldere, men ingen fejl der har betydning for de nævnte anvendelser.

Aktualitet Datasættet opdateres halvårligt. På landsplan ses 1-2 nye tilfælde om måneden. Skulle der opstå epidemi vil dette tal stige væsentligt.

Smittefarevurdering Epidemikontrol

Genbrugelighed 1. Er der en tilgængelig datamodel? Ja 2. Er datamodellen maskinlæselig? Ja 3. Overholder datasættet datamodellen? Ja 4. Er datasættet forsynet med relevante metadata?

Datasættet har kun metadata om emne, opdateringsdato og -ansvarlig og versionering

5. Er datatyper, inkl. udfaldsrum, enheder og præcisionsniveau hvor relevant, dokumenteret? Udfaldsrum og anvendte enheder er dokumenteret, præcision er ikke relevant

6. Er datatypespecifikationerne overholdt? Ja 7. Er data af samme type, fx datoer, angivet ensartet? Ja 8. Er anvendte dataværdier entydige og forståelige? Ja 9. Er alle entiteter som refereres til af en fremmednøgle

udfyldt med meningsfulde data? Ja 10. Overholder data alle forretningsregler? Ved ikke 11. Indeholder datasættet oplysninger om dataelementers

historik? Nej

Page 19: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

19

12. Er datasættet fri for modstridende informationer? Ja

Evt. yderligere relevant kvalitetsinformation:

Stikprøvekontrol af komplethed og korrekthed er foretaget ved at sammenligne data registreret lokalt hos

75 tilfældigt udvalgte dyrlæger med data registreret i datasættet.

Bedømmelsesskala

Bedømmes uegnet til den givne anvendelse

Bedømmes til dårligt at kunne anvendes

Kan anvendes med forbehold for et større antal fejl/utilsigtede resultater

Kan anvendes med forbehold for fejl/utilsigtede resultater

Kan anvendes med forbehold for enkelte fejl/utilsigtede resultater

Kan anvendes umiddelbart og uden forbehold

Page 20: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

20

Bilag D: Dimensioner fra internationale standarder

Fuldt dimensionssæt fra ISO 25012 (ISO 25012 – Software engineering – Software product Quality Requirements and Evaluation (SQuaRE) –

Data quality model)

Dimension Definition

Accuracy The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use.

Completeness The degree to which subject data associated with an entity has values for all expected attributes and related entity instances in a specific context of use.

Consistency The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities.

Credibility The degree to which data has attributes that are regarded as true and believable by users in a specific context of use. Credibility includes the concept of authenticity (the truthfulness of origins, attributions, commitments).

Currentness The degree to which data has attributes that are of the right age in a specific context of use.

Accessibility The degree to which data can be accessed in a specific context of use, particularly by people who need supporting technology or special configuration because of some disability.

Compliance The degree to which data has attributes that adhere to standards, conventions or regulations in force and similar rules relating to data quality in a specific context of use.

Confidentiality

The degree to which data has attributes that ensure that it is only accessible and interpretable by authorized users in a specific context of use. Confidentiality is an aspect of information security (together with availability, integrity) as defined in ISO/IEC 13335-1:2004.

Efficiency The degree to which data has attributes that can be processed and provide the expected levels of performance by using the appropriate amounts and types of resources in a specific context of use.

Precision The degree to which data has attributes that are exact or that provide discrimination in a specific context of use.

Traceability The degree to which data has attributes that provide an audit trail of access to the data and of any changes made to the data in a specific context of use.

Understandability

The degree to which data has attributes that enable it to be read and interpreted by users, and are expressed in appropriate languages, symbols and units in a specific context of use. Some information about data understandability are provided by metadata.

Availability The degree to which data has attributes that enable it to be retrieved by authorized users and/or applications in a specific context of use.

Portability The degree to which data has attributes that enable it to be installed, replaced or moved from one system to another preserving the existing quality in a specific context of use.

Recoverability The degree to which data has attributes that enable it to maintain and preserve a

Page 21: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

21

specified level of operations and quality, even in the event of failure, in a specific context of use.

Fuldt dimensionssæt fra Linked Data Quality Dimensions-vokabularet (http://www.w3.org/2016/05/ldqd, udarbejdet på baggrund af Amrapali Zaveri, Anisa Rula, Andrea

Maurino, Ricardo Pietrobon, Jens Lehmann, Sören Auer: Quality assessment for Linked Data: A Survey.

Semantic Web 7(1): 63-93 (2016) https://dx.doi.org/10.3233/SW-150175)

Dimension Definition

Availability Availability of a dataset is the extent to which data (or some portion of it) is present, obtainable and ready for use.

Licensing Licensing is defined as the granting of permission for a consumer to re-use a dataset under defined conditions.

Interlinking Interlinking refers to the degree to which entities that represent the same concept are linked to each other, be it within or between two or more data sources.

Security Security is the extent to which data is protected against alteration and misuse.

Performance Performance refers to the efficiency of a system that binds to a large dataset, that is, the more performant a data source is the more efficiently a system can process data.

Syntactic validity Syntactic validity is defined as the degree to which an RDF document conforms to the specification of the serialization format.

Semantic accuracy

Semantic accuracy is defined as the degree to which data values correctly represent the real world facts.

Consistency Consistency means that a knowledge base is free of (logical/formal) contradictions with respect to particular knowledge representation and inference mechanisms.

Conciseness Conciseness refers to the minimization of redundancy of entities at the schema and the data level.

Completeness Completeness refers to the degree to which all required information is present in a particular dataset.

Relevancy Relevancy refers to the provision of information which is in accordance with the task at hand and important to the users’ query.

Trustworthiness Trustworthiness is defined as the degree to which the information is accepted to be correct, true, real and credible.

Understandability Understandability refers to the ease with which data can be comprehended without ambiguity and be used by a human information consumer.

Timeliness Timeliness measures how up-to-date data is relative to a specific task.

Representational-conciseness

Representational-conciseness refers to the representation of the data, which is compact and well formatted.

Interoperability Interoperability is the degree to which the format and structure of the information conforms to previously returned information as well as data from other sources.

Interpretability Interpretability refers to technical aspects of the data, that is, whether information is represented using an appropriate notation and whether the machine is able to process the data.

Versatility Versatility refers to the availability of the data in different representations and in an internationalized way.

Page 22: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

22

Mapning mellem kernedimensioner og internationale standarder

Mapning til ISO 25012

Kernedimension ISO 25012-dimension Mapningsrelation

Komplethed Completeness The degree to which subject data associated with an entity has values for all expected attributes and related entity instances in a specific context of use.

Completeness er et underbegreb til Komplethed (skos:narrowMatch) Note: ISO-dimension indeholder kun aspektet dækningsgrad

Korrekthed Accuracy The degree to which data has attributes that correctly represent the true value of the intended attribute of a concept or event in a specific context of use

Fuld ækvivalens (skos:exactMatch)

Aktualitet Currentness The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities

Fuld ækvivalens (skos:exactMatch)

Genbrugelighed Consistency The degree to which data has attributes that are free from contradiction and are coherent with other data in a specific context of use. It can be either or both among data regarding one entity and across similar data for comparable entities

Consistency er et underbegreb til Genbrugelighed (skos:narrowMatch)

Understandability The degree to which data has attributes that enable it to be read and interpreted by users, and are expressed in appropriate languages, symbols and units in a specific context of use. Some information about data understandability are provided by metadata

Understandability er et underbegreb til Genbrugelighed (skos:narrowMatch)

Mapning til Linked Data Quality Dimensions

Kernedimension Linked Data Quality Dimension Mapningsrelation

Komplethed Completeness Completeness refers to the degree to which all required information is present in a particular dataset

Fuld ækvivalens (skos:exactMatch)

Korrekthed Semantic Accuracy Semantic accuracy is defined as the degree to which data values correctly represent the real world facts

Semantic Accuracy er et underbegreb til korrekthed (skos:narrowMatch) Note: ldqd-dimension har fuld

Page 23: Fælles sprog for datakvalitet – Vejledning til deklaration af ......2 Introduktion Denne vejledning beskriver en metode til at angive oplysninger om datakvalitet i et givet udstillet

23

ækvivalens med aspektet semantisk korrekthed

Aktualitet Timeliness Timeliness measures how up-to-date data is relative to a specific task

Fuld ækvivalens (skos:exactMatch)

Genbrugelighed Consistency Consistency means that a knowledge base is free of (logical/formal) contradictions with respect to particular knowledge representation and inference mechanisms

Consistency er et underbegreb til Genbrugelighed (skos:narrowMatch)

Understandability Understandability refers to the ease with which data can be comprehended without ambiguity and be used by a human information consumer

Understandability er et underbegreb til Genbrugelighed (skos:narrowMatch)