NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version...

22
2017-10-25 11:01:23 NORDIG 2017 W9 Verktyg och mjukvara för bevarande CC BY-SA 4.0 benjamin.yousefi@riksarkivet.se 1 (22) W9 verktyg och mjukvara för bevarande NORDIG 2017 Benjamin Yousef

Transcript of NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version...

Page 1: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

1 (22)

W9 verktyg och mjukvara för bevarande

NORDIG 2017

Benjamin Yousef

Page 2: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

2 (22)

[email protected]

Jan 2013

Jurist – “Rättsfilosofi”

(Allmän rättslära, Juridisk metodlära, IT-rätt)

Page 3: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

3 (22)

juridisk och tekniskrådgivare och utredare

OFfentlig Informationshantering

● UTredning och Utveckling problematisera och

systematisera● överkomplicera ● påpeka det uppenbara

ArkivE Elektroniska

signaturer/underskrifter PDF/A PREFORMA

Page 4: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

4 (22)

överens-stämmelse-

kontroll

Page 5: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

5 (22)

instansx

instancex

specifkationspecification

programn

referensimplementationreference implementation

verifering(överensstämmelsekontrollering)

verification(conformance checker)

valideringvalidation

format

Page 6: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

6 (22)

identifiering kontra validering och verifiering

identifiering gissningar (tror) utgår från metadata, exempelvis

● som anger att innehållet är LZW, utan att faktiskt verifiera.

identifierare● filändelser● MIME (IANA)● UTI (Uniform Type Identifier)● PUID (PRONOM)● FourCC (Four-Character Code)

validering och verifiering kunskap (vet) verifierar att data faktiskt är vad

som anges, exempelvis,● att kodningen för data är LZW.

inga tekniska ”fel” Jfr jämförelse av hash

(kondensat)● Validitet men inte verifiering?

Page 7: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

7 (22)

strategi

Passiv Vänta tills vidare... … Kan bli försent att göra

något... … någon annans problem :)

Aktiv Utsätt för tester; validering

● dolda fel Tidigt identifiera fel,

● konsekvenser,● orsaker,● åtgärder.

Underlag för att beräkna t.ex. kostnader.

Page 8: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

8 (22)

format

Page 9: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

9 (22)

PDF/A-1 – PDF 1.5 ANSI X3.4, Information Systems — Coded Character Sets — 7-Bit American National Standard Code for Information

Interchange (7-Bit ASCII) ECMA-6, 7-Bit coded Character Set. ISO 639-1, Codes for the representation of names of languages — Part 1: Alpha-2 code ISO 2108, Information and documentation — International standard book number (ISBN) ISO 3166-1, Codes for the representation of names of countries and their subdivisions — Part 1: Country codes ISO/IEC 10646-1:2000/Amd 1:2002, Amendment 1: Mathematical symbols and other characters ISO/IEC 10646-2:2001, Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 2:

Supplementary Planes ISO/IEC 14492:2001, Information technology — Lossy/lossless coding of bi-level images

● Equivalent to ITU-T Recommendation T.88, Information technology — Coded representation of picture and audio information — Lossy/lossless coding of bi-level images

ISO 15489-1:2001, Information and documentation — Records management — Part 1: General ISO/TR 15801, Electronic imaging — Information stored electronically — Recommendations for trustworthiness and reliability ISO 15930-6, Graphic technology — Prepress digital data exchange using PDF — Part 6: Complete exchange of printing data

suitable for colour-managed workflows using PDF 1.4 (PDF/X-3) ISO/TR 18492, Long-term preservation of electronic document-based information ISO 18509-1, Electronic archival storage — Specifications relative to the design and operation of information processing

systems in view of ensuring the storage and integrity on recordings stored in these systems — Part 1: Long term access strategy

ISO 18509-2, Electronic archival storage — Specifications relative to the design and operation of information processing systems in view of ensuring the storage and integrity on recordings stored in these systems — Part 2: Technical specifications

ITU-T Recommendation T.4, Standardization of Group 3 facsimile terminals for document transmission ITU-T Recommendation T.563, Terminal characteristics for Group 4 facsimile apparatus Language Tags, IANA. Namespaces in XML 1.1, W3C Recommendation, February 4, 2004. PDF Reference: Adobe Portable Document Format, Version 1.5, Adobe Systems Incorporated — 4th edition. RFC 1950, ZLIB Compressed Data Format Specification version 3.3, May 1996. RFC 1951, DEFLATE Compressed Data Format Specification version 1.3, May 1996. The Unicode Standard, Unicode Consortium. Unicode Standard Annex #15, Unicode Normalization Forms, Unicode Consortium, 17 April 2003. ISO 639-2, Codes for the representation of names of languages — Part 2: Alpha-3 code

PDF Reference 1.5● Technical Notes: 22st● Litteratur: 13st● Adobe Type 1 Font Format.● OPI: Open Prepress Interface Specification 1.3.● PDF Public-Key Digital Signature and Encryption Specification.● PostScript Language Reference, Third Edition, Addison-Wesley, Reading, MA, 1999.● XMP: Extensible Metadata Platform.● Apple Computer, Inc., TrueType Reference Manual. ● ICC.1:1998-09, File Format for Color Profiles, and Document ICC.1A:1999-04, Addendum 2 to Specification ICC.1:1998-09● ICC Characterization Data Registry● CIP4 JDF Specification, Version 1.0.● International Electrotechnical Commission (IEC), IEC/3WD 61966-2.1, Colour Measurement and Management in Multimedia Systems and

Equipment, Part 2.1: Default RGB Colour Space—sRGB.● ISO 639, Codes for the Representation of Names of Languages● ISO 3166, Codes for the Representation of Names of Countries and Their Sub-divisions● ISO/IEC 8824-1, Abstract Syntax Notation One (ASN.1): Specification of Basic Notation● ISO/IEC 10918-1, Digital Compression and Coding of Continuous-Tone Still Images (informally known as the JPEG standard, for the Joint

Photographic Experts Group, the ISO group that developed the standard)● International Telecommunication Union (ITU), Recommendations T.4 and T.6.● RFC 1321, The MD5 Message-Digest Algorithm● RFC 1738, Uniform Resource Locators● RFC 1766, Tags for the Identification of Languages● RFC 1808, Relative Uniform Resource Locators● RFC 1866, Hypertext Markup Language 2.0 Proposed Standard● RFC 2045, Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies● RFC 2046, Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types● RFC 2068, Hypertext Transfer Protocol—HTTP/1.1● RFC 2083, PNG (Portable Network Graphics) Specification, Version 1.0● Microsoft Corporation, TrueType 1.0 Font Files Technical Specification.● Netscape Communications Corporation, Client-Side JavaScript Reference.● Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and● Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0.● Extensible Markup Language (XML) 1.0● Extensible Stylesheet Language (XSL) 1.0● Web Content Accessibility Guidelines 1.0

Page 10: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

10 (22)

formatdefinition

avgränsat binärt mönster [kod]

Page 11: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

11 (22)

bevarandeformat

minimera informationsförändringar från framställning till återgivning

maximera förutsebarhet säkerhet överföring

● rymd● tid (långsiktighet)

Page 12: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

12 (22)

ArkivE 2.0modell

1. Motsvarar den återgivna information den framställda informationen?

information återgivningpresentation

framställningformation

informationformat

Page 13: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

13 (22)

identifiera fel

Page 14: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

14 (22)

översikt

felerror

konsekvensconsequence

orsakcause

åtgärdremedy

tekniskttechnical

praktisktpractical

värderingvalue judgment

Page 15: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

15 (22)

översikt1. symptom på informationsförändring vid

1. fram ställ ning,2. åter giv ning,3. och kontroll,

– “ett fel”,2. konsekvenser av symptomen

– ”varför ett fel”,exempelvis att kon sek vens en av symtomen innebär att myndigheten in te fullgör sina skyl dig heter enligt gällande rätt,

1. or saker till symptomen,2. åt gärder för att rätta till

symtomen, förhindra orsak en, eller han tera konsekvensen.

Page 16: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

16 (22)

symptom”felet”

tekniskt observation

● artefakter,● text saknar glyfer,● kan inte behandla/kopiera

text,● oväntad beteende så som

oväntat avslut av program, felmeddelande el ler fellogg;

kontroll: analys av kod såsom validering, veri fie ring eller tester, exempelvis, PDF/A:

● teckensnittet inte är omslutet● ToUnicode saknas

praktiskt subjektiv varietet och varians program, in ställ ningar och

användning informationen är tek nisk kor

rekt, men får en begränsad praktisk an vändning, exem pelvis,

● texten är inte mänsklig eller maskinellt läsbart;

● be räkningar av formler är inte möjligt;

● skep nader, objekt eller motiv kan inte iden ti fier as i bild.

värdering bedömning/åsikt

om att informationen in te upp fyller krav.

Page 17: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

17 (22)

konsekvens”varför ett fel”

teknisktinformationen är förändrat eller återges inte förut sebart, exempelvis,

texten kan inte behandlas maskinellt, såsom text en kan inte ko pi er as

● (PDF: ToUnicode saknas),

data kan inte identifieras eller urskiljas,

data har förlorats.

praktisktinformationen är inte ändamålsenlig, det vill säga, förlorat funktionellt skick, exempelvis (från ge ne rellt till specifikt),

visning, uppspelning, läsning;

återsökning; vidareförädling,

vidareutnyttjande; släktforskning.

värderingInformationen är tekniskt korrekt, och formellt ”praktiskt kor rekt”, men inte tillräcklig, exempelvis,

fel enligt ”standarden” tillgodoser inte arkivlagen,

PuL, verksamhets po li cy, standard, offentlighetsprincipen,

ej lämplig användning av bevarandeformat,

ej önskvärd kvalitet, såsom färg, ljud, ”stil”.

Page 18: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

18 (22)

or sakteknisktobjektiv varietet och varians på grund av program och teknisk implement er ing, samt specifika tion er och teknisk implementering, exem pel vis,

kodning (mjukvara/hårdvara): digitalisering, pro g ram, inställningar;

avkodning (mjukvara/hårdvara): program, in ställ ning ar;

komponent: fel version eller saknas;

lagringsenhet: korruption; utenhet.

praktisktsubjektiv varietet och varians (policy) såsom program och användning, exempelvis, vid en olämplig:

representation av information, exempelvis,

● rörlig bild <> stillbild,● 3D <> 2D,● fotografi <> ikon <> illustration,● interaktiv <> statisk;

funktionalitet eller kodning för att åter ge informa ti on, exempelvis,

● raster/bitmapp <> vektor <> punktmoln,● ”alfakanal” <> ”PDF -lager”,● text-teckenkodning <> text-raster/bitmapp,● struktur: relationsdatabas <> ”tabell”/ ta bu

lär <> tagg (”osynligt”),● kalkylblad eller databas “BLOB” för

dokument,

värdering regelverk, såsom

gällande rätt, policy, standard er, eller kvalitetskrav,

godtycklighet (faller ej bedömaren i smaken :)

Page 19: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

19 (22)

åt gärdrätta till symtomen, förhindra orsak en, eller han tera konsekvensen

tekniskt [om]kodning och

avkodning:● ändra inställningar ● eller använd ett

annat program; reparera:

● ”reperationsprogram”● eller ”hex-redi ge ring”.

praktiskttillämpa en annan lämplig

representation av informationen;

[teknisk] funktionalitet eller kodning för att åter ge informa ti on.

● textkodning och exempelvis http://asciimath.org/,

● används transparens i GIF/PNG,

● 3D-objekt till 2D-lager,● ingen komprimering.

värdering omvärdera:

”felet” är acceptabelt,

nytt funktionellt skick.

Page 20: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

20 (22)

policy

Page 21: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

21 (22)

Vad är en policy? bortom gränserna för

specifikation och implementation subjektiva rätt/fel lag, verksamhet, domän, …

Ska inte ersätta standarden!● … Men...

Det som● inte kan tillåtas tekniskt,● eller måste tillåtas tekniskt.

restriktiv tillämpning

Det som inte kan bedömas tekniskt.

Page 22: NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0. Extensible

2017-10-25 11:01:23

NORDIG 2017W9 Verktyg och mjukvara för bevarande

CC BY-SA 4.0 [email protected]

22 (22)

annotation● innehåll, ändrad, synlig, ...

färgrymd● familj

dokumentsäkerhet● tillåtet att göra utskrift,

ändringar, kopiera, ... bifogade filer

● filnamn, beskrivning, kontrollsumma, ...

grafiska egenskaper● transparens, ...

teckensnitt● typ, namn, familj, ...

formulär● höjd, bredd

ICC profil● version, modell,

tillverkare, … bilder

● bits per komponent, bredd, höjd, filter, ...

informationsordbok● titel, författare, ämne, ...

exempel lågnivåinformation

● indirekta objekt, skapat ID, filter, ...

avsedd utdata● förutsättning, registernamn,

info, ... sidor

● bredd, höjd, rotation, … egenskapsordbok

● typ "shading"

● anti-aliasing digitala signaturer

● innehåll, signeringsdatum, kontaktinformation, ...