NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version...
Transcript of NORDIG 2017 · 2020. 5. 18. · Unicode Standard Annex #9, The Bidirectional Algorithm, Version...
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
1 (22)
W9 verktyg och mjukvara för bevarande
NORDIG 2017
Benjamin Yousef
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
2 (22)
Jan 2013
Jurist – “Rättsfilosofi”
(Allmän rättslära, Juridisk metodlära, IT-rätt)
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
3 (22)
juridisk och tekniskrådgivare och utredare
OFfentlig Informationshantering
● UTredning och Utveckling problematisera och
systematisera● överkomplicera ● påpeka det uppenbara
ArkivE Elektroniska
signaturer/underskrifter PDF/A PREFORMA
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
4 (22)
överens-stämmelse-
kontroll
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
5 (22)
instansx
instancex
specifkationspecification
programn
referensimplementationreference implementation
verifering(överensstämmelsekontrollering)
verification(conformance checker)
valideringvalidation
format
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
6 (22)
identifiering kontra validering och verifiering
identifiering gissningar (tror) utgår från metadata, exempelvis
● som anger att innehållet är LZW, utan att faktiskt verifiera.
identifierare● filändelser● MIME (IANA)● UTI (Uniform Type Identifier)● PUID (PRONOM)● FourCC (Four-Character Code)
validering och verifiering kunskap (vet) verifierar att data faktiskt är vad
som anges, exempelvis,● att kodningen för data är LZW.
inga tekniska ”fel” Jfr jämförelse av hash
(kondensat)● Validitet men inte verifiering?
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
7 (22)
strategi
Passiv Vänta tills vidare... … Kan bli försent att göra
något... … någon annans problem :)
Aktiv Utsätt för tester; validering
● dolda fel Tidigt identifiera fel,
● konsekvenser,● orsaker,● åtgärder.
Underlag för att beräkna t.ex. kostnader.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
8 (22)
format
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
9 (22)
PDF/A-1 – PDF 1.5 ANSI X3.4, Information Systems — Coded Character Sets — 7-Bit American National Standard Code for Information
Interchange (7-Bit ASCII) ECMA-6, 7-Bit coded Character Set. ISO 639-1, Codes for the representation of names of languages — Part 1: Alpha-2 code ISO 2108, Information and documentation — International standard book number (ISBN) ISO 3166-1, Codes for the representation of names of countries and their subdivisions — Part 1: Country codes ISO/IEC 10646-1:2000/Amd 1:2002, Amendment 1: Mathematical symbols and other characters ISO/IEC 10646-2:2001, Information technology — Universal Multiple-Octet Coded Character Set (UCS) — Part 2:
Supplementary Planes ISO/IEC 14492:2001, Information technology — Lossy/lossless coding of bi-level images
● Equivalent to ITU-T Recommendation T.88, Information technology — Coded representation of picture and audio information — Lossy/lossless coding of bi-level images
ISO 15489-1:2001, Information and documentation — Records management — Part 1: General ISO/TR 15801, Electronic imaging — Information stored electronically — Recommendations for trustworthiness and reliability ISO 15930-6, Graphic technology — Prepress digital data exchange using PDF — Part 6: Complete exchange of printing data
suitable for colour-managed workflows using PDF 1.4 (PDF/X-3) ISO/TR 18492, Long-term preservation of electronic document-based information ISO 18509-1, Electronic archival storage — Specifications relative to the design and operation of information processing
systems in view of ensuring the storage and integrity on recordings stored in these systems — Part 1: Long term access strategy
ISO 18509-2, Electronic archival storage — Specifications relative to the design and operation of information processing systems in view of ensuring the storage and integrity on recordings stored in these systems — Part 2: Technical specifications
ITU-T Recommendation T.4, Standardization of Group 3 facsimile terminals for document transmission ITU-T Recommendation T.563, Terminal characteristics for Group 4 facsimile apparatus Language Tags, IANA. Namespaces in XML 1.1, W3C Recommendation, February 4, 2004. PDF Reference: Adobe Portable Document Format, Version 1.5, Adobe Systems Incorporated — 4th edition. RFC 1950, ZLIB Compressed Data Format Specification version 3.3, May 1996. RFC 1951, DEFLATE Compressed Data Format Specification version 1.3, May 1996. The Unicode Standard, Unicode Consortium. Unicode Standard Annex #15, Unicode Normalization Forms, Unicode Consortium, 17 April 2003. ISO 639-2, Codes for the representation of names of languages — Part 2: Alpha-3 code
PDF Reference 1.5● Technical Notes: 22st● Litteratur: 13st● Adobe Type 1 Font Format.● OPI: Open Prepress Interface Specification 1.3.● PDF Public-Key Digital Signature and Encryption Specification.● PostScript Language Reference, Third Edition, Addison-Wesley, Reading, MA, 1999.● XMP: Extensible Metadata Platform.● Apple Computer, Inc., TrueType Reference Manual. ● ICC.1:1998-09, File Format for Color Profiles, and Document ICC.1A:1999-04, Addendum 2 to Specification ICC.1:1998-09● ICC Characterization Data Registry● CIP4 JDF Specification, Version 1.0.● International Electrotechnical Commission (IEC), IEC/3WD 61966-2.1, Colour Measurement and Management in Multimedia Systems and
Equipment, Part 2.1: Default RGB Colour Space—sRGB.● ISO 639, Codes for the Representation of Names of Languages● ISO 3166, Codes for the Representation of Names of Countries and Their Sub-divisions● ISO/IEC 8824-1, Abstract Syntax Notation One (ASN.1): Specification of Basic Notation● ISO/IEC 10918-1, Digital Compression and Coding of Continuous-Tone Still Images (informally known as the JPEG standard, for the Joint
Photographic Experts Group, the ISO group that developed the standard)● International Telecommunication Union (ITU), Recommendations T.4 and T.6.● RFC 1321, The MD5 Message-Digest Algorithm● RFC 1738, Uniform Resource Locators● RFC 1766, Tags for the Identification of Languages● RFC 1808, Relative Uniform Resource Locators● RFC 1866, Hypertext Markup Language 2.0 Proposed Standard● RFC 2045, Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies● RFC 2046, Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types● RFC 2068, Hypertext Transfer Protocol—HTTP/1.1● RFC 2083, PNG (Portable Network Graphics) Specification, Version 1.0● Microsoft Corporation, TrueType 1.0 Font Files Technical Specification.● Netscape Communications Corporation, Client-Side JavaScript Reference.● Unicode Standard Annex #9, The Bidirectional Algorithm, Version 3.1.0, and● Unicode Standard Annex #14, Line Breaking Properties, Version 3.1.0.● Extensible Markup Language (XML) 1.0● Extensible Stylesheet Language (XSL) 1.0● Web Content Accessibility Guidelines 1.0
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
10 (22)
formatdefinition
avgränsat binärt mönster [kod]
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
11 (22)
bevarandeformat
minimera informationsförändringar från framställning till återgivning
maximera förutsebarhet säkerhet överföring
● rymd● tid (långsiktighet)
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
12 (22)
ArkivE 2.0modell
1. Motsvarar den återgivna information den framställda informationen?
information återgivningpresentation
framställningformation
informationformat
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
13 (22)
identifiera fel
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
14 (22)
översikt
felerror
konsekvensconsequence
orsakcause
åtgärdremedy
tekniskttechnical
praktisktpractical
värderingvalue judgment
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
15 (22)
översikt1. symptom på informationsförändring vid
1. fram ställ ning,2. åter giv ning,3. och kontroll,
– “ett fel”,2. konsekvenser av symptomen
– ”varför ett fel”,exempelvis att kon sek vens en av symtomen innebär att myndigheten in te fullgör sina skyl dig heter enligt gällande rätt,
1. or saker till symptomen,2. åt gärder för att rätta till
symtomen, förhindra orsak en, eller han tera konsekvensen.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
16 (22)
symptom”felet”
tekniskt observation
● artefakter,● text saknar glyfer,● kan inte behandla/kopiera
text,● oväntad beteende så som
oväntat avslut av program, felmeddelande el ler fellogg;
kontroll: analys av kod såsom validering, veri fie ring eller tester, exempelvis, PDF/A:
● teckensnittet inte är omslutet● ToUnicode saknas
praktiskt subjektiv varietet och varians program, in ställ ningar och
användning informationen är tek nisk kor
rekt, men får en begränsad praktisk an vändning, exem pelvis,
● texten är inte mänsklig eller maskinellt läsbart;
● be räkningar av formler är inte möjligt;
● skep nader, objekt eller motiv kan inte iden ti fier as i bild.
värdering bedömning/åsikt
om att informationen in te upp fyller krav.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
17 (22)
konsekvens”varför ett fel”
teknisktinformationen är förändrat eller återges inte förut sebart, exempelvis,
texten kan inte behandlas maskinellt, såsom text en kan inte ko pi er as
● (PDF: ToUnicode saknas),
data kan inte identifieras eller urskiljas,
data har förlorats.
praktisktinformationen är inte ändamålsenlig, det vill säga, förlorat funktionellt skick, exempelvis (från ge ne rellt till specifikt),
visning, uppspelning, läsning;
återsökning; vidareförädling,
vidareutnyttjande; släktforskning.
värderingInformationen är tekniskt korrekt, och formellt ”praktiskt kor rekt”, men inte tillräcklig, exempelvis,
fel enligt ”standarden” tillgodoser inte arkivlagen,
PuL, verksamhets po li cy, standard, offentlighetsprincipen,
ej lämplig användning av bevarandeformat,
ej önskvärd kvalitet, såsom färg, ljud, ”stil”.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
18 (22)
or sakteknisktobjektiv varietet och varians på grund av program och teknisk implement er ing, samt specifika tion er och teknisk implementering, exem pel vis,
kodning (mjukvara/hårdvara): digitalisering, pro g ram, inställningar;
avkodning (mjukvara/hårdvara): program, in ställ ning ar;
komponent: fel version eller saknas;
lagringsenhet: korruption; utenhet.
praktisktsubjektiv varietet och varians (policy) såsom program och användning, exempelvis, vid en olämplig:
representation av information, exempelvis,
● rörlig bild <> stillbild,● 3D <> 2D,● fotografi <> ikon <> illustration,● interaktiv <> statisk;
funktionalitet eller kodning för att åter ge informa ti on, exempelvis,
● raster/bitmapp <> vektor <> punktmoln,● ”alfakanal” <> ”PDF -lager”,● text-teckenkodning <> text-raster/bitmapp,● struktur: relationsdatabas <> ”tabell”/ ta bu
lär <> tagg (”osynligt”),● kalkylblad eller databas “BLOB” för
dokument,
värdering regelverk, såsom
gällande rätt, policy, standard er, eller kvalitetskrav,
godtycklighet (faller ej bedömaren i smaken :)
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
19 (22)
åt gärdrätta till symtomen, förhindra orsak en, eller han tera konsekvensen
tekniskt [om]kodning och
avkodning:● ändra inställningar ● eller använd ett
annat program; reparera:
● ”reperationsprogram”● eller ”hex-redi ge ring”.
praktiskttillämpa en annan lämplig
representation av informationen;
[teknisk] funktionalitet eller kodning för att åter ge informa ti on.
● textkodning och exempelvis http://asciimath.org/,
● används transparens i GIF/PNG,
● 3D-objekt till 2D-lager,● ingen komprimering.
värdering omvärdera:
”felet” är acceptabelt,
nytt funktionellt skick.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
20 (22)
policy
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
21 (22)
Vad är en policy? bortom gränserna för
specifikation och implementation subjektiva rätt/fel lag, verksamhet, domän, …
Ska inte ersätta standarden!● … Men...
Det som● inte kan tillåtas tekniskt,● eller måste tillåtas tekniskt.
restriktiv tillämpning
Det som inte kan bedömas tekniskt.
2017-10-25 11:01:23
NORDIG 2017W9 Verktyg och mjukvara för bevarande
CC BY-SA 4.0 [email protected]
22 (22)
annotation● innehåll, ändrad, synlig, ...
färgrymd● familj
dokumentsäkerhet● tillåtet att göra utskrift,
ändringar, kopiera, ... bifogade filer
● filnamn, beskrivning, kontrollsumma, ...
grafiska egenskaper● transparens, ...
teckensnitt● typ, namn, familj, ...
formulär● höjd, bredd
ICC profil● version, modell,
tillverkare, … bilder
● bits per komponent, bredd, höjd, filter, ...
informationsordbok● titel, författare, ämne, ...
exempel lågnivåinformation
● indirekta objekt, skapat ID, filter, ...
avsedd utdata● förutsättning, registernamn,
info, ... sidor
● bredd, höjd, rotation, … egenskapsordbok
● typ "shading"
● anti-aliasing digitala signaturer
● innehåll, signeringsdatum, kontaktinformation, ...