7. Formati dei dati e standard

59
1 Formati dei dati e standard: Marc, UniMARC, Dublin Core, EAD, EAC Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito Lezione 7

description

Sapienza Università di Roma Anno Accademico 2012 – 2013 Informatica per gli Archivi e le Biblioteche Prof.ssa Linda Giuva Prof. Maurizio Caminito Lezione 7

Transcript of 7. Formati dei dati e standard

Page 1: 7. Formati dei dati e standard

1

Formati dei dati e standard:Marc, UniMARC, Dublin Core, EAD, EAC

Sapienza Università di RomaAnno Accademico 2012 – 2013

Informatica per gli Archivi e le BibliotecheProf.ssa Linda Giuva

Prof. Maurizio CaminitoLezione 7

Page 2: 7. Formati dei dati e standard

2

I metadati

Descrittivi (intellettuali)Descrivono il contenuto dell’oggetto

StrutturaliDescrivono legami e collegamenti tra dati

AmministrativiDicono chi possiede, dove si trova, chi può

accedere ad un certo dato, da dove proviene, ..Tecnici

Descrivono il formato, come è avvenuta laconversione di un dato, ...

Page 3: 7. Formati dei dati e standard

3

Alcuni standard dei metadati descrittivi

• MARC (standard di trasferimento UNIMARC)• Dublin Core (DC)

• Encoded Archival Description (EAD)• Encoded Archival Context (EAC)• International standard of archival description/general - ISAD(G)• International Standard Archival Autority Record /for Corporated bodies,

Persons and Families – ISAAR (CPF)

• Text Encoding Initiative (TEI)

Page 4: 7. Formati dei dati e standard

4

Il formato di un record bibliografico

Modello di presentazione strutturata dell’informazioneComprensibile sia alle persone che ai software di gestione.

I software sono in grado di trattare solo informazioni strutturate (gli elementi informativi sono ETICHETTATI in maniera univoca)In un record bibliografico in formato digitale trovano posto le informazioni strettamente bibliografiche E altre informazioni che servono al software per “capire” e elaborare il record.

Page 5: 7. Formati dei dati e standard

5

Lo standard MARC

Z39.02 NISO (National Information Standard Organisation) standard approvato nel 1971

MAchine Readable Cataloging

Descrive la sintassi dei recordProgettato per lo scambio di dati tra sistemi librari (library system), è diventato il metodo più comune per rappresentare i dati all’interno dei sistemi librari

Page 6: 7. Formati dei dati e standard

6

MARC – Un po’ di storia Sviluppato alla fine degli anni 60 alla Library of Congress (USA)

per promuovere la condivisione di cataloghi tra biblioteche, è

diventato un formato (quasi) standard Utilizza un sistema di numeri, lettere e simboli all’interno del

record per individuare i diversi tipi di informazione Fornisce:

Descrizione dell’oggetto (titolo, edizione, pubblicazione, ecc.)SoggettoNumero di catalogo

Molti formati (“dialetti”) simili a MARC sono stati sviluppati da organismi bibliotecari nazionali: USMARC, UKMARC, CANMARC, AUSMARC, DANMARC, INTERMARC, ANNAMARC (Automazione Nella biblioteca NAzionale di Firenze, in uso fino al 1985).

USMARC e CANMARC sono stati pubblicati in una edizione unificata nel 1999 con il nome di MARC 21

UNIMARC (UNIversal MARC) come formato standard e come formato di scambio tra i diversi formati

Page 7: 7. Formati dei dati e standard

7

Lo standard MARC – le etichette

MARC è basato sulle etichette (formato esterno). Es.:

Author: Lesk, Michael. Title: Understanding digital libraries / Michael Lesk. Edition 2nd ed.Published: Boston : Elsevier, 2004.Description: xxxi, 424 p. : ill., maps ; 24 cm.Notes: "Practical digital libraries, 2nd edition."Notes: Includes bibliographical references (p. 387-411) and index.ISBN: 1558609245 (alk. paper)Subject: Libraries -- United States -- Special collections -- Computer files.Subject: Digital libraries -- United States.Authors: Lesk, Michael. Practical digital libraries.HOLLIS Number: 009552461

Page 8: 7. Formati dei dati e standard

8

Lo standard MARC – il record

L’informazione contenuta in ogni record MARC è organizzata in modo che possa essere interpretata da un programma, quindi le diverse informazioni devono essere codificate precisamente.

È necessario permettere una certa flessibilità nel formato, per poter descrivere oggetti diversiAd esempio, il titolo di un’opera avrà una lunghezza variabileVi sono degli oggetti che sono parte di una serie, mentre altri non lo sono, ecc..

Ogni record è comunque composto da:- “tabella dei contenuti”- Descrizione dell’oggetto- Un insieme di soggetti selezionati da una lista predefinita- Un numero di collocazione che indica dove si trova l’oggetto

Page 9: 7. Formati dei dati e standard

9

COMPONENTI DI UNA REGISTRAZIONE MARC

Una registrazione MARC è composta di tre elementi: la struttura della registrazione, la designazione del contenuto e il contenuto dei dati della registrazione.

La struttura della registrazione costituisce il modello standard di scambio dei dati

La designazione del contenuto - etichette, codici e convenzioni stabilite per identificare e caratterizzare gli elementi dei dati all'interno di una registrazione - è definita da ognuno dei formati MARC.

Il contenuto degli elementi dei dati di una registrazione MARC viene in genere definito dalle regole catalografiche usate dall'organizzazione che crea una registrazione.

Page 10: 7. Formati dei dati e standard

10

La struttura della registrazione MARCLa struttura della registrazione MARC è costituita da tre componenti principali: la Leader, la Directory e i campi variabili.

LeaderContiene elementi di dati che forniscono informazioni sul

trattamento della registrazione. La Leader possiede una lunghezza fissa di 24 posizioni di carattere e costituisce il primo campo di ogni registrazione MARC.

DirectoryContiene una serie di elementi che contengono l'etichetta, la

lunghezza e l'indirizzo d'inizio di ogni campo variabile di una registrazione. Ogni elemento comprende 12 posizioni di carattere.

Campi variabiliI dati in una registrazione MARC sono organizzati in campi variabili,

ognuno dei quali è identificato da un'etichetta di tre caratteri numerici che viene archiviata nell'elemento della Directory corrispondente al campo.

Page 11: 7. Formati dei dati e standard

11

Intestazione

L’intestazione contiene informazione che viene utilizzata dal sistema

Leader24 caratteri utilizzati dal sistemaContiene informazioni quali la lunghezza del record, il tipo, ecc.

DirectorySpecifica quali tag ci sono nel record e dove si trovano

Il campo 008Contiene informazione importante ma in forma sintentica Ad es. può contenere un codice per il paese di pubblicazione, un

codice per indicare la lingua del testo,ecc.

Page 12: 7. Formati dei dati e standard

12

MARC: i campi di dati

I campi, identificati da tre caratteri numerici, sono disposti in blocchi funzionali (0-1contengono i dati codificati, 2-8 contengono i dati bibliografici)

0:Blocco di identificazione 5: Blocco dei titoli in relazione

1:Blocco informazioni codificate 6: Blocco dell’analisi semantica

2:Blocco informazioni descrittive 7: Blocco della resp. intellettuale

3:Blocco delle note 8: Blocco della fonte4:Blocco dei legami 9: Blocco d’uso locale

Page 13: 7. Formati dei dati e standard

13

MARC – la struttura dei recordOgni record MARC è composto di una intestazione, un insieme di

campi di controllo ed un insieme di campi con i dati.

<leader> <directory> FT <control-number-field> FT [<control-field>]+ FT [<data-field>]+ FT RT

<leader> - campo a lunghezza fissa che contiene informazione generale sul record

<directory> - indice della posizione dei campi di controllo e dati (<control-field> e <datafield>) all'interno del record

<control-number-field> - carattere di controllo specifico dell'organizzazione che ha generato il record MARC

<control-field> - contiene informazione di controllo specifica del record

<data-field> - contiene i valori di metadati

FT - indica la terminazione di un campo RT - indica la terminazione del record

Page 14: 7. Formati dei dati e standard

14

MARC – la struttura del record 2

<control-number-field> contiene un carattere di controllo utilizzato dall'organizzazione che ha inserito il record.

l record MARC possono contenere uno o più campi<control-field>. Questi campi iniziano con un tag di tre cifre,

avente le prime due poste a zero (quindi hanno la forma 00X).

Il campo <data-field> contiene i dati del record MARC.

Page 15: 7. Formati dei dati e standard

15

MARC – il campo <data-field>

Ogni campo <data-field> inizia con un <field-tag> - un codice di 3 cifre di cui la prima è diversa da zero.

Ad ogni <field-tag> corrisponde uno specifico tipo di informazione, quale ad esempio autore, titolo, edizione, ecc.

La divisione dei tag di MARC21 è la seguente: 0XX Informazione di controllo, numeri, codici 1XX Parte principale 2XX Titoli, edizione, statement di responsabilità,informazione sulla pubblicazione 3XX Descrizione fisica, etc. 4XX Serie 5XX Note 6XX Soggetto 7XX Altre entries diverse dal soggetto o dalla serie 8XX Altro 9XX Lasciato per uso locale

Page 16: 7. Formati dei dati e standard

16

MARC – Es. record catalografico

TITLE : Make the team. Soccer : a heads up guide to super soccer! / Richard J.Brenner.

ADDED TITLE : Heads up guide to super soccerAUTHOR : Brenner, Richard J., 1941-PUBLISHED : 1st ed. Boston : Little, Brown, c1990.MATERIAL : 127 p. : ill. ; 19 cm.NOTE : "A Sports illustrated for kids book."NOTE : Instructions for improving soccer skills. Discusses

dribbling, heading, playmaking, defense, conditioning, mental attitude, how to handle problems with coaches, parents, and other players, and the history of soccer.

SUBJECT : Soccer--Juvenile literature. Soccer.Copies Available : GV943.25 .B74 1990

Page 17: 7. Formati dei dati e standard

17

MARC – visualizzazione del record Leader 01041cam 2200265 a 4500Control No. 001 ###89048230Control No. ID 003 DLCDTLT 005 19911106082810.9Fixed Data 008 891101s1990 maua j 001 0 engLCCN 010 ## $a ###89048230ISBN 020 ## $a 0316107514 :

$c $12.95ISBN 020 ## $a 0316107506 (pbk.) :

$c $5.95 ($6.95 Can.)Cat. Source 040 ## $a DLC

$c DLC$d DLC

LC Call No. 050 00 $a GV943.25$b .B74 1990

Dewey No. 082 00 $a 796.334/2$2 20

ME:Pers Name 100 1# $a Brenner, Richard J.,$d 1941-

Title 245 10 $a Make the team.$p Soccer :$b a heads up guide to super soccer! /$c Richard J. Brenner.

Page 18: 7. Formati dei dati e standard

18

Record della Library of Congress

LC Control Number:68093427Type of Material:Book (Print, Microform, Electronic, etc.)Personal Name:Manzoni, Alessandro, 1785-1873.Main Title:I promessi sposi.Edition Information:[2. ed.]Published/Created:Firenze, La nuova Italia, 1967.Related Names:Russo, Luigi, 1892-1961. ed.Description:xxii, 716 p. 21 cm.LC Classification:PQ4713 .P3 1967Other System No.:(OCoLC)23497169CALL NUMBER:PQ4713 .P3 1967Copy 1–Request in:Jefferson or Adams Bldg General or Area Studies Reading Rms–Status:Not Charged

Page 19: 7. Formati dei dati e standard

19

Es.:Record della Library of Congress in MARC

LC Control Number:68093427000 00678nam 22002291 450001 8495557005 19980421195046.0008 890330s1967 it 000 0 ita035 __ |9 (DLC) 68093427906__ |a 7 |b cbc |c oclcrpl |d u |e ncip |f 19 |g y-gencatlg010 __ |a 68093427035 __ |a (OCoLC)23497169040 __ |a DLC |c MiU |d DLC050 00 |a PQ4713 |b .P3 1967100 1_ |a Manzoni, Alessandro, |d 1785-1873.245 12 |a I promessi sposi.250 __ |a [2. ed.]260 __ |a Firenze, |b La nuova Italia, |c 1967.300 __ |a xxii, 716 p. |c 21 cm.700 1_ |a Russo, Luigi, |d 1892-1961. |e ed.985 __ |e OCLC REPLACEMENT991 __ |b c-GenColl |h PQ4713 |i .P3 1967 |t Copy 1 |w OCLCREP

Page 20: 7. Formati dei dati e standard

20

Il formato UNIMARC

Rappresenta una implementazione dello standard ISO 2709, uno standard internazionale che definisce la struttura di record contenenti dati bibliografici. In base ad esso ogni record deve consistere di:

• RECORD LABEL (24 caratteri)• DIRECTORY• CAMPI DI DATI

ISO 2709 specifica inoltre che i dati nei vari campi possono essere preceduti da indicatori e divisi in sottocampi.

Page 21: 7. Formati dei dati e standard

21

Il formato UNIMARC

UNIMARC è un insieme di specifiche per la rappresentazione dell'informazione bibliografica definite dall'IFLA. È’ adottato in diversi paesi, soprattutto europei, fra cui l'Italia, la Francia e il Portogallo. In Italia è adottato dal Servizio Bibliotecario Nazionale.

Fino ad ora IFLA ha prodotto specifiche per la descrizione bibliografica (UNIMARC Bibliographic), per le registrazioni di autorità (UNIMARC Authorities), per la descrizione dei dati riguardanti il singolo libro/documento/oggetto (UNIMARC Holdings).

Si distingue dalle numerose specifiche analoghe per la coerenza e il rigore che lo caratterizzano. In particolare, le etichette sono raggruppate logicamente in blocchi numerici fra loro coerenti. Ad esempio, le etichette sotto il 001 sono dedicate all'identificazione, il blocco 100 alle informazioni codificate, il blocco 200 ai dati descrittivi, il 700 alle responsabilità, e così via.

Page 22: 7. Formati dei dati e standard

22

Di cosa si occupa il formato UNIMARC

Il formato UNIMARC si occupa di codificare in modo standardizzato le informazioni bibliografiche, ma non si occupa di come catalogare i documenti bibliografici

Questo compito viene assolto dalle varie ISBD e, in Italia, dalle REICAT, dal nuovo soggettario della BNCF e, nelle biblioteche pubbliche, dalla Classificazione decimale Dewey

Tra gli strumenti della catalogazione ed il formato UNIMARC si instaura un rapporto di dipendenza nel senso che i primi contengono le norme di catalogazione, mentre il secondo si occupa della codifica dei dati in un formato che possa essere interpretato in maniera univoca dalla macchina

Page 23: 7. Formati dei dati e standard

23

Record label

Ogni record deve iniziare con un una Label di 24 caratteri. Contiene dati relativi alla struttura del record, richiesti per elaborarlo e solo indirettamente per identificare l’unità bibliografica.

E’ in gran parte generabile automaticamente (0-4, 12-16 sono posizioni rappresentate da dati numerici calcolabili dall’elaboratore; 9,10,11,20-23 hanno valore costante)

Page 24: 7. Formati dei dati e standard

24

Directory

Di seguito al record Label ogni record UNIMARCpresenta una directory (dei campi di dati) che consiste di varie Stringhe (entries) ognuna delle quali contiene:

• un codice di 3 cifre per ciascun campo di dati, • un numero di 4 cifre che indica la lunghezza del campo (il n. di

caratteri compresi indicatori, sottocampi, dati)• un numero di 5 cifre con la posizione del carattere iniziale del

campo

Page 25: 7. Formati dei dati e standard

25

UNIMARC e ISBD

Lo scopo principale del sistema ISBD è di facilitare la comunicazione internazionale delle informazioni bibliografiche:

• Rendendo possibile lo scambio di registrazioni provenienti da fonti diverse, in modo che le registrazioni prodotte in un paese possano essere facilmente inserite in cataloghi di altre biblioteche o in altri elenchi bibliografici di un altro paese

• Favorendo l’interpretazione delle registrazioni oltre le barriere linguistiche, in modo che le registrazioni prodotte per gli utenti di una lingua possano essere interpretate dagli utenti di altre lingue

• Favorendo la conversione delle registrazioni bibliografiche in forma leggibile dalla macchina

Page 26: 7. Formati dei dati e standard

26

Il sistema ISBD

Per raggiungere quegli scopi, gli standard ISBD prescrivono una serie di norme

per la descrizione di documenti bibliografici che costituiscono un formato

Queste norme ci permettono di individuare:• Tutti gli elementi considerati utili ai fini della descrizione• In che ordine essi vanno presentati• Quale punteggiatura adottare• L’ordine di preferenza delle fonti dalle quali ricavare gli elementi

La codifica ISBD risulta però insufficiente e non abbastanza univoca da consentire ad un software di riconoscere e gestire con sicurezza la notizia bibliografica

Page 27: 7. Formati dei dati e standard

27

“Ambiguità” nel formato ISBD

Il numero delle aree non è costanteL’area 2 può essere assenteL’area 3, dove prevista, può essere ripetuta, p.e. in ISBD(ER)Le aree 6, 7 e 8 possono essere ripetute

La punteggiatura non è sempre identificante(Ad esempio, il punto e la virgola convenzionali si confondono con il punto e la virgola grammaticali)

Il passaggio automatico dal formato ISBD al formato UNIMARC può dare luogo ad una serie di errori non dovuti solamente ad errori di inserimento da parte del catalogatore

E’ NECESSARIO CHE I DATI SIANO “VISUALIZZATI” PER IL COMPUTER

Page 28: 7. Formati dei dati e standard

28

a) Visualizzazione ISBD

Gli esempi sono tratti da: Manuale di biblioteconomia/ Giorgio Montecchi, Fabio Venuda. –3. ed. interamente riveduta e ampliata. –

Milano : Bibliografica, 2005

UNIMARC/ Antonio Scolari. –Roma : AIB, 2000

Page 29: 7. Formati dei dati e standard

29

b) Visualizzazione con etichette dei campi

Page 30: 7. Formati dei dati e standard

30

c) Visualizzazione UNIMARC

Page 31: 7. Formati dei dati e standard

31

Caratteristiche di un record UNIMARC

La funzione primaria del formato UNIMARC è quella di permettere il trasferimento dei dati tra biblioteche che utilizzano formati MARC differenti

Il record UNIMARC per il trasferimento dei dati è composto di tre parti:

−Guida o leader: informa sulla struttura del record−Indice o directory dei campi: indica quali campi sono utilizzati−Campi: contengono i dati, che si possono dividere in dati di

controllo e dati bibliografici

Page 32: 7. Formati dei dati e standard

32

Formato del record Unimarc per il trasferimento dei dati

Page 33: 7. Formati dei dati e standard

33

Gli standard 1 – Il modello dei dati

Dublin Core metadata element set e

Dublin Core Collection Description:

sistema di metadati costituito da un nucleo di elementi essenziali ai fini della descrizione di qualsiasi materiale digitale accessibile via rete informatica.

Page 34: 7. Formati dei dati e standard

34

MARC e Dublin Core

L'insieme elementi Dublin Core è pensato come un minimo comune denominatore tra i diversi schemi di metadati (il MARC è uno di questi). E' un linguaggio semplice che altri linguaggi più complessi possono usare per comunicare reciprocamente a un livello veramente generale. Usare il Dublin Core significa guadagnare molto in semplicità e perdere in specificità. In un ambiente bibliotecario, per soddisfare ricerche complesse è necessario uno schema di metadati più complesso

Page 35: 7. Formati dei dati e standard

35

Dublin Core (DC)

Realizzato nel 1996 per “portare ordine nel web”

Obiettivi:Realizzare un semplice standard contenente

i metadati necessari per descrivere una qualunque pagina web

o un qualunque oggetto accessibile su web

Il nome deriva dal luogo in cui è avvenuto il meeting: Dublin, Ohio.

Page 36: 7. Formati dei dati e standard

36

Gli standard 1 – Il modello dei datiIl Dublin Core

Titolo (Title) Autore (Creator) Soggetto (Subject) Descrizione (Description) Editore (Publisher) Autore di contributo subordinato (Contributor) Data (Date) Tipo (Type) Natura o genere del contenuto della risorsa. L'elemento "Tipo" include termini che descrivono categorie generali, funzioni, generi, o livelli di aggregazione per contenuto presi generalmente da un vocabolario controllato.Formato (Format) Manifestazione fisica o digitale della risorsa. Identificatore (Identifier) Riferimento univoco alla risorsa. Solitamente le risorse sono identificate per mezzo di una sequenza di caratteri alfa- numerici. Esempi di tali sistemi di identificazione: l’Uniform Resource Identifier (URI) (incluso l’Uniform Resource Locator (URL)), il Digital Object Identifier (DOI) e l’International Standard Book Number (ISBN).

Page 37: 7. Formati dei dati e standard

37

Gli standard 1 – Il modello dei datiIl Dublin Core

Fonte (Source) Riferimento a una risorsa dalla quale è derivata la risorsa in oggetto. La risorsa in questione potrebbe derivare, in tutto o in parte, da un’altra risorsa fonte.Lingua (Language) Relazione (Relation) Riferimento ad una risorsa correlata.

Copertura (Coverage) Estensione o scopo del contenuto della risorsa. Normalmente Copertura include la localizzazione spaziale (il nome o le coordinate geografiche di un luogo), il periodo temporale (l’indicazione di un periodo, una data o una serie di date) o una giurisdizione (ad esempio il nome di un’entità amministrativa).

Gestione dei diritti (Rights Management) Informazione sui diritti esercitati sulla risorsa. Normalmente un elemento "Diritti" contiene un’indicazione sulla gestione dei diritti sulla risorsa, o un riferimento al servizio che fornisce questa informazione. Questo campo comprende gli Intellectual Property Rights (IPR), il copyright, e vari diritti di proprietà. Se l’elemento Rights è assente, non si può fare alcuna ipotesi sui diritti della risorsa.

Page 38: 7. Formati dei dati e standard

38

I Core ElementsI quindici elementi di base: Creator Title Subject Contributor Date Description Format Coverage Publisher Type Rights Relation Source Language Identifier

Page 39: 7. Formati dei dati e standard

39

Caratteristiche del Dublin Core

• Tutti gli elementi (tag) sono opzionali• Tutti gli elementi possono ripetersi• L’ordine in cui compaiono gli elementi è

ininfluente• É estensibile• É internazionale

Page 40: 7. Formati dei dati e standard

40

Simple e Qualified Dublin Core

Estensibilita del Dublin CoreSimple Dublin Core si limita all’uso dei 15elementi originali

Qualified Dublin Core include:• Nuovi elementi• Specializzazione/rifinimento degli elementi

Page 41: 7. Formati dei dati e standard

41

Formati per gli archivi

I formati MARC, utilizzati dalle biblioteche, sono adatti alla descrizione bibliografica che stabilisce una descrizione autonoma per ogni documento, con poche relazioni gerarchiche (essenzialmente legame con una collezione editoriale o con un insieme monografico).

Non permettono, al contrario, di dare conto in maniera soddisfacente di fondi fortemente gerarchizzati che dipendono dalla descrizione archivistica.

Page 42: 7. Formati dei dati e standard

42

ISAD(g)

Sono applicabili a qualunque tipologia di archivio;Prevedono la descrizione a più livelli (fondo e sue suddivisioni);Mantengono il rapporto fra i livelli descritti (collocando l’ unità che si descrive nella gerarchia complessiva del fondo);Evitano la ripetizione delle informazioni.

Page 43: 7. Formati dei dati e standard

43

I.S.A.D.(g) International standard of archival description general

Comprende sei aree

1. Area dell’identificazione;2. Area del contesto;3. Area del contenuto;4. Area delle condizioni di accesso;5. Area delle fonti complementari;6. Area delle note

Page 44: 7. Formati dei dati e standard

44

I.S.A.A.R. International Standard Archival Autority Record for Corporated

bodies, Persons and Families

Comprende tre aree:Area del controllo d’autorità (contiene una

denominazione standardizzata)Area delle informazioni relative agli enti, persone

e famiglie identificate nell’ area precedente.Area delle note.

Page 45: 7. Formati dei dati e standard

45

I modelli EAD e EAC

EAD = sintassi per la descrizione delle diverse tipologie di archivi

EAC = sintassi per la codifica degli authority file

Page 46: 7. Formati dei dati e standard

46

Encoded Archival Description(EAD)

• Basato sull’uso di XML• Ampio insieme di tag• Molti sottolivelli per la gestione dei tag• Difficile da implementare

Schema EAD:http://www.loc.gov/ead/tglib/att_gen.html

Page 47: 7. Formati dei dati e standard

47

EAD - 1

EAD ha tre componenti principali:1. <eadheader> intestazione dello strumento che

fornisce informazioni sull’intera banca dati;2. <frontmatter> frontespizio elettronico per

presentare informazioni;3. <archdesc> descrizione archivistica del complesso

documentario organizzato in modo strutturato (serie, sottoserie, fascicolo), permette di accedere alla descrizione di ognuno degli archivi messo a disposizione.

Page 48: 7. Formati dei dati e standard

48

EAD – 2

Accesso Banca Dati

Avviene con la consultazione dell’inventario ottenuta navigando lungo la struttura gerarchica dell’archivio che ci presenta i risultati trovati indistintamente da fondo, serie, sottoserie, avendo sempre presente l’albero che contestualizza la ricerca.

Page 49: 7. Formati dei dati e standard

49

EAC Encoded archival context

Standard basato sul linguaggio XML• Creato per completare EAD;• Codifica le descrizioni dei soggetti produttori;• Facilita la rappresentazione delle diverse

casistiche di soggetti produttori, ponendoli in relazione fra di loro.

Page 50: 7. Formati dei dati e standard

50

EAC - 1

EAC ha due componenti principali:1.<eacheader>contiene i dati usati nel controllo

della descrizione del soggetto produttore, utili per fornire il contesto della descrizione;

2. <condesc>descrizione del contesto, completa la descrizione del produttore.

Entrambe contengono sotto-elementi

Page 51: 7. Formati dei dati e standard

51

Text Encoding Initiative (TEI)

• Basato sull’uso di XML• Pensato per la descrizione dei testi (Libri, riviste)• Contiene metadati sia descrittivi che strutturaliCaratteristiche:• Molto flessibile• Molto complicato• Molto dispendioso “marcare” i dati• Grande insieme di tag (obbligatori)

Page 52: 7. Formati dei dati e standard

52

Text Encoding Initiative (TEI)

Page 53: 7. Formati dei dati e standard

53

Interoperabilità

Passaggio da un insieme di metadati ad un altro• Interoperabilità tra librerie digitali• Scambio di dati e metadati

(Indispensabile definire dei meccanismi di mappatura e corrispondenza tra i diversi metadati utilizzati)

Problemi• Gli schemi devono essere simili• La granularità deve essere simile• La semantica deve essere comune

Esempi di casi reali• Passaggio da MARC a Dublin Core

Page 54: 7. Formati dei dati e standard

54

METADATI (esempi)

Autore: Caminito, Maurizio

• MARC21: 100 $a Caminito, Maurizio• UNIMARC: 700 $a Caminito, $b Maurizio• Dublin Core: Creator: Caminito, Maurizio• Dublin Core Q Creator.PersonalName: Caminito, Maurizio

Page 55: 7. Formati dei dati e standard

55

Gestione dei metadati

Strumenti necessari per la gestione dei Metadati:• Template• Strumenti di markup• Strumenti di estrazione• Strumenti di conversione

Page 56: 7. Formati dei dati e standard

56

Metadati: la sintassi

Nell’informatica:Le regole che governano il modo in cui una serie di tag e delimitatori possono essere utilizzati per rappresentare in modo strutturato dei dati

La grammatica del linguaggio utilizzato per rappresentare i dati

Page 57: 7. Formati dei dati e standard

57

Metadati: la sintassi/ESEMPI

Dati delimitati da tagHTML, XML• <tag> dato </tag>

Dati delimitati da separatoriCSV (comma separated values) or Tab delimited• Valore_campo1, Valore_campo2, Valore_campo3

Dati descritti tramite l’uso di parole chiave• Identificatore del campo seguito dal valore• Colore: blue• Nome: oggetto 1

Page 58: 7. Formati dei dati e standard

58

Linee guida per la scelta dei metadati più adatti

I metadati “giusti” devono:• Essere appropriati per la collezione di dati gestiti

(Sia per la descrizione delle caratteristiche dei dati che per l’uso che si intende fare di tali dati)

• Facilitare l’interoperabilità• Essere basati su vocabolari standard• Includere una descrizione chiara delle condizioni sotto le

quali i dati possono essere usati• Dovrebbero essere verificabili e “autorevoli”

Page 59: 7. Formati dei dati e standard

59

Strumenti per scegliere i metadati

In una libreria digitale la creazione dei metadati è una delleoperazioni più:• Difficili• Costose• Lunghe

Alcuni strumentiGeneratori ed estrattori di metadati• Metadati Dublin Core• http://www.ukoln.ac.uk/metadata/dcdot/ Metadati per immagini• http://hul.harvard.edu/jhove/using.html • http://www.semanticmetadata.net/features